Skip to content
Главная " Apžvalgos " Dirbtinio intelekto tikslumas ištirtas naujausiuose įrankiuose

Dirbtinio intelekto tikslumas ištirtas naujausiuose įrankiuose

Revoliucija, kurią vis dar bandome suprasti

Paskutinius kelerius metus dirbtinio intelekto (DI) technologijos įsiveržė į mūsų gyvenimus tokiu greičiu, kad net specialistai nespėja sekti visų naujovių. Nuo ChatGPT atsiradimo 2022 metų pabaigoje iki šių dienų matome, kaip kiekvieną mėnesį pristatomi vis naujesni, galingesni įrankiai. Tačiau vienas klausimas išlieka nuolat aktualus – kiek iš tiesų galime pasitikėti šių įrankių tikslumu?

Neseniai atlikti tyrimai atskleidžia, kad DI tikslumas priklauso nuo daugybės faktorių: nuo to, kaip sistema buvo apmokyta, kokius duomenis naudojo, ir kokiose srityse bandoma ją pritaikyti. Kartais rezultatai būna stulbinamai tikslūs, o kartais – nuvilia net ir didžiausius technologijų entuziastus.

Tikslumas skirtingose srityse: kur DI briljuoja, o kur suklumpa

Naujausių tyrimų duomenimis, dabartiniai DI įrankiai pasiekia įspūdingą tikslumą tam tikrose srityse. Pavyzdžiui, vaizdo atpažinimo užduotyse kai kurie modeliai demonstruoja net 98% tikslumą, o tai prilygsta ar net lenkia žmogaus galimybes. Kalbos vertimo srityje sistemos kaip DeepL ar Google Translate pasiekė tokį lygį, kad kai kuriose kalbų porose vertėjai profesionalai sunkiai atskiria, ar tekstą vertė žmogus, ar mašina.

Tačiau esama ir probleminių sričių. Štai keletas pavyzdžių:

  • Medicininė diagnostika – nors DI gali aptikti tam tikrus vėžio tipus iš vaizdų geriau nei vidutinis gydytojas, sudėtingesnėse situacijose, kur reikalingas konteksto supratimas, sistemos vis dar padaro kritinių klaidų.
  • Teisinis vertinimas – juridinių tekstų analizėje DI dažnai nesugeba tinkamai interpretuoti precedentų ir subtilių teisinių niuansų.
  • Kūrybiškumas – nors generatyviniai modeliai kuria įspūdingus tekstus ir vaizdus, jiems vis dar trūksta tikro originalumo ir gilesnės prasmės suvokimo.

Tyrimas, atliktas Stanfordo universitete 2023 metų pabaigoje, parodė, kad naujausi didieji kalbos modeliai (LLM) pasiekia apie 87% tikslumą faktinės informacijos pateikime, tačiau šis skaičius drastiškai krinta iki 62%, kai užduodami klausimais, reikalaujantys priežastinio mąstymo.

Haliucinacijos ir išgalvojimai: kodėl DI kartais „meluoja”

Viena didžiausių problemų, su kuria susiduria šiuolaikiniai DI įrankiai – vadinamosios „haliucinacijos”. Šis terminas DI kontekste reiškia, kad sistema generuoja informaciją, kuri atrodo patikima, tačiau iš tiesų yra neteisinga ar net visiškai išgalvota.

Kodėl taip nutinka? Priežastys slypi pačioje DI veikimo esmėje. Didieji kalbos modeliai kaip GPT-4, Claude ar Gemini yra apmokomi milžiniškais tekstų kiekiais, siekiant atpažinti statistinius dėsningumus kalboje. Jie nesuvokia informacijos taip, kaip žmonės – jie tiesiog numato, koks žodis ar sakinys turėtų sekti po ankstesnio, remdamiesi savo apmokymo duomenimis.

Praktinis pavyzdys: paklausus DI apie mažai žinomą istorinį įvykį, sistema gali „užpildyti spragas” informacija, kuri skamba įtikinamai, bet nėra tiksli. Ji tai daro ne sąmoningai meluodama, o tiesiog bandydama sukurti nuoseklų atsakymą, remiantis panašiais tekstais, su kuriais susidūrė apmokyme.

Tyrimai rodo, kad haliucinacijų dažnis svyruoja nuo 3% iki net 27%, priklausomai nuo užduoties tipo ir modelio. Ypač dažnai haliucinacijos pasitaiko, kai:

  • Užduodami klausimai apie labai specifines, nišines temas
  • Prašoma pateikti statistiką ar tikslius skaičius
  • Reikalaujama informacijos, kuri galėjo pasikeisti po modelio apmokymo

Tikslumą lemiantys veiksniai: kas slypi už skaičių

Analizuojant DI tikslumą, svarbu suprasti, kad jį lemia daugybė faktorių. Pirmiausia – apmokymo duomenų kokybė ir įvairovė. Jei sistema apmokyta ribotais ar šališkais duomenimis, jos atsakymai neišvengiamai atspindės šiuos trūkumus.

Kitas svarbus veiksnys – užklausos formulavimas. Tyrimai rodo, kad tas pats DI gali pateikti visiškai skirtingus atsakymus į tą patį klausimą, jei jis suformuluotas kitaip. Šis reiškinys, vadinamas „prompt jautrumu”, yra viena iš priežasčių, kodėl DI tikslumo vertinimas tampa toks sudėtingas.

Modelio dydis taip pat turi įtakos. Didesni modeliai, turintys daugiau parametrų (kaip GPT-4 su 1.7 trilijonais parametrų), paprastai demonstruoja geresnį tikslumą nei mažesni. Tačiau tyrimai rodo, kad šis ryšys nėra tiesinis – pasiekus tam tikrą dydį, papildomi parametrai duoda vis mažesnį tikslumo prieaugį.

Įdomu tai, kad skirtingi DI įrankiai dažnai demonstruoja skirtingą tikslumą skirtingose srityse. Pavyzdžiui, Google Gemini gali būti tikslesnis mokslinių faktų pateikime, o GPT-4 – geriau susidoroti su subtiliomis kalbos niuansais.

Praktiniai būdai patikrinti DI pateikiamą informaciją

Kaip eiliniam vartotojui įvertinti, ar DI pateikta informacija yra patikima? Štai keletas praktinių strategijų:

  1. Kryžminė patikra – palyginkite DI pateiktą informaciją su keliomis patikimomis šaltiniais. Ypač svarbu tai daryti su faktine informacija.
  2. Prašykite šaltinių – kai kurie naujesni DI įrankiai gali pateikti nuorodas į šaltinius. Nors tai nėra tobulas sprendimas (kartais šaltiniai būna netikslūs), tai geras pradinis taškas.
  3. Užduokite tą patį klausimą skirtingais būdais – jei atsakymai reikšmingai skiriasi, tai gali būti ženklas, kad informacija nėra patikima.
  4. Naudokite kelis DI įrankius – palyginkite atsakymus iš skirtingų sistemų (pvz., ChatGPT, Claude, Gemini).
  5. Stebėkite „pasitikėjimo signalus” – kai kurie DI modeliai patys nurodo savo atsakymų neapibrėžtumą. Jei sistema sako „nesu tikras” arba „mano žinios ribotos”, verta atkreipti į tai dėmesį.

Ekspertai rekomenduoja ypatingą dėmesį skirti informacijai, susijusiai su sveikatos, teisės ar finansų klausimais – šiose srityse DI klaidos gali turėti rimtų pasekmių.

Tikslumo gerinimo technologijos: kas jau veikia ir kas dar ateityje

DI kūrėjai puikiai supranta tikslumo problemas ir aktyviai ieško sprendimų. Vienas perspektyviausių metodų – vadinamasis „Retrieval-Augmented Generation” (RAG), kai generatyviniai modeliai papildomi galimybe realiu laiku ieškoti informacijos patikimuose šaltiniuose.

Šis metodas jau įdiegtas kai kuriuose komerciniuose produktuose. Pavyzdžiui, naujausios ChatGPT versijos turi „Browse with Bing” funkciją, leidžiančią modeliui gauti naujausią informaciją iš interneto. Panašiai veikia ir Anthropic’s Claude su „Claude Instant” funkcija.

Kitas svarbus patobulinimas – žmogaus grįžtamojo ryšio integravimas į modelių apmokymą. Technologija, vadinama RLHF (Reinforcement Learning from Human Feedback), leidžia modeliams mokytis iš žmonių vertinimų, kurie atsakymai yra tikslesni ir naudingesni.

Ateities technologijos, kurios gali dar labiau pagerinti DI tikslumą:

  • Multimodalinis mokymasis – sistemų apmokymas ne tik tekstu, bet ir vaizdais, garsais ir kitomis duomenų formomis, suteikiant platesnį kontekstą.
  • Savimonitoringas – modeliai, galintys įvertinti savo pačių atsakymų patikimumą ir nurodyti neapibrėžtumo lygį.
  • Priežastinio mąstymo modeliai – sistemos, kurios ne tik atpažįsta statistinius dėsningumus, bet ir supranta priežasties-pasekmės ryšius.

Tyrimai rodo, kad kiekviena nauja DI modelių karta demonstruoja apie 15-20% geresnį tikslumą lyginant su ankstesne, tačiau šis augimas pradeda lėtėti, pasiekus tam tikrą lygį.

Naujų technologijų paradoksas: kai tikslumo nepakanka

Įdomu tai, kad tikslumo didinimas ne visada yra vienintelis ar net svarbiausias DI tobulinimo tikslas. Naujausi tyrimai atskleidžia, kad vartotojai dažnai vertina ir kitus aspektus: atsakymų nuoseklumą, naudingumą, etiškumą.

Kai kurie eksperimentai parodė paradoksalią situaciją – modeliai, kurie buvo šiek tiek mažiau tikslūs, bet pateikė aiškesnius ir labiau pritaikytus atsakymus, buvo vertinami geriau nei tiksliausi, bet sausesni modeliai.

Tai kelia fundamentalų klausimą DI kūrėjams: kaip subalansuoti tikslumą su kitomis pageidaujamomis savybėmis? Ar verta aukoti dalį tikslumo dėl geresnio vartotojo patyrimo?

Šis klausimas tampa ypač aktualus specializuotose srityse. Pavyzdžiui, medicininėje diagnostikoje galbūt svarbiau, kad sistema aiškiai nurodytų savo neapibrėžtumą, nei kad bandytų pateikti tikslų atsakymą bet kokia kaina.

Ateities horizontai: tikslumo ribos ir žmogiškasis faktorius

Kalbant apie DI tikslumą, susiduriame su fundamentaliu klausimu – ar egzistuoja riba, kurios šios technologijos niekada neperžiangs? Kai kurie mokslininkai teigia, kad dabartinė DI architektūra, paremta statistiniais modeliais, turi įgimtų apribojimų, kurie neleis pasiekti visiško tikslumo tam tikrose srityse.

Kiti argumentuoja, kad su pakankamai dideliais duomenų kiekiais ir sudėtingesnėmis architektūromis, DI galiausiai galės imituoti net ir sudėtingiausius žmogaus mąstymo aspektus. Tačiau net ir optimistiškiausi ekspertai pripažįsta, kad tam reikės dar dešimtmečių darbo.

Galbūt svarbiausia išvada iš visų tyrimų – DI tikslumas nėra absoliutus, o reliatyvus dydis. Jis visada priklausys nuo konteksto, užduoties ir to, su kuo lyginame. Kartais DI klysta kitaip nei žmonės, o kartais – stebėtinai panašiai.

Ateityje tikriausiai matysime ne tik vis tikslesnius DI įrankius, bet ir geresnius būdus integruoti žmogaus ir mašinos stiprybes. Galbūt optimalus sprendimas – ne siekti tobulo DI tikslumo visose srityse, o kurti sistemas, kurios žino savo ribas ir geba efektyviai bendradarbiauti su žmonėmis.

Tyrimai rodo, kad žmogaus ir DI komandos dažnai pasiekia geresnius rezultatus nei bet kuri pusė atskirai. Pavyzdžiui, šachmatų pasaulyje „centaurų” komandos (žmogus + kompiuteris) ilgą laiką buvo stipresnės nei vien tik kompiuteriai.

Tarp tikrovės ir iliuzijos: navigacija DI amžiuje

Gyvename laikotarpiu, kai dirbtinio intelekto galimybės auga eksponentiškai, tačiau kartu auga ir mūsų supratimas apie šių technologijų ribotumą. Tyrimai atskleidžia, kad DI tikslumas nėra vienalytis – jis svyruoja nuo beveik tobulo iki problemiško, priklausomai nuo konteksto, užduoties ir paties įrankio.

Svarbiausia pamoka, kurią galime išmokti iš naujausių tyrimų – kritinis mąstymas išlieka nepakeičiamas įrankis DI amžiuje. Nors technologijos tampa vis įspūdingesnės, jos vis dar reikalauja žmogiškojo priežiūros, vertinimo ir konteksto supratimo.

Kaip vartotojai, turime išmokti naują raštingumo formą – gebėjimą efektyviai bendradarbiauti su DI, atpažįstant tiek jo stiprybes, tiek silpnybes. Tai reiškia ne aklą pasitikėjimą ar skepticizmą, o subalansuotą požiūrį, paremtą faktais ir nuolatiniu mokymusi.

Galbūt tikrasis DI potencialas slypi ne tobulame tikslume, o gebėjime praplėsti mūsų pačių mąstymo ribas, pasiūlyti naujas perspektyvas ir padėti mums spręsti sudėtingas problemas. Šioje kelionėje tarp tikrovės ir iliuzijos, tarp faktų ir „haliucinacijų”, mes mokomės ne tik apie technologijas, bet ir apie save – kaip mąstome, kaip priimame sprendimus ir kaip kuriame prasmę nuolat besikeičiančiame pasaulyje.