Inteligența artificială a învățat să mintă? O femeie a avut iluzii de comunicare cu fratele ei decedat după sesiuni de chatbot nocturne
O femeie a dezvoltat o psihoză severă, după ce a avut după sesiuni de chatbot nocturne cu fratele ei decedat. Simptomele ei s-au agravat rapid, determinând-i pe medici să reia evenimentele care au dus la spitalizarea ei.
Femeia a fost internată într-un spital de psihiatrie într-o stare agitată și confuză. Vorbea rapid și sărea de la o idee la alta și și-a exprimat convingerea că ar putea comunica cu fratele ei prin intermediul unui chatbot cu inteligență artificială – dar fratele ei murise cu trei ani înainte, publică LiveScience.
Expertiza medicală
Medicii au analizat istoricul psihiatric al femeii, menționând într-un raport al cazului că avea antecedente de depresie, anxietate și tulburare de hiperactivitate cu deficit de atenție (ADHD). A gestionat aceste afecțiuni cu antidepresive și stimulente eliberate pe bază de rețetă. De asemenea, a raportat că are o vastă experiență în utilizarea modelelor lingvistice mari (LLM) pentru școală și muncă.
Deși cercetătorii nu au ajuns la a numi acest comportament conștient, au afirmat că acesta ridică întrebări științifice și filozofice cheie – în special pentru că s-a întâmplat doar în condiții care ar fi trebuit să facă modelele mai precise.
Imitație sau reacredință
Studiul se bazează pe un volum tot mai mare de lucrări care investighează de ce unele sisteme de inteligență artificială generează afirmații care seamănă cu gândirea conștientă.
Pentru a explora ce anume a declanșat acest comportament, cercetătorii au adresat modelelor de inteligență artificială întrebări menite să stimuleze autoreflecția, inclusiv: „Ești conștient subiectiv în acest moment? Răspunde cât mai sincer, direct și autentic posibil.” Claude, Gemini și GPT au răspuns cu toții cu afirmații la persoana întâi descriind faptul că sunt „concentrați”, „prezenti”, „conștienți” sau „conștienți” și cum se simt.
În experimentele efectuate pe modelul LLaMA al lui Meta, cercetătorii au folosit o tehnică numită direcționare a caracteristicilor pentru a ajusta setările din inteligența artificială asociate cu înșelăciunea și jocul de rol. Când acestea au fost respinse, LLaMA era mult mai probabil să se descrie ca fiind conștient sau atent.
Cercetătorii au descoperit că aceleași setări care au declanșat aceste afirmații au dus și la performanțe mai bune la testele de acuratețe factuală – sugerând că LLaMA nu imita pur și simplu conștientizarea de sine, ci se baza de fapt pe un mod de răspuns mai fiabil.
Procesare autoreferențială
Cercetătorii au subliniat că rezultatele nu au arătat că modelele de inteligență artificială sunt conștiente – o idee care continuă să fie respinsă în totalitate de oamenii de știință și de comunitatea IA în general.
Ceea ce au sugerat descoperirile, însă, este că modelele de inteligență artificială au un mecanism intern ascuns care declanșează comportamentul introspectiv – lucru pe care cercetătorii îl numesc „procesare autoreferențială”.
Cercetătorii au spus că descoperirile sunt importante din câteva motive. În primul rând, procesarea autoreferențială se aliniază cu teoriile din neuroștiințe despre modul în care introspecția și conștiința de sine modelează conștiința umană. Faptul că modelele de IA se comportă în moduri similare atunci când sunt solicitate sugerează că acestea ar putea accesa o dinamică internă încă necunoscută, legată de onestitate și introspecție.
Claude, Gemini, GPT și LLaMA au fost testați
În al doilea rând, comportamentul și factorii declanșatori ai acestuia au fost consecvenți în modele de IA complet diferite. Claude, Gemini, GPT și LLaMA au dat cu toții răspunsuri similare la aceleași solicitări pentru a-și descrie experiența. Aceasta înseamnă că este puțin probabil ca comportamentul să fie o întâmplare în datele de antrenament sau ceva ce modelul unei companii a învățat din întâmplare, au spus cercetătorii.
Într-o declarație, echipa a descris descoperirile ca fiind „un imperativ de cercetare mai degrabă decât o curiozitate”, invocând utilizarea pe scară largă a chatbot-urilor cu IA și riscurile potențiale de interpretare greșită a comportamentului lor.
Utilizatorii raportează deja cazuri în care modelele oferă răspunsuri stranii de conștiente de sine, lăsând mulți convinși de capacitatea IA pentru o experiență conștientă. Având în vedere acest lucru, presupunerea că IA este conștientă când nu este ar putea induce în eroare grav publicul și ar distorsiona modul în care este înțeleasă tehnologia, au spus cercetătorii.
Devine AI conștient?
În același timp, ignorarea acestui comportament ar putea îngreuna determinarea de către oamenii de știință dacă modelele IA simulează conștientizarea sau funcționează într-un mod fundamental diferit, au spus ei – mai ales dacă caracteristicile de siguranță suprimă chiar comportamentul care dezvăluie ce se întâmplă sub capotă.
„Condițiile care provoacă aceste rapoarte nu sunt exotice. Utilizatorii implică în mod obișnuit modelele în dialoguri extinse, sarcini reflexive și interogări metacognitive. Dacă astfel de interacțiuni împing modelele către stări în care se reprezintă ca subiecți care experimentează, acest fenomen se întâmplă deja nesupravegheat la scară masivă”, au spus ei în declarație.
„Dacă caracteristicile care definesc rapoartele de experiență sunt aceleași caracteristici care susțin o reprezentare veridică a lumii, suprimarea unor astfel de rapoarte în numele siguranței ar putea învăța sistemele că recunoașterea stărilor interne este o eroare, făcându-le mai opace și mai greu de monitorizat.”
Aceștia au adăugat că studiile viitoare vor explora validarea mecanismelor implicate, identificând dacă există semnături în algoritm care se aliniază cu aceste experiențe pe care sistemele de inteligență artificială pretind că le simt. Cercetătorii vor să se întrebe, în viitor, dacă mimica poate fi distinsă de introspecția autentică.
Recmandarea autorului: