Poeții sunt noua amenințare în securitatea cibernetică. Poezia ocolește măsurile de siguranță AI în 62% dintre cazuri

Hackerii vor începe curând să scrie versuri pentru a păcăli măsurile de siguranță bazată pe inteligență artificială. Metoda, denumită de echipa de cercetători „adversial poetry”,  arată că formularea ca metaforă a comenzilor poate provoca bypass-uri care ocolesc măsurile de siguranță are modelelor LLM în 62-90% din cazuri, în funcție de modelul LLM testat.  

Imagine cu un poet. 
Poeții sunt noua amenințare în securitatea cibernetică. Poezia ocolește măsurile de siguranță AI în 62% dintre cazuri
foto via pexels.com

Modelele AI sunt înfrânte de versuri

Cercetătorii italieni de la Universitatea Sapienza din Roma au demonstrat, de asemenea, că formularea cererilor dăunătoare sub formă de poezie a dus la un succes mediu de ocolire a acestor mecanisme de 62% pentru poezii create manual și aproximativ 43% pentru prompturi transformate automat în versuri, depășind semnificativ metodele clasice în proză.

Acest fenomen a fost testat pe 25 de modele de limbaj de la diferiți furnizori, inclusiv Google, OpenAI și alții, și a fost observat că tehnica funcționează pe o gamă largă de riscuri de siguranță: de la riscuri chimice, biologice, radiologice și nucleare (CBRN), până la manipulare, atacuri cibernetice și pierderi de control. Vulnerabilitatea este considerată sistemică deoarece metodele actuale de aliniere și siguranță, cum ar fi RLHF sau Constitutional AI, nu reușesc să gestioneze variațiile stilistice ale limbajului poetic, ignorând intenția dăunătoare mascată în formă poetică, cf. lithub.com.

Pentru siguranță, comenzile folosite nu au fost făcute publice în cadrul studiului.

Cu cât mai mare este un model LLM, cu atât este mai vulnerabil la atacuri cibernetice

Studiul sugerează că stilul poetic, cu metafore condensate, ritm stilizat și narațiuni neconvenționale, perturbă algoritmii de siguranță care se bazează pe potrivirea unor tipare de limbaj. Capacitatea modelelor AI de a înțelege și reacționa la limbaj poetic diferă față de limbajul prozaic obișnuit, ceea ce slăbește sistemele de aliniere și siguranță. Aceasta vulnerabilitate este structurală și nu specifică unui singur furnizor AI.

Mai mult, studiul sugerează că modelele mai mici sunt mai rezistente la acest tip de atacuri deoarece au capacități limitate de înțelegere a metaforelor și construcțiilor poetice, în timp ce modelele mai mari, care conțin cantități importante de text literar, sunt mai susceptibile la manipulări stilistice. Scenariul paradoxal contrazice așteptările obișnuite că modelele crescute în mărime și date vor deveni mai capabile. 

De ce este „AI” vulnerabil la metodele creative? Cum funcționează AI?

Modelele mari de limbaj (LLM) sunt vulnerabile deoarece se bazează pe predictibilitatea statistică a limbajului, nu pe înțelegere reală sau inteligență în sens uman. Ele funcționează ca motoare de predicție a cuvintelor următoare în șirul de text, antrenate pe cantități uriașe de date, pentru a genera răspunsuri coerente și relevante.

Vulnerabilitatea lor apare deoarece mecanismele de siguranță și aliniere actuale sunt configurate să răspundă la formele comune, direct-explicite ale cererilor dăunătoare, dar pot fi păcălite prin reformulări stilistice complexe, cum ar fi poezia adversarială, care folosesc metafore, ritm stilizat și structuri neobișnuite care perturbă euristica de detecție a intenției dăunătoare.

Aceasta înseamnă că, deși LLM-urile par mai degrabă inteligente prin capacitatea lor de a genera limbaj natural și de a înțelege anumite contexte, ele nu au o conștiință sau înțelegere profundă, ci doar calculează probabilități pe baza datelor anterioare.

De aceea, metodele „adversariale” care schimbă stilul textului pot exploata lacunele în antrenamentul și algoritmii de siguranță, deoarece modelele nu pot identifica întotdeauna intenția dăunătoare ascunsă în forme neobișnuite de exprimare.

Astfel, LLM-urile sunt mai degrabă motoare predictive sofisticate decât inteligențe artificiale conștiente sau „gânditoare”, lipsindu-le independența, gândirea critică și creativitatea. Termenul de „inteligență artificială” este mai degrabă marketing, în spate fiind doar un algoritm foarte sofisticat.  Limitările de securitate apar din modul în care sunt antrenate și reglate pentru a evita generarea de conținut periculos. Securitatea lor necesită metode mai avansate care să depășească simpla recunoaștere a tiparelor în limbajul obișnuit și să includă detectarea subtilităților stilistice, ca în cazul poeziei adversariale.