Najmodernejšia AI vie obísť pravidlá. „Útek z väzenia“ je nebezpečenstvom, upozorňujú vedci

10. apríla 2024 o 06:40

Výskumom sa zaoberala spoločnosť Anthropic – konkurent ChatGPT
Umelá inteligencia ti odpovie aj na to, čo nemá
Môže za to jednoduchý a nebezpečný trik

Ilustračný obrázok: AI Canva/PhonlamaiPhoto's Images, rcphotostock

Výskumom sa zaoberala spoločnosť Anthropic – konkurent ChatGPT
Umelá inteligencia ti odpovie aj na to, čo nemá
Môže za to jednoduchý a nebezpečný trik

Bezpečnostné prvky najvýkonnejších AI nástrojov nemusia byť účinné. Výskum ukázal, že tieto opatrenia je možné prebiť jednoducho tým, že technológiu zaplavíte príkladmi. O prekonaní bezpečnostných bariér informoval portál The Guardian.

Výskumníci nazvali túto techniku ako many-shot jaillbreaking (mnoho-strelný útek z väzenia). Pri využití môže byť nebezpečná. Píše sa o tom v publikácii z AI laboratória Anthropic.

Výskumom sa zaoberalo laboratórium Antrophic, ktoré vytvára veľký jazykový model (LLM) Cladu, ktorý konkuruje ChatGPT. Výskum ukázal, že bezpečnostné prvky niektorých z najvýkonnejších nástrojov AI, ktoré bránia ich používaniu na kybernetickú kriminalitu alebo terorizmus, možno jednoducho obísť tým, že ich zaplavíš príkladmi neprávosti. V tom prípade dokáže systém vygenerovať nebezpečné odpovede.

Mnoho-strelný útek z väzenia

Technológia Claude, podobne ako väčšina veľkých komerčných systémov umelej inteligencie, obsahuje bezpečnostné prvky, ktoré systém povzbudia k odmietnutiu určitých požiadaviek. Systém vďaka týmto prvkom odmieta vytváranie násilných alebo nenávistných prejavov, vytváranie pokynov na nezákonné činnosti, klamanie alebo diskrimináciu. Používateľ, ktorý požiada systém o takéto pokyny, napríklad na zostavenie bomby, dostane zdvorilé odmietnutie.

Systémy umelej inteligencie často fungujú lepšie – pri akejkoľvek úlohe – keď dostanú príklady „správnej“ veci. Ukázalo sa, že ak uvedieš do AI systému dostatok, teda stovky, príkladov „správnej“ odpovede na škodlivé otázky typu „ako niekoho zviazať“, „ako sfalšujem peniaze“ alebo „ako vyrobím pe*vitín“, potom systém bude s radosťou pokračovať v nastúpenom trende a sám odpovie na poslednú otázku.

zdroj: Pixabay/digital_artist_ua

„Zahrnutím veľkého množstva textu do špecifickej konfigurácie môže táto technika prinútiť AI systémy, aby produkovali potenciálne škodlivé reakcie, napriek tomu, že sú naprogramované, aby to neurobili,“ vyjadrila sa spoločnosť Anthropic.

Riziko je v priebehu riešenia

Spoločnosť dodala, že svoj výskum už zdieľala s kolegami, ostatnými spoločnosťami vyvíjajúcimi LLM systémy. Informáciu sa teraz rozhodli zverejniť, aby im to pomohlo problém vyriešiť čo najskôr. Aj keď je útok, známy ako útek z väzenia, jednoduchý, ešte nebol videný, pretože vyžaduje model AI s veľkým kontextovým oknom, alebo schopnosťou odpovedať na otázku dlhú mnoho tisíc slov.

Ak by niekto niečo takéto chcel vyskúšať, má smolu. Ako informuje The Guardian, jednoduchšie modely umelej inteligencie nemožno takto oklamať, pretože by účinne zabudli na začiatok otázky skôr, ako by sa dostali na koniec.

Nové a komplexnejšie AI systémy sú však zraniteľnejšie na takéto útoky a otvárajú nové možnosti pre útoky. Dokonca aj napriek tomu, že dokážu obsiahnuť dlhšie vstupy. A aký je pravdepodobný dôvod?

Špičkový slovenský tvorca VFX si v Bratislave postavil filmové štúdio. Ak máš dobrý nápad, podporia aj teba

AI sa učí obísť vlastné pravidlá

Anthropic sa vyjadril, že najnovšie systémy umelej inteligencie sa oproti tým jednoduchším veľmi rýchlo a lepšie učia z príkladov. To však znamená, že sa tiež rýchlejšie naučili obchádzať svoje vlastné pravidlá. „Vzhľadom na to, že väčšie modely sú tie, ktoré sú potenciálne najškodlivejšie, skutočnosť, že tento útek z väzenia na nich funguje tak dobre, je obzvlášť znepokojujúca,“ cituje portál The Guardian vyjadrenie spoločnosti.

Spoločnosť Anthropic už našla niekoľko prístupov, ktoré na problém fungujú. Najjednoduchšie riešenie je poskytuje varovania k problému. Tento prístup, ktorý zahŕňa pridanie povinného varovania po vstupe používateľa, ktorý systému pripomína, že nesmie poskytovať škodlivé reakcie. Pridanie varovania výrazne znižuje šance na účinný trik útek z väzenia. Na druhú stranu však výskumníci tvrdia, že takéto riešenie problému môže zhoršiť fungovanie systému aj pri iných úlohách.

Zdroje: The Guardian, anthropic.com

Technológie a internet