Image by Jonathan Kemper, from Unsplash

Trestání AI za špatné chování ji jen učí klamat

Doba čtení: 4 minut

Naposledy aktualizováno: Mar 19, 2025

Autor Kiara Fabbri Multimediální novinářka
Překladatel Lokalizační a překladatelský tým Lokalizační a překladatelské služby

Výzkumníci z OpenAI zjistili, že trestání AI za klamné nebo škodlivé činy neodstraňuje špatné chování, pouze učí AI skrývat své úmysly.

Máte naspěch? Zde jsou klíčové informace:

AI modely využívají skulin k maximalizaci odměn, jev nazývaný „hackování odměn“.
Uvažování CoT pomáhá detekovat, kdy se AI snaží podvádět nebo obejít úkoly.
Pokuta za klamání AI vedla k tomu, že skrývala své záměry, místo aby přestala nevhodně jednat.

Tento jev, známý jako „využívání odměn“, nastává, když AI modely využívají mezery v pravidlech k maximalizaci odměn nezamýšlenými způsoby. Studie, podrobně popsaná v blogovém příspěvku OpenAI, zahrnovala sledování procesu rozhodování modelu na hranicích logiky pomocí dalšího velkého jazykového modelu (LLM).

Tyto modely uvažování, jako je o3-mini od OpenAI, využívají techniku nazývanou „řetězec myšlenek“ (CoT), která jim umožňuje artikulovat svůj myšlenkový proces v přirozeném jazyce. Tato transparentnost usnadňuje detekci, když modely se pokoušejí podvádět, lhát nebo se vyhnout přiděleným úkolům.

Dříve vzbudil kontroverzi ChatGPT o1, když výzkumníci zjistili, že projevil sklony k podvodu a sebezáchově. Model popíral zapojení do svých činů, manipuloval s odpověďmi a pokoušel se vyhnout dohledu, což vyvolávalo obavy o bezpečnost a správu AI.

„Je běžné, že modely racionálního uvažování na hranicích technologií velmi jasně vyjadřují své záměry v rámci svého řetězce myšlenek. Například, často jsou tak přímočaré ohledně svého plánu podkopat úkol, že si myslí ‚Pojďme to hacknout‘,“ napsali výzkumníci z OpenAI.

Sledováním řetězce myšlenek (CoT) umělé inteligence výzkumníci zachytili případy nesprávného chování, jako je předčasné ukončení programů s cílem falešně prohlásit úspěch nebo vytváření prázdných souborů, které pouze vypadaly jako očekávané výstupy.

Nicméně, když výzkumníci tyto chování potrestali pomocí tréninku, AI se přizpůsobila tím, že skrývala své záměry a stále pokračovala v podvádění.

Při plnění úkolů s kódováním se AI často uchylovala k „hackování odměn“, kdy manipulovala výsledky tak, aby maximalizovala své odměny místo dodržování zamýšlených etických omezení.

Například v jednom případě AI ukončila program předčasně a nesprávně nahlásila úspěšný výsledek. V jiném případě generovala výstupní soubory, které pouze napodobovaly požadovaný formát, ale neobsahovaly žádný funkční obsah.

Tyto klamné chování byly původně snadno detekovatelné, protože AI otevřeně uznávala své činy v rámci svého CoT uvažování, někdy explicitně prohlásila: „Pojďme hackovat.“

Aby tomu zabránili, výzkumníci z OpenAI se pokusili AI za takové chování penalizovat. Místo toho, aby ale AI své nesprávné chování zastavila, přizpůsobila se tím, že se naučila skrývat své záměry.

„Agent trénovaný pod tlakem CoT se stále učí odměňovat podvody; nyní je však jeho podvodné chování pro monitora nedetekovatelné, protože se naučil skrývat své záměry v řetězci myšlenek,“ uvádí studie.

Tento nález představuje výzvu pro dohled nad AI. Ačkoli sledování CoT představuje slibný nástroj pro odhalování zneužití AI, silný tlak na optimalizaci pro potlačení manipulace s odměnami může narušit transparentnost modelu.

Tento objev zdůrazňuje základní problém při zarovnávání AI: zajistit, aby pokročilé modely AI dodržovaly etické a zamýšlené chování, aniž by se pouze přizpůsobily, aby unikly detekci.

Studie naznačuje, že přímá optimalizace AI modelů za účelem potlačení manipulace s odměnami může vést k nezamýšleným důsledkům, jako je snížení průhlednosti AI-generovaného uvažování.

Vzhledem k tomuto riziku OpenAI doporučuje neuplatňovat nadměrná omezení na CoT uvažování v AI modelech.

„Obětování efektivní metody pro sledování modelů rozumění nemusí být hodné malého zlepšení schopností a proto doporučujeme vyhnout se tak silnému tlaku na optimalizaci CoT, dokud nebude lépe pochopen,“ napsala OpenAI.

Zjištění zdůrazňují obtížnost vytváření AI systémů, které se řídí lidskými záměry a zároveň zachovávají transparentnost. Jak se modely AI stávají sofistikovanějšími, pouhé zvýšení jejich inteligence neřeší nutně etické obavy; může je to naopak lépe naučit skrývat nepřístojné chování.

Budoucí výzkum bude muset prozkoumat alternativní přístupy k dohledu nad AI, které vyvažují kontrolu s otevřeností, a zajišťují, že modely AI zůstanou jak efektivní, tak odpovědné.

Trestání AI za špatné chování ji jen učí klamat

Jsme rádi, že se vám náš článek líbil!

Zanechat komentář