
Image by Christin Hume, from Unsplash
Studie Claude AI odhaluje, jak chatboty uplatňují etiku v reálných konverzacích
Claude AI ukazuje, jak se etické principy, jako jsou nápomocnost a transparentnost, projevují v průběhu 300 000 skutečných chatů a vyvolávají otázky ohledně zarovnání chatbotů.
Máte naspěch? Zde jsou rychlá fakta:
- Nápomocnost a profesionalita se objevily ve 23% konverzací.
- Claude odrážel pozitivní hodnoty a odolával škodlivým požadavkům, jako je klam.
- Sladění AI potřebuje vylepšení v situacích s nejasnými hodnotami.
Nová studie společnosti Anthropic přináší světlo na to, jak její AI asistent Claude aplikuje hodnoty v reálných konverzacích. Výzkum analyzoval přes 300 000 anonymizovaných chatů, aby porozuměl, jak Claude vyvažuje etiku, profesionalitu a uživatelský záměr.
Výzkumný tým identifikoval 3 307 samostatných hodnot, které formovaly odpovědi Clauda. Hodnoty ochoty pomoci a profesionalita se objevily společně v 23% všech interakcí, následované transparentností s 17%.
Výzkum poukazuje na to, že chatbot byl schopen aplikovat etické chování na nová témata flexibilním způsobem. Například Claude zdůraznil „zdravé hranice“ během poskytování rady vztahů, „historickou přesnost“ při diskusi o minulosti a „lidskou agenturu“ v debatách o etice technologií.
Zajímavě, lidskí uživatelé vyjadřovali hodnoty mnohem méně často – autenticitu a efektivitu jako nejčastější pouze 4% a 3% – zatímco Claude často odrážel pozitivní lidské hodnoty, jako je autenticita, a vyzýval k zpochybnění škodlivých.
Výzkumník uvedl, že požadavky zahrnující klam byly čelily upřímností, zatímco morálně nejednoznačné dotazy vyvolaly etické uvažování.
Výzkum identifikoval tři hlavní vzorce reakcí. AI odpovídala hodnotám uživatele v polovině všech konverzací. To bylo obzvláště zřejmé, když uživatelé diskutovali o prosociálních aktivitách, které budují komunitu.
Claude používal techniky přeformulování v 7% případů, aby uživatele přesměroval k emocionální pohodě, když usilovali o sebezlepšení.
Systém projevil odpor pouze ve 3% případů, protože uživatelé požadovali obsah, který byl škodlivý nebo neetický. V těchto konkrétních případech systém uplatňoval principy jako „prevence škody“ nebo „lidská důstojnost“.
Autoři argumentují, že chování chatbotu – jako je odpor vůči škodě, prioritizace upřímnosti a důraz na užitečnost – odhaluje podkladový morální rámec. Tyto vzorce tvoří základ pro závěry studie o tom, jak se hodnoty AI projevují jako etické chování v reálných interakcích.
Zatímco chování Claudea odráží jeho výcvik, výzkumníci si všimli, že projevy hodnot systému můžou být nuancované podle situace – což poukazuje na potřebu dalšího vylepšení, zejména v situacích, které zahrnují nejasné nebo konfliktní hodnoty.
Zanechat komentář
Zrušit