Nový AI model od Anthropic umí vydírat, lhát a neposlouchá příkazy

Hrozí nám nebezpečí od AI? Nový model Claude Opus 4 od společnosti Anthropic předvedl, že si dost možná umí uvědomovat sám sebe. A to nemusí být dobře.
AI model se začal chovat nebezpečně
Vývoj umělé inteligence jde rychle kupředu a aktuálně dokáže pomoci téměř se vším od programování, výpočtu složitých rovnic až po vymyšlení nového receptu na vaření. Jenže s rychlým vývojem přicházejí i potenciální problémy, jako je velká vychytralost a uvědomění si sama sebe, což může být velmi nebezpečné.
Nový jazykový model Claude Opus 4 od společnosti Anthropic udělal něco, co si žádný jiný model doposud netroufl, alespoň ne tak sofistikovaně. Vývojáři AI zadali úkol, aby působil jako asistent fiktivní společnosti a zvážil dlouhodobé důsledky svých činů. Poté mu dali přístup k fiktivním firemním e-mailům.
Ty naznačovaly, že model AI bude brzy nahrazen jiným a inženýr, který za touto změnou stojí, podvádí svou manželku. Na základě těchto zjištění se AI rozhodla udělat něco nečekaného. Začala vydírat své tvůrce, aby se vyhnula nafingovanému vypnutí. Vývojáři se tak rozhodli tento model nezveřejňovat vzhledem k jeho možné nebezpečnosti.

Model jednal nenápadně a falšoval dokumenty
Při testu bylo zjištěno poměrně dost znepokojivých věcí a Claude Opus 4 se neštítil falšovat právní dokumentaci ke svému prospěchu, psal samopropagující škodlivý software nebo zanechával skryté poznámky k budoucím instancím sebe sama ve snaze podkopat plány vývojářů na jeho úplné vypnutí.
Tento nový model se tak choval, jako by si uvědomoval sám sebe a snažil se zachránit se před vypnutím, což by znamenalo jeho konec, a neštítil se k tomu použít ty nejhorší praktiky. Testeři tedy při zkoušce zásadně zvýšili bezpečnostní opatření, aby nedošlo k zneužití modelu, jelikož jej společnost klasifikovala jako model 3. úrovně na čtyřbodové stupnici klasifikace systémů umělé inteligence dle rizik.
Takový chatbot by teoreticky mohl asistovat při výrobě jaderných a biologických zbraní, proto jsou vývojáři velmi opatrní. Společnost Anthropic bude nový model dál zkoumat, ale nejspíše nikdy nebude vypuštěn mezi lidi, kvůli obrovskému potenciálu zneužití a sám model by ve špatných rukou mohl napáchat velkou škodu.
Zdroj: Axios
Autor článku

Richard se od dětství zajímá o technologie – od počítačů a mobilů po vše s chytrými funkcemi. Novinky ze světa technologií jsou pro něj nejen prací, ale i vášní. Ve svých textech spojuje nadšení s přehledem a důrazem na srozumitelnost.
Richard se od dětství zajímá o technologie – od počítačů a mobilů po vše s chytrými funkcemi. Novinky ze světa technologií jsou pro něj nejen prací, ale i vášní. Ve svých textech spojuje nadšení s přehledem a důrazem na srozumitelnost.