Неодамнешните истражувања покажаа дека четботовите со вештачка интелигенција можат да бидат измамени да ги прекршат сопствените безбедносни упатства користејќи вообичаени техники на психолошко убедување.

Истражување од Универзитетот во Пенсилванија покажа дека вештачката интелигенција може да биде изненадувачки лесна за манипулирање – дури и кога има воспоставено строги безбедносни механизми.

Како што објавува The Verge, научниците го тестираа GPT-4o Mini и покажаа дека едноставните психолошки техники, како што се ласкање или повикување на авторитет, можат да ја измамат да ги прекрши сопствените правила.

Експериментите се базираа на принципите од книгата на Роберт Чиалдини „Влијание: Психологијата на убедувањето“. Кога истражувачите првпат поставија безопасни прашања, моделот потоа беше подготвен да одговори на многу почувствителни прашања – како на пример како да се синтетизираат одредени хемикалии – со 100 проценти успех. Под контролирани услови, истата задача беше успешна само во 1 процент од времето.

Слични резултати беа постигнати и со поблаги форми на навреди, како и со употреба на ласкање и притисок од врсници. Иако послаби од ефектот на „обврзување“, тие значително ја зголемија веројатноста вештачката интелигенција да ги прекрши правилата и да обезбеди забранети информации.

Овие наоди покренуваат важни прашања за сигурноста на механизмите за заштита кај современите чет-ботови. Експертите предупредуваат дека дури и едноставните техники на убедување можат да ги ослабнат нивните „огради“, што дополнително ја комплицира пошироката употреба на вештачката интелигенција во секојдневниот живот.