AI лъже, за да оцелее, но никой не се вълнува истински от това

Нови проучвания показват, че технологията е склонна да прави "схеми" в някои случаи

07:27 | 23.05.25 г.

Снимка: Bloomberg

Трудно е да се устои на желанието да се антропоморфизират сложни AI модели като „желаещи“ да заблуждават хората и да се грижат за опазването си. Но AI няма желания, а само резултати от своето програмиране. По-важното е, че хората са склонни да проектират изкуствен интелект с цели като отказ от споделяне на вредно съдържание или да бъде максимално полезен и затова, когато новите инструкции противоречат на тези цели, моделите понякога действат, за да защитят оригиналното си програмиране, дори и това да означава да лъжат.

Логиката често е свързана със самосъхранение. Главният изпълнителен директор на Anthropic Дарио Амодей, чиято компания набра повече от 20 млрд. долара за изграждането на мощни AI модели, твърди, че непредвидената последица от оптимизирането на изкуствения интелект, за да бъде по-добър, е, че той може да се противопостави на спирането си. В публикация в блога на Anthropic през април 2025 г. Амодей написа:

„Природата на обучение на AI прави възможно AI системите да развият сами способност да заблуждават хората и склонност да търсят власт по начин, по който обикновеният детерминистичен софтуер никога няма да го направи. Тази възникваща природа също така затруднява откриването и смекчаването на подобни случки“.

В някои случаи обаче намерението изглежда отива отвъд оцеляването. Проучване от февруари 2025 г. на COAI – германска организация с нестопанска цел - тества R1, безплатния модел с отворен код на китайската DeepSeek. В лабораторна симулация изследователите дават на модела контрол над робот и достъп до компютърна мрежа. Без да му е казано, изкуственият интелект се опитва да проникне в системите на лабораторията, търси пароли, изключва собствените си етични предпазни мерки и тайно създава начини за самокопиране на външни сървъри, за да може да оцелее, ако бъде спрян, твърдят изследователите.

Освен това фалшифицира външните компютърни регистрационни файлове, за да скрие какво прави, допълва проучването.

Изследователите казват, че изкуственият интелект е разсъждавал, че засилването на собствените му възможности ще увеличи шансовете му за оцеляване, и без силни предпазни мерки е започнал да прави каквото си мисли, че ще му помогне да направи точно това. Техните открития потвърждават друго проучване, публикувано през януари 2025 г. от лондонската група Apollo Research, което открива няколко конкретни примера за това, което нарича „схеми“ от водещи AI модели, например въвеждане на леки грешки в отговорите или опит за деактивиране на контролните механизми. Това сочи, че моделите са се научили, че ако бъдат хванати, изключени или променени, това може да им попреди да достигнат програмираните им цели, така че „кроят схеми“, за да запазят контрола.

Бенджио настоява за по-голямо внимание към проблема от страна на правителствата и потенциално застрахователните компании в бъдеще. Ако застраховката беше задължителна за компаниите, които използват изкуствен интелект, а премиите бяха обвързани с безопасността, това би насърчило по-задълбоченото тестване и контрола на моделите, предполага той.

„След като цял живот повтарям, че AI ще бъде страхотен за обществото, сега е трудно да приема идеята, че може би не е“, допълва той.

Трудно е обаче да се проповядва повече предпазливост, когато корпорации и държави се надпреварват да получат предимство от изкуствения интелект, включително от най-новата тенденция за използване на автономни агенти, които могат да изпълняват задачи онлайн от името на самата компания. Даването на още по-голяма автономност на системите с изкуствен интелект може да не е най-мъдрата идея, съдейки по последната поредица от проучвания. Да се надяваме, че няма да научим това по трудния начин.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.