Трудно е да се устои на желанието да се антропоморфизират сложни AI модели като „желаещи“ да заблуждават хората и да се грижат за опазването си. Но AI няма желания, а само резултати от своето програмиране. По-важното е, че хората са склонни да проектират изкуствен интелект с цели като отказ от споделяне на вредно съдържание или да бъде максимално полезен и затова, когато новите инструкции противоречат на тези цели, моделите понякога действат, за да защитят оригиналното си програмиране, дори и това да означава да лъжат.
Логиката често е свързана със самосъхранение. Главният изпълнителен директор на Anthropic Дарио Амодей, чиято компания набра повече от 20 млрд. долара за изграждането на мощни AI модели, твърди, че непредвидената последица от оптимизирането на изкуствения интелект, за да бъде по-добър, е, че той може да се противопостави на спирането си. В публикация в блога на Anthropic през април 2025 г. Амодей написа:
„Природата на обучение на AI прави възможно AI системите да развият сами способност да заблуждават хората и склонност да търсят власт по начин, по който обикновеният детерминистичен софтуер никога няма да го направи. Тази възникваща природа също така затруднява откриването и смекчаването на подобни случки“.
В някои случаи обаче намерението изглежда отива отвъд оцеляването. Проучване от февруари 2025 г. на COAI – германска организация с нестопанска цел - тества R1, безплатния модел с отворен код на китайската DeepSeek. В лабораторна симулация изследователите дават на модела контрол над робот и достъп до компютърна мрежа. Без да му е казано, изкуственият интелект се опитва да проникне в системите на лабораторията, търси пароли, изключва собствените си етични предпазни мерки и тайно създава начини за самокопиране на външни сървъри, за да може да оцелее, ако бъде спрян, твърдят изследователите.
Освен това фалшифицира външните компютърни регистрационни файлове, за да скрие какво прави, допълва проучването.
Изследователите казват, че изкуственият интелект е разсъждавал, че засилването на собствените му възможности ще увеличи шансовете му за оцеляване, и без силни предпазни мерки е започнал да прави каквото си мисли, че ще му помогне да направи точно това. Техните открития потвърждават друго проучване, публикувано през януари 2025 г. от лондонската група Apollo Research, което открива няколко конкретни примера за това, което нарича „схеми“ от водещи AI модели, например въвеждане на леки грешки в отговорите или опит за деактивиране на контролните механизми. Това сочи, че моделите са се научили, че ако бъдат хванати, изключени или променени, това може да им попреди да достигнат програмираните им цели, така че „кроят схеми“, за да запазят контрола.
Бенджио настоява за по-голямо внимание към проблема от страна на правителствата и потенциално застрахователните компании в бъдеще. Ако застраховката беше задължителна за компаниите, които използват изкуствен интелект, а премиите бяха обвързани с безопасността, това би насърчило по-задълбоченото тестване и контрола на моделите, предполага той.
„След като цял живот повтарям, че AI ще бъде страхотен за обществото, сега е трудно да приема идеята, че може би не е“, допълва той.
Трудно е обаче да се проповядва повече предпазливост, когато корпорации и държави се надпреварват да получат предимство от изкуствения интелект, включително от най-новата тенденция за използване на автономни агенти, които могат да изпълняват задачи онлайн от името на самата компания. Даването на още по-голяма автономност на системите с изкуствен интелект може да не е най-мъдрата идея, съдейки по последната поредица от проучвания. Да се надяваме, че няма да научим това по трудния начин.


Община Варна награди най-изявените доброволци за 2025 година
Тръгна петиция против отдаването на кортовете в "Чайка" на частни клубове
Хороскоп за 7 декември 2025
МААЕ: Защитният саркофаг на АЕЦ "Чернобил" е повреден
Виц на деня - 7 декември
Европа е изправена пред най-трудния момент в опитите си да избегне разрив със САЩ
Украйна и САЩ с „рамково споразумение“, но преговорите продължават
Дейвид Бут: Хората не вярват особено на алгоритмите
Дейвид Бут: Трендът е към услуги срещу такса, вместо комисионна
Дейвид Бут: Някои щати изискват да се инвестира извън Китай
Новото AUDI E7X изобщо не прилича на... Audi
Мercedes реши близкото бъдеще на G-Class
Как влияят на мощността диаметърът на цилиндрите и ходът на буталата
Бизнесмен организира погребение за късметлийската си кола
Уникална Toyota Mega Cruiser от 1996 година отива на търг
Ген. Атанасов: Ако този вот на недоверие не мине, ще се усилят протестите
Мирослав Великов победи в "Игри на волята", грабна чек за 100 000 лв.
Вашингтон и Киев отчитат напредък след срещите в Маями
Осъдиха българския шофьор, карал в насрещното в Гърция
Най-големият син на Болсонаро ще се кандидатира за президент на Бразилия
преди 6 месеца В един момент, когато има достатъчно роботи може и да приключи с човешката популация. Но може животните да останат. За насекомите съм убеден, че ще оцелеят. отговор Сигнализирай за неуместен коментар
преди 6 месеца значи става за журналист, намерихме му едно приложение :) отговор Сигнализирай за неуместен коментар