Забравете ChatGPT и Claude – голямото вълнение в AI се случва другаде

Т.нар. модели на света могат да улавят триизмерното пространство и физичните

17:30 | 02.05.26 г.

Снимка: freepik.com

Вниманието на всички е насрочено към мощни чатботове като ChatGPT и Claude, затова е и лесно да се пропусне развитието на друга област в изкуствения интелект: т.нар. модели на света. Тези системи могат да улавят триизмерното пространство и физичните закони, осигурявайки основата за всичко от роботика и умни очила до самоуправляващи се автомобили – и способност, която липсва на днешните чатботове, пише редакторът на Bloomberg Парми Олсън.

През последните две седмици Nvidia, Alibaba Group и Tencent Holdings пуснаха свои собствени модели на света, сигнализирайки нов кръг играчи, които могат да поведат следващата AI революция. Компаниите на предна линия преследват различни търговски стратегии – HY-World 2.0 на Tencent е с отворен код, а моделът на Nvidia е само за изследователи. В същото време Китай доказва, че е много по-малко изостанал в сравнение с големите езикови модели.

Може и да изглежда, че ботове като ChatGPT схващат функционирането на физическия свят, но всъщност те са умни имитатори без реална връзка с материалния опит или т.нар. постоянство на обектите – разбирането, което хората развиват още като бебета, че чаша или стол например продължават да съществуват дори когато не могат да бъдат видени.

Един езиков модел може да опише стая в елегантна проза, но ако го попитате дали един диван може да мине през вратата или къде ще падне топка, след като е отскочила от стената, той ще даде отговор спрямо модели от текстове, върху които е обучен, а не реално да разбира силите, които действат, и може да даде грешен отговор. Моделите на света имат за цел да запълнят именно тази празнина.

Усилията тихо набират инерция, като се оформя серия от подходи и бизнес модели, които се възползват от данни от реалния свят – включително популярна игра, която дебютира преди десетилетие. Помните ли Pokemon Go – приложението за смартфон, което караше милиони хора да насочват телефоните си към местни гробища и улични завод, за да уловят герои на Pokemon? Оттогава насам то е разработило световна съкровищница от картографски данни, които споделя с компании като Coco Robotics, чиито роботи за доставка доставят хранителни покупки из няколко града в САЩ и Европа. Създателят на играта – Niantic Spatial, изгражда нещо, което нарича голям геопространствен модел (Large Geospatial Model, LGM), чиито крайни потребители в крайна сметка ще бъдат роботи.

В същото време DoorDash плаща на служителите си на свободна практика, за да се снимат, докато сгъват дрехи или мият чинии, за да натрупа данни, които може да продава на фирми за роботи за обучение. А Instacart разработва пазарска количка заедно с Nvidia, която е снабдена със сензори и камери. Целта е не да се обучават роботи, а да се събират данни за реклама и управление на запасите.

Някои учени твърдят, че този подход към изкуствения интелект е критична нова стъпка към придаването на машините на нещо по-близо до човешки интелект – цел, която OpenAI, Anthropic и Google на Alphabet преследват от години. (Google DeepMind, която е създател на чатбота Gemini, залага на модели на света със своя Genie 3.)

Представете си например, ако ChatGPT не само разбираше езика, но имаше способността да управлява автомобил или да налива чаша кафе. Резултатът може да е нещо като андроида в „Аз, роботът“ на Айзък Азимов или по-абстрактно погледнато – видеоигра, която постоянно еволюира спрямо потребителя, или промишлена система за автоматизация на газови турбини.

Компаниите, които очертават подобно бъдеще, включват World Labs – стартъп, излязъл от Станфордския университет и основан от Фей-Фей Ли, наричана още „Кръстницата на AI” заради новаторската си работа по системите за разпознаване на изображения. През февруари компанията на Ли обяви, че е привлякла 1 млрд. долара в ранен кръг от финансиране.

Базираната в Сан Франциско World Labs използва модела си, известен като Marble, за да генерира свои собствени виртуални светове и се надява в крайна сметка да привлече клиенти от гейминга, виртуалната реалност и обучението на роботи. Дори след като привлече пари от поддръжници като Nvidia, ADM и Autodesk обаче, пътят към печалбата не е ясен.

„Wall Street, особено инвеститорите на късен етап на развитие, все още изчакват да видят технологията да узрее за приложими възможности“, коментира Ли в скорошно интервю. Въпреки това тя не се отчайва: „Абсолютно убедена съм, че това е също толкова значимо, колкото езиковия интелект“.

Ли залага и на това, че синтетичните данни ще бъдат „критично важни“ за моделите на света, тъй като за разлика от езика, богатият 3D материал не съществува в изобилие в интернет. С други думи, следващата вълна в изкуствения интелект може да е до голяма степен трениран върху видеоматериали, генерирани от друг AI, а на върху видеа на служители на DoorDash, сгъващи дрехи. Това може да се превърне в потенциален бизнес модел само по себе си.

Днешната епоха на езиковите модели е напът да бъде спечелена от малка групи американски лаборатории с дълбоки джобове и затворени, патентовани модели. Но моделите на света явно се оформят по различен начин, в по-широко поле от подходи и региони, с повече отворени лицензи и без консенсус за това как някой може да печели пари.

Китай може би ще играе по-голяма роля в това. Силата му в хардуера и производството му помогна да достави 85%-90% от хуманоидните роботи в света миналата година, според изследователи от Barclays. Ако китайските модели на света започнат да се превръщат в стандарт за обучение на роботи, компаниите, които оформят следващото десетилетие на физическия AI, няма да бъдат онези, които виждаме в заглавията днес, и може би ще са далече от Силициевата долина.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.