Данните, с които се обучават AI моделите, бързо изчезват

Създателите на съдържание все повече ограничават достъпа до данните си

15:36 | 28.07.24 г.

Снимка: pexels.com

От години хората, изграждащи мощните системи с изкуствен интелект (AI), използват огромни масиви от текстове, изображения и видеа от интернет, за да обучават моделите си.

Сега тези данни привършват, пише New York Times.

През последната година повечето най-важните уеб източници, използвани за обучение на AI модели, са ограничили употребата на данните си, показва проучване, публикувано миналата седмица от Data Provenance Initiative – водена от MIT група.

Проучването, което обхваща 14 хил. домейна, включени в три често използвани пакета данни за обучение на AI, открива „зараждаща се криза в даването на съгласие“, тъй като издателите и онлайн платформите предприемат стъпки да не позволят данните им да бъдат събирани.

Изследователите изчисляват, че в трите пакета – наречени C4, RefinedWeb и Dolma – 5% от всички данни и 25% от данните от най-висококачествени източници са били ограничени. Освен това 45% от данните в С4 са били ограничени от условията за ползване на сайтовете.

„Виждаме остър спад в съгласието за ползване на данни в интернет, което ще има последици не само за AI компаниите, но и за изследователите, учените и нетърговските юридически лица“, казва водещият автор на проучването Шейн Лонгпри в интервю.

Данните са основната съставка в днешните системи за генеративен AI, които се захранват с милиарди примери с текст, изображения и видеа. Голяма част от тези данни се взимат от публични сайтове от изследователи и се събират в огромни пакети с данни, които могат да бъдат теглени и ползвани безплатно или допълнени с данни от други източници. Колкото по-високо качество са данните при обучението на AI моделите, толкова по-добри резултати изкарват те.

С възхода на генеративния AI през последните години се създаде напрежение между собствениците на тези данни, много от които имат опасения те да бъдат ползвани за обучение или поне искат да получават пари срещу това.

Със засилването на негативните реакции някои издатели поставиха paywalls (такси за достъп до информацията) или промениха условията си, за да ограничат употребата на данните си за AI обучение. Други блокират автоматичните програми за обхождани, ползвани от компании като OpenAI, Anthropic и Google.

Сайтове като Reddit и StackOverflow започнах да таксуват AI компаниите за достъп до данните, а някои издателите предприеха правни действия, включително NYT, която заведе дело срещу OpenAI и Microsoft за нарушаване на авторските права.

Компании като OpenAI, Google и Meta полагат невероятни усилия през последните години, за да съберат повече данни и да подобрят системите си, включително транскрибиране на видеоклипове в YouTube и промени в собствените си политики за данни.

Широко разпространени ограничения на данните обаче могат да представляват заплаха за AI компаниите, които се нуждаят от постоянно снабдяване с висококачествени данни, за да поддържат моделите си актуални.

Те също така могат да създадат проблеми за по-малки AI екипи и академични изследователи, които разчитат на публични масиви от данни и не могат да си позволят да лицензират данни директно от издателите. Common Crawl, един такъв набор от данни, който включва милиарди страници уеб съдържание и се поддържа от организация с нестопанска цел, е цитиран в повече от 10 хил. академични проучвания, каза Лонгпри.

Ако всички AI данни за обучение трябва да бъдат получени чрез лицензионни сделки, това би изключило „изследователите и гражданското общество от участие в управлението на технологията“, коментира Ясин Джърнайт, изследовател по машинно обучение в компанията Hugging Face.

Стела Бидерман, изпълнителен директор на EleutherAI, организация с нестопанска цел, изследваща AI, потвърждава тези страхове.

„Големите технологични компании вече разполагат с всички данни“, казва тя. „Промяната на лиценза за данните не отменя със задна дата това разрешение и основното въздействие е върху по-късно пристигащите участници, които обикновено са или по-малки стартъпи, или изследователи“.

AI компаниите твърдят, че използването на публични уеб данни е законово защитено за справедливо ползване. Но събирането на нови данни стана по-трудно. Някои AI ръководители се притесняват да не се ударят в data wall (стена от данни) – термин за точката, в която всички данни за обучение в публичния интернет са изчерпани, а останалите са скрити зад платени стени или заключени в изключителни търговски споразумения.

Някои компании вярват, че могат да мащабират стената от данни, като използват синтетични данни – тоест данни, самите те генерирани от AI. Много изследователи обаче се съмняват, че днешните AI системи са в състояние да генерират достатъчно висококачествени синтетични данни, за да заменят създадените от човека.

Друго предизвикателство е, че макар издателите да се опитват да спрат AI компаниите да взимат от тях данни, като поставят ограничения в своите файлове, тези искания не са правно обвързващи и спазването е доброволно.

Големите търсачки уважават тези искания за отказ и няколко водещи AI компании, включително OpenAI и Anthropic, заявиха публично, че го правят. Но други компании, включително базираната на AI търсачка Perplexity, бяха обвинени, че ги игнорират.

Лонгпри казва, че един от големите изводи от проучването е, че имаме нужда от нови инструменти, за да са даде на собствениците на сайтове по-прецизни начини да контролират използването на техните данни. Някои сайтове може да възразят срещу AI гиганти, които използват техните данни, за да обучават чатботове за печалба, но може да са готови да позволят на организации с нестопанска цел или образователна институция да използват същите тези данни, казва той. В момента няма добър начин за тях да разграничат тези употреби или да блокират едното, докато позволяват другото.

Тук обаче има и урок за големите AI компании, които възприемаха интернет като бюфет с данни, от който могат да ядат години наред, без да дават на собствениците на тези данни голяма стойност в замяна. В крайна сметка, ако се възползвате от мрежата, мрежата ще започне да затваря вратите си.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.