Тайното оръжие на Зукърбърг в AI надпреварата - Facebook данните на потребителите

Meta трябва да подходи внимателно към купищата информация, с които разполага

14:28 | 06.02.24 г.

Снимка: Kent Nishimura/Bloomberg

За много хора Facebook е интернет и броят на потребителите на услугата продължава да расте, сочат последните финансови резултати на Meta Platforms. Но Марк Зукърбърг не просто празнува този продължаващ растеж. Той иска да се възползва от това, като използва данни от Facebook и Instagram, за да създаде мощен изкуствен интелект с общо предназначение. Звучи страхотно, а и Meta е в добра позиция да го постигне, но милиардите ѝ потребители може в крайна сметка да платят цената за това със своята поверителност и дори повече, пише Парми Олсън за Bloomberg.

Ето как миналата седмица Зукърбърг загатна за следващия си ход в сферата на изкуствения интелект: „Следващата ключова част от нашите планове е да се учим от уникални данни и вериги за обратна връзка с нашите продукти... Във Facebook и Instagram има стотици милиарди публично споделени изображения и десетки милиарди публични видеа, което според нас е повече от базата данни Common Crawl, а хората споделят голям брой публични текстови публикации в коментари и в нашите услуги“.

Твърдението на Зукърбърг относно Common Crawl, притесни наблюдателите на технологичната индустрия, защото този архив вече е огромен: 250 млрд. уебстраници, обхващащи период от 17 години. Това е едно от най-големите и популярни хранилища на публичния интернет, използвани за обучение на системи с изкуствен интелект в днешно време. Когато OpenAI пусна своя езиков модел GPT-3 през 2020 г., близо 60% от текста, използан за обучение на системата, беше от Common Crawl.

Но планината от данни на Meta е още по-голяма, което означава, че теоретично тя може да изгради „по-интелигентен“ изкуствен интелект. Причината е, че според изследвания обучението на AI модели с повече данни ги прави по-способни и точни. Тази формула направи чудеса за OpenAI, която през годините увеличи количеството данни, използвани за създаване на модели като ChatGPT.

Ако Зукърбърг иска да направи по-мощен чатбот, купищата данни, върху които седи, са особено ценни, защото голяма част от тях идват от коментари. Всеки текст, който представлява човешки диалог, е от ключово значение за обучението на чатботовете, поради което OpenAI интензивно използва интернет форума Reddit, за да надгражда своя популярен чатбот.

Лесно е да се пускат шеги всеки път, когато Зукърбърг говори за някоя от новите си амбиции – независимо дали става дума за ботове, криптовалути или метавселена. Последната му донкихотовска визия е особено грандиозна: да изгради „общ интелект“ или софтуерни системи, които отговарят или надминават човешкия интелект. Предвид всички тези данни мисията на Зукърбърг изглежда изпълнима. Проблемът е какви могат да бъдат последствията за всички нас.

Странно е, че в същото изявление, в което Зукърбърг казва, че неговият екип за изкуствен интелект работи по изграждането на общ интелект „повече от десетилетие“, той посочва, че Facebook едва сега ще се насочи към данните на своите потребители, за да изгради модели като „следваща ключова част от нашата работа“. Защо Meta не е направила това досега? Може би защото използването на всички данни не е толкова лесно.

От една страна, това би представлявало поредно посегателство върху поверителността на 3 млрд. потребители на Facebook и 1,5 млрд. потребители на Instagram. По същия начин, по който OpenAI беше подложена на критики за ползване на защитени с авторски права данни на художници и писатели, за да обучи моделите си, Facebook ще се изправи пред нови критики за повторно използване на данните на хората. Това не само повдига трудни етични въпроси, но и може да изисква строги практики за обработка на данните и спазване на глобалните закони за защита на информацията, което може да ѝ донесе неприятности с европейските регулатори.

Другият проблем е цялата прострастност и токсичност в данните. OpenAI трябваше да се справи с този проблеми с Common Crawl, която включва огромен брой уебстраници като adultmovietop100.com и adelaide-femaleescorts.webcam, сочи проучване от 2021 г. на Университета в Монреал. Същото проучване твърди, че между 4% и 6% от всички уебсайтове в Common Crawl включват расови обиди, реч на омразата или расистки теории на конспирацията.

Въпреки че софтуерът за модериране на съдържанието във Facebook стана по-добър в блокирането на речта на омразата и теориите на конспирацията, той не е перфектен и има тенденция да е по-лош в страни извън САЩ. Част от съдържанието във Facebook, което е маркирано като токсично, вече не се преглежда от модератор и остава на сайта. Още по-лошо – когато Зукърбърг каза, че данните на Meta са повече от тези на Common Crawl, той вероятно има предвид, че компанията е натрупала исторически архив, който ще включва цялото хиперболично политическо съдържание и фалшиви новини, които присъстваха в сайта преди Зукърбърг да положи усилия, за да ги изчисти.

Цялата работа, предполагаща внимателно боравене с данни и проверката им, може да обясни защо Зукърбърг едва сега започва да говори за капитализиране на планината от информация, с която разполага. Ако не го направи както трябва, рискува да преживее отново кошмара от публичните критики за това как Facebook се справя с фалшиви новини и проблемно съдържание.

И все пак, ако има нещо, което знаем за Зукърбърг, то е, че той има мания за победа и доминация. Миналата седмица, около 24 часа, след като се изправи пред група родители във Вашингтон, които го обвиниха, че платформите му склоняват децата им към самонараняване и дори самоубийство, той излезе и обяви, че Meta е имала едно от най-успешните си финансови тримесечия до този момент и подсказа как ще започне да използва данните на хората, за да създаде по-мощен изкуствен интелект.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.