Китайският стартъп DeepSeek работи съвместно с университета „Цинхуа“ за намаляване на обучението, от което се нуждаят неговите модели с изкуствен интелект (AI) в опит да свие оперативните разходи, съобщава Bloomberg.
DeepSeek, която разтърси пазарите с евтиния си модел през януари, си сътрудничи с учени от пекинската институция върху документ, в който подробно се описва нов подход към обучението, за да се направят AI моделите по-ефективни.
Новият метод има за цел да помогне на AI моделите да се придържат по-ефективно към предпочитанията на потребителите, като предлага награди за по-точни и разбираеми отговори, изтъкват учените. Обучението се оказва ефективно за по-бързото решаване на задачи за AI в тесни приложения и сфери.
Разширяването на метода до по-общи приложения обаче се оказва предизвикателство - и това е проблемът, който екипът на DeepSeek се опитва да реши с нещо, което нарича самоопределяща настройка на критиката. Стратегията надмина съществуващите методи и модели, като резултатът показа по-добра производителност с по-малко изчислителни ресурси, се добавя в документа.
DeepSeek нарича тези нови модели DeepSeek-GRM и ще ги пусне на базата на отворен код. Други разработчици на AI, включително китайският технологичен гигант Alibaba Group Holding Ltd. и базираната в Сан Франциско OpenAI, също се стремят към подобряване на възможностите за разсъждение и самоусъвършенстване, докато AI моделът изпълнява задачи в реално време.
Базираната в Калифорния Meta Platforms Inc. пусна най-новата си серия AI модели, Llama 4, през уикенда и ги определи като първите, които използват архитектурата Mixture of Experts (MoE). Моделите на DeepSeek разчитат значително на MoE, за да постигнат по-ефективно използване на ресурсите, а Meta сравни новото си издание с това на китайския стартъп.
DeepSeek не уточнява кога планира да пусне следващия си водещ модел.