DeepSeek представя флагманския си AI модел една година след първоначалния пробив

Китайският стартъп представи сериите V4 Flash и V4 Pro, като изтъкна първокласната им производителност в тестовете за програмиране

10:38 | 24.04.26 г.

Снимка: Bloomberg

DeepSeek пусна предварителни версии на нов флагмански модел с изкуствен интелект година след като разтърси Силициевата долина. Компанията нарече модела най-мощната платформа с отворен код като предизвикателство на конкурентите си – от OpenAI до Anthropic, съобщава Bloomberg.

Китайският стартъп представи сериите V4 Flash и V4 Pro, като изтъкна първокласната им производителност в тестовете за програмиране и значителните подобрения в способността за разсъждение и изпълнението на задачи, свързани с агентно поведение. Те включват подобрения в архитектурата и оптимизации, съобщи стартъпът в Hugging Face.

DeepSeek изтъкна техника, която нарече Hybrid Attention Architecture, за която заяви, че подобрява способността на AI платформата да запомня запитвания в дълги разговори. Тя също така разшири контекстния прозорец до 1 млн. токена – скок, който позволява цели кодове или дълги документи да бъдат изпращани като една-единствена подсказка.

V4 се появява повече от година, след като стартъпът от Ханджоу предизвика разпродажба на акции на стойност 1 трлн. долара с пускането на R1 – модел с отворен код, който имитира процеса на човешкото разсъждение. R1 се конкурираше с производителността на най-модерните AI системи от компании като OpenAI, но според твърденията е бил създаден за част от цената.

Акциите на китайските производители на чипове поскъпнаха в петък, тъй като инвеститорите залагат, че новият модел ще подкрепи търсенето на местни чипове. В публикация в WeChat DeepSeek посочи, че капацитетът за обслужване на серията V4 Pro е изключително ограничен поради недостиг на изчислителни ресурси. Стартъпът обаче очаква цените на модела да спаднат значително след пускането на пазара през втората половина на тази година на изчислителни клъстери, задвижвани от чипове Ascend 950 на Huawei Technologies. DeepSeek в момента води преговори с Tencent Holdings и Alibaba Group Holding за първия си кръг на финансиране.

Новата серия е голяма крачка напред по отношение на мащаба и ефективността, които определят възхода на DeepSeek и оказват огромен конкурентен натиск върху конкурентите. Вследствие на R1 технологичните компании и инвеститорите започнаха да преосмислят доколкото разумно е вливането на милиарди долари в разработката на изкуствен интелект. Оттогава тези разходи отново тръгнаха нагоре, като прогнозите са, че американските технологични гиганти ще инвестират около 650 млрд. долара през 2026 г. в AI инфраструктура и центрове за данни.

Системата на DeepSeek с 1 трлн. параметри използва техниката Mixture-of-Experts, като избирателно задейства само малка подгрупа от експертни подмрежи и активира не повече от 37 млрд. параметри на задача, за да поддържа разходите за извличане на заключения значително по-ниски в сравнение с подобни авангардни модели.

Архитектурата и техниките поставят DeepSeek в пряка конкуренция с най-новите модели на конкурентите от Силициевата долина – OpenAI, Google и Anthropic. В петък стартъпът се похвали с по-висока производителност в сравнение с модели като GPT-5.2 на OpenAI при стандартни тестове, но призна, че V4 изостава от най-модерните модели с около 3 до 6 месеца.

Все пак DeepSeek подчерта, че не се стреми единствено към сурова производителност, а и към фундаментално намаляване на разходите. V4 е проектиран да се внедрява върху по-евтина инфраструктура.

Всяка новина е актив, следете Investor.bg и в Google News Showcase.