Как Китай създаде модела DeepSeek и шокира света

Правителствените политики, щедрото финансиране и набор от вече действащите модели за дълбоко обучение помогнаха на китайските фирми да създадат напреднали големи езикови модели

Ваня Милева Последна промяна на 31 януари 2025 в 12:59 3737 0

DeepSeek

Кредит FMT (CC BY 4.0)

Големият езиков модел DeepSeek-R1 започва да изпълнява някои задачи на ниво, което съперничи на моделите, създадени от OpenAI, разработчика на чатбота ChatGPT.

Китайският технологичен стартъп DeepSeek разтърсва технологичния свят с пускането на два големи езикови модела (LLM - large language model), които съперничат на водещите инструменти, разработени от американските технологични гиганти – но изградени с много по-малко разходи и изчислителна мощ.

На 20 януари компанията от Ханджоу пуска DeepSeek-R1 – с частично отворен код за "разсъждения", който започва да решава някои научни проблеми на ниво, подобно на o1, най-напредналия LLM на OpenAI, който компанията от Сан Франциско представя в края на миналата година. А по-рано тази седмица DeepSeek представя друг модел – Janus-Pro-7B, който започва да генерира изображения от текстови заявки, подобно на DALL-E 3 на OpenAI и Stable Diffusion на базираната в Лондон Stability AI.

Ако представянето на DeepSeek-R1 изненадва много хора извън Китай, изследователите от Поднебесната казват, че успехът на стартъпа е очакван и съвпада с амбицията на правителството да стане световен лидер в изкуствения интелект (AI).

Неизбежно е компания като DeepSeek да се появи в Китай, предвид огромните инвестиции от рисков капитал в разработката на LLM и множеството специалисти с докторски степени в науката, технологиите, инженерството и математиката, включително AI, коментира Юндзи Чън (Yunji Chen), компютърен учен от Института по изчислителни технологии към Китайската академия на науките в Пекин. "Ако не беше DeepSeek, щеше да има друг китайски LLM, който да направи голям пробив."

И наистина, такива вече има. На 29 януари технологичният гигант Alibaba пуска най-напредналия си LLM досега – Qwen2.5-Max, за който компанията твърди, че надминава DeepSeek V3 – друг LLM, представен през декември. А миналата седмица Moonshot AI и ByteDance представят нови модели за разсъждение – Kimi 1.5 и 1.5-pro, за които компаниите твърдят, че надминават o1 в някои тестове.

Правителствен приоритет

През 2017 г. китайското правителство обявява намерението си страната да стане големи пробиви в AI, така че технологиите и приложенията да достигнат световно ниво до 2025 г.

Развитието на кадри в областта на AI става приоритет. До 2022 г. Министерството на образованието на Китай одобрява 440 университета да предлагат бакалавърски програми в областта на AI според доклад на Центъра за сигурност и нови технологии (CSET) в Джорджтаунския университет във Вашингтон. Същата година Китай осигурява почти половината от водещите AI изследователи в света, докато САЩ – само 18%, съобщава анализаторския център MacroPolo в Чикаго.

DeepSeek вероятно се възползва от държавните инвестиции в AI образованието и развитието на таланти, включително стипендии, научни грантове и партньорства между академията и индустрията, отбелязва Марина Джан (Marina Zhang), изследовател по научна политика в Университета за технологии в Сидни. Държавно подкрепени инициативи като Националната инженерна лаборатория за технологии за дълбоко обучение, ръководена от Baidu, Inc, подготвят хиляди AI специалисти.

Може би най-впечатляващият аспект на успеха на DeepSeek е, че разработва DeepSeek-R1 и Janus-Pro-7B въпреки американските ограничения за износ, които блокират достъпа на Китай до напреднали AI чипове от 2022 г.

Джан посочва, че DeepSeek олицетворява специфичния китайски подход към иновациите, който набляга на ефективността при ограничения. Компанията не разкрива конкретни детайли за използвания хардуер, но използва около 2000 H800 чипа на Nvidia за обучението на DeepSeek-V3, модел, който през декември надминава GPT-4o на OpenAI в тестове. За сравнение, Llama 3.1 405B на Meta разчита на над 16 000 H100 чипа на Nvidia.

DeepSeek използва архитектура "смес от експерти" (MoE - Mixture of experts) - техника за машинно обучение, при която множество експертни и обучаеми мрежи се използват за разделяне на проблемно пространство на хомогенни региони. MoE представлява форма на ансамбълно обучение. Това ускорява обучението и намалява нуждата от изчислителни ресурси, обяснява Чанг Сю (Chang Xu), компютърен учен от Университета в Сидни.

Тази седмица медийни публикации загатват, че OpenAI разследва дали DeepSeek използва негови модели за обучение. (OpenAI е съден за нарушения на интелектуалната собственост от новинарски организации). DeepSeek все още не е отговорил на твърденията.

Дори и да е вярно, това "по никакъв начин няма да намали" постижението на DeepSeek в създаването на R1, разказва Луис Тънстал (Lewis Tunstall), изследовател в платформата за наука с отворен код Hugging Face, базирана в Берн, Швейцария. Техният напредък е в използването на подход за обучение, за да внедрят способности за "разсъждение" на LLM, което експериментите вече са възпроизвели, съобщава Тънстал. Hugging Face ръководи проект, за да се опита да пресъздаде R1 от нулата. "Очаквам, че ще научим доста бързо дали синтетичните данни от OpenAI са наистина необходими или не".

Постиженията на DeepSeek могат да демонстрират план за държави, които имат амбиции за изкуствен интелект, но нямат финансови ресурси и хардуер за обучение на мощни LLM, използвайки стандартния подход на Силиконовата долина, коментира Янбо Уан (Yanbo Wang), изследовател на научна политика, който се фокусира върху иновациите в университета в Хонконг. "Това може да доведе до създаването на голяма армия от нови модели", подчертава Янбо Уан.

Източник: How China created AI model DeepSeek and shocked the world, Nature

    Най-важното
    Всички новини