
Китайският технологичен стартъп DeepSeek разтърсва технологичния свят с пускането на два големи езикови модела (LLM - large language model), които съперничат на водещите инструменти, разработени от американските технологични гиганти – но изградени с много по-малко разходи и изчислителна мощ.
На 20 януари компанията от Ханджоу пуска DeepSeek-R1 – с частично отворен код за "разсъждения", който започва да решава някои научни проблеми на ниво, подобно на o1, най-напредналия LLM на OpenAI, който компанията от Сан Франциско представя в края на миналата година. А по-рано тази седмица DeepSeek представя друг модел – Janus-Pro-7B, който започва да генерира изображения от текстови заявки, подобно на DALL-E 3 на OpenAI и Stable Diffusion на базираната в Лондон Stability AI.
Ако представянето на DeepSeek-R1 изненадва много хора извън Китай, изследователите от Поднебесната казват, че успехът на стартъпа е очакван и съвпада с амбицията на правителството да стане световен лидер в изкуствения интелект (AI).
Неизбежно е компания като DeepSeek да се появи в Китай, предвид огромните инвестиции от рисков капитал в разработката на LLM и множеството специалисти с докторски степени в науката, технологиите, инженерството и математиката, включително AI, коментира Юндзи Чън (Yunji Chen), компютърен учен от Института по изчислителни технологии към Китайската академия на науките в Пекин. "Ако не беше DeepSeek, щеше да има друг китайски LLM, който да направи голям пробив."
И наистина, такива вече има. На 29 януари технологичният гигант Alibaba пуска най-напредналия си LLM досега – Qwen2.5-Max, за който компанията твърди, че надминава DeepSeek V3 – друг LLM, представен през декември. А миналата седмица Moonshot AI и ByteDance представят нови модели за разсъждение – Kimi 1.5 и 1.5-pro, за които компаниите твърдят, че надминават o1 в някои тестове.
Правителствен приоритет
През 2017 г. китайското правителство обявява намерението си страната да стане големи пробиви в AI, така че технологиите и приложенията да достигнат световно ниво до 2025 г.
Развитието на кадри в областта на AI става приоритет. До 2022 г. Министерството на образованието на Китай одобрява 440 университета да предлагат бакалавърски програми в областта на AI според доклад на Центъра за сигурност и нови технологии (CSET) в Джорджтаунския университет във Вашингтон. Същата година Китай осигурява почти половината от водещите AI изследователи в света, докато САЩ – само 18%, съобщава анализаторския център MacroPolo в Чикаго.
DeepSeek вероятно се възползва от държавните инвестиции в AI образованието и развитието на таланти, включително стипендии, научни грантове и партньорства между академията и индустрията, отбелязва Марина Джан (Marina Zhang), изследовател по научна политика в Университета за технологии в Сидни. Държавно подкрепени инициативи като Националната инженерна лаборатория за технологии за дълбоко обучение, ръководена от Baidu, Inc, подготвят хиляди AI специалисти.
Може би най-впечатляващият аспект на успеха на DeepSeek е, че разработва DeepSeek-R1 и Janus-Pro-7B въпреки американските ограничения за износ, които блокират достъпа на Китай до напреднали AI чипове от 2022 г.
Джан посочва, че DeepSeek олицетворява специфичния китайски подход към иновациите, който набляга на ефективността при ограничения. Компанията не разкрива конкретни детайли за използвания хардуер, но използва около 2000 H800 чипа на Nvidia за обучението на DeepSeek-V3, модел, който през декември надминава GPT-4o на OpenAI в тестове. За сравнение, Llama 3.1 405B на Meta разчита на над 16 000 H100 чипа на Nvidia.
DeepSeek използва архитектура "смес от експерти" (MoE - Mixture of experts) - техника за машинно обучение, при която множество експертни и обучаеми мрежи се използват за разделяне на проблемно пространство на хомогенни региони. MoE представлява форма на ансамбълно обучение. Това ускорява обучението и намалява нуждата от изчислителни ресурси, обяснява Чанг Сю (Chang Xu), компютърен учен от Университета в Сидни.
Тази седмица медийни публикации загатват, че OpenAI разследва дали DeepSeek използва негови модели за обучение. (OpenAI е съден за нарушения на интелектуалната собственост от новинарски организации). DeepSeek все още не е отговорил на твърденията.
Дори и да е вярно, това "по никакъв начин няма да намали" постижението на DeepSeek в създаването на R1, разказва Луис Тънстал (Lewis Tunstall), изследовател в платформата за наука с отворен код Hugging Face, базирана в Берн, Швейцария. Техният напредък е в използването на подход за обучение, за да внедрят способности за "разсъждение" на LLM, което експериментите вече са възпроизвели, съобщава Тънстал. Hugging Face ръководи проект, за да се опита да пресъздаде R1 от нулата. "Очаквам, че ще научим доста бързо дали синтетичните данни от OpenAI са наистина необходими или не".
Постиженията на DeepSeek могат да демонстрират план за държави, които имат амбиции за изкуствен интелект, но нямат финансови ресурси и хардуер за обучение на мощни LLM, използвайки стандартния подход на Силиконовата долина, коментира Янбо Уан (Yanbo Wang), изследовател на научна политика, който се фокусира върху иновациите в университета в Хонконг. "Това може да доведе до създаването на голяма армия от нови модели", подчертава Янбо Уан.
Източник: How China created AI model DeepSeek and shocked the world, Nature
Още по темата

Физика
Google слага невидим "воден знак" за генерираните от AI текстове

Технологии
AI, който се учи от собствените си глупости, може да се самоунищожи, предупреждават експерти

Технологии
Можем ли да се доверим на научни открития, направени с машинно самообучение?

Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари
dolivo
Учените, работещи за връщането на вълнестия мамут, създават вълнести мишки
dolivo
Обществото умее да разпознава фалшиви новини, но е скептично към верните новини, показва метаанализ
dolivo
Прогноза за развитие на технологиите до 2099 от Рей Курцвейл
dolivo
Може ли удар от малка черна дупка да убие човек?