Китайская компания DeepSeek стремительно завоевывает внимание технологического мира, предлагая новые решения в области искусственного интеллекта, которые конкурируют с ведущими разработками таких гигантов, как OpenAI и Anthropic. При этом DeepSeek добилась невероятных успехов, имея значительно меньшие финансовые и вычислительные ресурсы по сравнению с западными конкурентами.
В декабре 2023 года DeepSeek представила свою модель V3, которая по уровню возможностей сопоставима с GPT-4 и Claude 3.5. Эта мощная языковая модель способна анализировать текст, решать математические задачи, программировать и даже обрабатывать изображения. Несмотря на высокую точность и мощность, обучение V3 обошлось компании всего в 5,58 млн долларов США — в разы дешевле, чем создание аналогичных систем у конкурентов. Разработчики DeepSeek также использовали значительно меньше вычислительных мощностей: V3 обучалась на 2000 графических процессорах H800 от NVIDIA, тогда как аналогичные западные модели требуют в 8 раз больше ресурсов.
20 января 2024 года DeepSeek представила R1 — «рассуждающую» модель, которая способна решать сложные задачи поэтапно. Это усовершенствованная версия V3, обученная с использованием методов подкрепленного обучения. Она демонстрирует выдающиеся способности в стратегическом мышлении, анализе прочитанного и решении многозадачных проблем, конкурируя с OpenAI o1.
DeepSeek не остановилась на этом. Компания применила свои новейшие технологии для создания компактных «логических» моделей, которые можно запускать даже на обычных персональных компьютерах. Этот шаг вызвал массовый интерес к DeepSeek, привел к росту популярности ее чат-бота и даже вызвал значительные колебания на фондовом рынке: акции NVIDIA временно потеряли в стоимости около 600 миллиардов долларов США.
Успех DeepSeek обусловлен рядом технологических прорывов. Разработчики применили методику разреженности, которая позволяет использовать только наиболее значимые параметры модели для конкретного запроса. Это существенно снижает затраты на обучение и ускоряет работу системы. Еще одно новшество касается управления памятью: DeepSeek оптимизировала способ хранения и извлечения данных, что повысило эффективность моделей без необходимости увеличивать вычислительные мощности.
Пожалуй, самым революционным решением стало лицензирование моделей DeepSeek под свободной лицензией MIT. Это означает, что любой желающий может скачать и использовать эти модели, внося в них собственные изменения. Такой подход может привести к снижению цен на ИИ-сервисы, облегчить доступ к передовым технологиям и открыть новые возможности для исследователей, у которых нет мощных серверов для обучения собственных моделей.
Для научного сообщества этот прорыв означает упрощение тестирования и разработки новых решений. Теперь университетские исследователи смогут проводить эксперименты на высокоуровневых моделях, не тратя миллионы долларов на аренду серверов. Для потребителей это означает, что интеллектуальные помощники смогут работать локально на ноутбуках и смартфонах без необходимости подключения к облачным сервисам.
Однако остается открытым вопрос: сможет ли подход DeepSeek не только повышать эффективность, но и приводить к созданию моделей, превосходящих по качеству существующие разработки? Компании с огромными ресурсами, такие как OpenAI и Google DeepMind, все еще обладают преимуществом в плане масштабности обучения и доступности данных. Тем не менее, прорывы DeepSeek демонстрируют, что развитие ИИ может двигаться не только в сторону увеличения мощностей, но и в сторону более умных и экономичных решений.