SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

SLM схватывают на лету

Справка от ChatGPT

Что такое SLM и LLM

Как они работают

В чем главные плюсы

Рекомендуемые статьи

Гендиректор УК «Первая» — о ситуации на российском фондовом рынке

Режиссер Роман Михайлов — о снах и сказочных 90-х

Может ли искусственный интеллект заменить учителя?

Пассивный доход на интеллектуальной собственности: как работает роялти?

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

Разберем, написать в Ватсап без добавления номера в телефонную книгу

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

Кто говорит с нами из колонок?

Алмазы, лекарства и даже песок с Луны — вещества, которые стоят миллионы

Почему возникает скрип тормозов и когда он действительно требует внимания

Энолог винодельни «СоберБаш» о важности рейтингов и выборе профессии

Евпатория — город, существующий во многих измерениях

Рассказываем об азиатских странах, в которых вам точно нужно побывать

Low profile publicity: почему крупный бизнес выбирает стратегию скромности?

Bed rotting: обычная лень или способ восстановить силы?

Биологи выяснили, что было возбудителем истощающей болезни морских звезд

Сергей Богун о проблемах защиты редких степных видов

Рассказываем, что происходит в Газе с продовольствием и что к этому привело

Каким должен быть лидер в наше нестабильное время

Культурист Сергей Бойцов и его заоблачный достижения

Наш сегодняшний разговор – не о фантастике, а о фантастических мостах

Ученые успешно протестировали радарную систему зонда Europa Clipper

Кто, как и зачем вакцинирует рыб в аквахозяйствах?

Как подготовиться к своему первому трейлу и какие ошибки важно не повторить

Как стать лидером, за которым пойдут остальные

Ученые зафиксировали нападения выдр на пингвинов в ЮАР

Все ли знают о самой крупной птице России? Это дрофа

Почему взгляды ученых на природу реальности драматически расходятся?

Солнечная Абхазия – идеальное пляжное направление

Некоторые современные мосты сооружают только для того, чтобы заинтриговать