Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Нереальная любовь Нереальная любовь

Как и почему «эмоциональные» чат-боты стали заменять настоящих партнеров

РБК
ИИ в школе: инструмент или угроза? ИИ в школе: инструмент или угроза?

Внедрение ИИ — неизбежный этап. Какова будущая роль учителя в новой системе?

Монокль
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Музыка — не в нотах Музыка — не в нотах

Что мы потеряли в музыке за последние сто лет, педантично следуя нотам?

СНОБ
«Чистый хайп и маркетинг» «Чистый хайп и маркетинг»

Что такое мемкоин и можно ли на нем заработать

РБК
Все мы не молодеем: 5 тестов для оценки скорости старения Все мы не молодеем: 5 тестов для оценки скорости старения

Простые тесты, которые помогут понять, насколько вы справляетесь со старением

ТехИнсайдер
Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу» Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу»

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

РБК
3 бизнес-ошибки сооснователя страховой компании «Лучи» Михаила Беляндинова 3 бизнес-ошибки сооснователя страховой компании «Лучи» Михаила Беляндинова

Сооснователь страховой компании — о том, куда не стоит распылять ресурсы

Inc.
Открывая космос Открывая космос

Путеводитель женщины-астронавта по миру миссий, чудес и перемен в космосе

kiozk originals
Недосып и тревожность: как сон влияет на психику и почему возникают панические атаки Недосып и тревожность: как сон влияет на психику и почему возникают панические атаки

Почему недосып — это не просто усталость

Правила жизни
Познание в обход сознания Познание в обход сознания

Почему мозг приписывает намерения нарисованным треугольникам?

Вокруг света
Счастье для всех недаром Счастье для всех недаром

Писатель Шамиль Идиатуллин — о роли Аркадия Стругацкого в его жизни

Weekend
Временно недоступен Временно недоступен

Как паузы от рабочих звонков и чатов помогают повысить продуктивность работы

Ведомости
Корабль с игрушками Корабль с игрушками

Чем заняться в чартере? Вопрос на первый взгляд кажется риторическим

Y Magazine
Красота Красота

Новейшие технологии, научные открытия, драгоценные ингредиенты бьюти-индустрии

RR Люкс.Личности.Бизнес.
И снова в Канны И снова в Канны

Эту модель верфь выпустила в пару к уже строящейся As8 — более крупной яхте

Y Magazine
Флагман дальнего плавания Флагман дальнего плавания

Bering 165 — это судно с отвесным форштевнем и высоким бортом до миделя

Y Magazine
Искусство Искусство

Главные тренды и события мирового арт-рынка за 2025 год

RR Люкс.Личности.Бизнес.
Что у Intel инсайд? Что у Intel инсайд?

В надежде спасти Intel Трамп покупает пакет компании. Кажется, это жест отчаяния

Монокль
Импортозамещение в ТЭК: сам себе машиностроитель Импортозамещение в ТЭК: сам себе машиностроитель

Дорастет ли доля отечественного оборудования в нефтегазовой отрасли до 80%?

Монокль
Отели Отели

Отели, которым нет равных, для самых взыскательных гостей

RR Люкс.Личности.Бизнес.
Простор для творчества Простор для творчества

Верфь Bilgin Yachts продолжает успешную серию 50‑метровых яхт Bilgin 163

Y Magazine
На чистую воду На чистую воду

Новинка итальянской верфи Columbus Yachts — моторная суперъяхта Acqua Chiara

Y Magazine
Отправь меня на Луну Отправь меня на Луну

Цифра «три», похоже, стала для яхты Orion символом

Y Magazine
Светлая сила Светлая сила

Что такое фотовольтаические системы и из чего они состоят?

Y Magazine
Выживет ли грузинский прагматизм Выживет ли грузинский прагматизм

Как Тбилиси не остаться на обочине и сохранить взвешенную внешнюю политику

Монокль
Почему мир заговорил о белом водороде: новый источник чистой энергии Почему мир заговорил о белом водороде: новый источник чистой энергии

Белый водород — новый уникальный источник энергии?

ТехИнсайдер
«Инк» и «Космос-4» нашли главные страхи бизнесменов при развитии личного бренда «Инк» и «Космос-4» нашли главные страхи бизнесменов при развитии личного бренда

Как внутренние страхи и нехватка времени мешают развивать личный бренд

Inc.
Вместо дефолта — неукротимая инфляция Вместо дефолта — неукротимая инфляция

Мир продолжает жить в кредит, но менять никто ничего не планирует, да и не может

Монокль
Не спешите на свалку: как подарить вторую жизнь вашему старому ноутбуку Не спешите на свалку: как подарить вторую жизнь вашему старому ноутбуку

Как превратить вашего динозавра в шустрого помощника для работы и учебы?

ТехИнсайдер
Открыть в приложении