Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Овечкин Овечкин

Как Овечкин пытается расколоть гретцкий орех

СНОБ
С акцентом на бохо С акцентом на бохо

Современное пространство с элементами бохо, отражающее тенденцию к эклектике

Идеи Вашего Дома
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Глава молдавского оппозиционного блока «Победа» Илан Шор: Евроинтеграция – это морковка, которую нам подвесили Глава молдавского оппозиционного блока «Победа» Илан Шор: Евроинтеграция – это морковка, которую нам подвесили

Молдавский оппозиционер Илан Шор о своем отношении к процессу евроинтеграции

Ведомости
Истина в жене Истина в жене

«Последняя дуэль»: язвительно современный Ридли Скотт в декорациях Средневековья

Weekend
Как сахар влияет на клеточное старение и разрушает коллаген: данные исследований Как сахар влияет на клеточное старение и разрушает коллаген: данные исследований

Почему сахар провоцирует воспаления клеток?

ТехИнсайдер
Город, который дает то, что нужно Город, который дает то, что нужно

Размышления москвича Григория Туманова о магии Петербурга

СНОБ
«Черный квадрат» раздора «Черный квадрат» раздора

Краткая история главной картины ХХ века

Weekend
Типы старения лица и кожи: какие бывают и как их определить Типы старения лица и кожи: какие бывают и как их определить

Какие типы старения лица и организма существуют?

РБК
Антиоксиданты: зачем они нужны и где их искать Антиоксиданты: зачем они нужны и где их искать

Какие продукты стоит внести в меню, чтобы поддерживать тело в тонусе?

Правила жизни
«Ким Ир Сен: Вождь по воле случая» «Ким Ир Сен: Вождь по воле случая»

Как будущий правитель КНДР стал партизаном

N+1
«Что знает Мариэль?»: зачем колкое драмеди меняет местами детей и родителей «Что знает Мариэль?»: зачем колкое драмеди меняет местами детей и родителей

Как «Что знает Мариэль?» по-новому рассматривает детско-родительские отношения

Forbes
Образ дьявола как политический инструмент Образ дьявола как политический инструмент

Как Израиль остановил революцию в Иране

Монокль
Как заснуть буквально за минуту: способ, который все мы бессознательно используем Как заснуть буквально за минуту: способ, который все мы бессознательно используем

Как помочь своему организму заснуть?

Maxim
Электрокопия Электрокопия

Игрушка для богатых мальчиков — электрическая копия Bentley 4½ litre ‘Blower’

Автопилот
«Я расплакалась, когда смотрела это видео с мужем»: Юлия Топольницкая рассказала, как ее поразил Игорь Чехов «Я расплакалась, когда смотрела это видео с мужем»: Юлия Топольницкая рассказала, как ее поразил Игорь Чехов

Юлия Топольницкая о секретах семейной жизни с актером и шоуменом Игорем Чеховым

VOICE
Тайна затонувшего галеона «Сан-Хосе»: что рассказали золотые монеты на морском дне Тайна затонувшего галеона «Сан-Хосе»: что рассказали золотые монеты на морском дне

Ученые изучили корабль «Сан-Хосе» и его хрупкие останки

ТехИнсайдер
Аркадий Трачук: Банкноты всегда несут смыслы и передают важные символы для страны Аркадий Трачук: Банкноты всегда несут смыслы и передают важные символы для страны

Можно ли уже печатать дензнаки только с помощью своих технологий?

Ведомости
На острие высоких технологий На острие высоких технологий

Передовые разработки демонстрируют технологический потенциал столицы

Ведомости
Ингибиторы янус-киназы не повысиил риск рака при лечении ревматоидного артрита Ингибиторы янус-киназы не повысиил риск рака при лечении ревматоидного артрита

Ученые выяснили, что терапия артрита ингибиторами янус-киназы не провоцирует рак

N+1
Перезапуск креативной экономики: новый закон и планы до 2030 года Перезапуск креативной экономики: новый закон и планы до 2030 года

Где уже есть успехи в развитии креативных индустрий, кто входит в число лидеров

ФедералПресс
Защитники нейросетей Защитники нейросетей

Спрос на специалистов по безопасности ИИ вырос в 4 раза

Ведомости
Гибкость и координация Гибкость и координация

Пластика кроссовера Omoda C7

Автопилот
Человек, а не товар: почему в разных странах продают и покупают невест Человек, а не товар: почему в разных странах продают и покупают невест

Где и почему сохраняется традиция продажи невест

Forbes
Июньская метель снежноцвета Июньская метель снежноцвета

Снежноцветы считаются красивейшими деревьями, и с этим трудно не согласиться

Наука и жизнь
Секвенирование ДНК из воздуха сообщило о составе биомов и человеческих популяций Секвенирование ДНК из воздуха сообщило о составе биомов и человеческих популяций

Секвенирование ДНК как способ быстрого и неинвазивного анализа биомов

N+1
Нефтяная кубышка: за и против Нефтяная кубышка: за и против

Нужен ли России стратегический запас нефти?

Монокль
Виктория Лепко: «Папа — моя путеводная звезда» Виктория Лепко: «Папа — моя путеводная звезда»

Всю жизнь папа учил меня говорить правду, не жить во лжи

Коллекция. Караван историй
Долгий путь от «учебки» к Победе Долгий путь от «учебки» к Победе

В минометной роте любили песни: о поэтах на фронте Отечественной войны

Знание – сила
Ядерное оружие: от шоу до экзистенциального ужаса Ядерное оружие: от шоу до экзистенциального ужаса

В какой момент человечество перестало бояться ядерной бомбы?

Монокль
Открыть в приложении