Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Андрей Бершадский: «У профессионального управляющего нет хрустального шара» Андрей Бершадский: «У профессионального управляющего нет хрустального шара»

Гендиректор УК «Первая» — о ситуации на российском фондовом рынке

РБК
Роман Михайлов: Страна в то время быстро лепила себя, как из пластилина Роман Михайлов: Страна в то время быстро лепила себя, как из пластилина

Режиссер Роман Михайлов — о снах и сказочных 90-х

Ведомости
Uber в образовании Uber в образовании

Может ли искусственный интеллект заменить учителя?

ТехИнсайдер
Что скрывается за модным словом «роялти» ? Что скрывается за модным словом «роялти» ?

Пассивный доход на интеллектуальной собственности: как работает роялти?

Наука и техника
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Как написать в Ватсап без добавления контакта Как написать в Ватсап без добавления контакта

Разберем, написать в Ватсап без добавления номера в телефонную книгу

CHIP
Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу» Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу»

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

РБК
Чем ты это сказала? Чем ты это сказала?

Кто говорит с нами из колонок?

Men Today
Триллионы долларов за грамм: 7 самых дорогих материалов в мире Триллионы долларов за грамм: 7 самых дорогих материалов в мире

Алмазы, лекарства и даже песок с Луны — вещества, которые стоят миллионы

ТехИнсайдер
Почему скрипят тормоза у машины и что с этим делать Почему скрипят тормоза у машины и что с этим делать

Почему возникает скрип тормозов и когда он действительно требует внимания

РБК
«Нельзя быть безразличным к своей профессии» «Нельзя быть безразличным к своей профессии»

Энолог винодельни «СоберБаш» о важности рейтингов и выборе профессии

РБК
Евпатория Евпатория

Евпатория — город, существующий во многих измерениях

Знание – сила
Обязательно к посещению: лучшие страны для путешествий в Азии Обязательно к посещению: лучшие страны для путешествий в Азии

Рассказываем об азиатских странах, в которых вам точно нужно побывать

ТехИнсайдер
Тренд на тихий бренд Тренд на тихий бренд

Low profile publicity: почему крупный бизнес выбирает стратегию скромности?

Ведомости
Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели

Bed rotting: обычная лень или способ восстановить силы?

Forbes
Бактерию обвинили в гибели миллиардов морских звезд у западного побережья Северной Америки Бактерию обвинили в гибели миллиардов морских звезд у западного побережья Северной Америки

Биологи выяснили, что было возбудителем истощающей болезни морских звезд

N+1
В зоне степей и полупустынь В зоне степей и полупустынь

Сергей Богун о проблемах защиты редких степных видов

Знание – сила
Самое голодное место в мире: что происходит в секторе Газа и можно ли это исправить Самое голодное место в мире: что происходит в секторе Газа и можно ли это исправить

Рассказываем, что происходит в Газе с продовольствием и что к этому привело

Forbes
Меняться и менять Меняться и менять

Каким должен быть лидер в наше нестабильное время

Men Today
Облачный сервис Облачный сервис

Культурист Сергей Бойцов и его заоблачный достижения

Men Today
Мост – это мир со своими законами Мост – это мир со своими законами

Наш сегодняшний разговор – не о фантастике, а о фантастических мостах

Знание – сила
Зонд NASA использовал Марс как тестовую площадку при полете к Европе Зонд NASA использовал Марс как тестовую площадку при полете к Европе

Ученые успешно протестировали радарную систему зонда Europa Clipper

ТехИнсайдер
Безмолвный пациент, или вакцинация в аквакультуре Безмолвный пациент, или вакцинация в аквакультуре

Кто, как и зачем вакцинирует рыб в аквахозяйствах?

Наука и жизнь
Три самых популярных ошибки новичка в трейле Три самых популярных ошибки новичка в трейле

Как подготовиться к своему первому трейлу и какие ошибки важно не повторить

Maxim
Лидер в эпоху перемен Лидер в эпоху перемен

Как стать лидером, за которым пойдут остальные

Men Today
Выдр уличили в охоте на пингвинов Выдр уличили в охоте на пингвинов

Ученые зафиксировали нападения выдр на пингвинов в ЮАР

N+1
Дрофа – степной реликт Дрофа – степной реликт

Все ли знают о самой крупной птице России? Это дрофа

Знание – сила
Истина Шредингера: почему физики не могут договориться об устройстве мира Истина Шредингера: почему физики не могут договориться об устройстве мира

Почему взгляды ученых на природу реальности драматически расходятся?

Forbes
Отпускное настроение Отпускное настроение

Солнечная Абхазия – идеальное пляжное направление

Лиза
Мост в небесах Мост в небесах

Некоторые современные мосты сооружают только для того, чтобы заинтриговать

Знание – сила
Открыть в приложении