Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Нет причин не продлить нашу жизнь до 200 лет и даже до 1000» «Нет причин не продлить нашу жизнь до 200 лет и даже до 1000»

Как мировая наука и бизнес борются со старением

РБК
Блогер рассказал, как надо правильно вести себя в Японии, и развеял стереотип о запретах на открытую одежду в общественных местах Блогер рассказал, как надо правильно вести себя в Японии, и развеял стереотип о запретах на открытую одежду в общественных местах

Правила поведения в японском обществе, которые помогут путешественникам

Maxim
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Летают ли авиалайнеры над Северным полюсом: да, и это стоит сделать хотя бы раз в жизни Летают ли авиалайнеры над Северным полюсом: да, и это стоит сделать хотя бы раз в жизни

Почему летать через Северный полюс до сих пор рискованно

ТехИнсайдер
Время для любви Время для любви

Мне казалось, что с появлением малыша я поменяюсь кардинально. Именно внутренне

Домашний Очаг
Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы» Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы»

Альберт Филозов — о том, как любовь продлила ему жизнь

Коллекция. Караван историй
Тайны фиванских гробниц Тайны фиванских гробниц

Что изображено на стенах египетских гробниц и как «читать» основные сюжеты

Вокруг света
Антон Мегердичев: Хотите что-то изменить — так меняйте сейчас Антон Мегердичев: Хотите что-то изменить — так меняйте сейчас

Режиссер Антон Мегердичев — как кино может зомбировать зрителя

Ведомости
Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты

Чем уникален седноид на краю Солнечной системы, получивший прозвище «Аммонит»

Inc.
Пляжный гид Пляжный гид

Где и как можно загорать и купаться в городе

Лиза
Без крыши дороже Без крыши дороже

Стоят ли кабриолеты своих денег

Деньги
Не только японская манга: какие комиксы выпускаются в разных странах и чем они интересны Не только японская манга: какие комиксы выпускаются в разных странах и чем они интересны

Почему истории в картинках стали такими популярными по всему миру?

ТехИнсайдер
Юрий Васильев: «Некто Ширвиндт» Юрий Васильев: «Некто Ширвиндт»

Александра Анатольевича все в Театре сатиры называли просто Шурой

Коллекция. Караван историй
Про пропан Про пропан

Если газ сжиженный, то он всё-таки ещё газ или уже жидкость?

Наука и жизнь
Исследование: мозг пользователей TikTok работает иначе в рискованных ситуациях Исследование: мозг пользователей TikTok работает иначе в рискованных ситуациях

У пользователей TikTok и Reels возрастает склонность к импульсивным решениям

Inc.
Польза печени трески: почему врачи рекомендуют есть этот деликатес зимой Польза печени трески: почему врачи рекомендуют есть этот деликатес зимой

Вкусная на бутерброде, источник незаменимых витаминов — все это печень трески

РБК
Зоологи подтвердили крайнюю редкость рака у черепах Зоологи подтвердили крайнюю редкость рака у черепах

Почему злокачественные опухоли редко встречаются у черепах

N+1
У Татьяны Замировской вышла книга «Свечи апокалипсиса». MAXIM публикует эксклюзивный отрывок У Татьяны Замировской вышла книга «Свечи апокалипсиса». MAXIM публикует эксклюзивный отрывок

Книга про самый дорогогой свечной бутик в Нью-Йорке основана на реальном опыте

Maxim
Палеогенетики уточили популяционную историю Таримской впадины Палеогенетики уточили популяционную историю Таримской впадины

Как ученые анализировали геномы древних людей из Таримской впадины

N+1
«Пишите… А. Куприн» «Пишите… А. Куприн»

Эмиграция сложилась для Куприна не просто трудно, а скорее — трагически

Дилетант
В такси на Дубровку В такси на Дубровку

Ищешь живописное место для фотосессии? Советские фильмы знают ответ!

Лиза
Инфекционный след: что вызывает болезнь Альцгеймера и зачем нужен когнитивный резерв Инфекционный след: что вызывает болезнь Альцгеймера и зачем нужен когнитивный резерв

О вероятных причинах и механизмах развития болезни Альцгеймера

Forbes
«Все это было чудом» «Все это было чудом»

«Союз» — «Аполлон»: пример того, что космос возможен как зона сотрудничества

Монокль
РНК нейрональных предшественников в гиппокампе указала на нейрогенез у взрослых РНК нейрональных предшественников в гиппокампе указала на нейрогенез у взрослых

Как ученые подтвердили нейрогенез у взрослых

N+1
Взяться за голову Взяться за голову

В КХЛ усилили защиту от ЧМТ: новые правила и умные капы для игроков

Ведомости
Пар костей не ломит Пар костей не ломит

История русской бани и опыт, который пригодится и сегодня

Лиза
Как избежать ошибок на переговорах Как избежать ошибок на переговорах

Распространенные просчеты в оффлайн- и онлайн-переговорах и как их избежать

Inc.
Пластиковый мусор в гнездах стал смертельной ловушкой для аистят Пластиковый мусор в гнездах стал смертельной ловушкой для аистят

Как пластиковый мусор в гнездах вредит потомству белых аистов

N+1
Болит слева, но не сердце! Болит слева, но не сердце!

Боль в груди: сердечные и несердечные причины – как различить?

Здоровье
Почему ЕС не растет Почему ЕС не растет

Что провоцирует системный кризис развития Евросоюза

Эксперт
Открыть в приложении