Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Ссоры с пожилыми родителями: как их избежать Ссоры с пожилыми родителями: как их избежать

Почему иногда мы с пожилыми родителями становимся словно чужими?

Psychologies
Что такое «Ядро Демона» и почему оно так называется? Что такое «Ядро Демона» и почему оно так называется?

Как маленький металлический шар может быть опасным?

Популярная механика
15 признаков коренного ленинградца 15 признаков коренного ленинградца

Своеобразные повадки коренных петербуржцев

Maxim
Открыто соединение, способное «включаться» под действием лазера Открыто соединение, способное «включаться» под действием лазера

Созданный фосфонат позволит точнее и безопаснее воздействовать на организм

Популярная механика
Химики превратили аммиак в аминокислоты Химики превратили аммиак в аминокислоты

Аминокислоты из диазосоединений получились с высокими выходами

N+1
Книги с захватывающим сюжетом: 5 историй о гонках, вoйне и нацистской Германии Книги с захватывающим сюжетом: 5 историй о гонках, вoйне и нацистской Германии

Подборка книг, сюжет которых не уступает лучшим триллерам в кино

ТехИнсайдер
Что такое вылет колесного диска и как не ошибиться с его выбором Что такое вылет колесного диска и как не ошибиться с его выбором

Подбирая колесные диски на автомобиль, следует обращать внимание на вылет диска

РБК
Ставим на паузу: как перерыв в ссоре помогает сохранить любовь Ставим на паузу: как перерыв в ссоре помогает сохранить любовь

момент возникновения конфликта многие склонны усугублять его, а не решать

Psychologies
6 главных качеств Владимира Этуша 6 главных качеств Владимира Этуша

Как Владимир Этуш получил народную славу и признание коллег

СНОБ
8 вещей, которые не так важны для отношений, как принято думать 8 вещей, которые не так важны для отношений, как принято думать

Восемь популярных мифов о гармоничных отношениях

Psychologies
Философия безмятежности: как эпикурейцы учат относиться к страданиям и наслаждениям Философия безмятежности: как эпикурейцы учат относиться к страданиям и наслаждениям

Книга английского философа Джона Селларса «Философия безмятежности»

Forbes
«Теория сексуальной экономики»: почему одних женщин раздражает откровенная одежда на других «Теория сексуальной экономики»: почему одних женщин раздражает откровенная одежда на других

Как и почему срабатывает внутриполовая конкуренция?

Psychologies
Зелёная подкладка, или Разгадка тайны Саши Баки Зелёная подкладка, или Разгадка тайны Саши Баки

При изучении русской иконографии важна любая, даже самая незначительная деталь

Дилетант
Отрывок из книги «Моя небесная красавица» Сара Биазини, дочери актрисы Роми Шнайдер Отрывок из книги «Моя небесная красавица» Сара Биазини, дочери актрисы Роми Шнайдер

Фрагмент из ее мемуаров Роми Шнайдер, а также эссе Сергея Николаевича

СНОБ
Психолог, психотерапевт, психиатр, психоаналитик: в чем разница? Психолог, психотерапевт, психиатр, психоаналитик: в чем разница?

Попробуем разобраться, чем отличается психолог от психотерапевта и психиатра

Psychologies
Исследовательница жирафов: как Энн Иннис Дагг боролась за право быть зоологом Исследовательница жирафов: как Энн Иннис Дагг боролась за право быть зоологом

Энн Иннис Дагг пришлось столкнуться с дискриминацией, сексизмом и непониманием

Forbes
6 простых шагов к счастью 6 простых шагов к счастью

Как создать рецепт счастья?

Psychologies
Мезозойские птицы лонгиптеригиды оказались любителями насекомых Мезозойские птицы лонгиптеригиды оказались любителями насекомых

Мезозойские птицы лонгиптеригиды могли быть всеядными

N+1
О сложных чувствах, повторном браке и потере ребенка: 7 психологических книг О сложных чувствах, повторном браке и потере ребенка: 7 психологических книг

Подборка книг, которая поможет справиться с трудностями бережнее и эффективнее

Psychologies
Какие продукты питания полезны для поддержания иммунитета Какие продукты питания полезны для поддержания иммунитета

Могут ли продукты питания укрепить иммунную систему?

ТехИнсайдер
Картавил ли брат-близнец Ленина? 11 мифов об Ильиче Картавил ли брат-близнец Ленина? 11 мифов об Ильиче

О революционере номер один распространяли различные домыслы

Вокруг света
Прочтешь, не отрываясь: 3 лучших романа Элизабет Гилберт Прочтешь, не отрываясь: 3 лучших романа Элизабет Гилберт

Каким книгам Элизабет Гилберт стоит уделить внимание?

VOICE
Как пользоваться Telegram: от простого обмена сообщениями до использования чат-ботов Как пользоваться Telegram: от простого обмена сообщениями до использования чат-ботов

Как использовать Telegram на «полную катушку»

CHIP
Он, она, двое детей и другие устойчивые семейные модели Он, она, двое детей и другие устойчивые семейные модели

Как развод родителей влияет на детей

СНОБ
Закрытые огневые позиции: как профессионалы прячут орудия от артиллерии врага Закрытые огневые позиции: как профессионалы прячут орудия от артиллерии врага

Что делать, если неприятель мечет в тебя снарядами, а ты даже не знаешь откуда?

ТехИнсайдер
Смотрим «Доисторическую планету». Среда: это жаба Вельзевула, чуваки!. Смотрим «Доисторическую планету». Среда: это жаба Вельзевула, чуваки!.

Серия начинается с велоцирапторов (Velociraptor), которых мы видели еще вчера

N+1
На животе, боках и ягодицах: как женщинам после 30 выбраться из жировых ловушек На животе, боках и ягодицах: как женщинам после 30 выбраться из жировых ловушек

Как бороться с локальными жировыми "ловушками" на теле

VOICE
В чем сила: как поколению-«сэндвич» научиться распоряжаться своими ресурсами В чем сила: как поколению-«сэндвич» научиться распоряжаться своими ресурсами

Как не опустошить себя до конца заботами и остаться разносторонней личностью?

Psychologies
Японские химики создали синтетический аналог аквапоринов Японские химики создали синтетический аналог аквапоринов

Химики из Японии создали аналог аквапоринов

N+1
Открыть в приложении