Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Артур Гэнсон и его удивительные машины: Леонардо XX века Артур Гэнсон и его удивительные машины: Леонардо XX века

С великим Леонардо да Винчи Артура Гэнсона сравнивают с завидной регулярностью

Популярная механика
Одним махом Одним махом

Как гиперзвуковые технологии меняют мир и почему Россия «впереди планеты всей»

Популярная механика
Кровососущие твари: что делать, если вас укусил клещ Кровососущие твари: что делать, если вас укусил клещ

Какие бывают последствия от укуса клеща и как этого избежать?

Популярная механика
Используй ложку и телефон: 20 способов доставить себе удовольствие Используй ложку и телефон: 20 способов доставить себе удовольствие

Двадцать разных способов мастурбации на любой вкус и цвет

Cosmopolitan
6 знаковых фильмов Милоша Формана 6 знаковых фильмов Милоша Формана

Картины прославленного чешско-американского режиссера

Esquire
Музей боли и страха: выставка одежды жертв насилия с их историями Музей боли и страха: выставка одежды жертв насилия с их историями

Зачем нужны выставки, посвященные жертвам насилия?

VOICE
Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен

Мод Жульен в фантазиях Луи Дидье должна была стать полубогиней

VOICE
Борьба с самим собой. В прокат выходит «Клон» — хит фестиваля «Санденс» Борьба с самим собой. В прокат выходит «Клон» — хит фестиваля «Санденс»

«Клон» — триллер о ненависти к самому себе

СНОБ
Что делать, если у кошки или собаки блохи: вот как от них избавиться Что делать, если у кошки или собаки блохи: вот как от них избавиться

Как заметить блох на питомце и что с ними делать?

Популярная механика
Модный приговор: к чему может привести резкая смена образа? Модный приговор: к чему может привести резкая смена образа?

В чем опасность несоответствия имиджа и самого человека?

Psychologies
Моя крепость Моя крепость

Интересный и масштабный проект — усадьба в стиле современного шале

SALON-Interior
«Нет харассменту»: как создать безопасную рабочую среду для женщин «Нет харассменту»: как создать безопасную рабочую среду для женщин

Насколько распространены домогательства на рабочих местах и как их предотвратить

Psychologies
Два слоя графена помогли перовскитным солнечным элементам проработать 5000 часов Два слоя графена помогли перовскитным солнечным элементам проработать 5000 часов

Внешний слой графена защищает солнечный элемент от кислорода и воды

N+1
Как убрать щеки: 7 способов и советы экспертов Как убрать щеки: 7 способов и советы экспертов

Скорректировать пухлые щеки можно самостоятельно либо с помощью специалистов

РБК
Вы приняты! Вы приняты!

5 мошеннических схем при поиске работы в соцсетях: не дай себя обмануть

Лиза
Даешь четкий ритм! Даешь четкий ритм!

Аритмия — одна из самых частых проблем, с которой люди обращаются к кардиологу

Лиза
Электробайк и велосипед в городской среде: что нужно знать начинающему велосипедисту Электробайк и велосипед в городской среде: что нужно знать начинающему велосипедисту

Стоит ли покупать велосипед или электробайк в городских условиях?

ТехИнсайдер
Как сделать ссылку на телеграм — делимся каналом и личным аккаунтом Как сделать ссылку на телеграм — делимся каналом и личным аккаунтом

Где найти ссылки на пользователя, канал или отдельное сообщение внутри телеграм

CHIP
Кого считать мертвым: как менялись представления о границе между жизнью и смертью Кого считать мертвым: как менялись представления о границе между жизнью и смертью

Современная медицина поставила под сомнение привычную черту смерти

Вокруг света
6 мифов об аккумуляторах смартфонов, в которые верят даже некоторые разработчики 6 мифов об аккумуляторах смартфонов, в которые верят даже некоторые разработчики

Все еще ждете выключения устройства, чтобы наконец его зарядить? Это миф!

ТехИнсайдер
Человек, который боялся воды: путешествия Тура Хейердала Человек, который боялся воды: путешествия Тура Хейердала

Когда Тур Хейердал вышел в море под парусом «Кон-Тики», ему предрекали фиаско

Вокруг света
Банановая диета для похудения на 3 и 7 дней: меню и результаты Банановая диета для похудения на 3 и 7 дней: меню и результаты

Пробовали ли вы худеть на бананах?

VOICE
Джонни Депп и Кейт Мосс: что заставило расстаться самую скандальную пару 90-х Джонни Депп и Кейт Мосс: что заставило расстаться самую скандальную пару 90-х

Почему распалась самая эпатажная звездная пара конца XX века

VOICE
Здесь были денисовцы: зуб древней девочки пролил свет на перемещения предков людей Здесь были денисовцы: зуб древней девочки пролил свет на перемещения предков людей

Антропологи сделали неожиданную находку в Юго-Восточной Азии

Вокруг света
Ночницы пожужжали как пчелы и шершни и отпугнули сов Ночницы пожужжали как пчелы и шершни и отпугнули сов

Пример бейтсовской мимикрии, при котором млекопитающее подражает насекомому

N+1
Марк Оже: «Старости не существует» Марк Оже: «Старости не существует»

Антрополог Марк Оже делится своим взглядом на старение

Psychologies
Прокусить не так-то просто: кто пил кровь динозавров? Прокусить не так-то просто: кто пил кровь динозавров?

Доисторические кровососы стали одной из причин вымирания динозавров

Вокруг света
Как воспитывать детей по заветам Екатерины II Как воспитывать детей по заветам Екатерины II

Делимся «педагогической поэмой», дошедших до нас из XVIII века

Psychologies
Старые авто в состоянии новых. Как купить классическую машину без пробега Старые авто в состоянии новых. Как купить классическую машину без пробега

Автопроизводители взяли моду «допечатывать» тиражи старых машин

РБК
Открыть в приложении