Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Ценность вместо цены: какие новые стратегии нужны модному бизнесу в России Ценность вместо цены: какие новые стратегии нужны модному бизнесу в России

Зачем брендам одежды рисковать в текущей экономической ситуации

Forbes
Как предотвратить преждевременное старение Как предотвратить преждевременное старение

Несколько советов, как сохранить молодость

Maxim
7 альбомов хип-хопа последних десяти лет, которые обожают интеллектуалы 7 альбомов хип-хопа последних десяти лет, которые обожают интеллектуалы

Изучили рейтинги меломанских сайтов и составили любопытный список хип-хопа

Maxim
6 признаков глупого человека 6 признаков глупого человека

Как понять, кого нужно избегать? Да и нужно ли на самом деле?

Psychologies
Как поддержать тяжело заболевшего человека Как поддержать тяжело заболевшего человека

Как подобрать правильные слова для тяжело болеющего человека?

Psychologies
Как общаться с нарциссами: 5 подсказок Как общаться с нарциссами: 5 подсказок

Способы противостоять нарциссическим личностям

Psychologies
Кресс-салат Кресс-салат

Кресс-салат — один из самых полезных и в то же время непопулярных видов зелени

Здоровье
5 обязательных книг, которые должен прочесть каждый, кто хочет стать писателем 5 обязательных книг, которые должен прочесть каждый, кто хочет стать писателем

Советы о том, как написать книгу, от признанных мастеров

Maxim
«Все врут»: кому выгодны фейковые новости? «Все врут»: кому выгодны фейковые новости?

Кому нужны фейковые новости?

Psychologies
Почему кошка подставляет зад к лицу хозяина: непредсказуемое поведение вашего питомца Почему кошка подставляет зад к лицу хозяина: непредсказуемое поведение вашего питомца

Кошки тычут нам в лицо своей пятой точкой. Это какой-то особый ритуал?

ТехИнсайдер
Налепили Налепили

Легенды и традиции разных стран, связанные с пельменями

Лиза
Пирамида Маслоу Пирамида Маслоу

Как понимание основных потребностей поможет добиться успеха

Лиза
Петербургский отельер — о том, как сделать премиум-отель из коммуналок Петербургский отельер — о том, как сделать премиум-отель из коммуналок

Отельер Юнис Теймурханлы — о потребности постоянно находиться в гостинице

РБК
«Стар, неинтересен и к тому же беден»: как сложилась судьба автора «Дон Кихота» «Стар, неинтересен и к тому же беден»: как сложилась судьба автора «Дон Кихота»

Жизнь Мигеля де Сервантеса до сих пор остается в определенном смысле загадкой

Вокруг света
Трагедия вундеркинда: почему поэтесса Ника Турбина пострадала от своей ранней славы Трагедия вундеркинда: почему поэтесса Ника Турбина пострадала от своей ранней славы

Что отличает фильм «Ника» от традиционных байопиков

Forbes
Политические конфликты в семье: как их разрешать? Политические конфликты в семье: как их разрешать?

Как быть, когда конфликты раскалывают семью и дружбу?

Psychologies
Нет проблемы: почему сексуальные скандалы не мешают политической карьере в России Нет проблемы: почему сексуальные скандалы не мешают политической карьере в России

Почему домогательства не считаются настоящим нарушением в карьере политиков?

Forbes
«Камень века» и «Божий дар»: 7 великих бриллиантовых афер «Камень века» и «Божий дар»: 7 великих бриллиантовых афер

О самых известных аферах, связанных с драгоценными камнями

РБК
Бешеная сушка: как потерять вес без вреда для здоровья Бешеная сушка: как потерять вес без вреда для здоровья

Что такое сушка тела и в чем ее плюсы и минусы

VOICE
Мальчик продал свою коллекцию карточек Pokémon, чтобы оплатить лечение своей собаки Мальчик продал свою коллекцию карточек Pokémon, чтобы оплатить лечение своей собаки

Трогательная история, что любовь может победить любые трудности

ТехИнсайдер
Гонконг, Казахстан или Грузия: куда лучше перевозить IT-компанию из России Гонконг, Казахстан или Грузия: куда лучше перевозить IT-компанию из России

Преимущества и недостатки оформления бизнеса в Армении, Грузии, Узбекистане

Forbes
Кнопка перезагрузки: история писательницы, которая потеряла дом и нашла смысл жизни Кнопка перезагрузки: история писательницы, которая потеряла дом и нашла смысл жизни

Отрывок из книги «Дикая тишина»: как "нормальный" образ жизни может надоесть

Forbes
Врангели Врангели

Баронский род Врангелей оставил глубокий след в истории России

Дилетант
«Боюсь, что парень пользуется мной, чтобы забыть другую девушку» «Боюсь, что парень пользуется мной, чтобы забыть другую девушку»

Как справиться с тревогой в начале новых отношений?

Psychologies
Какая религия самая распространенная в мире: в это сложно поверить Какая религия самая распространенная в мире: в это сложно поверить

Какие из самых популярных верований являются наиболее распространенными в мире?

ТехИнсайдер
Международный день Гарри Поттера: как сложилась судьба актеров культовой истории о мальчике, который выжил Международный день Гарри Поттера: как сложилась судьба актеров культовой истории о мальчике, который выжил

Как изменились главные актеры Гарри Поттера?

Maxim
Модельные эксперименты подтвердили образование гидротриоксидов в атмосфере Модельные эксперименты подтвердили образование гидротриоксидов в атмосфере

Химики экспериментально подтвердили возможность образования гидротриоксидов

N+1
Майя Анджелу: «Письмо к моей дочери». Сборник очерков Майя Анджелу: «Письмо к моей дочери». Сборник очерков

Майя Анджелу рассказывает о пути на пьедестал американской литературы

СНОБ
«Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов «Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов

Почему новый законопроект о такис критикуют агрегаторы?

Forbes
Открыть в приложении