Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Подозрительно выгодное предложение: как не ошибиться с выбором подрядчика в кризис Подозрительно выгодное предложение: как не ошибиться с выбором подрядчика в кризис

На что обратить внимание при выборе нового партнера

Forbes
Самые большие ударные кратеры на Земле: следы древних метеоритов Самые большие ударные кратеры на Земле: следы древних метеоритов

Какие столкновения астероидов с Землей оставили самые большие кратеры?

Популярная механика
Когда нами манипулируют: 10 самых вредных приемов Когда нами манипулируют: 10 самых вредных приемов

Важна не сам факт манипуляции, а какими способами она совершается

Psychologies
Сексуальные привычки животных: 5 самых необычных способов оплодотворения в дикой природе Сексуальные привычки животных: 5 самых необычных способов оплодотворения в дикой природе

Самые странные способы оплодотворить свою вторую половинку в животном мире

Популярная механика
Вам письмо Вам письмо

В Антарктиде, на Эвересте, под водой – самые необычные почтовые отделения мира

Вокруг света
«Никогда не рассказывайте ему об этом»: мужчины комментируют мнение женщины об отношениях «Никогда не рассказывайте ему об этом»: мужчины комментируют мнение женщины об отношениях

Как отличается взгляд женщин и мужчин на отношения?

Psychologies
Почему про детей говорят Почему про детей говорят

Раскрываем тайну капустных дел

ТехИнсайдер
Пошаговая инструкция по избавлению от засилья гринбэка Пошаговая инструкция по избавлению от засилья гринбэка

Шагом к дедолларизации является переход к расчетам на основе «бумажного» золота

Эксперт
Сгладить ситуацию Сгладить ситуацию

Причины появления растяжек на теле и как с ними бороться

Лиза
Ты все придумываешь, ничего не было: что такое газлайтинг и как ему противостоять Ты все придумываешь, ничего не было: что такое газлайтинг и как ему противостоять

Газлайтинг — что это такое, какие признаки и виды газлайтинга бывают

Forbes
Сложнее, чем кажется: ученые раскрыли ранее неизвестный язык шимпанзе Сложнее, чем кажется: ученые раскрыли ранее неизвестный язык шимпанзе

Крики приматов помогут понять, как формировался человеческий язык

Вокруг света
«Я изображаю веселую оптимистку, а внутри чувствую себя неполноценной» «Я изображаю веселую оптимистку, а внутри чувствую себя неполноценной»

Почему мы можем чувствовать неуверенность, находясь рядом с другими людьми?

Psychologies
Дело Эрлиха — Альтера Дело Эрлиха — Альтера

80 лет назад в Советском Союзе создали Еврейский антифашистский комитет

Дилетант
Личинки австралийских устриц приплыли на шум клешней раков-щелкунов Личинки австралийских устриц приплыли на шум клешней раков-щелкунов

Открытие зоологов поможет восстанавливать разрушенные устричные рифы

N+1
Останки из Суздальского Ополья указали на плохое здоровье средневековых жителей поселения Останки из Суздальского Ополья указали на плохое здоровье средневековых жителей поселения

Ученые исследовали останки 26 человек с памятника Михали-3

N+1
БАДы: польза и вред биологически активных добавок БАДы: польза и вред биологически активных добавок

Споры вокруг БАДов не утихают десятилетиями

Psychologies
Разбор экономики STEPN и пять вариантов будущего Разбор экономики STEPN и пять вариантов будущего

Кто контролирует цену токенов, как её меняют и что может пойти не так

VC.RU
«Мы не уважаем богатых, но все хотим богатства»: главное из интервью Рубена Варданяна «Мы не уважаем богатых, но все хотим богатства»: главное из интервью Рубена Варданяна

Рубен Варданян — имеет ли еще бизнес влияние на принятие решений в стране

Forbes
Любимица ацтеков: названы 6 научных причин есть тыкву каждый день Любимица ацтеков: названы 6 научных причин есть тыкву каждый день

Рассказываем все о пользе тыквы, какие болезни она лечит и кому ее нельзя

Вокруг света
Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом» Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом»

Если в России говорят «кустодиевская женщина», в Европе скажут «рубенсовская»

Вокруг света
Меч Аллаха: как построил свою империю султан Саладин Меч Аллаха: как построил свою империю султан Саладин

Что сохранила история о Саладине?

Вокруг света
Идеология многонационального народа Идеология многонационального народа

Ценностные основы идеологии закреплены в обновленной Конституции России

Эксперт
Три очень красивые актрисы 90-х, карьеру которых испортил строптивый нрав Три очень красивые актрисы 90-х, карьеру которых испортил строптивый нрав

Из-за сложного характера об этих актрисах все забыли

VOICE
«Слишком травмоопасно» и другие мифы о скейтбординге «Слишком травмоопасно» и другие мифы о скейтбординге

Популярные мифы вокруг скейтбординга и почему стоит попробовать встать на доску

Psychologies
TESS отыскал новую экзопланету-компаньона внутри орбиты горячего юпитера TESS отыскал новую экзопланету-компаньона внутри орбиты горячего юпитера

Эта экзопланета не вписывается в имеющиеся теории формирования горячих юпитеров

N+1
«Операция «Мясной фарш»: военная драма про гениальный обман «Операция «Мясной фарш»: военная драма про гениальный обман

«Операция «Мясной фарш» — о чем на самом деле это кино

Forbes
Сохатый хозяин леса: что мы знаем о лосях Сохатый хозяин леса: что мы знаем о лосях

Этот могучий зверь стал героем многих легенд

Вокруг света
Ископаемые биомолекулы указали на теплокровность тираннозавра Ископаемые биомолекулы указали на теплокровность тираннозавра

Общий предок динозавров был теплокровным

N+1
Как в клубе «Пестово» внедряют методики Академии гольфа Джейсона Флойда Как в клубе «Пестово» внедряют методики Академии гольфа Джейсона Флойда

О выходе на новый уровень бизнеса и будущем гольфа в России

РБК
Открыть в приложении