Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Клеймо на душе: чем опасна стигматизация людей с психическими расстройствами Клеймо на душе: чем опасна стигматизация людей с психическими расстройствами

Чем опасна стигматизация психических расстройств и почему с ней нужно бороться?

Psychologies
Бразильский динозавр отрастил перьевой гребень и по паре шипов на плечах Бразильский динозавр отрастил перьевой гребень и по паре шипов на плечах

Скорее всего, эти украшения служили для брачных демонстраций

N+1
Директор петербургского Манежа Павел Пригара — о свободе и реальности Директор петербургского Манежа Павел Пригара — о свободе и реальности

Директор Манежа о том, как музеям искать свое место в мире

РБК
Эффект «зловещей долины»: могут ли роботы сделать нас счастливыми Эффект «зловещей долины»: могут ли роботы сделать нас счастливыми

Рассказываем, как роботы помогают ухаживать за пожилыми, учиться, работать

Forbes
Дарья Бобылева: Способы не попасть в ад. Отрывок из романа «Неучтенная планета» Дарья Бобылева: Способы не попасть в ад. Отрывок из романа «Неучтенная планета»

Отрывок из нового психотерапевтического романа Дарьи Бобылевой

СНОБ
Исследование Inc.: российский венчурный рынок в 2020 году вырос почти вдвое Исследование Inc.: российский венчурный рынок в 2020 году вырос почти вдвое

Российский венчурный рынок в 2020 году вырос почти в два раза

Inc.
Наталия Репина: Пролог. Отрывок из нового романа Наталия Репина: Пролог. Отрывок из нового романа

Фрагмент из романа Наталии Репиной о том, как незаметно проходит реальная жизнь

СНОБ
Словно комета Словно комета

Jony взлетел в топы главных чартов страны словно комета

OK!
Четверо парней и Гусева: как изменились герои Четверо парней и Гусева: как изменились герои

Как выглядят актеры "гангстерской саги" сегодня?

Cosmopolitan
Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси

Джобен Бевирт хочет создать авиатакси по цене UberX

Forbes
Эмоциональный интеллект для менеджеров проектов Эмоциональный интеллект для менеджеров проектов

Навыки работы с людьми, необходимые для достижения лучших результатов

kiozk originals
Ниже некуда! Ниже некуда!

Почему температура тела бывает пониженной?

Лиза
Что произойдет с финансами в будущем? Что произойдет с финансами в будущем?

Что ждет наличные и финтех в будущем?

GQ
Экономика доверия: как осторожность граждан сказывается на развитии страны Экономика доверия: как осторожность граждан сказывается на развитии страны

Уровень ВВП в России мог быть выше, если бы мы друг другу доверяли

Forbes
Токсичное пятно: как экологическая катастрофа в Норильске отразилась на репутации компании Владимира Потанина Токсичное пятно: как экологическая катастрофа в Норильске отразилась на репутации компании Владимира Потанина

Почему затраты «Норникеля» на экологию пока не заметны

Forbes
Муся Тотибадзе Муся Тотибадзе

Красотка-бабушка из Парижа и почему в Петербурге некомильфо носить пуховик

Собака.ru
Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину

Анатомически точные модели органов помогут в обучении хирургов

N+1
9 книг, которые подарят праздничное настроение 9 книг, которые подарят праздничное настроение

Эти девять книг помогут обрести новогоднее настроение в любое время года

РБК
Пора на маркет: почему бизнес подключается к маркетплейсам Пора на маркет: почему бизнес подключается к маркетплейсам

Почему маркетплейсы всё более популярны, и чем они выгодны компаниям?

Inc.
«День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане «День праха»: глава из нового романа Жана-Кристофа Гранже о комиссаре Ньемане

Отрывок из нового романа признанного мастера триллера Жана-Кристофа Гранже

Forbes
Вдовий дом, богадельня и приют для малолетних преступников: кому и как помогали московские меценаты прошлого Вдовий дом, богадельня и приют для малолетних преступников: кому и как помогали московские меценаты прошлого

Московские особняки, вошедшие в историю отечественной благотворительности

Forbes
Зрачки указали на депрессивные симптомы Зрачки указали на депрессивные симптомы

Ученые: реакция зрачков на вознаграждение зависит от состояния психики

N+1
«В горящую избу войдет»: почему женщины в России спасают мужчин от долгов «В горящую избу войдет»: почему женщины в России спасают мужчин от долгов

Как россиянки попадают в долговую яму и становятся потенциальными банкротами

Psychologies
Как правильно обращаться с деньгами, чтобы их стало больше: 8 лайфхаков Как правильно обращаться с деньгами, чтобы их стало больше: 8 лайфхаков

Денег никогда не бывает много, а чаще всего их просто не хватает

Cosmopolitan
Слонов посчитали со спутника Слонов посчитали со спутника

Точность работы алгоритма сравнима с человеческой

N+1
Найден способ превращать ненужный полиэтилен в ценный клей Найден способ превращать ненужный полиэтилен в ценный клей

Этот процесс превращает пластиковые отходы в нечто более ценное

Популярная механика
Черная «Волга», о которой мечтали миллионы Черная «Волга», о которой мечтали миллионы

Мифы и факты о ГАЗ-3102 в его день рождения

Maxim
Что такое сказкотерапия и как она лечит. Интервью с психологом Что такое сказкотерапия и как она лечит. Интервью с психологом

Как сказкотерапия помогает взрослым

РБК
2020-й: что это было и как с этим жить 2020-й: что это было и как с этим жить

Как подводить итоги 2020 года и как давать оценку тому, что произошло?

РБК
Открыть в приложении