Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики

Главный секрет этих отношений — нездоровые общие увлечения

Cosmopolitan
56 м² 56 м²

Неправильную геометрию квартиры дизайнер исправила с помощью систем хранения

AD
Эпоха радикальных перемен: автомобильные двигатели конца ХХ века Эпоха радикальных перемен: автомобильные двигатели конца ХХ века

К концу ХХ века в создании автомобильных двигателей внезапно назрела революция

Популярная механика
Осьминоги любят давать рыбе «леща»: морские хулиганы Осьминоги любят давать рыбе «леща»: морские хулиганы

Зачем осьминоги бьют рыбу во время совместного кормления

Популярная механика
«Амбиций у меня вообще поубавилось, тем более в бизнесе»: главное из интервью Олега Тинькова на «Дожде» «Амбиций у меня вообще поубавилось, тем более в бизнесе»: главное из интервью Олега Тинькова на «Дожде»

Олег Тиньков рассказал о борьбе с болезнью и сорвавшейся сделке с «Яндексом»

VC.RU
55 м² 55 м²

Отсутствие окон в спальнях не помешало Борису Денисюку оформить квартиру

AD
5 известных ресторанов дореволюционной Москвы 5 известных ресторанов дореволюционной Москвы

В каких ресторанах кипела дневная и вечерняя жизнь дореволюционной Москвы?

Культура.РФ
Как живут школьники из рыбацкой деревни Взвад: фотоистория Как живут школьники из рыбацкой деревни Взвад: фотоистория

Дети из деревни Взвад в Новгородской области рассказывают о своей жизни

Esquire
Кто несет ответственность за поведение маленьких детей в общественных местах Кто несет ответственность за поведение маленьких детей в общественных местах

Кто ответственен за поведение детей в обществе — родители? Дети? Окружающие?

СНОБ
Что такое йога: инструкция для начинающих Что такое йога: инструкция для начинающих

Развенчиваем мифы о йоге и рассказываем, с чего начать

РБК
Правила жизни Стивена Спилберга Правила жизни Стивена Спилберга

Правила жизни режиссера Стивена Спилберга

Esquire
Как объяснить ребенку, что такое экономика Как объяснить ребенку, что такое экономика

Как научить ребенка пользоваться деньгами

СНОБ
Making of: как создавался номер с Виктором Цоем (июль – август 2020) Making of: как создавался номер с Виктором Цоем (июль – август 2020)

О концепции спецномеров с героями «из прошлого»

Esquire
Правила жизни Ирины Антоновой Правила жизни Ирины Антоновой

Правила жизни президент ГМИИ имени Пушкина Ирины Антоновой

Esquire
Какую роль дресс-код играет в жизни современного человека Какую роль дресс-код играет в жизни современного человека

Начальник, государство, ночной клуб и даже церковь требуют дресс-код

GQ
80 м² 80 м²

Дизайнер Лидия Трубецких оформила квартиру в нейтральных природных оттенках

AD
Брэду Питту – 57! Вспоминаем лучшие высказывания актера Брэду Питту – 57! Вспоминаем лучшие высказывания актера

Вспомнили лучшие высказывания Брэда Питта, показывающие, что он за человек

РБК
Оторви и брось Оторви и брось

Как Ария Кулина пыталась следовать советам из отрывного календаря для женщин

Cosmopolitan
Европейцы отказали искусственному интеллекту в праве убивать людей Европейцы отказали искусственному интеллекту в праве убивать людей

Решение об использовании вооружения должен принимать человек

N+1
7 игр для быстрого знакомства на новогодних вечеринках 7 игр для быстрого знакомства на новогодних вечеринках

Лучшие игры для вечеринки, на которой еще не все знакомы

Maxim
56 м² 56 м²

Дизайнеры создали атмосферу дачи в своей московской квартире

AD
Истинно мужское украшение Истинно мужское украшение

В мужских украшениях, особенно кольцах, определенно что-то есть

Playboy
Рождественские десерты из Европы Рождественские десерты из Европы

Настроение зимних праздников — это гирлянды, сосновый запах, кулинарные традиции

Seasons of life
20 способов открыть бутылку без открывалки 20 способов открыть бутылку без открывалки

«Дайте мне точку опоры, и я открою вам любую бутылку!»

Популярная механика
Правила жизни Джеффа Бриджеса Правила жизни Джеффа Бриджеса

Правила жизни актера Джеффа Бриджеса

Esquire
Поколение Z на работе Поколение Z на работе

Как понять поколение Z и найти с ним общий язык

kiozk originals
Екатерина Варнава: «Я сильная, но при этом дико ранимая» Екатерина Варнава: «Я сильная, но при этом дико ранимая»

Екатерина Варнава – о счастье, любви, собаке и стечении обстоятельств

Cosmopolitan
Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи Четыре случая в истории, наглядно показывающие, что с радиацией шутки плохи

Радиация vs. человеческая глупость — 1:0

Maxim
Крупные шмели оказались разборчивее мелких Крупные шмели оказались разборчивее мелких

Крупные шмели тратят больше времени, чтобы запомнить цветки

N+1
Открыть в приложении