Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
«Зеленые» без политики «Зеленые» без политики

Трансфер технологий даже при существующих санкционных ограничениях

РБК
Мир на бобах Мир на бобах

Как американские власти и защитники климата разгоняют цены на продовольствие

Эксперт
Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга Отрывок из автобиографии Майи Анджелу — великой темнокожей писательницы и соратницы Мартина Лютера Кинга

Фрагмент из книги Майи Анджелу «Поэтому птица в неволе поет»

Esquire
«Делай как знаешь»: что скрывает пассивная агрессия «Делай как знаешь»: что скрывает пассивная агрессия

Что делать, если замечаешь за собой пассивно-агрессивное поведение

Psychologies
Как быстро прекратить истерику у девушки Как быстро прекратить истерику у девушки

Как справиться с истинной и манипулятивной истерикой своей партнерши?

Maxim
Афантазия не помешала работе пространственной памяти Афантазия не помешала работе пространственной памяти

У людей с афантазией пространственная память все равно работает нормально

N+1
2001 год 2001 год

Митинг журналистов НТВ, шоу «За стеклом», появление «Единой России»

Esquire
Инклюзия, пирсинг и кроксы: история одного опекунства Инклюзия, пирсинг и кроксы: история одного опекунства

Если ребенок не может ничего объяснить, можем ли мы принимать решения за него?

Psychologies
Реклама в СССР: как это было Реклама в СССР: как это было

Какой была советская реклама, и зачем она была нужна?

СНОБ
У птерозавров нашлись нелетающие родственники У птерозавров нашлись нелетающие родственники

Лагерпетиды — небольшое семейство предшественников динозавров

N+1
«Душа» – это один из лучших мульфильмов Pixar «Душа» – это один из лучших мульфильмов Pixar

Почему вы обязательно должны посмотреть мультфильм «Душа»

GQ
Последние слова заключенных перед смертной казнью Последние слова заключенных перед смертной казнью

Страшная тюремная энциклопедия из Техаса

Maxim
Зоологи заявили об открытии нового вида клюворылых китов у берегов Мексики Зоологи заявили об открытии нового вида клюворылых китов у берегов Мексики

Его обнаружили у западного побережья Мексики

N+1
Тело мастера. На экраны выходит документальный фильм «Диего Марадона» Тело мастера. На экраны выходит документальный фильм «Диего Марадона»

Азиф Кападиа реконструирует миф о великом футболисте и несчастном гении

СНОБ
Планета обезьянник: таймлайн давления государства на рейвы с 1990-х и до наших дней Планета обезьянник: таймлайн давления государства на рейвы с 1990-х и до наших дней

История рейвов в России: как они начались и почему закончились

Esquire
Не успеваем в роддом! Пошаговая инструкция, как принять роды Не успеваем в роддом! Пошаговая инструкция, как принять роды

Что делать, если роды начались внезапно и будущая мама не успевает в роддом

9 месяцев
Разгладить по пробору Разгладить по пробору

Что делать, если выпадают волосы?

Худеем правильно
Крутой поворот Крутой поворот

Единственная столичная особая экономическая зона «Технополис Москва»

Эксперт
Гипноз: как это работает и почему не стоит бояться? Гипноз: как это работает и почему не стоит бояться?

Сейчас ты узнаешь, что такое гипноз с научной точки зрения

Cosmopolitan
«Не хочу и не обязан»: что нам должны наши друзья? «Не хочу и не обязан»: что нам должны наши друзья?

Разбираемся, есть ли границы в дружеской помощи и поддержке

Psychologies
Каникулы без последствий Каникулы без последствий

Эксперты рассказывают, как лучше питаться в праздничные дни

Лиза
Ученые обнаружили в ядовитой пещере огромную многоножку: миллионы лет под землей Ученые обнаружили в ядовитой пещере огромную многоножку: миллионы лет под землей

В древней пещере Мовиле ученые нашли весьма необычных существ

Популярная механика
Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома» Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома»

В 2018 году «Газпром» начал создавать своего мегаподрядчика

Forbes
7 секретов стиля Грейс Келли, которые сделали ее модной иконой 7 секретов стиля Грейс Келли, которые сделали ее модной иконой

В чем секрет обворожительной Грейс Келли?

Cosmopolitan
Портретная сходка Портретная сходка

О выставке «В круге Дягилевом» и о том, чем стал этот круг для русской культуры

Weekend
2003 год 2003 год

Арест Михаила Ходорковского, появление ГНК, триумф t.A.T.u. и Пол Маккартни

Esquire
Лифтинг — правда или фейк? Какие процедуры действительно подтягивают кожу лица Лифтинг — правда или фейк? Какие процедуры действительно подтягивают кожу лица

Что в историях о “подтягивающих” средствах правда, а что ложь?

Cosmopolitan
Как NASA исследовало загадочный искусственный объект на орбите Земли: гость их прошлого Как NASA исследовало загадочный искусственный объект на орбите Земли: гость их прошлого

Блок ракеты «Кентавр», или странный объект на орбите Земли

Популярная механика
Как успокоить собаку во время фейерверков Как успокоить собаку во время фейерверков

5 советов от кинолога для владельцев нервных четвероногих друзей

Maxim
Открыть в приложении