Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Главное — участие Главное — участие

Как домохозяйке основать международную бизнес-империю?

Forbes
5 ошибок Ильи Елпанова, основателя «Ешь деревенское» 5 ошибок Ильи Елпанова, основателя «Ешь деревенское»

Ошибки, которые дали основателю «Ешь деревенское» полезный опыт

Inc.
Эпиляция и депиляция: что можно и нельзя во время беременности Эпиляция и депиляция: что можно и нельзя во время беременности

Какие методы эпиляции и депиляции можно использовать во время беременности?

9 месяцев
Как встретить принца: истории знакомства королевских пар Как встретить принца: истории знакомства королевских пар

Даже с будущим королем можно познакомиться при вполне банальных обстоятельствах

Cosmopolitan
Пангасиус Пангасиус

Пангасиус – идеальная рыба для тех, кто худеет

Худеем правильно
Глава Zoom Эрик Юань каждый день задает себе один вопрос. Он помогает ему решать проблемы и добиваться успеха Глава Zoom Эрик Юань каждый день задает себе один вопрос. Он помогает ему решать проблемы и добиваться успеха

Глава Zoom Эрик Юань — «А что я могу сделать сегодня по-другому?»

Inc.
Сомневаетесь в друге? Ответьте на 7 вопросов о ваших отношениях Сомневаетесь в друге? Ответьте на 7 вопросов о ваших отношениях

Как понять, что с дружескими отношениями точно пора заканчивать?

Psychologies
5 шагов к тому, чтобы стать сильнее 5 шагов к тому, чтобы стать сильнее

Каждый из нас может стать чуточку сильнее

Psychologies
Зрачки указали на депрессивные симптомы Зрачки указали на депрессивные симптомы

Ученые: реакция зрачков на вознаграждение зависит от состояния психики

N+1
Режиссер фильма «Ма Рейни: мать блюза» Джордж С. Вольф — о последней роли Чедвика Боузмана Режиссер фильма «Ма Рейни: мать блюза» Джордж С. Вольф — о последней роли Чедвика Боузмана

Изнурительный съемочный процесс и наследие Чедвика Боузмана

Esquire
Как инженер-ядерщик с русскими корнями придумала «умную» карту деловых связей и попала в список Forbes Как инженер-ядерщик с русскими корнями придумала «умную» карту деловых связей и попала в список Forbes

Как 28-летняя Екатерина Парамонова попала в рейтинг «30 до 30» Forbes

Forbes
Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры

Первичная черная дыра - это удивительный космический феномен

Популярная механика
Максен из карбида титана превратил ткань в клетку Фарадея Максен из карбида титана превратил ткань в клетку Фарадея

Простой способ получения ткани с защитой от электромагнитного излучения

N+1
Режиссер «Обратной связи» Алексей Нужный: «В России человек хочет одно, а делает что-то другое» Режиссер «Обратной связи» Алексей Нужный: «В России человек хочет одно, а делает что-то другое»

Режиссер Алексей Нужный рассказывает о своем новом фильме «Обратная связь»

Maxim
Искусство облачения капуцинов Искусство облачения капуцинов

Марина Прохорова об Artycapucines Collection 2020

Weekend
Как девелопер «Самолет» помогает миллиардерам и крупнейшим землевладельцам России зарабатывать деньги Как девелопер «Самолет» помогает миллиардерам и крупнейшим землевладельцам России зарабатывать деньги

Девелопер «Самолет» смог найти общий язык с главными российскими лендлордами

Forbes
Откуда берутся странные научные открытия, или как музыка может стать терапией и повышать иммунитет Откуда берутся странные научные открытия, или как музыка может стать терапией и повышать иммунитет

Отрывок из книги «Легко ли плыть в сиропе» о невероятных научных открытиях

Forbes
Правила жизни Бена Кингсли Правила жизни Бена Кингсли

Правила жизни актера Бена Кингсли

Esquire
«Не хочу и не обязан»: что нам должны наши друзья? «Не хочу и не обязан»: что нам должны наши друзья?

Разбираемся, есть ли границы в дружеской помощи и поддержке

Psychologies
2008 год 2008 год

Победа Дмитрия Медведева на выборах, триумф российского футбола и «Евровидение»

Esquire
Светлое будущее Светлое будущее

Под иностранным именем Тесс Йопп скрывается наша бойкая соотечественница

Vogue
Одиночество разглядели в сети пассивного режима работы мозга Одиночество разглядели в сети пассивного режима работы мозга

У одиноких людей работа мозга отличается как структурно, так и функционально

N+1
Зимние развлечения: советуют Толстой, Чайковский и Репин Зимние развлечения: советуют Толстой, Чайковский и Репин

Выбирайте зимний досуг по советам русских классиков

Культура.РФ
Кибербаг: как выход самой долгожданной игры года стал катастрофой для фанатов и инвесторов Кибербаг: как выход самой долгожданной игры года стал катастрофой для фанатов и инвесторов

Почему долгожданный релиз обернулся катастрофой для инвесторов и фанатов игр?

Forbes
Самые популярные позы для сидения на диване с девушкой и что они значат Самые популярные позы для сидения на диване с девушкой и что они значат

Что значат самые ходовые позы для обнимашек на диване

Maxim
Почему антиэйджинг стал прибежищем мошенников Почему антиэйджинг стал прибежищем мошенников

Надежда отменить старость привлекает в индустрию антиэйджинга мошенников

СНОБ
5 причин, по которым мы тратим деньги в никуда: что с этим делать? 5 причин, по которым мы тратим деньги в никуда: что с этим делать?

Для некоторых бестолковые траты становятся странной привычкой

Cosmopolitan
Хочешь музык новых самых? Хочешь музык новых самых?

Музыкальные радиостанции включают исключительно какую‑то дрянь

GQ
Законы изменения офисных пространств Законы изменения офисных пространств

Бизнес вынес серьёзные уроки из 2020 года

Inc.
Открыть в приложении