Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Полюбили чужих детей как родных: самые заботливые звездные отчимы Полюбили чужих детей как родных: самые заботливые звездные отчимы

Мы вспомнили знаменитых отчимов, которые воспитали пасынков и падчериц

Cosmopolitan
Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа

Основная особенность этого катализатора — баланс карбида и оксида железа

N+1
Потерянная звезда Плеяд позволила оценить время возникновения легенд о скоплении Потерянная звезда Плеяд позволила оценить время возникновения легенд о скоплении

Звезды Атлас и Плейона находились дальше друг от друга на небе, чем сейчас

N+1
35 м² 35 м²

Ангелина Бородкина задумала интерьер, сочетающийся с видом из окна

AD
Ребенок-2021: тесты, которые нужно сдать в ожидании дитя Ребенок-2021: тесты, которые нужно сдать в ожидании дитя

Врач объясняет, какие тесты и скрининги необходимо делать беременным

Cosmopolitan
О чём умолчали классики О чём умолчали классики

Давайте рассмотрим произведения русских писателей с точки зрения математики

Наука и жизнь
Павел Биргер Павел Биргер

Визуальные ориентиры: бабушки и дедушки Петербурга и постер «Дылды» Балагова

Собака.ru
Говорите вслух и играйте в шахматы: как развить в детях эмпатию Говорите вслух и играйте в шахматы: как развить в детях эмпатию

Отрывок из книги психолога и педагога Мишеля Борба «Чуткие дети»

Forbes
Опасная шестерка: самые частые болезни у мужчин и женщин Опасная шестерка: самые частые болезни у мужчин и женщин

Топ-3 самых частых болезней у мужчин и женщин

Cosmopolitan
История первая — короткая История первая — короткая

Когда мне было пять лет, я написала очень короткий рассказ

Weekend
10 фобий, которые могут испортить ваш отпуск 10 фобий, которые могут испортить ваш отпуск

Мы изучили 10 главных страхов путешественника

Psychologies
Шестилетняя Настя из России, геймеры и комики: самые высокооплачиваемые YouTube-блогеры мира по версии Forbes Шестилетняя Настя из России, геймеры и комики: самые высокооплачиваемые YouTube-блогеры мира по версии Forbes

Youtube-блогеры с самыми высокими доходами

Forbes
Правила жизни Тайгера Вудса Правила жизни Тайгера Вудса

Правила жизни великого гольфиста Тайгера Вудса

Esquire
Невероятная история CD-диска. Часть 2 Невероятная история CD-диска. Часть 2

Как Philips и Sony внедряли CD-диски на рынок

Популярная механика
Как выбрать подгузник: важные параметры Как выбрать подгузник: важные параметры

Подгузники для детей различаются по размеру (весу ребенка), фасону и цене

9 месяцев
Кто куда, а я – в баню! Кто куда, а я – в баню!

Баня никогда не выходит из моды

Здоровье
История исчезновения туристок в Панаме, которую сравнивают с «Ведьмой из Блэр» История исчезновения туристок в Панаме, которую сравнивают с «Ведьмой из Блэр»

История о том, насколько небезопасны туристические маршруты в джунглях

Maxim
Крупные шмели оказались разборчивее мелких Крупные шмели оказались разборчивее мелких

Крупные шмели тратят больше времени, чтобы запомнить цветки

N+1
Главные правила контраварийного вождения Главные правила контраварийного вождения

Прокачай свои водительские навыки!

Maxim
Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики

Главный секрет этих отношений — нездоровые общие увлечения

Cosmopolitan
Андрей Аствацатуров: Все мы друг другу пеликаны, то есть не похожи друг на друга Андрей Аствацатуров: Все мы друг другу пеликаны, то есть не похожи друг на друга

Интервью с писателем Андреем Аствацатуровым

СНОБ
Алексей Герман и Елена Окопная Алексей Герман и Елена Окопная

Как Ленинградский рок-клуб диктовал моду и почему барахолки — великий источник

Собака.ru
8 странных фактов о мистере Алистере Кроули 8 странных фактов о мистере Алистере Кроули

Темный маг и великий инфернальный оккультист мистер Кроули

Maxim
Потому что могу Потому что могу

Фитнес-гуру Наташа Давыдова теперь на ТВ

Glamour
Как заботиться о сердце: 6 полезных привычек Как заботиться о сердце: 6 полезных привычек

Как сохранить сердце здоровым на долгие годы?

РБК
Приманка для молодых талантов. Первый тест-драйв родстера «Крым» Приманка для молодых талантов. Первый тест-драйв родстера «Крым»

Публика уже не верит в очередной автомобильный стартап из России

РБК
Гладиаторы, пираты и игры на доверии: как не стоит общаться с шантажистом Гладиаторы, пираты и игры на доверии: как не стоит общаться с шантажистом

Отрывок из книги Хаима Шапира «Гладиаторы, пираты и игры на доверии»

Forbes
Трудное слово «нет» Трудное слово «нет»

Безотказные люди – просто находка для окружающих!

Лиза
Тепло ли тебе, девица? Тепло ли тебе, девица?

Что делать, если ты постоянно мерзнешь?

Лиза
Открыть в приложении