Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла

Фрагмент из нового романа Дэвида Митчелла «Утопия-авеню»

Esquire
Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний

Физики продемонстрировали работоспособность полурелятивистского подхода

N+1
«Очень важен принятый в этом году закон о защите инвестиций» «Очень важен принятый в этом году закон о защите инвестиций»

О том, как европейские компании работают в России на фоне санкций

РБК
Личная жизнь Анны Австрийской Личная жизнь Анны Австрийской

Анна Австрийская считалась самой красивой женщиной Европы своего времени

Дилетант
Цена счастья Цена счастья

За деньги счастье не купишь?

Robb Report
Анатолий Вассерман: «То, что я умнее многих, стало понятно где-то между тремя и четырьмя годами» Анатолий Вассерман: «То, что я умнее многих, стало понятно где-то между тремя и четырьмя годами»

Интервью с Анатолием Вассерманом

Maxim
Павел Биргер Павел Биргер

Визуальные ориентиры: бабушки и дедушки Петербурга и постер «Дылды» Балагова

Собака.ru
Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника

Ученые советуют никогда не отвечать так ни друзьям, ни коллегам

Inc.
Две мумии гамадрилов рассказали о дальних морских путешествиях египтян Две мумии гамадрилов рассказали о дальних морских путешествиях египтян

Родиной мумий гамадрилов оказался регион, охватывающий Эфиопию и соседние страны

N+1
Как поменять свою жизнь Как поменять свою жизнь

Вопрос о том, как поменять свою жизнь, приходит в голову многим из нас

Psychologies
Наращивание или ламинирование: какая процедура подойдет твоим ресницам Наращивание или ламинирование: какая процедура подойдет твоим ресницам

Рассказываем о последних тенденциях в «ресничном деле»

Cosmopolitan
Правила жизни Ирины Антоновой Правила жизни Ирины Антоновой

Правила жизни президент ГМИИ имени Пушкина Ирины Антоновой

Esquire
Моя терапия: «Я перестала бояться лифтов» Моя терапия: «Я перестала бояться лифтов»

Как быть, если у жителя мегаполиса в лифтах начинаются панические атаки?

Psychologies

Какое влияние смартфоны оказывают на наш внешний вид

Cosmopolitan
Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину

Анатомически точные модели органов помогут в обучении хирургов

N+1
Американские ученые объяснили «гаванский синдром» микроволновым излучением Американские ученые объяснили «гаванский синдром» микроволновым излучением

Что такое «гаванский синдром» и из-за чего он возникает

N+1
Игорь Вдовин: «Было бы прекрасно, если бы музыка спасала от паники» Игорь Вдовин: «Было бы прекрасно, если бы музыка спасала от паники»

Композитор Игорь Вдовин о свободе самовыражения и раздражающую музыку в кафе

РБК
Не папик, а муж! Не папик, а муж!

5 плюсов отношений с мужчиной, который намного старше тебя

Лиза
Рыжие воробьи отпугнули клещей от гнезд полынью Рыжие воробьи отпугнули клещей от гнезд полынью

Наличие полыни в гнезде очень важно для рыжих воробьев

N+1
Государственные думы Государственные думы

Тридцать лет Российской Федерации! «Что это за «ция» такая?»

GQ
Как видеоигры стали новым кино и теперь собираются стать новым IT Как видеоигры стали новым кино и теперь собираются стать новым IT

Как видеоигры будут менять в ближайшее время и на каких из них можно заработать

Forbes
8 гениальных изобретений своего времени, которые сейчас выглядят нелепо 8 гениальных изобретений своего времени, которые сейчас выглядят нелепо

Когда-то люди тыкали в них пальцами с восторгом и восхищением

Maxim
Горизонтальные небоскрёбы над Бульварным кольцом: несбывшийся советский проект для центра Москвы Горизонтальные небоскрёбы над Бульварным кольцом: несбывшийся советский проект для центра Москвы

Авангардный художник Эль Лисицкий хотел превратить Москву в город будущего

VC.RU
Вам письмо Вам письмо

Герои Grazia пишут письма Деду Морозу

Grazia
Известные люди, которые считались предателями у себя на родине Известные люди, которые считались предателями у себя на родине

Как быстро растут чужие предатели!

Maxim
Как снимать кино о мафии: уроки мастера Как снимать кино о мафии: уроки мастера

Как кровавая эпическая сага Мартина Скорсезе пришла к успеху

Playboy
Это должен знать каждый водитель. Как правильно показывать машину полиции Это должен знать каждый водитель. Как правильно показывать машину полиции

Какая разница между осмотром автомобиля и досмотром?

РБК
Евгений Гришковец: Если бы мне пришлось сдавать ЕГЭ, я бы не окончил школу Евгений Гришковец: Если бы мне пришлось сдавать ЕГЭ, я бы не окончил школу

Писатель Евгений Гришковец рассказывает, как жить с дислексией

СНОБ
Более «Обычная женщина»: каким получилось продолжение одного из лучших российских сериалов Более «Обычная женщина»: каким получилось продолжение одного из лучших российских сериалов

Рассказываем, что получилось из сериала «Обычная женщина 2» Натальи Мещаниновой

Forbes
Открыть в приложении