Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Безумства храбрых Безумства храбрых

«Так высоко, как Ольга Кузьмина, на этом проекте не летает никто»

OK!
«Осознание времени: Прошлое и будущее Земли глазами геолога» «Осознание времени: Прошлое и будущее Земли глазами геолога»

Отрывок из книги «Осознание времени» Маршии Бьорнеруд

N+1
Гимн гипнозу. Как манипулировать девушками, клиентами и курицами Гимн гипнозу. Как манипулировать девушками, клиентами и курицами

Как работают секретные методики гипноза

Maxim
«Очень важен принятый в этом году закон о защите инвестиций» «Очень важен принятый в этом году закон о защите инвестиций»

О том, как европейские компании работают в России на фоне санкций

РБК
Как спасти семейные ценности Как спасти семейные ценности

Как после развода проводить время с детьми родителям «выходного дня»?

СНОБ
Совсем не прекрасный принц: 5 громких конфузов принца Чарльза Совсем не прекрасный принц: 5 громких конфузов принца Чарльза

Иногда принц Чарльз попадает в слишком неловкие ситуации

Cosmopolitan
Вернуть и сохранить близость: 7 советов для пар Вернуть и сохранить близость: 7 советов для пар

Когда в любви начинаются трудности, мы ищем действенные способы все «починить»

Psychologies
Глава партии «За правду» Захар Прилепин: Если к нам попросится Горбачев, мы его не возьмем Глава партии «За правду» Захар Прилепин: Если к нам попросится Горбачев, мы его не возьмем

Интервью с Захаром Прилепиным о том, что не так с образом «‎нового будущего»

СНОБ
Почувствуй разницу: звезды на обложках и в реальной жизни Почувствуй разницу: звезды на обложках и в реальной жизни

Сравниваем, как выглядят звезды на обложках журналов, а как – в жизни

Cosmopolitan
«Кризис на всем ходу врезался в вершину пирамиды Маслоу»: как 2020 год подвинул современное искусство ближе к людям «Кризис на всем ходу врезался в вершину пирамиды Маслоу»: как 2020 год подвинул современное искусство ближе к людям

Итоги года для российского искусства

Forbes
Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры

Первичная черная дыра - это удивительный космический феномен

Популярная механика
Не решать грандиозные задачи по старинке: как бывший топ-менеджер Google помогает НКО стать эффективными Не решать грандиозные задачи по старинке: как бывший топ-менеджер Google помогает НКО стать эффективными

Энн Мей Чанг о консерватизме государства и опасности грантовой иглы

Forbes
Все наследство псу под хвост: самые странные пункты из завещаний звезд Все наследство псу под хвост: самые странные пункты из завещаний звезд

Звезды отличаются оригинальностью даже в своих завещаниях

Cosmopolitan
Временное кодирование увеличит размерность бозонного сэмплинга Временное кодирование увеличит размерность бозонного сэмплинга

Физики придумали новый способ бозонного сэмплинга в фотонной оптической схеме

N+1
Несменяемость соседей повысила выживаемость и успех размножения красных белок Несменяемость соседей повысила выживаемость и успех размножения красных белок

Белки-соседи реже вступают в конфликты

N+1
Запуск десятилетия? Какой получилась игра Cyberpunk 2077 (обзор Esquire) Запуск десятилетия? Какой получилась игра Cyberpunk 2077 (обзор Esquire)

Почему Cyberpunk 2077 — это один из лучших релизов года, который мы ждали не зря

Esquire
Как изменились наши представления о комфорте? Объясняет Hyundai Elantra Как изменились наши представления о комфорте? Объясняет Hyundai Elantra

В XXI веке комфорт — это не плавность хода автомобиля

Maxim
Что будет, если ездить с затертыми номерами. Юристы все объяснили Что будет, если ездить с затертыми номерами. Юристы все объяснили

Удастся ли обмануть инспектора и дорожные камеры, если стереть краску с номера?

РБК
Великая Лондонская вонь: позорные страницы из истории Великобритании Великая Лондонская вонь: позорные страницы из истории Великобритании

Исторический анекдот о величайшей Вони в истории человечества

Maxim
Самые популярные позы для сидения на диване с девушкой и что они значат Самые популярные позы для сидения на диване с девушкой и что они значат

Что значат самые ходовые позы для обнимашек на диване

Maxim
6 исторических личностей, доказывающих, что даже ты можешь стать великим человеком 6 исторических личностей, доказывающих, что даже ты можешь стать великим человеком

Всемирная история насчитывает тысячи гениев, которые смогли изменить мир

Maxim
Александр Дуэль: Идеальная бизнес-стратегия — 2020. Пять правил успешной цифровой трансформации Александр Дуэль: Идеальная бизнес-стратегия — 2020. Пять правил успешной цифровой трансформации

Цифровая трансформация — глобальное изменение и потрясение основ

СНОБ
Как видеоигры стали новым кино и теперь собираются стать новым IT Как видеоигры стали новым кино и теперь собираются стать новым IT

Как видеоигры будут менять в ближайшее время и на каких из них можно заработать

Forbes
Хватит говорить людям «я занят», потому что это обижает: 4 способа деликатно выйти из ситуации Хватит говорить людям «я занят», потому что это обижает: 4 способа деликатно выйти из ситуации

Говорить всем о своей «занятости» — нетактично

Playboy
Процесс Процесс

Чем Виктора Добронравова привлекла роль пожарного и что выводит его из себя

OK!
Еще 18 вещей, которые бесят нас в фильмах и сериалах Еще 18 вещей, которые бесят нас в фильмах и сериалах

Дополнили список того, что нас раздражает в фильмах и сериалах

Maxim
Включай праздник! Включай праздник!

Готовим для близких оригинальные подарки – hand-made и не только

Лиза
Чай пуэр: как правильно заваривать и чем может быть полезен китайский напиток Чай пуэр: как правильно заваривать и чем может быть полезен китайский напиток

Потенциальные польза и вред чая пуэр, способы его заварки

Playboy
С Нового года С Нового года

Некоторые читательницы начали худеть сразу после Нового года

Худеем правильно
Открыть в приложении