Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Преобразователи материи Преобразователи материи

Елена Стафьева о проекте Meet our Artisans

Weekend
Русский балет за рубежом Русский балет за рубежом

В начале XX века русские хореографы диктовали моду в балетном искусстве

Культура.РФ
Самцы бахромчатогубых листоносов покрылись пахучей коркой в брачный сезон Самцы бахромчатогубых листоносов покрылись пахучей коркой в брачный сезон

Размер корки на самцах листоносов коррелирует с их тестостероном

N+1
Как в 2021 приумножить капитал или начать копить на будущее Как в 2021 приумножить капитал или начать копить на будущее

Как хранить деньги? Во что вложиться?

СНОБ
Русская выхухоль, живи! Русская выхухоль, живи!

Если бы выхухоль умела говорить, то воззвала бы: «О люди, люди!»

Наука и жизнь
3 секрета Шарлиз Терон 3 секрета Шарлиз Терон

Собрали главные секреты Шарлиз Терон, которые позволяют ей оставаться в форме

Худеем правильно
Читаем на английском: 5 книг для начинающих (и полезные советы, чтобы не бросить) Читаем на английском: 5 книг для начинающих (и полезные советы, чтобы не бросить)

Что читать и как читать на английском

Esquire
«Анастасия» — на «Титанике», а «Холоп» — на «Льду». Почему «Серебряные коньки» — самый симпатичный в этом году праздничный фильм «Анастасия» — на «Титанике», а «Холоп» — на «Льду». Почему «Серебряные коньки» — самый симпатичный в этом году праздничный фильм

«Серебряные коньки» — святочный рассказ, блокбастер и диснеевская сказка

Esquire
«Технологии должны облегчать жизнь человека, но ко многим процессам мы настолько привыкли, что и не думаем, что их можно как-то упростить» «Технологии должны облегчать жизнь человека, но ко многим процессам мы настолько привыкли, что и не думаем, что их можно как-то упростить»

Как работает погодное приложение, которое показывает прогноз погоды без цифр

Inc.
От Коко Шанель до звезд соцсетей: как образ парижанки годами помогает продавать косметику и одежду От Коко Шанель до звезд соцсетей: как образ парижанки годами помогает продавать косметику и одежду

Как компании эксплуатируют «французскую тему»?

Forbes
7 вопросов, которые позволят завязать интересный разговор 7 вопросов, которые позволят завязать интересный разговор

Темы для разговоров, не касающиеся политики и других серьезных вопросов

Psychologies
#лицо #лицо

Все для того, чтобы кожа оставалась свежей, сияющей и увлажненной

Glamour
Глава Fix Price: «Чтобы с нами конкурировать, надо инвестировать сотни миллионов долларов. Кто готов? Мы таких не знаем» Глава Fix Price: «Чтобы с нами конкурировать, надо инвестировать сотни миллионов долларов. Кто готов? Мы таких не знаем»

Глава Fix Price — о бизнесе и стратегии успеха

VC.RU
99 проблем Андрея Аршавина: развод, увольнение, арест имущества 99 проблем Андрея Аршавина: развод, увольнение, арест имущества

Как живет сейчас Андрей Аршавин

Cosmopolitan
Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний

Физики продемонстрировали работоспособность полурелятивистского подхода

N+1
Живая планета Живая планета

Гипотеза Геи – между современной наукой и мистикой «нью-эйджа»

Популярная механика
Оставьте брезгливость, съешьте лягушку! Оставьте брезгливость, съешьте лягушку!

21 метод повышения личной эффективности

kiozk originals
Провинция федерального масштаба Провинция федерального масштаба

В России могут создать несколько федеральных территорий

Эксперт
Что такое мокьюментари: пять фильмов, которые познакомят с жанром Что такое мокьюментари: пять фильмов, которые познакомят с жанром

Мокьюментари — жанр кино, существующий на стыке реального и вымышленного

Seasons of life
3 даосские практики, которые помогут избежать новогоднего стресса 3 даосские практики, которые помогут избежать новогоднего стресса

Даосские практики против праздничного стресса: способы снять напряжение

Psychologies
«Поначалу с мужчинами играть было трудно»: первая женщина-гроссмейстер Нона Гаприндашвили — о жизни шахматисток и сериале «Ход королевы» «Поначалу с мужчинами играть было трудно»: первая женщина-гроссмейстер Нона Гаприндашвили — о жизни шахматисток и сериале «Ход королевы»

Интервью с первой женщиной-гроссмейстером Ноной Гаприндашвили

Forbes
Особые люди: как и для чего власть закрывает данные о себе Особые люди: как и для чего власть закрывает данные о себе

К чему приведет отнесение силовиков к категории особо защищенных лиц?

Forbes
Каждый приём пищи – это тренировка новых полезных привычек Каждый приём пищи – это тренировка новых полезных привычек

Эксперт объясняет, как питаться вкусно, разнообразно и правильно

Худеем правильно
Время московское Время московское

Какой была Москва в 1991-м году

GQ
Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит

Из чего складывается стоимость «магазинов будущего»

Forbes
Можно ли удержать партнера с помощью секса? Можно ли удержать партнера с помощью секса?

Можно ли при помощи секса спасти угасающие чувства?

Psychologies
Стройка с нулевыми отходами Стройка с нулевыми отходами

В строительную отрасль внедряются принципы безотходного производства

РБК
Грозит ли диабет лично тебе? Грозит ли диабет лично тебе?

Как рассчитать риск заболеть сахарным диабетом и что делать, чтобы его снизить

Лиза
Шрам от гольфа и смешное прозвище: малоизвестные факты о принце Уильяме Шрам от гольфа и смешное прозвище: малоизвестные факты о принце Уильяме

Факты о принце Уильяме, которые обычно остаются за кадром

Cosmopolitan
Открыть в приложении