Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Честность и преданность, но без перфекционизма: как стать инфлюенсером для команды Честность и преданность, но без перфекционизма: как стать инфлюенсером для команды

Как помочь команде добиться большего, не прибегая к принуждению и манипуляциям

Forbes
Автор бестселлера о башнях-близнецах – о катастрофе, которую еще можно предотвратить Автор бестселлера о башнях-близнецах – о катастрофе, которую еще можно предотвратить

Возможно, вы станете есть меньше мяса, прочитав книгу «Погода – это мы»

GQ
Александр Бродский Александр Бродский

Соавтор проекта музея поэта Иосифа Бродского в Доме Мурузи

Собака.ru
Светлое будущее Светлое будущее

Под иностранным именем Тесс Йопп скрывается наша бойкая соотечественница

Vogue
Главные книги 2020 года — по версии писателей, критиков и публицистов Главные книги 2020 года — по версии писателей, критиков и публицистов

О литературных впечатлениях 2020 года рассказали писатели, критики и публицисты

Esquire
Каверны: пустоты в дне судна, или как это работает Каверны: пустоты в дне судна, или как это работает

Вода для корабля – родная стихия. Но слишком вязкая

Популярная механика
Почему покушение на Навального касается всех нас Почему покушение на Навального касается всех нас

Те, кто по должности отвечает в России за порядок, на деле творят беззаконие

СНОБ
Правила жизни Ким Бейсингер Правила жизни Ким Бейсингер

Правила жизни актрисы Ким Бейсингер

Esquire
Геологи предложили новую теорию формирования ледяных щитов Земли Геологи предложили новую теорию формирования ледяных щитов Земли

Движение тектонических плит резко замедлилось, что привело к изменению климата

Популярная механика
Какой была первая телепередача в России? Какой была первая телепередача в России?

Телевещание в России возникло в первой половине XX века

Культура.РФ
Лотерея в России: история, культура, технологии Лотерея в России: история, культура, технологии

История лотереи в России: от петровских времен до наших дней

СНОБ
Несменяемость соседей повысила выживаемость и успех размножения красных белок Несменяемость соседей повысила выживаемость и успех размножения красных белок

Белки-соседи реже вступают в конфликты

N+1
Что произойдет с финансами в будущем? Что произойдет с финансами в будущем?

Что ждет наличные и финтех в будущем?

GQ
Как ухаживают за кожей топ-модели: 15 секретов — от оливкового масла до авокадо Как ухаживают за кожей топ-модели: 15 секретов — от оливкового масла до авокадо

Домашние рецепты красоты и любимые бренды топ-моделей

Cosmopolitan
Мухоловки скопировали выбор синиц при поиске места для гнезда Мухоловки скопировали выбор синиц при поиске места для гнезда

Выбирая место для гнезда, мухоловки-белошейки шпионят за большими синицами

N+1
Финальный босс Финальный босс

Как выглядит, ведет себя и меняется Дед Мороз

N+1
Как заставить себя заниматься спортом: 12 советов, которые точно помогут Как заставить себя заниматься спортом: 12 советов, которые точно помогут

Подборка советов, которые помогут выработать привычку заниматься спортом

Playboy
Чудесная палитра Чудесная палитра

Креативная сервировка стола – один из способов сделать Новый год незабываемым

Лиза
Как карантин и изоляция породили новые формы жизни Как карантин и изоляция породили новые формы жизни

Туризм, трибуны болельщиков, клубы и музеи во время изоляции

Weekend
Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома» Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома»

В 2018 году «Газпром» начал создавать своего мегаподрядчика

Forbes
Геннадий Сахаров: «Цифровизация как фундамент стройкомплекса» Геннадий Сахаров: «Цифровизация как фундамент стройкомплекса»

Какие компетенции сегодня нужны строителям и где их взять

РБК
У птерозавров нашлись нелетающие родственники У птерозавров нашлись нелетающие родственники

Лагерпетиды — небольшое семейство предшественников динозавров

N+1
Как клиент создает мобильное приложение Альфа-Банка и почему он всегда прав Как клиент создает мобильное приложение Альфа-Банка и почему он всегда прав

Для любого бизнеса всегда будет актуален вопрос: «Что нужно клиенту?»

Forbes
Экю, пистоли, ливры… Экю, пистоли, ливры…

Давайте же разберёмся, что такое ливр, экю, пистоль и более поздний луидор

Дилетант
Общество бессмертных героев Общество бессмертных героев

«Мертвые души» — осовремененная версия поэты Гоголя с Евгением Цыгановым

Weekend
Палец в ране. Рассказ из книги Алана Черчесова «Клад» Палец в ране. Рассказ из книги Алана Черчесова «Клад»

Отрывок из сборника рассказов Алана Черчесова

СНОБ
Как не набрать вес зимой Как не набрать вес зимой

Три совета для тех, кто хочет удержать вес в зимнее время года

Худеем правильно
Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника Перестаньте отвечать «я занят». Гарвардские ученые доказали, что это обижает собеседника

Ученые советуют никогда не отвечать так ни друзьям, ни коллегам

Inc.
С заботой о зубах С заботой о зубах

Собрали самые полезные советы, которые помогут сохранить вашу улыбку

Худеем правильно
Открыть в приложении