Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Сладкие обещания: как владельцы кондитерской Lamm’s спасли бизнес, продавая сертификаты на эклеры Сладкие обещания: как владельцы кондитерской Lamm’s спасли бизнес, продавая сертификаты на эклеры

Как последняя попытка помогла Александре Ламм спасти бизнес и погасить долги

Forbes
Счастливые предсказания не сбываются Счастливые предсказания не сбываются

Мы сбились с пути или ходим по спирали?

Огонёк
Как заботиться о сердце: 6 полезных привычек Как заботиться о сердце: 6 полезных привычек

Как сохранить сердце здоровым на долгие годы?

РБК
Муся Тотибадзе Муся Тотибадзе

Красотка-бабушка из Парижа и почему в Петербурге некомильфо носить пуховик

Собака.ru
Эмоциональный интеллект для менеджеров проектов Эмоциональный интеллект для менеджеров проектов

Навыки работы с людьми, необходимые для достижения лучших результатов

kiozk originals
10 самых безумных автомобилей XX века 10 самых безумных автомобилей XX века

Изобретатели автомобилей порой доходили до очень причудливых моделей

Maxim
Прикоснуться к сердцу Прикоснуться к сердцу

Завтрак съешь сам — этого правила неизменно придерживаются на юге Китая

Вокруг света
«Приобретение завода в Дунакеси — следствие продуманной инвестстратегии» «Приобретение завода в Дунакеси — следствие продуманной инвестстратегии»

Потенциал венгерско-российского сотрудничества в железнодорожном машиностроении

РБК
#ароматы #ароматы

Парфюм, который позволяет путешествовать не выходя из дома

Glamour
Кому удалось воскресить старые автомобильные бренды, а кто – облажался Кому удалось воскресить старые автомобильные бренды, а кто – облажался

Зачем Renault возрождают Alpine и почему с рынка исчезли автомобили Bugatti

GQ
Александр Дуэль: Идеальная бизнес-стратегия — 2020. Пять правил успешной цифровой трансформации Александр Дуэль: Идеальная бизнес-стратегия — 2020. Пять правил успешной цифровой трансформации

Цифровая трансформация — глобальное изменение и потрясение основ

СНОБ
Зеленый Петербург будущего Зеленый Петербург будущего

Чемпион России объединяется с активистами, чтобы сделать город цветущим

Собака.ru
Пять вещей из киберпанка, которые считались фантастическими, но стали почти обыденностью Пять вещей из киберпанка, которые считались фантастическими, но стали почти обыденностью

Технологии из романов и фильмов в жанре киберпанка, которые доступны людям

Maxim
Как заново влюбиться в партнера? 9 проверенных способов Как заново влюбиться в партнера? 9 проверенных способов

Как пробудить яркие эмоции и воссоздать романтическую атмосферу в паре?

Psychologies
Банка больше нет Банка больше нет

Сбербанк сменил имя, разошелся с «Яндексом» и не смог сойтись с Ozon

Forbes
Как изобрели санки и почему они стали традиционной зимней забавой? Как изобрели санки и почему они стали традиционной зимней забавой?

Как и когда появились русские сани?

Культура.РФ
7 продуктов, которые не стоит покупать даже по скидкам и акциям 7 продуктов, которые не стоит покупать даже по скидкам и акциям

Эти продукты вводят нас в заблуждение

Популярная механика
Ночная жизнь Ночная жизнь

Синиша Лазаревич участвовал в знаковых для Москвы клубных проектах нулевых

Esquire
Несменяемость соседей повысила выживаемость и успех размножения красных белок Несменяемость соседей повысила выживаемость и успех размножения красных белок

Белки-соседи реже вступают в конфликты

N+1
Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину Из мягкого гидрогеля напечатали анатомически точную модель сердца в натуральную величину

Анатомически точные модели органов помогут в обучении хирургов

N+1
Директор Пушкинского музея Ирина Антонова: «Я очень жалею современных художников» Директор Пушкинского музея Ирина Антонова: «Я очень жалею современных художников»

Президент музея имени Пушкина Ирина Антонова о спонсорах и детях

Forbes
Пандемия и страсть: как новый мир создает новый секс Пандемия и страсть: как новый мир создает новый секс

Секс-блогер Мария Чеснокова рассуждает о том, как изменилась секс-индустрия

Cosmopolitan
19 м² 19 м²

Двухуровневая квартира Александры Ермиловой из BüroBlanc в здании бывшей фабрики

AD
Руслан Фазлыев: «Не думаю, что кто-то может случайно лизнуть марку и изобрести айфон» Руслан Фазлыев: «Не думаю, что кто-то может случайно лизнуть марку и изобрести айфон»

Руслан Фазлыев – о вреде наркотиков и пользе медитации и бега

GQ
Как понять, что вам нужно проверить сердце? Как понять, что вам нужно проверить сердце?

Кардиолог Алексей Утин о том, кому и когда пора проверять сердце

РБК
Собор парижской реставрации Собор парижской реставрации

Споры о судьбе Нотр-Дама продолжаются

Огонёк
5 известных дореволюционных ресторанов Петербурга 5 известных дореволюционных ресторанов Петербурга

Где в дореволюционном Петербурге можно было отведать изысканных блюд?

Культура.РФ
Алексей Щербаков Алексей Щербаков

Алексей Щербаков — о стендапе, семье и отношении к деньгам

ЖАРА Magazine
Заклятие «Массандры» Заклятие «Массандры»

Хозяйству на Южном берегу Крыма нужна новая идеология развития

Forbes
Открыть в приложении