Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
«Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники «Чемпионы соцсетей»: чем опасны для компаний популярные в TikTok сотрудники

Инфлюенсер в TikTok может как заменить отдел маркетинга, так и ударить по бренду

Forbes
Русская выхухоль, живи! Русская выхухоль, живи!

Если бы выхухоль умела говорить, то воззвала бы: «О люди, люди!»

Наука и жизнь
Индустрия Индустрия

Генпродюсер канала «Пятница!» – о том, не напрасно ли мы прожили нулевые

Esquire
Дрожжи революции. Как «сухой» закон погубил Российскую империю Дрожжи революции. Как «сухой» закон погубил Российскую империю

Как царское правительство боролось с пьянством и при чем тут революция

СНОБ
Самые дорогие грампластинки, когда-либо купленные коллекционерами Самые дорогие грампластинки, когда-либо купленные коллекционерами

Чья пластинка стоила больше миллиона долларов?

Maxim
Какой год, такой и макияж: самые неудачные мейкап-образы звезд за 2020 год Какой год, такой и макияж: самые неудачные мейкап-образы звезд за 2020 год

Самые неудачные образы звезд, которые лучше оставить в уходящем году

Cosmopolitan
Живая соль Живая соль

Чем богаты розовые озера Крыма

Огонёк
Уроки латыни Уроки латыни

Демьян Кудрявцев, медиаменеджер и поэт, описывает Россию нулевых в стихах

Esquire
NASA выпустило ролик о том, как марсоход Perseverance будет садиться на Красную планету: NASA выпустило ролик о том, как марсоход Perseverance будет садиться на Красную планету:

Марсоход NASA Perseverance совершит попытку приземления на Марс

Популярная механика
Украли звездный голос: каких персонажей озвучивали знаменитости Украли звездный голос: каких персонажей озвучивали знаменитости

Смотря мультфильмы, мы нечасто обращаем внимание на голоса героев

Cosmopolitan
Алексей Южаков, основатель Promobot: «Будущее — за универсальной робототехнической платформой» Алексей Южаков, основатель Promobot: «Будущее — за универсальной робототехнической платформой»

Promobot — крупнейший в Европе производитель сервисных роботов

Inc.
Квантовое превосходство Китая Квантовое превосходство Китая

Очередной год – и очередное сообщение о достижении «квантового превосходства»

Популярная механика
«Положить все яйца в одну корзину и наблюдать». Как основатели Burger King нашли спасительные инвестиции и придумали воппер «Положить все яйца в одну корзину и наблюдать». Как основатели Burger King нашли спасительные инвестиции и придумали воппер

Отрывок из книги Burger King Джеймса Макламора об истории становлении империи

Inc.
Михаил Сергачев Михаил Сергачев

Михаил Сергачев – хоккеист, в 22 года выигравший Кубок Стэнли

Maxim
5 ошибок Ильи Елпанова, основателя «Ешь деревенское» 5 ошибок Ильи Елпанова, основателя «Ешь деревенское»

Ошибки, которые дали основателю «Ешь деревенское» полезный опыт

Inc.
Как советская кинематография сняла свой первый хит и оказалась не готова к его успеху Как советская кинематография сняла свой первый хит и оказалась не готова к его успеху

Заграничный триумф и советский провал «Броненосца „Потемкин“»

Weekend
Ретродрама «Манк» – самый эстетский и красивый фильм Дэвида Финчера Ретродрама «Манк» – самый эстетский и красивый фильм Дэвида Финчера

«Манк» — неожиданный проект для живописца маньяков и убийц Дэвида Финчера

GQ
Что таит в себе водопроводная вода. Отрывок из книги американского биолога Что таит в себе водопроводная вода. Отрывок из книги американского биолога

Глава из книги Роба Данна «Не один дома»

СНОБ
Джек Лондон. Камень, который отвергли строители Джек Лондон. Камень, который отвергли строители

Он уже и сам не знал, чего хочет больше — уснуть или умереть

Караван историй
Приманка для молодых талантов. Первый тест-драйв родстера «Крым» Приманка для молодых талантов. Первый тест-драйв родстера «Крым»

Публика уже не верит в очередной автомобильный стартап из России

РБК
Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл

Какие испытания прошли Меган и Гарри, чтобы остаться вместе?

Cosmopolitan
«Пожертвование — не выигрыш»: как работает фандрайзинг детского хосписа «Дом с маяком» «Пожертвование — не выигрыш»: как работает фандрайзинг детского хосписа «Дом с маяком»

На что живет детский хоспис «Дом с маяком» и как расходует средства

Forbes
Дела дачные Дела дачные

Загородный дом в стиле старой петербургской дачи

SALON-Interior
«Любая женщина может выглядеть так, как она захочет» «Любая женщина может выглядеть так, как она захочет»

Актриса и певица Настя Задорожная – о том, зачем изменила рацион питания

Худеем правильно
Четыре знаменитых личности, прочитавших собственные некрологи Четыре знаменитых личности, прочитавших собственные некрологи

Чтение своего некролога — удовольствие, которого лишены простые люди

Maxim
Киберспорт Киберспорт

Тестирование нового Honda CBR1000RR-R Fireblade SP

Мото
«На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина «На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина

Кирилл Родин рассказывает, почему стоит смотреть на покупки как на инвестиции

Forbes
Вероника Ивашкевич Вероника Ивашкевич

Антикварный фарфор, бриллианты днем и лыжная кофта на зиму

Собака.ru
Скажи мне, что ты ешь, и я скажу, когда начнутся проблемы с костной системой Скажи мне, что ты ешь, и я скажу, когда начнутся проблемы с костной системой

Что нужно делать, чтобы избежать возникновения проблем с костной системой

Cosmopolitan
Открыть в приложении