Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Фактор роста Фактор роста

Развеиваем мифы о длинных волосах и рассказываем, как правильно их отращивать

Glamour
Астрономы объявили о загадочном исчезновении самой большой черной дыры во Вселенной Астрономы объявили о загадочном исчезновении самой большой черной дыры во Вселенной

Черные дыры не могут исчезать бесследно... Или могут?

Популярная механика
Вячеслав Дубынин: «В нас конкурируют две программы — безопасности и любопытства» Вячеслав Дубынин: «В нас конкурируют две программы — безопасности и любопытства»

О разрушении модели мира, неопределенности и извлечении пользы из тревожности

РБК
2003 год 2003 год

Арест Михаила Ходорковского, появление ГНК, триумф t.A.T.u. и Пол Маккартни

Esquire
Девочки из нашего детства: судьбы юных героинь советского кино Девочки из нашего детства: судьбы юных героинь советского кино

Как сложилась жизнь юных актрис после славы?

Cosmopolitan
Диета «Любимая»: примеры рациона и комментарии нутрициолога Диета «Любимая»: примеры рациона и комментарии нутрициолога

В чем причина популярности диеты, о которой не слышали западные врачи?

РБК
Павианы научились ворчанию у соплеменников Павианы научились ворчанию у соплеменников

Социальная близость повлияла на издаваемые павианами звуки

N+1
«Жадность правит миром». Как россиян обманывают в автосалонах «Жадность правит миром». Как россиян обманывают в автосалонах

Что нужно знать, чтобы не потерять деньги при покупке машины

РБК
«На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина «На яркие эмоции денег вообще не жалко»: правила потребления сооснователя «Кухни на районе» Кирилла Родина

Кирилл Родин рассказывает, почему стоит смотреть на покупки как на инвестиции

Forbes
Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа Химики изготовили дешевый катализатор для производства углеводородов из углекислого газа

Основная особенность этого катализатора — баланс карбида и оксида железа

N+1
Это должен знать каждый водитель. Как правильно показывать машину полиции Это должен знать каждый водитель. Как правильно показывать машину полиции

Какая разница между осмотром автомобиля и досмотром?

РБК
Барражирующие боеприпасы: что это такое Барражирующие боеприпасы: что это такое

Концепция оружия нового поколения – барражирующие боеприпасы

Популярная механика
Для него и для нее. Гид по презервативам Для него и для нее. Гид по презервативам

Тест-драйв лучших образцов презервативов

Playboy
Быть добрым и отзывчивым — полезно. И это научно доказано Быть добрым и отзывчивым — полезно. И это научно доказано

Рассказываем, почему заботиться о других в любое время года — в наших интересах

РБК
«Женщина, на паровоз!» «Женщина, на паровоз!»

Женщины-машинисты электропоездов: история запретов и разрешений

Дилетант
Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл Актриса в разводе и бунтарь: история романа принца Гарри и Меган Маркл

Какие испытания прошли Меган и Гарри, чтобы остаться вместе?

Cosmopolitan
Откуда пошла мода на короткие стрижки у женщин в XX веке? Откуда пошла мода на короткие стрижки у женщин в XX веке?

Женские стрижки радикально изменились после Первой мировой войны

Культура.РФ
Глобальное планирование и постчеловек. Беседа с футурологом Данилой Медведевым Глобальное планирование и постчеловек. Беседа с футурологом Данилой Медведевым

Интервью с футурологом и кандидатом экономических наук Данилой Медведевым

СНОБ
Берегли вещь для особого случая? Используйте ее прямо сейчас Берегли вещь для особого случая? Используйте ее прямо сейчас

Почему мы не используем то, что приобрели, и как с этим справиться

Psychologies
«Вечный свет» и другое модное кино «Вечный свет» и другое модное кино

Кинопроекты, в которых мода не столько про одежду, сколько про смыслы

Seasons of life
Ученые доказали, что лежать на диване, ругаться и есть жирное — полезно, а убираться в доме и часто мыться — вредно Ученые доказали, что лежать на диване, ругаться и есть жирное — полезно, а убираться в доме и часто мыться — вредно

Если ты, небритый, лежишь на диване, сигареты куришь, получай наслаждение

Maxim
Как научиться выбирать и пить шампанское Как научиться выбирать и пить шампанское

На что обратить внимание, выбирая шампанское

Maxim
Полюбили чужих детей как родных: самые заботливые звездные отчимы Полюбили чужих детей как родных: самые заботливые звездные отчимы

Мы вспомнили знаменитых отчимов, которые воспитали пасынков и падчериц

Cosmopolitan
Магия Pixar Магия Pixar

История создания киностудии Pixar

kiozk originals
Подлыжный корм: как выжить зимой в лесу без еды Подлыжный корм: как выжить зимой в лесу без еды

Любой дурак выживет в летнем лесу, а вот в зимнем — только отчаянные коммандос

Maxim
Предсказать успех Tesla: как женщины совершили прорыв на фондовых рынках Предсказать успех Tesla: как женщины совершили прорыв на фондовых рынках

Как женщины-инвесторы предсказывали рост компаний, в которые никто не верил

Forbes
Дмитрий Евграфов: « В торговых центрах будет играть плохая музыка от ИИ» Дмитрий Евграфов: « В торговых центрах будет играть плохая музыка от ИИ»

Как создают музыку с помощью нейросетей и почему здесь не обойтись без человека

РБК
«На мне Fendi, смотри»: как TikTok меняет моду «На мне Fendi, смотри»: как TikTok меняет моду

Как TikTok меняет моду, шоппинг и общество

РБК
Гастрономический ликбез Гастрономический ликбез

Идеальное меню новогоднего вечера

Playboy
Открыть в приложении