Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Андреева в Павлова Андреева в Павлова

Паулина Андреева — с деловым визитом в Лабораторию экспериментальной генетики

Собака.ru
Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента

Рассматриваем разные варианты МФУ для дома и выбираем оптимальное устройство

CHIP
Том Сзаки: «Хороших покупок не бывает» Том Сзаки: «Хороших покупок не бывает»

Почему любая покупка вредит природе

РБК
Новое счастье Новое счастье

Почему новая любовь никак не приходит?

Cosmopolitan
Без галстука: о чем нужно помнить, если вы работаете из дома Без галстука: о чем нужно помнить, если вы работаете из дома

Удаленная работа диктует новые правила корпоративной этики

Psychologies
От оргазма до маразма От оргазма до маразма

Что за 50 лет стало с «Мужчиной и женщиной» и французской мелодрамой

Weekend
Стоп-сигнал Стоп-сигнал

Мы перестали ходить на каблуках, но стали ли от этого счастливее наши ноги?

Tatler
Два герцога: Ришельё против Бэкингема Два герцога: Ришельё против Бэкингема

Противостояние Англии и Франции в XVII веке — это ещё и противостояние министров

Дилетант
Как NASA исследовало загадочный искусственный объект на орбите Земли: гость их прошлого Как NASA исследовало загадочный искусственный объект на орбите Земли: гость их прошлого

Блок ракеты «Кентавр», или странный объект на орбите Земли

Популярная механика
Панды обмазались конским навозом в холодную погоду Панды обмазались конским навозом в холодную погоду

Панды научились снижать чувствительность к холоду

N+1
Кризисы дают возможность по-новому посмотреть абсолютно на все Кризисы дают возможность по-новому посмотреть абсолютно на все

Как построить работу огромного холдинга во время пандемии

Эксперт
Клеймо на душе: чем опасна стигматизация людей с психическими расстройствами Клеймо на душе: чем опасна стигматизация людей с психическими расстройствами

Чем опасна стигматизация психических расстройств и почему с ней нужно бороться?

Psychologies
Чем открыть HEIC и как перевести его в JPEG на Windows 7 или 10 Чем открыть HEIC и как перевести его в JPEG на Windows 7 или 10

Самые эффективные способы открыть файл формата .heic

CHIP
Ты еще в это веришь? 10 самых популярных мифов о косметологии Ты еще в это веришь? 10 самых популярных мифов о косметологии

Эксперт развенчивает самые популярные мифы о косметологии

Cosmopolitan
Правила жизни Джона Малковича Правила жизни Джона Малковича

Актер, Кембридж, 67 лет

Esquire
От Ice Bucket до Skibidi: 10 самых популярных челленджей От Ice Bucket до Skibidi: 10 самых популярных челленджей

Самые знаменитые интернет-челленджи и флешмобы

РБК
Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры Врата в альтернативную Вселенную: зачем ученые ищут древние черные дыры

Первичная черная дыра - это удивительный космический феномен

Популярная механика
Золотая рыбка Золотая рыбка

Объясняем, как выбрать качественную нарезку из слабосоленого лосося

Лиза
Несменяемость соседей повысила выживаемость и успех размножения красных белок Несменяемость соседей повысила выживаемость и успех размножения красных белок

Белки-соседи реже вступают в конфликты

N+1
8 странных фактов о мистере Алистере Кроули 8 странных фактов о мистере Алистере Кроули

Темный маг и великий инфернальный оккультист мистер Кроули

Maxim
«Ширли» и еще 5 лучших психодрам о выдающихся писателях на грани нервного срыва «Ширли» и еще 5 лучших психодрам о выдающихся писателях на грани нервного срыва

Фильмы о писателях, которые добровольно погружались в безумие

Esquire
Как русский бизнесмен выбил из IKEA 25 млрд рублей и попал в тюрьму Как русский бизнесмен выбил из IKEA 25 млрд рублей и попал в тюрьму

Константин Пономарев в 2010 году отсудил у шведской корпорации рекордную сумму

Forbes
2000 год 2000 год

Отставка Бориса Ельцина, катастрофа подлодки «Курск», «Брат 2» и другие события

Esquire
Лиза Климко, Станислав Никатанов и Ольга Гинзбург Лиза Климко, Станислав Никатанов и Ольга Гинзбург

Арт-ковры, фэшн-керамика, винтаж Versace, работы Забуги и Данини

Собака.ru

Актеры, для которых съемки в сценах с обнажением стали травмирующим опытом

Cosmopolitan
Самые популярные позы для сидения на диване с девушкой и что они значат Самые популярные позы для сидения на диване с девушкой и что они значат

Что значат самые ходовые позы для обнимашек на диване

Maxim
Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний

Физики продемонстрировали работоспособность полурелятивистского подхода

N+1
История первого задокументированного ранения человека внеземным объектом История первого задокументированного ранения человека внеземным объектом

И Земля даже не ввела контрсанкции против космоса!

Maxim
Механика флирта Механика флирта

Как флиртуют мужчины и женщины и где проходит граница дозволенного

СНОБ
Открыть в приложении