Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Магические единороги и $900 за ничего: айтишники рассказали о своём опыте работы в «мутных» компаниях Магические единороги и $900 за ничего: айтишники рассказали о своём опыте работы в «мутных» компаниях

ИТ — это не всегда про непрерывное развитие, прозрачные процессы, командный дух

VC.RU
«Горбушка» будет разрушена: история легендарного рынка и его владельцев «Горбушка» будет разрушена: история легендарного рынка и его владельцев

Кому легендарный московский рынок помог сколотить состояние

Forbes
Какими бывают виды отверток и бит для шуруповертов Какими бывают виды отверток и бит для шуруповертов

Какие бывают отвертки — виды и названия наконечников, а также их размеры

CHIP
Как снимать кино о мафии: уроки мастера Как снимать кино о мафии: уроки мастера

Как кровавая эпическая сага Мартина Скорсезе пришла к успеху

Playboy
В режиме «не беспокоить»: что такое синдром цифровой усталости, чем он опасен и как с ним бороться В режиме «не беспокоить»: что такое синдром цифровой усталости, чем он опасен и как с ним бороться

Как зумеры столкнулись с выгоранием от бесконечного скроллинга социальных сетей

Правила жизни
Как научиться воспринимать конструктивную критику: 4 рабочие стратегии Как научиться воспринимать конструктивную критику: 4 рабочие стратегии

Пора начать прислушиваться к взвешенному мнению окружающих

Playboy
Почему нет праздничного настроения и можно ли это исправить Почему нет праздничного настроения и можно ли это исправить

Дух праздника посещает не всех: как быть, если тебе грустно, когда все веселятся

Psychologies
Мужикам тут не место: 10 странных локаций, куда ты можешь попасть с ее помощью (ад не считается) Мужикам тут не место: 10 странных локаций, куда ты можешь попасть с ее помощью (ад не считается)

Куда дамы любят выгуливать своих новых кавалеров?

Maxim
Разбор Fakecheck: влияет ли «Плюс» на цены в такси «Яндекса» и откуда берётся кэшбек Разбор Fakecheck: влияет ли «Плюс» на цены в такси «Яндекса» и откуда берётся кэшбек

Как работает Яндекс.Плюс относительно такси, разбираются журналисты

VC.RU
Чужие здесь не ходят: к кому обращается Путин на пресс-конференциях и прямых линиях Чужие здесь не ходят: к кому обращается Путин на пресс-конференциях и прямых линиях

Пресс-конференции президента рассчитаны на россиян старшего поколения

Forbes
Тея Обрехт: Без воды. Отрывок из романа Тея Обрехт: Без воды. Отрывок из романа

Отрывок из истории Лури, который исполняет желания призраков

СНОБ
Гомеопатия: эффект сверхмалого фуфла Гомеопатия: эффект сверхмалого фуфла

Гомеопатия — такая же система лечения, как шаманство или молитва

Maxim
Самцы пауков-филодромид перед спариванием обездвижили самок ядом и связали паутиной Самцы пауков-филодромид перед спариванием обездвижили самок ядом и связали паутиной

Такое поведение помогает им не стать обедом потенциальных невест

N+1
Прорицатель или симулянт: 6 сугубо научных фактов о Нострадамусе, которых вы могли не знать Прорицатель или симулянт: 6 сугубо научных фактов о Нострадамусе, которых вы могли не знать

Кем же был Нострадамус — образованным шарлатаном или все-таки истинным пророком?

Популярная механика
Адвокат дьяволов Адвокат дьяволов

История адвоката, спасавшего диктаторов и тиранов

GQ
Ответственная за моду: Мирослава Дума Ответственная за моду: Мирослава Дума

Мирослава Дума вернулась в качестве соосновательницы бренда Pangaia

Glamour
Как победить лень: 15 эффективных способов встать, наконец, с дивана Как победить лень: 15 эффективных способов встать, наконец, с дивана

Как избавиться от лени и стать продуктивным человеком?

Playboy
7 книг для поддержания эмоциональной стабильности 7 книг для поддержания эмоциональной стабильности

Книги, которые помогут пережить испытания и продолжить идти вперед

РБК
Пример для подражания: Наталья Петушкова Пример для подражания: Наталья Петушкова

Руководитель центра разработки в компании НСПК берет инициативу в свои руки

Cosmopolitan
Машину ударили соседней дверью на парковке. Что с этим делать? Машину ударили соседней дверью на парковке. Что с этим делать?

Какие царапины на кузове безвредны, а с какими придется ехать в сервис?

РБК
Дарит прокрастинацию, чувство вины и забирает радость от жизни: почему список дел хуже расписания в календаре Дарит прокрастинацию, чувство вины и забирает радость от жизни: почему список дел хуже расписания в календаре

Вы встречали кого-то, кто выполняет всё, что обещал сделать за день?

VC.RU
Кто делает сумки для королевы Елизаветы II и где их купить Кто делает сумки для королевы Елизаветы II и где их купить

Британский бренд Launer стал очень популярен после выхода 4 сезона «Короны»

РБК
Влияет ли престижный диплом на успех в карьере Влияет ли престижный диплом на успех в карьере

Наличие диплома признанного международного университета — залог успеха в карьере

СНОБ
День матери: 10 знаменитостей, сохранивших теплые отношения с мамами День матери: 10 знаменитостей, сохранивших теплые отношения с мамами

Вспоминаем знаменитостей и их мам, которые находятся в хороших отношениях

РБК
Одна вокруг света. Возвращение в Бангког и переправа машин через океан Одна вокруг света. Возвращение в Бангког и переправа машин через океан

95-я серия о кругосветном путешествии москвички Ирины Сидоренко

Forbes
Максим Федоров: искусственный интеллект в десяти вопросах и ответах Максим Федоров: искусственный интеллект в десяти вопросах и ответах

Профессор Сколтеха — об искусственном интеллекте и реальности сюжетов фантастики

РБК
Снежная королева Снежная королева

Зимой нашей коже требуется особый уход. Тогда она останется нежной и мягкой

Лиза
Когда не надо спрашивать «почему?» Когда не надо спрашивать «почему?»

Иногда невинное «почему?» вызывает сопротивление и даже агрессию

Psychologies
Никита Кукушкин: «Свои желания я исполняю сам» Никита Кукушкин: «Свои желания я исполняю сам»

Актер театра и кино – о новогодних сюрпризах и разочарованиях

Cosmopolitan
«Бывает, что один заказ приносит месячный доход»: чем занимается и сколько зарабатывает частный промышленный альпинист «Бывает, что один заказ приносит месячный доход»: чем занимается и сколько зарабатывает частный промышленный альпинист

Промышленный альпинист рассказывает, как зарабатывает, работая самостоятельно

VC.RU
Открыть в приложении