Алгоритм переводит дореволюционные издания в современный русский язык

Популярная механикаHi-Tech

В России создали алгоритм для перевода старой орфографии в современную

Сотрудники Института вычислительных технологий СО РАН разработали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию практически без участия человека. Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов.

Василий Макаров

Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии. Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид. Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать перечисленные выше методы. Так как орфография — это совокупность четких правил написания слов, на основе которых может быть создан алгоритм перевода, исследователи выбрали правиловый подход. Всё усложняется тем, что до середины XX века орфография русского языка не была официально утверждена. «До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года «О введении новой орфографии» был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута», — рассказывает ведущий научный сотрудник ИВТ СО РАН доктор технических наук Владимир Борисович Барахнин.

Примеры основных правил, заложенных в работу переводчика. Мария Фёдорова

Для разработки программы за основу был взят «Справочник по старой орфографии русского языка» П. И. Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года. В этом справочнике изложен ряд изменений, которые можно разделить на две большие категории: правописание морфем (приставок, падежных окончаний) и употребление отдельных букв. Кто-то может предположить, что достаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов, но всё гораздо сложнее, потому что есть случаи, в которых правописание морфем отличается от нынешнего. Именно на основе перечисленных в справочнике норм дореволюционного правописания — с учетом послереволюционных новаций и был разработан переводчик.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мозг, память и чтение: как стать умнее и знать больше других Мозг, память и чтение: как стать умнее и знать больше других

Ученые сделали вывод, что объем памяти мозга человека составляет 1 петабайт

Популярная механика
Переплетено Переплетено

Примета времени: источником бьюти-трендов становится даже экоактивизм

Glamour
Синяя рубашка: с чем носить и как сочетать Синяя рубашка: с чем носить и как сочетать

Какие комплекты можно составить с синей рубашкой на все случаи жизни

Cosmopolitan
11 интересных историй об изобретении 11 обыденных вещей 11 интересных историй об изобретении 11 обыденных вещей

Мы вспомнили истории вещей с действительно удивительными судьбами

Maxim
История о том, как чисто английская разновидность футбольного хулиганства распространилась на весь мир История о том, как чисто английская разновидность футбольного хулиганства распространилась на весь мир

Возникновение, расцвет и угасание движения «фирм» в Англии

Maxim
«Даже в мечтах не мог представить такой рост»: какой бизнес бурно развивается во время пандемии «Даже в мечтах не мог представить такой рост»: какой бизнес бурно развивается во время пандемии

Чей бизнес продолжает расти в условиях сложной экономической ситуации?

Forbes
Российские биофизики предложили получать полимерно-белковые полотна электропрядением Российские биофизики предложили получать полимерно-белковые полотна электропрядением

Российские ученые разработали способ производства полимерно-белковых полотен

N+1
Авторский дизайн-проект по цене похода в салон красоты: где, как, сколько? Авторский дизайн-проект по цене похода в салон красоты: где, как, сколько?

Для яркого дизайна и хорошего ремонта больше не нужен галактический бюджет

Cosmopolitan
Худшие подарки на 8 марта: пожалуйста, не покупай их своей девушке Худшие подарки на 8 марта: пожалуйста, не покупай их своей девушке

Безликость подарка — признак безразличия

Playboy
Давайте соединим культовые автомобили XX века с передовыми технологиями наших дней Давайте соединим культовые автомобили XX века с передовыми технологиями наших дней

Четыре примера олдаймеров с электромоторами

GQ
В защиту торгашей и спекулянтов: воспринимают ли россияне бизнесменов как жуликов? В защиту торгашей и спекулянтов: воспринимают ли россияне бизнесменов как жуликов?

Вредно ли преобладание торговли в малом бизнесе?

Forbes
Тяжесть положения Тяжесть положения

Василий Артемьев выводит отечественное регби на вселенский уровень

Tatler
Капром Капром

Кто и как придумал термин «капиталистический романтизм»

Собака.ru
Как выбрать театральный бинокль: все нюансы и практические советы Как выбрать театральный бинокль: все нюансы и практические советы

Театральные модели биноклей отличаются размером и характеристиками

CHIP
Елизавета Зарубина: образцовая шпионка, не знавшая провалов Елизавета Зарубина: образцовая шпионка, не знавшая провалов

Разведка — женское дело

Cosmopolitan
Быть собой Быть собой

Как быть собой рассказывают Мари Краймбрери, Ёлка и Анна Плетнёва

OK!
Поисково-спасательный комплекс «Синяя птица» — ангел-хранитель советских космонавтов Поисково-спасательный комплекс «Синяя птица» — ангел-хранитель советских космонавтов

Без крыльев зато с шестью колесами

Maxim
Полки нового строя Полки нового строя

Продолжение рассказа про малоизвестные страницы русской истории

Популярная механика
Большая Перемена Большая Перемена

Дизайн сегодня — один из инструментов постижения мира и себя в нем

Seasons of life
Гуппи не стали конкурировать с братьями за самку Гуппи не стали конкурировать с братьями за самку

Самцы гуппи предпочитают самок, за которыми еще не ухаживают

N+1
Изучаем санскрит. Термин: «хатха» Изучаем санскрит. Термин: «хатха»

Слово хатха, составляющее часть термина хатха-йога

Yoga Journal
Новая волна банкротств: чем может закончиться попытка властей спасти малый бизнес Новая волна банкротств: чем может закончиться попытка властей спасти малый бизнес

Падение цен на нефть и пандемия обрушились на бизнес как лавина

Forbes
Яйцо высшей категории Яйцо высшей категории

Мистика и символика пасхального яйца — писанки

Вокруг света
Стритвир умер, да здравствует стритвир: 9 марок уличной одежды, за которыми стоит следить Стритвир умер, да здравствует стритвир: 9 марок уличной одежды, за которыми стоит следить

Молодые проекты переосмысливают околоспортивную концепцию стритвира

Esquire
Кетодиета: за и против Кетодиета: за и против

Насколько кетодиета уместна для тех, кто хочет сбросить вес?

Худеем правильно
Не жалея ни женщин, ни детей Не жалея ни женщин, ни детей

Процесс по делу об айнзацгруппах в Нюрнберге

Дилетант
Дутые «единороги»: почему оценка компании в $1 млрд может скрывать под собой бомбу замедленного действия Дутые «единороги»: почему оценка компании в $1 млрд может скрывать под собой бомбу замедленного действия

Насос, качающий деньги в стартап, может привести к его же уничтожению

Forbes
«Я не скрываю, из какой я семьи, это помогает в бизнесе». Правила потребления сооснователя Fura Филиппа Газманова «Я не скрываю, из какой я семьи, это помогает в бизнесе». Правила потребления сооснователя Fura Филиппа Газманова

Филипп Газманов рассказал о своем опыте предпринимательства

Forbes
Русские скупают гречку, итальянцы – пасту. Какие полки в мире пустеют быстрее? Русские скупают гречку, итальянцы – пасту. Какие полки в мире пустеют быстрее?

Что считается необходимым минимумом среди продуктов в разных странах

Cosmopolitan
Сумки Hermès стали самым доходным предметом роскоши Сумки Hermès стали самым доходным предметом роскоши

Дорогие сумки теперь не только аксессуар, но и источник существенного дохода

Forbes
Открыть в приложении