Алгоритм переводит дореволюционные издания в современный русский язык

Популярная механикаHi-Tech

В России создали алгоритм для перевода старой орфографии в современную

Сотрудники Института вычислительных технологий СО РАН разработали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию практически без участия человека. Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов.

Василий Макаров

Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии. Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид. Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать перечисленные выше методы. Так как орфография — это совокупность четких правил написания слов, на основе которых может быть создан алгоритм перевода, исследователи выбрали правиловый подход. Всё усложняется тем, что до середины XX века орфография русского языка не была официально утверждена. «До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года «О введении новой орфографии» был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута», — рассказывает ведущий научный сотрудник ИВТ СО РАН доктор технических наук Владимир Борисович Барахнин.

Примеры основных правил, заложенных в работу переводчика. Мария Фёдорова

Для разработки программы за основу был взят «Справочник по старой орфографии русского языка» П. И. Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года. В этом справочнике изложен ряд изменений, которые можно разделить на две большие категории: правописание морфем (приставок, падежных окончаний) и употребление отдельных букв. Кто-то может предположить, что достаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов, но всё гораздо сложнее, потому что есть случаи, в которых правописание морфем отличается от нынешнего. Именно на основе перечисленных в справочнике норм дореволюционного правописания — с учетом послереволюционных новаций и был разработан переводчик.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Правила жизни Правила жизни

Правила жизни величайшего актера Кирка Дугласа

Playboy
5 полезных устройств, незаменимых при ремонте квартиры 5 полезных устройств, незаменимых при ремонте квартиры

Есть 5 устройств, без которых просто не обойтись во время ремонта

CHIP
Панацея, дочь Асклепия: можно ли создать лекарство от всех болезней Панацея, дочь Асклепия: можно ли создать лекарство от всех болезней

Призрачная надежда получить создать универсальную таблетку

Популярная механика
Анат Гайгер: «Когда есть танец энергий Инь и Ян — случается магия» Анат Гайгер: «Когда есть танец энергий Инь и Ян — случается магия»

Анат Гайгер, преподаватель направлений Хатха, Виньяса, Инь-йога

Yoga Journal
Неизвестные первые леди Союза: жёны генсеков, которые избегали публичности Неизвестные первые леди Союза: жёны генсеков, которые избегали публичности

Не все жёны лидеров СССР были на виду

Cosmopolitan
Не каркай: почему интеллект вороны не уступает приматам Не каркай: почему интеллект вороны не уступает приматам

Вороны способны к обучению, умеют логически мыслить, планировать и запоминать

Популярная механика
Жить для себя? Жить для себя?

Быть матерью – казалось бы, что может быть важнее для женщины?

Лиза
За что ты платишь? За что ты платишь?

Расшифровываем платежку ЖКХ: суммы, тарифы, расчеты, непонятные аббревиатуры

Лиза
На длину бивней нарвалов повлиял половой отбор На длину бивней нарвалов повлиял половой отбор

Длина бивней у нарвалов определяется половым отбором

N+1
Схема нового налога и законы о кредитах для бизнеса: Путин раздал поручения по мерам из своего обращения Схема нового налога и законы о кредитах для бизнеса: Путин раздал поручения по мерам из своего обращения

Путин раздал чиновникам поручения, связанные с мерами помощи бизнесу

Forbes
«Вкусные» запахи «Вкусные» запахи

Существует ли связь между ароматом духов и нашими предпочтениями в еде

Здоровье
«Почините его!»: стоит ли вести ребенка к психологу, если вы сами не готовы меняться «Почините его!»: стоит ли вести ребенка к психологу, если вы сами не готовы меняться

Стоит ли идти к детскому психологу, если сами взрослые не готовы меняться

Psychologies
Гиены мигрировали вместе с древними людьми Гиены мигрировали вместе с древними людьми

Гиены, как и люди, вышли из Африки 2,5 миллиона лет назад

N+1
Луч надежды Луч надежды

Как создается российское медоборудование для диагностики и лечения заболеваний

Популярная механика
Истина в жене Истина в жене

Зачем прятать от мужа свои деньги и почему карьеру надо делать днем?

Cosmopolitan
«Дети знают, что мама работает блогером» «Дети знают, что мама работает блогером»

Интервью с Валерией Чекалиной, одним из самых успешных блогеров страны

OK!
У каких продуктов самый большой срок годности? У каких продуктов самый большой срок годности?

Эти продукты точно можно закупать впрок

Cosmopolitan
Ошибки, которые превратят тебя в Ошибки, которые превратят тебя в

Весна — не время для скучных сочетаний

Cosmopolitan
Таисия Вилкова. Почему о ней все говорят? Таисия Вилкова. Почему о ней все говорят?

Что нужно знать о молодой актрисе Таисии Вилковой.

Cosmopolitan
Больше интереса — меньше стресса. Что такое хобби с научной точки зрения Больше интереса — меньше стресса. Что такое хобби с научной точки зрения

Хобби не только формируют нас как личность, но и помогают достигать целей

СНОБ
Большая Перемена Большая Перемена

Дизайн сегодня — один из инструментов постижения мира и себя в нем

Seasons of life
Сам себе и везде режиссёр: лучшие экшн-камеры Сам себе и везде режиссёр: лучшие экшн-камеры

Когда-то экшн-камеры ассоциировались с GoPro, но времена изменились

Популярная механика
«Контракт с «Тинькофф» может добавить нам стоимости»: чего ждать от прихода банка Олега Тинькова в российский футбол «Контракт с «Тинькофф» может добавить нам стоимости»: чего ждать от прихода банка Олега Тинькова в российский футбол

Интервью с коммерческим директором Российской премьер-лиги Павлом Суворовым

Forbes
NASA отключило 17 лет изучавший Солнце орбитальный аппарат SORCE NASA отключило 17 лет изучавший Солнце орбитальный аппарат SORCE

Светимость Солнца на треть процента ниже, чем считалось

N+1
Первый в тундре Первый в тундре

Российский зонд попробует на вкус лунную вечную мерзлоту

N+1
Путин обсудил с Воложем и Богуславским новое технологическое предпринимательство Путин обсудил с Воложем и Богуславским новое технологическое предпринимательство

Президент России Владимир Путин встретился с российскими инвесторами

Forbes
А компот? Чем кормят в тюрьмах США и России А компот? Чем кормят в тюрьмах США и России

Если человек не получает свою суточную дозу калорий, то это медленно его убивает

Популярная механика
Не в бровь, а в глаз Не в бровь, а в глаз

Какие популярные процедуры красоты могут быть вредны для глаз?

Лиза
Компании сошли с ума: они производят контент, а не товары Компании сошли с ума: они производят контент, а не товары

Зачем компании превращаются в медиа и тратят на это ресурсы?

Forbes
Сергей Янчуков: «Деньги здесь не быстрые, но мы осознанно инвестируем миллиарды» Сергей Янчуков: «Деньги здесь не быстрые, но мы осознанно инвестируем миллиарды»

Что такое развивать бизнес в забайкальской тайге и как помогает государство

Forbes
Открыть в приложении