ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Новые законы робототехники Новые законы робототехники

Должны ли роботы получить правовой статус электронных лиц?

Популярная механика
Компьютерное зрение: когда роботы перестали тыкать пальцем в небо? Компьютерное зрение: когда роботы перестали тыкать пальцем в небо?

Зачем нужно компьютерное зрение и какие задачи оно решает в разных сферах

Наука и техника
Мяу по-русски Мяу по-русски

Налаживая связь с человеком, кошки изменили тональность мяуканья

Популярная механика
HDD и SSD накопители — в чем разница и стоит ли переплачивать? HDD и SSD накопители — в чем разница и стоит ли переплачивать?

HDD и SSD: надежный винтаж против скорости света и цены космоса

ТехИнсайдер
Готовы жить вечно? Готовы жить вечно?

Генная инженерия, нанороботы и искусственный интеллект — своими революционными идеями технологические концерны отменяют действие законов биологии. Их цель — бессмертие.

CHIP
Самоубийство семьи бургомистра Самоубийство семьи бургомистра

«Кризис закончен. Орудия затихли. Кто знал, как нам стоит поступить?»

Дилетант
Искусственный интеллект Искусственный интеллект

Как создавалась программа FaceApp

Популярная механика
Лучшие игры в жанре постапокалипсис Лучшие игры в жанре постапокалипсис

Подборка видеоигр, в которых конец света стал поводом для великих историй

Maxim
Утерянный 5000 лет назад: ученые воскресили древнейший в мире синтетический краситель. Зачем он нужен? Утерянный 5000 лет назад: ученые воскресили древнейший в мире синтетический краситель. Зачем он нужен?

Откуда взялся яркий, насыщенный синий цвет в Древнем Египте

Inc.
Самый секретный агент Самый секретный агент

Из чего сделан мир Джеймса Бонда Яна Флеминга

Weekend
Почему машина заводится и глохнет и что с этим делать Почему машина заводится и глохнет и что с этим делать

Что делать, если машина глохнет: причины, диагностика, куда смотреть

РБК
Как мужчины разрушают нашу самооценку: что делать и как дать отпор Как мужчины разрушают нашу самооценку: что делать и как дать отпор

Как неосторожные слова и поступки мужчин могут подрывать нашу самооценку

VOICE
Есть на что строить Есть на что строить

Зачем создавать отдельный механизм финансирования — инфраструктурные облигации?

Монокль
TESS отыскал экзогиганта у очень маломассивной звезды TESS отыскал экзогиганта у очень маломассивной звезды

TESS вновь обнаружил экзогиганта у маломассивной звезды

N+1
Любовь к животным и санкции Любовь к животным и санкции

Почему рынок кормов — перспективное направление для инвестиций

Агроинвестор
Жаркое лето в Сибири Жаркое лето в Сибири

Природный отдых у города: почему стоит поехать в Новосибирск летом

Отдых в России
Астрономы выдвинули «безумную идею» о Плутоне — ничего подобного в Солнечной системе найдено не было Астрономы выдвинули «безумную идею» о Плутоне — ничего подобного в Солнечной системе найдено не было

Что скрывается в туманной дымке карликовой планеты Плутон?

Inc.
Ад и рай Чехова Ад и рай Чехова

Дом-музей Антона Чехова — как жил и творил великий писатель?

Отдых в России
Художники Художники

Рассказ Александра Маркова «Художники»

Знание – сила
Волнительный момент Волнительный момент

Как хронический стресс сказывается на коже?

Лиза
«Почему вы хотите завоевать весь мир?» «Почему вы хотите завоевать весь мир?»

Страх ядерной войны между США и СССР был настолько высок, что передался детям

Дилетант
Без диплома, но с работой Без диплома, но с работой

Почему студенты колледжей бросают учебу?

Ведомости
Книга как искусство Книга как искусство

На протяжении долгих веков книга являлась главным хранителем информации

Знание – сила
Катай на здоровье Катай на здоровье

Как укрепить мышцы кора и натренировать стабилизацию

ЖАРА Magazine
Каким ты будешь, городской бус? Каким ты будешь, городской бус?

Ждать ли нам завтра электробусов в каждом городе?

Наука и жизнь
Способ самовыражения: почему зумеры любят культуру Южной Кореи Способ самовыражения: почему зумеры любят культуру Южной Кореи

Как российские зумеры поймали корейскую волну?

Forbes
Все в театр Все в театр

В Москве стартовал «Театральный бульвар», и он станет самым продолжительным

Ведомости
Хитовая история Хитовая история

Факты о песнях, которые в свое время возглавляли всевозможные чарты

ЖАРА Magazine
Сбежать от рутины Сбежать от рутины

С потеплением всё больше людей сбегают от забот — в прямом и переносном смысле

Отдых в России
Испанские авианосцы на мировом рынке Испанские авианосцы на мировом рынке

Что помогло определиться с основными требованиями к универсальному авианосцу

Наука и техника
Открыть в приложении