ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Новые законы робототехники Новые законы робототехники

Должны ли роботы получить правовой статус электронных лиц?

Популярная механика
Что такое «эмоциональное наводнение» и как с ним справиться Что такое «эмоциональное наводнение» и как с ним справиться

Что делать, когда реакция организма на перемены становится чрезмерной?

Psychologies
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Купите это немедленно! Купите это немедленно!

Как нас заставляют приобретать ненужные вещи в «черную пятницу»?

Лиза
Властелин Европы посреди Атлантики Властелин Европы посреди Атлантики

Святая Елена стала местом смерти Наполеона и рождения наполеоновской легенды

Дилетант
Как перестать заслуживать и выпрашивать любовь и избавиться от постоянного чувства голода по ней Как перестать заслуживать и выпрашивать любовь и избавиться от постоянного чувства голода по ней

Как удовлетворить свою потребность в любви?

VOICE
Мозг, память и чтение: как стать умнее и знать больше других Мозг, память и чтение: как стать умнее и знать больше других

Ученые сделали вывод, что объем памяти мозга человека составляет 1 петабайт

Популярная механика
8 самых красивых японских внедорожников в истории 8 самых красивых японских внедорожников в истории

Невероятные японские внедорожники, не получившие должного внимания

4x4 Club
8 самых интересных фильмов и сериалов с Любовью Аксеновой 8 самых интересных фильмов и сериалов с Любовью Аксеновой

Самые запоминающиеся роли Любови Аксеновой

Maxim
Мама-предприниматель: какой бизнес чаще выбирают женщины в России Мама-предприниматель: какой бизнес чаще выбирают женщины в России

Почему в современном мире женщинам не нужно выбирать между семьей и карьерой

Inc.
Куда вложить деньги, чтобы они приносили прибыль Куда вложить деньги, чтобы они приносили прибыль

Варианты для инвестиций и пассивного дохода

VC.RU
«Скелеты в шкафу: Как наша тайная жизнь управляет явной» «Скелеты в шкафу: Как наша тайная жизнь управляет явной»

В какой момент младенцы начинают хранить тайны лучше шимпанзе

N+1
Тимур и его столица Тимур и его столица

Как Тимур стал эффективным сити-менеджером

Вокруг света
Этот всеми любимый напиток повышает риск развития деменции в 3 раза: лучше не злоупотреблять! Этот всеми любимый напиток повышает риск развития деменции в 3 раза: лучше не злоупотреблять!

У людей, употребляющих этот напиток ежедневно, наблюдается снижение памяти

ТехИнсайдер
Что такое черри-пикинг и как понять, что собеседник использует его против вас Что такое черри-пикинг и как понять, что собеседник использует его против вас

По каким признакам можно распознать черри-пикинг, что ему можно противопоставить

Psychologies
Тайный путь Тайный путь

Ювелирный эксперт Елена Веселая рассказала RR о своих ювелирных путешествиях

RR Люкс.Личности.Бизнес.
Водитель для зомби Водитель для зомби

«Кадавр»: сумрачный турецкий хоррор

Weekend
Мир велик, как баобаб Мир велик, как баобаб

На скольких языках говорят африканцы?

Знание – сила
Рудознатцы Рудознатцы

Как сейчас в России ищут золото

ТехИнсайдер
Любовь и виноград Любовь и виноград

Когда сыну поставили диагноз, его мама думала, что о работе можно забыть. И зря!

Новый очаг
«Империи норманнов: Создатели Европы, завоеватели Азии» «Империи норманнов: Создатели Европы, завоеватели Азии»

Что гобелен из Байё сообщает о завоевании Англии нормандцами

N+1
Записки из раскопа Записки из раскопа

Как жители средневекового Новгорода передавали сообщения

Вокруг света
Объект неустанного разоблачения Объект неустанного разоблачения

Тайная полиция, спрятанные сокровища и другие мифы о Ватикане

Weekend
Есть контакт Есть контакт

Певец и продюсер ELMAN о музыке в его жизни и его жизни в музыке

Men Today
В погоне за трендами В погоне за трендами

Как следить за всеми модными веяниями и удачно внедрять их в свой гардероб

Лиза
Осторожно, горячо! Осторожно, горячо!

Какие продукты снимают напряжение и повышают чувствительность

Лиза
Вместо «тренировки волос»: 4 работающих хака, которые помогут мыть голову реже Вместо «тренировки волос»: 4 работающих хака, которые помогут мыть голову реже

Можно ли натренировать волосы, чтобы они медленнее пачкались?

VOICE
Зеленый свет Зеленый свет

Сегодня многие верфи разобрались в том, что же такое sustainability

Y Magazine
Сергей Снежкин: «Режиссерский голос над всем пространством съемочной площадки должен звучать как гром небесный» Сергей Снежкин: «Режиссерский голос над всем пространством съемочной площадки должен звучать как гром небесный»

Я взошел на трибуну и водрузил диктофон прямо у микрофона. Повисла пауза

Коллекция. Караван историй
7 реальных историй хотела здорово, получилось красиво 7 реальных историй хотела здорово, получилось красиво

Истории читательниц, которые хотели сделать вклад в здоровье, а получили красоту

Новый очаг
Открыть в приложении