ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Умная материя Умная материя

Армия нанороботов сделает нашу жизнь окончательной фантастикой

Популярная механика
Страшно влиятельный доктор Страшно влиятельный доктор

Из чего 105 лет назад появился первый хоррор

Weekend
Мяу по-русски Мяу по-русски

Налаживая связь с человеком, кошки изменили тональность мяуканья

Популярная механика
Как найти свое счастье: бесценные научные советы Как найти свое счастье: бесценные научные советы

Формула счастья будет уникальной для каждого человека. Но как найти свою?

Psychologies
Секреты счастливых пар Секреты счастливых пар

Совместная жизнь – причудливый танец. Как танцевать его долго?

Psychologies
«Казус белых» на российском рынке вина «Казус белых» на российском рынке вина

На российском винном рынке красные вина постепенно уступают место белым

РБК
Люди на пределе Люди на пределе

Возможности нашего собственного, среднестатистического тела

Вокруг света
В поисках рифмы: каким получился музыкальный фильм про Пушкина с Юрой Борисовым В поисках рифмы: каким получился музыкальный фильм про Пушкина с Юрой Борисовым

Святослав Иванов рассказывает, каким получился байопик с Юрой Борисовым

Forbes
Связанные одной целью Связанные одной целью

Можно ли в одном организме объединить несколько разных существ?

Вокруг света
Тянут на себя Тянут на себя

Типаж у этих актеров разный, а сила их харизмы примерно одинакова

VOICE
Надежда Васильева: Нельзя персонажей просто одевать в нарядные тряпки Надежда Васильева: Нельзя персонажей просто одевать в нарядные тряпки

Надежда Васильева о создании костюмов для современных сказок

Ведомости
Японцы сделали роборуку с человеческими мышцами Японцы сделали роборуку с человеческими мышцами

Японские инженеры разработали биогибридную руку с человеческими мышцами

N+1
Анатолий Корнеев: как изменить отношение россиян к алкоголю Анатолий Корнеев: как изменить отношение россиян к алкоголю

Анатолий Корнеев: почему в России плохо развита культура потребления алкоголя

СНОБ
Дымзавесы и перцовый газ: как оборонка СССР создавала противоугонные системы Дымзавесы и перцовый газ: как оборонка СССР создавала противоугонные системы

Охранная система, которая работала по принципу газового оружия, существовала

ТехИнсайдер
Знакомство с сапиенсами Знакомство с сапиенсами

Что случилось же 50 тысяч лет назад? Интереснейшие находки в Денисовой пещере

Afternoon Seasons of life
«Освобождая руки»: как русский импрессионизм дал дорогу экспериментам «Освобождая руки»: как русский импрессионизм дал дорогу экспериментам

История одиночек, для которых импрессионизм стал инструментом для экспериментов

РБК
Неспешно пили предки наши Неспешно пили предки наши

Медиевист Олег Воскобойников — о путешествии вина по истории мировой культуры

РБК
Новый виток Новый виток

Стася Милославская о непростых съемках на зимней натуре, северном сиянии и любви

Grazia
Единство против мошенников Единство против мошенников

Бороться с мошенниками в одиночку нельзя – нужно объединять усилия

Ведомости
Ни рук, ни ног — вообще ничего… Ни рук, ни ног — вообще ничего…

Что представляют собой змеи, чем они опасны и чем прекрасны?

Наука и жизнь
JONY JONY

Саундтрек жизни JONY, который поможет лучше его понять

Men Today
Отложи трубку! Отложи трубку!

Разбираемся, как перестать думать о бывшем и больше никогда ему не звонить

Лиза
Локализация налетела на ось из Поднебесной Локализация налетела на ось из Поднебесной

Приход крупного китайского производителя затормозит развитие российских

Монокль
Деньги на стойку Деньги на стойку

Как ГК Key Point развивает региональную сеть центров обработки данных

Ведомости
Геймификация, «какашки» и честность: как бренду привлечь зумеров Геймификация, «какашки» и честность: как бренду привлечь зумеров

Что поможет бренду зацепить поколение Z

Inc.
Алена Званцова: «Когда мы с мужем писали сценарий «Оттепели», периодически один из нас вопил: «Я больше не могу, пристрелите меня!» Алена Званцова: «Когда мы с мужем писали сценарий «Оттепели», периодически один из нас вопил: «Я больше не могу, пристрелите меня!»

«Мы поняли, что все режиссеры — ужасные люди»

Коллекция. Караван историй
Мошенники ищут вклады Мошенники ищут вклады

Почему граждане стали чаще жаловаться на хищения денег с депозитов?

Ведомости
Умный помощник Умный помощник

Как в спорте применяют технологии искусственного интеллекта?

Ведомости
Софонисба Вторая… — Первая! Софонисба Вторая… — Первая!

Кто сказал, что эмансипированные женщины появились только в конце XIX века?

Знание – сила
Хорошо там, где нас нет? Хорошо там, где нас нет?

На смену синдрому FOMO пришел FOBI. Почему теперь мы вовсе не хотим вовлекаться?

Grazia
Открыть в приложении