ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Горячие головы Горячие головы

Как позаботиться о прическе с приходом теплого времени года

Лиза
Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Транзитный пассажир Транзитный пассажир

Актер Сергей Горошко перевоплощается легко и очень элегантно

OK!
Цифровое творчество Цифровое творчество

Как привить детям любовь к созиданию, а не потреблению

Популярная механика
Банкократия Банкократия

Как получилось, что банки растут в разы быстрее, чем вся остальная экономика

Монокль
Робот – лучший повар Робот – лучший повар

Намучившись с самодеятельной кулинарией, он решил поручить эти заботы технике

Популярная механика
Как по нотам Как по нотам

Никола Мельников об источниках вдохновения и подходе к пониманию искусства

Men Today
Логик, упорный или душевный: определите свой тип личности и узнайте, как справляться со стрессом именно вам Логик, упорный или душевный: определите свой тип личности и узнайте, как справляться со стрессом именно вам

Как управлять стрессом, определив свой тип личности?

Psychologies
Для кого звонит рассветный колокол новой деревни? Для кого звонит рассветный колокол новой деревни?

Факторы эффективности проектов развития территорий на примере движения Сэмаыль

Позитивные изменения
«Я буду всегда с тобой»: что такое сталкинг и как от него защититься в России? «Я буду всегда с тобой»: что такое сталкинг и как от него защититься в России?

Сталкинг: почему люди преследуют других людей?

Правила жизни
Канны-2024: зачем Коппола 40 лет думал о Римской империи Канны-2024: зачем Коппола 40 лет думал о Римской империи

Каким получился «Мегалополис» Фрэнсиса Форда Копполы

РБК
Литературные персонажи, которые бесят всех до чертиков Литературные персонажи, которые бесят всех до чертиков

11 примеров, когда герой книги раздражает настолько, что хочется бросить чтение

Maxim
«Я думала, что никогда не сделаю аборт»: отрывок из романа о разрушающем чувстве вины «Я думала, что никогда не сделаю аборт»: отрывок из романа о разрушающем чувстве вины

Отрывок из повести Клаудии Пиньейро «Элена знает»

Forbes
Загадка «ангарского цветка» Загадка «ангарского цветка»

Ученые находят растения, которые относят к цветковым, в слоях юрского периода

Наука и Техника
Как отформатировать жесткий диск. Подробная инструкция Как отформатировать жесткий диск. Подробная инструкция

Все для форматирования жесткого диска без вреда для компьютера и системы

Цифровой океан
Петербург будущего Петербург будущего

Владимир Ильич Травуш проектировал самые высокие здания современной России

Собака.ru
Что вас ждет, если вы влюбились в пассивно-агрессивного человека Что вас ждет, если вы влюбились в пассивно-агрессивного человека

Что движет пассивным агрессором?

Psychologies
Город в поисках культурной идентичности Город в поисках культурной идентичности

Улан-Удэ: русская провинциальная архитектура и монгольская героика

Weekend
«Я уеду в Туву»: как регион стал перспективным вариантом для жизни «Я уеду в Туву»: как регион стал перспективным вариантом для жизни

Как Тува становится все более привлекательной и для жизни, и для туризма

Правила жизни
Кубок «Америки»: мифы, времена и люди Кубок «Америки»: мифы, времена и люди

Как и благодаря кому Кубок «Америки» обрел свой уникальный статус?

Y Magazine
Дьявол в деталях Дьявол в деталях

Языком моды Михаил Булгаков владел не менее виртуозно, чем литературным

Men Today
12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров 12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров

Стоят ли бумажные полотенца денег, которые мы за них платим?

VOICE
Екатерина Великая в Москве Екатерина Великая в Москве

Екатерина Великая не любила Москву, но так ли всё однозначно?

Знание – сила
Почему креативность — ключевой навык будущего Почему креативность — ключевой навык будущего

Почему работодатели стали обращать внимание именно на креативность сотрудников?

СНОБ
Зачем люди сидят на диете из мяса и зелени? Интересные факты о питании: стоит узнать! Зачем люди сидят на диете из мяса и зелени? Интересные факты о питании: стоит узнать!

Как комбинирование мяса с зеленью может помочь регулировать уровень сахара

ТехИнсайдер
Идеи для девичника: как провести время с подругами Идеи для девичника: как провести время с подругами

Как организовать девичник так, чтобы он запомнился и понравился всем участникам?

Здоровье
«Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их «Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их

Как режиссер Мишель Франко говорит о проживании трагедии в фильме «Память»

Forbes
Кто так строит: как «Дом-2» стал самым известным долгостроем страны Кто так строит: как «Дом-2» стал самым известным долгостроем страны

Самые громкие скандалы, самые важные имена и самые значимые вехи телепроекта

Правила жизни
Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны Как живет Сургут, обязанный своим благополучием самому скромному миллиардеру страны

Как Фарман Салманов изменил Сургут?

Forbes
Открыть в приложении