ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы» Альберт Филозов: «Такого мужа, как я, своим девочкам не пожелал бы»

Альберт Филозов — о том, как любовь продлила ему жизнь

Коллекция. Караван историй
Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Блогер рассказал, как надо правильно вести себя в Японии, и развеял стереотип о запретах на открытую одежду в общественных местах Блогер рассказал, как надо правильно вести себя в Японии, и развеял стереотип о запретах на открытую одежду в общественных местах

Правила поведения в японском обществе, которые помогут путешественникам

Maxim
Осколочно-фугасный ливень Осколочно-фугасный ливень

Осколочно-фугасный ливень. Рой ударных БПЛА с авиабомбами Hatchet

Популярная механика
Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты

Чем уникален седноид на краю Солнечной системы, получивший прозвище «Аммонит»

Inc.
Идея! Оставлять чаевые Идея! Оставлять чаевые

Учись правильно благодарить тех, кто оказывает тебе услуги

Maxim
Помело: польза, вред, как есть и что приготовить — рецепт шеф-повара Помело: польза, вред, как есть и что приготовить — рецепт шеф-повара

Чем полезно помело и как правильно его есть?

РБК
Пластик, металл, стекло: какая посуда подходит для микроволновки Пластик, металл, стекло: какая посуда подходит для микроволновки

Какая посуда безопасна для микроволновки, а от какой лучше отказаться?

CHIP
Летают ли авиалайнеры над Северным полюсом: да, и это стоит сделать хотя бы раз в жизни Летают ли авиалайнеры над Северным полюсом: да, и это стоит сделать хотя бы раз в жизни

Почему летать через Северный полюс до сих пор рискованно

ТехИнсайдер
Музыка против голода: как фестиваль Live Aid изменил благотворительность и культуру Музыка против голода: как фестиваль Live Aid изменил благотворительность и культуру

Как фестиваль Live Aid стал поворотной точкой для благотворительности в музыке

Forbes
Елизавета Шакира: «Может быть, я какая-то неправильная актриса» Елизавета Шакира: «Может быть, я какая-то неправильная актриса»

Актриса Елизавета Шакира — о дружбе вне экрана и спонтанной карьере

Ведомости
Пример заразителен Пример заразителен

Как гаджеты могут стать наркотиком и почему их не стоит обвинять во всех бедах

Правила жизни
Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос

Мы привыкли считать, что делаем осознанный выбор, но так ли это на самом деле?

Inc.
Чем минивэн отличается от микроавтобуса: простой вопрос, неочевидный ответ Чем минивэн отличается от микроавтобуса: простой вопрос, неочевидный ответ

Минивэн и микроавтобус: есть ли разница?

ТехИнсайдер
Базальты с обратной стороны Луны возникли из истощенной мантии Базальты с обратной стороны Луны возникли из истощенной мантии

Источником базальтов, добытых станцией «Чанъэ-6», была мантия из слоев Луны

N+1
Как избежать ошибок на переговорах Как избежать ошибок на переговорах

Распространенные просчеты в оффлайн- и онлайн-переговорах и как их избежать

Inc.
Александр Лабас: не авангардист, не соцреалист Александр Лабас: не авангардист, не соцреалист

Голос А. Лабаса — сложный, полифоничный, подчас ускользающий от прямых смыслов

Монокль
История профессора Либреску! Он пережил Холокост и пожертвовал собой при стрельбе в университете История профессора Либреску! Он пережил Холокост и пожертвовал собой при стрельбе в университете

История профессора Ливиу Либреску — это не просто рассказ о героизме

ТехИнсайдер
Во Франции раскопали детально проработанную голову палеолитической Венеры Во Франции раскопали детально проработанную голову палеолитической Венеры

Чем ученых заинтересовал один из артефактов на стоянке Амьен-Ренанкур-1

N+1
Если кто-то подавился Если кто-то подавился

Как помочь человеку, если он подавился?

Здоровье
Не выходя из машины Не выходя из машины

Необычные гаджеты, которые в разные эпохи можно было найти в автомобиле

Правила жизни
Третий межзвездный объект оказался слабоактивной кометой Третий межзвездный объект оказался слабоактивной кометой

Астрономы подтвердили обнаружение третьего межзвездного объекта

N+1
Город, которому нужно 20 лет Город, которому нужно 20 лет

У Саратова есть потенциал, но ему не хватает времени

Weekend
Диагнозы не горят Диагнозы не горят

Новый детективный сериал видного сценариста Денниса Лихейна «Дым»

Weekend
Архив богини Фауны Архив богини Фауны

Зоологический музей Московского университета – «отражение самой природы»

Знание – сила
Что о вас говорит ваше любимое спортивное упражнение? Что о вас говорит ваше любимое спортивное упражнение?

Наши любимые упражнения могут зависеть от типа нашей личности!

ТехИнсайдер
Холсты за миллионы долларов: самые дорогие картины отечественных художников Холсты за миллионы долларов: самые дорогие картины отечественных художников

О самых дорогих картинах, вышедших из под кистей российских мэтров живописи

ТехИнсайдер
«Человек собаке друг, это знают все вокруг»: 10 знаменитых собак-героев «Человек собаке друг, это знают все вокруг»: 10 знаменитых собак-героев

10 псов, которые заметно отличились и вошли в историю

ТехИнсайдер
Парфюмерный этикет: летние страницы Парфюмерный этикет: летние страницы

Летний парфюм – это история, рассказанная языком деликатного шлейфа

Лиза
Открыть в приложении