ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мяу по-русски Мяу по-русски

Налаживая связь с человеком, кошки изменили тональность мяуканья

Популярная механика
Мясные лидеры наращивают долю рынка Мясные лидеры наращивают долю рынка

Участники девятого рейтинга «Агроинвестора» продолжили наращивать производство

Агроинвестор
Голографическая реальность Голографическая реальность

Инновационный head-up-дисплей дополняет полезной информацией реальный мир

Популярная механика
Золотая комната Золотая комната

К дикому племени спускается сияющий человек в скафандре и протягивает к ним руку

Знание – сила
Я + Ты = (не)идеальная пара Я + Ты = (не)идеальная пара

Почему невозможно быть идеальной парой

Psychologies
«Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их «Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их

Как режиссер Мишель Франко говорит о проживании трагедии в фильме «Память»

Forbes
Из помазанников Божьих в святые мученики Из помазанников Божьих в святые мученики

Расстрел царской семьи — едва ли не самый хорошо исследованный сюжет

Дилетант
Репринт: «Виктор Вавич», «Древняя ночь вселенной» и другие возвращения Репринт: «Виктор Вавич», «Древняя ночь вселенной» и другие возвращения

Переиздания книг, которые не захочется выпускать из рук

Полка
Их не читали две тысячи лет Их не читали две тысячи лет

ИИ позволил начать чтение свитков, две тысячи лет остававшиеся недоступными

Дилетант
Сопротивление — полезно Сопротивление — полезно

Ученые из Новосибирска создали мемристоры для перезапуска компьютерной индустрии

Монокль
Солнечный друг Солнечный друг

5 вопросов врачу по безопасному загару

Лиза
101 совет от «цифрового пророка» Кевина Келли 101 совет от «цифрового пророка» Кевина Келли

«Когда вы правы, вы ничему не учитесь»

Reminder
Полина Luxury Girl: интервью о хейтерах, стримах, рыбалке и фильмах для взрослых Полина Luxury Girl: интервью о хейтерах, стримах, рыбалке и фильмах для взрослых

Актриса из фильмов 18+ Полина Марченко — обо всем и сразу

Maxim
Как удалить объект с фото онлайн — 3 простых и бесплатных способа Как удалить объект с фото онлайн — 3 простых и бесплатных способа

Как удалить ненужный объект с фото онлайн — быстро и бесплатно

CHIP
Нерадужное будущее: 5 сериалов-антиутопий, правдоподобно показывающих возможные сценарии для человечества Нерадужное будущее: 5 сериалов-антиутопий, правдоподобно показывающих возможные сценарии для человечества

Рассказываем о самых интересных сериалах-фантазиях о ближайшем будущем

Правила жизни
Страдает самооценка? Повысить ее может отказ от соцсетей! Интересные результаты исследования Страдает самооценка? Повысить ее может отказ от соцсетей! Интересные результаты исследования

Как социальные сети влияют на нашу самооценку?

ТехИнсайдер
Популярность Майнкрафта. Почему эта игра всем нравится Популярность Майнкрафта. Почему эта игра всем нравится

В чем секрет успеха игры, у которой нет главного – конечной цели?

Цифровой океан
Почему мы боимся успеха и как справиться с этим страхом: советы психолога Почему мы боимся успеха и как справиться с этим страхом: советы психолога

Почему нам так страшно сделать решающий шаг к успеху?

Psychologies
Платон, синхротрон и миллионы долларов Платон, синхротрон и миллионы долларов

Нечитаемые свитки из Геркуланума наконец-то смогли прочитать, не разворачивая

Цифровой океан
Дворец и храм Дворец и храм

Грандиозные проекты Ирода Великого на сто лет вперед определили облик Иерусалима

Знание – сила
Владимир Медведев: Жители России ничего не знают о молчаливых пришельцах, живущих рядом Владимир Медведев: Жители России ничего не знают о молчаливых пришельцах, живущих рядом

Писатель Владимир Медведев — о медленном письме и сюжете, явившемся в полусне

СНОБ
Темная лошадка Темная лошадка

Нейросеть — это программа, поведение которой определяется коэффициентами

Цифровой океан
Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит

Кто такая Дуа Липа и чем примечателен её альбом Radical Optimism?

Правила жизни
Темная сторона: почему не стоит бояться «недопустимых» мыслей и фантазий Темная сторона: почему не стоит бояться «недопустимых» мыслей и фантазий

Настало время взглянуть на нашу темную сторону по-новому

Psychologies
Бесит коллега Бесит коллега

Как вернуть мир на рабочем месте, рассказывает психолог

Лиза
Кофе или матча? Ваш выбор по утрам многое о вас говорит Кофе или матча? Ваш выбор по утрам многое о вас говорит

Как оказалось, ваша привычка пить кофе или чай утром может многое рассказать вас

ТехИнсайдер
Пэтфуд как бизнес Пэтфуд как бизнес

Как идет импортозамещение на рынке кормов для непродуктивных домашних животных

Агроинвестор
«Очарованный принц». Что делать, если ребенок бессовестно льстит и манипулирует «Очарованный принц». Что делать, если ребенок бессовестно льстит и манипулирует

Как дети льстят и манипулируют, и что с этим делать

СНОБ
Невозможный человек! Невозможный человек!

7 советских актеров, чей характер оказался слишком тяжелым в работе

Лиза
6-летняя девочка делает макияж в детский сад: как поколение альфа рискует травмировать себя 6-летняя девочка делает макияж в детский сад: как поколение альфа рискует травмировать себя

Почему поколение альфа так одержимо макияжем и чем это может им навредить?

Psychologies
Открыть в приложении