ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Умная материя Умная материя

Армия нанороботов сделает нашу жизнь окончательной фантастикой

Популярная механика
Вечная молодость: 7 легендарных внедорожников, которые выпускались более 20 лет Вечная молодость: 7 легендарных внедорожников, которые выпускались более 20 лет

Автотитаны, которые десятилетиями остаются на конвейере

4x4 Club
Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Одежда и надежды Одежда и надежды

Красивые книги о моде

Weekend
Судоходная Арктика Судоходная Арктика

Беспрецедентное по масштабам строительство судов ледового класса в России

Популярная механика
Академик Петр Чумаков: вирусы позволяют увидеть раковые клетки и сформировать иммунный ответ Академик Петр Чумаков: вирусы позволяют увидеть раковые клетки и сформировать иммунный ответ

Вирусы дают надежду в лечении самых злокачественных видов рака

Наука
Надувные самолеты – не надувательство: авиация Надувные самолеты – не надувательство: авиация

Конструкция Гроховского стала первым надувным самолетом, поднявшимся в воздух

Популярная механика
Крупным планом: что происходит с отечественным кинорынком Крупным планом: что происходит с отечественным кинорынком

Какое кино сейчас интересно зрителям в России?

Inc.
Нехимические зависимости: что это такое, как их распознать и победить Нехимические зависимости: что это такое, как их распознать и победить

Вы просыпаетесь и сразу тянетесь к телефону?

Maxim
Позитивные вибрации: плюсы и минусы дизельной модификации пикапа JAC T9 Позитивные вибрации: плюсы и минусы дизельной модификации пикапа JAC T9

JAC T9: настоящие внедорожники еще выпускают

ТехИнсайдер
Гений, садовник и киноман: 10 эпизодов из биографии Кодзимы Гений, садовник и киноман: 10 эпизодов из биографии Кодзимы

Что вы знаете о Хидео Кодзиме?

Правила жизни
Пушки или масло Пушки или масло

Как технологии двойного назначения помогли послевоенной конверсии

Эксперт
От «коробочек» — к нелинейной архитектуре От «коробочек» — к нелинейной архитектуре

Как может выглядеть архитектура XXI века?

Монокль
«Налоговая лазейка» и верные клиенты: как Джеффри Эпштейн сделал свое состояние «Налоговая лазейка» и верные клиенты: как Джеффри Эпштейн сделал свое состояние

Хотите узнать способ, благодаря которому Джеффри Эпштейннакопил свое состояние?

Forbes
Деньги на вырост Деньги на вырост

Забудьте обо всех мифах о деньгах и создайте стратегию финансового воспитания

Psychologies
Матери шимпанзе научили потомков общению Матери шимпанзе научили потомков общению

Этологи обнаружили, что коммуникация шимпанзе формируется под влиянием матери

N+1
Скрытая углеводная нагрузка: так ли полезны «здоровые» сладости и что нам не договаривают маркетологи Скрытая углеводная нагрузка: так ли полезны «здоровые» сладости и что нам не договаривают маркетологи

На что обратить внимание в составе «здоровых перекусов»

ТехИнсайдер
Что такое отложенный налог на прибыль и зачем его учитывать Что такое отложенный налог на прибыль и зачем его учитывать

Как работает отложенный налог на прибыль

Inc.
Гипоаллергенная диета: что включить в меню Гипоаллергенная диета: что включить в меню

Справиться с аллергией можно не только с помощью лекарств

Лиза
«Продажи, превышающие ожидания, тоже могут стать проблемой»: 3 ошибки книжного продюсерского центра «Продажи, превышающие ожидания, тоже могут стать проблемой»: 3 ошибки книжного продюсерского центра

Опыт и ошибки книжного продюсерского агентства и издательства

Inc.
Это не автомобиль: какой самый опасный вид транспорта Это не автомобиль: какой самый опасный вид транспорта

Рейтинг самых «аварийных» типов транспорта

ТехИнсайдер
Органоидный интеллект: революция в биокомпьютинге и медицине Органоидный интеллект: революция в биокомпьютинге и медицине

Ученые надеются, что органоидный интеллект изменит подход к вычислениям

Inc.
Взрослые дети Взрослые дети

Почему персонажи японского художника Ёситомо Нары не улыбаются

Weekend
Команда роботов готовится исследовать пещеры Луны и Марса Команда роботов готовится исследовать пещеры Луны и Марса

Как тестировали автономных роботов для исследования подземных пещер

ТехИнсайдер
«Вместо тремора — бодрость и спокойствие»: почему люди стали чаще выбирать чай вместо кофе «Вместо тремора — бодрость и спокойствие»: почему люди стали чаще выбирать чай вместо кофе

Почему люди меняют свои привычки и действительно ли чай может заменить кофе

Правила жизни
«Так ты „Опель“ или нет?» Три загадки самого первого автомобиля «Москвич» «Так ты „Опель“ или нет?» Три загадки самого первого автомобиля «Москвич»

История знаменитой модели «Москвич-400» полна парадоксов и вопросов

ТехИнсайдер
«Я понял Японию. От драконов до покемонов» «Я понял Японию. От драконов до покемонов»

Как японцы видят общество вокруг себя

N+1
Бидермейер нашего времени Бидермейер нашего времени

Искусство правого поворота в венском музее

Weekend
«Простая геометрическая фигура»: какую историю пережил «Черный квадрат» Малевича «Простая геометрическая фигура»: какую историю пережил «Черный квадрат» Малевича

История успеха наследия художника Казимира Малевича

Forbes
Огненный гигант: какой вулкан самый большой в мире Огненный гигант: какой вулкан самый большой в мире

Какой вулкан считается самым высоким, самым большим, самым опасным, самым-самым?

ТехИнсайдер
Открыть в приложении