ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Геолог на Марсе Геолог на Марсе

Каково работать бок о бок с Curiosity в марсианской пустыне

Популярная механика
«Что знает Мариэль?»: зачем колкое драмеди меняет местами детей и родителей «Что знает Мариэль?»: зачем колкое драмеди меняет местами детей и родителей

Как «Что знает Мариэль?» по-новому рассматривает детско-родительские отношения

Forbes
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Образ дьявола как политический инструмент Образ дьявола как политический инструмент

Как Израиль остановил революцию в Иране

Монокль
Иллюзия успеха Иллюзия успеха

Четыре истории о талантливых мастерах пускать пыль в глаза

Популярная механика
Заполняя белые места на карте Заполняя белые места на карте

Некоторые ключевые вехи экспедиционной истории РГО

Вокруг света
Холодный расчет Джека Стормса Холодный расчет Джека Стормса

Мимолетные вспышки застывших в стекле фейерверков – результат точного расчета

Популярная механика
Глава молдавского оппозиционного блока «Победа» Илан Шор: Евроинтеграция – это морковка, которую нам подвесили Глава молдавского оппозиционного блока «Победа» Илан Шор: Евроинтеграция – это морковка, которую нам подвесили

Молдавский оппозиционер Илан Шор о своем отношении к процессу евроинтеграции

Ведомости
Антиоксиданты: зачем они нужны и где их искать Антиоксиданты: зачем они нужны и где их искать

Какие продукты стоит внести в меню, чтобы поддерживать тело в тонусе?

Правила жизни
С акцентом на бохо С акцентом на бохо

Современное пространство с элементами бохо, отражающее тенденцию к эклектике

Идеи Вашего Дома
Квадратная правда: как расширить границы квартиры, не покупая новую Квадратная правда: как расширить границы квартиры, не покупая новую

Как маленькая квартира может стать больше большой

Inc.
«Черный квадрат» раздора «Черный квадрат» раздора

Краткая история главной картины ХХ века

Weekend
Лето твоей любви Лето твоей любви

Простые приемы, которые помогут тебе стать счастливой женщиной

Лиза
Почему мы тянем время, даже когда знаем, что надо уйти? О токсичных отношениях и ловушках сознания Почему мы тянем время, даже когда знаем, что надо уйти? О токсичных отношениях и ловушках сознания

Почему же так сложно выйти из замкнутого круга токсичных отношений?

VOICE
Безопасность использования ИИ в банках: что важно знать Безопасность использования ИИ в банках: что важно знать

Как именно работает искусственный интеллект в финансовом секторе

Inc.
Трудный подросток, безумный проповедник и злодей из «Бэтмена»: 5 лучших фильмов с Полом Дано Трудный подросток, безумный проповедник и злодей из «Бэтмена»: 5 лучших фильмов с Полом Дано

Лучшие роли Пола Дано: от независимого кино до «Бэтмена»

Правила жизни
Бизнесмены со школьной скамьи: предприниматели вспоминают истории из детства Бизнесмены со школьной скамьи: предприниматели вспоминают истории из детства

Уже со школы наши герои показывали смекалку и предпринимательские способности

Inc.
Активный сезон Активный сезон

Самые классные и полезные летние развлечения

Лиза
Шанс на провал Шанс на провал

История легенды ленинградского нуар-рока — группы «Петля Нестерова»

СНОБ
Тайны фиванских гробниц Тайны фиванских гробниц

Что изображено на стенах египетских гробниц и как «читать» основные сюжеты

Вокруг света
Усадьбы Москвы Усадьбы Москвы

Русские имения хранят множество историй, повлиявших на судьбу страны

Вокруг света
Император из Москвы Император из Москвы

Никита Ефремов — о подготовке к роли Николая II и неотвратимости смерти

СНОБ
Где есть Где есть

Где и чем вкусно кормят в Петербурге

СНОБ
«Астероиды: рожденные пламенем» «Астероиды: рожденные пламенем»

Как ученые научились анализировать состав астероидов

N+1
Девятое искусство Девятое искусство

Французы и бельгийцы росли на комиксах до того, как это стало мейнстримом

Вокруг света
Болотные семафоры Болотные семафоры

Дупеля летят к нам из жарких поясов экваториальной Африки...

Наука и жизнь
Буддийские и даосские храмы Китая оказались убежищами для вековых деревьев Буддийские и даосские храмы Китая оказались убежищами для вековых деревьев

На территории буддийских и даосских храмов Китая сохранились вековые деревья

N+1
Отложенное убийство: ИИ погубит поисковики, но не в этом году Отложенное убийство: ИИ погубит поисковики, но не в этом году

Технологии искусственного интеллекта покушаются на бизнес поисковых сервисов

Forbes
Ученые объяснили, как езда на велосипеде способствует снижению риска развития деменции Ученые объяснили, как езда на велосипеде способствует снижению риска развития деменции

Езда на велосипеде полезнее, чем вы думали

ТехИнсайдер
Письмо гонителю генетики Письмо гонителю генетики

Это письмо можно считать одним из живых документов «оттепели»

Дилетант
Открыть в приложении