Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Кружок, два глаза и улыбка: кто и когда придумал первый смайлик Кружок, два глаза и улыбка: кто и когда придумал первый смайлик

Как родилась идея смайлика, которая впоследствии изменила мир

ТехИнсайдер
Как не нарваться на контрафакт. Почему сейчас так важно покупать оригинал Как не нарваться на контрафакт. Почему сейчас так важно покупать оригинал

Эксперты объяснили, чем грозит покупка неоригинальных запчастей

РБК
Как мошенники используют дипфейки и почему не стоит выкладывать в интернет свои фотографии Как мошенники используют дипфейки и почему не стоит выкладывать в интернет свои фотографии

Дипфейки: можно ли обезопасить себя от мошенников?

Inc.
Интеллектуальная проходимость Интеллектуальная проходимость

Как электроника увеличивает внедорожные возможности машины

ТехИнсайдер
Новое открытие в нейробиологии: ученые разобрались, как на самом деле работает память Новое открытие в нейробиологии: ученые разобрались, как на самом деле работает память

Какой процесс играет ключевую роль в том, как хранятся воспоминания?

Inc.
Вампиры среди нас: 6 признаков энергетического «Дракулы» Вампиры среди нас: 6 признаков энергетического «Дракулы»

Такие люди иногда сами не подозревают, что паразитируют на окружающих

Psychologies
Осторожно, мода! Осторожно, мода!

Овердрессинг под запретом. Как научиться одеваться стильно и уместно

Лиза
Путешествие в науку Путешествие в науку

В самом сердце Сибири расположен всемирно известный Академгородок

Отдых в России
Моя золотая долина… Моя золотая долина…

Интервью с академиком Анатолием Деревянко

Наука и жизнь
Почему мужчина быстро кончает: причины и способы этого избежать Почему мужчина быстро кончает: причины и способы этого избежать

Что является причиной «быстрого финиша» у мужчин?

Psychologies
Ведьма или чья-нибудь мама: почему актрис старше 40 лет ждет забвение в Голливуде Ведьма или чья-нибудь мама: почему актрис старше 40 лет ждет забвение в Голливуде

Как эйджизм по отношению к женщинам укоренился в кино

Forbes
Быстрее, выше, сильнее: как связаны спорт и либидо Быстрее, выше, сильнее: как связаны спорт и либидо

Можно ли повысить либидо, занимаясь спортом?

Правила жизни
Премия за самый короткий импульс света Премия за самый короткий импульс света

Как электроны связаны с современной наукой?

Наука и жизнь
Big Data под угрозой: почему бизнес больше не стремится узнать все о своих клиентах Big Data под угрозой: почему бизнес больше не стремится узнать все о своих клиентах

Почему гонка за клиентскими данными у крупного бизнеса замедлилась

Forbes
Только я! Только я!

Что такое эгоцентризм и как его распознать

Лиза
«Женщину хотят и презирают одновременно»: почему мужчины не переносят отказ в сексе «Женщину хотят и презирают одновременно»: почему мужчины не переносят отказ в сексе

Отрывок из книги «Секс в эпоху согласия»

Psychologies
Срывы на диетах: почему так работает мозг и как с ним договориться Срывы на диетах: почему так работает мозг и как с ним договориться

Перепробовали много диет, но они не помогли, так как вы все время срывались?

Psychologies
Чем подкармливать комнатные растения зимой: готовим домашние удобрения из пищевых отходов Чем подкармливать комнатные растения зимой: готовим домашние удобрения из пищевых отходов

Несколько средств, которые позволят буквально оживить ваши растения зимой

ТехИнсайдер
Квалифицированный заказчик: как получаются замечательные школьные здания Квалифицированный заказчик: как получаются замечательные школьные здания

Как получаются замечательные школьные здания

Наука
10 цитат Антона Макаренко, которые поднимут родителей на новый уровень 10 цитат Антона Макаренко, которые поднимут родителей на новый уровень

Каким должен быть авторитет для детей, могут ли родители быть друзьями

Psychologies
Поупражнялись в girl math и съели girl dinner: как «девчачий ужин» и «девчачья математика» стали мемами Поупражнялись в girl math и съели girl dinner: как «девчачий ужин» и «девчачья математика» стали мемами

Что за тренд с girl/boy появился в сети и так ли он безобиден, как кажется

Правила жизни
Плохая компания Плохая компания

Что делать, если у ребенка появились сомнительные друзья

Лиза
Как играть в Как играть в

Как играть в "Доту 2" осознанно и приносить максимум пользы своей команде

CHIP
Глупые истории с татуировками: рассказываем, как не надо Глупые истории с татуировками: рассказываем, как не надо

Поучительные истории про татуировки

Maxim
Ученые опубликовали меню королевских трапез британских монархов Георга III и Георга IV Ученые опубликовали меню королевских трапез британских монархов Георга III и Георга IV

Какие блюда подавались к столу двух британских королей?

ТехИнсайдер
Вы этого не знали! Какие бывают капсулы для стирки и как правильно ими пользоваться Вы этого не знали! Какие бывают капсулы для стирки и как правильно ими пользоваться

Капсулы для стирки: как и из чего они производятся, как ими пользоваться?

ТехИнсайдер
Лучшие роли Тимоти Шаламе в фильмах о взрослении Лучшие роли Тимоти Шаламе в фильмах о взрослении

Список самых примечательных фильмов про переходный возраст с Тимоти Шаламе

Правила жизни
Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему

Все игровые фильмы одного из главных фантазеров современного кино Мишеля Гондри

Правила жизни
10 цитат Оливера Сакса, которые изменят ваше представление о сознании человека 10 цитат Оливера Сакса, которые изменят ваше представление о сознании человека

Как опыт общения с людьми меняет представление о сознании человека

Psychologies
Конечно они Конечно они

«Иванушки» по-прежнему на волне и в чартах!

OK!
Открыть в приложении