Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Исследование показало, что социальное дистанцирование не защищает от инфекций Исследование показало, что социальное дистанцирование не защищает от инфекций

Социальное дистанцирование не защищает от инфекций. А что защищает?

ТехИнсайдер
Вечный спор: Mercedes-Benz GLE или BMW X5? Вечный спор: Mercedes-Benz GLE или BMW X5?

Mercedes-Benz GLE или BMW X5: какая модель лучше?

4x4 Club
Физическая сим-карта или eSIM: что лучше? Физическая сим-карта или eSIM: что лучше?

Разбираемся в плюсах и минусах пластиковых сим-карт и eSIM

CHIP
5 правил хорошей ссоры 5 правил хорошей ссоры

Как сохранить себя и отношения после очередной душераздирающей ссоры

Psychologies
«Тест на старика»: а вы сможете его пройти? «Тест на старика»: а вы сможете его пройти?

Если у вас есть пять минут, предлагаем испытать свои силы в тесте на старика

Maxim
Острые ощущения Острые ощущения

Они любят риск, покоряют вершины, но не могут остановиться. Что виной тому?

Здоровье
Как распознать токсичные отношения: 8 явных признаков Как распознать токсичные отношения: 8 явных признаков

Признаки, которые выдают токсичного партнера

Psychologies
Изобретая заговоры, или История главного злодея XVII века Изобретая заговоры, или История главного злодея XVII века

Падение Титуса Оутса, выдумавшего католический заговор

Знание – сила
От охотничьих пиджаков до добротного винтажа: краткая история твида От охотничьих пиджаков до добротного винтажа: краткая история твида

Самая благородная ткань — это вовсе не бархат, а традиционный британский твид

Правила жизни
Через иронию к звездам Через иронию к звездам

Как Ричард Викторов пытался оживить оттепельный пафос в эпоху застоя

Weekend
Где рождается свет Где рождается свет

Что такое Солнце? Газовый шар плотнее воды, мощнейший термоядерный реактор

Вокруг света
«Главное — это вера и огромное терпение» «Главное — это вера и огромное терпение»

Диана Мирошникова рассказала о воспитании музыкой и знаковых встречах

OK!
Стресс в детстве «ломает» больше генов в мозге, чем удар по голове Стресс в детстве «ломает» больше генов в мозге, чем удар по голове

Как стресс в детстве влияет на мозг?

ТехИнсайдер
Летим на Чукотку! Летим на Чукотку!

Говорят, это место – мечта любого туриста и одновременно – проклятие

Лиза
Порнозависимость: что это и как с ней бороться Порнозависимость: что это и как с ней бороться

Когда просмотр порно становится зависимостью?

РБК
Немного о жизни звезд Немного о жизни звезд

Как ведется классификация звезд

Наука и техника
Движения людей выдали их намерение найти информацию Движения людей выдали их намерение найти информацию

Характер движений подсказал другим, что этот человек занят поиском информации

N+1
Моё хорошо Моё хорошо

Что такое счастье, чем оно отличается от просто «хорошо»?

Новый очаг
Поддастся даже самый упрямый питомец: как приучить кота к лотку Поддастся даже самый упрямый питомец: как приучить кота к лотку

Как приучить к лотку и котенка, и взрослого кота

ТехИнсайдер
«Мышь»: роман о том, как зомби-апокалипсис уничтожает Москву и ее жителей «Мышь»: роман о том, как зомби-апокалипсис уничтожает Москву и ее жителей

Отрывок из романа «Мышь»: про апокалипсис ходячих мертвецов в России

Forbes
Компактное застолье Компактное застолье

Даже на небольшой кухне должно быть место, где можно уютно позавтракать

Лиза
Что делать, если не работает один наушник: практические рекомендации Что делать, если не работает один наушник: практические рекомендации

Почему может не работать один наушник и как устранить неисправность

CHIP
Бремя «Белого альбома»: как «Битлз» записали пластинку, которая похоронила шестидесятые Бремя «Белого альбома»: как «Битлз» записали пластинку, которая похоронила шестидесятые

Почему White Album «Битлз» разделил историю музыки на до и после

Правила жизни
Жизнь в недостатке: каких кадров не хватает российскому онлайн-ретейлу Жизнь в недостатке: каких кадров не хватает российскому онлайн-ретейлу

Каких специалистов недостает в российском онлайн-ретейле и что с этим делать

Forbes
Острый перец Острый перец

Просто огонь! Избавляет от болей в животе, снижает риск инсультов и не только

Здоровье
Нефть можно получить даже из канализации Нефть можно получить даже из канализации

Водоросли могут стать надежным и экологически чистым источником топлива

Наука
Старая и ломается: российские аграрии рискуют остаться без техники Старая и ломается: российские аграрии рискуют остаться без техники

Технологичность растениеводства в России под угрозой

Forbes
Расплата за ошибки: что будет с Binance и криптоиндустрией после рекордного штрафа Расплата за ошибки: что будет с Binance и криптоиндустрией после рекордного штрафа

Подход криптобирж к клиентам может стать более жестким

Forbes
Новый вызов Новый вызов

Юлия Пересильд примерила корону в прямом смысле слова

OK!
Мятежная Вандея Мятежная Вандея

В марте 1793 года во Франции начался Вандейский мятеж

Дилетант
Открыть в приложении