«Пока бизнес скорее тратит на ИИ, чем на нем зарабатывает»
Директор по дата-стратегии и искусственному интеллекту группы Arenadata Петр Емельянов — о том, как анализировать защищенные данные, что приносит бизнесу такая аналитика, и о балансе между частными и коммерческими интересами

Все очевиднее, что наши действия и данные становятся базой для обучения ИИ: Google включил для части пользователей своей почты и других сервисов ИИ-опции — для анализа содержимого писем; Microsoft запустил функцию Windows Recall, в рамках которой делает скриншоты экрана каждые несколько секунд — для лучшей аналитики.
В то же время компании из реальных секторов — финансовые, торговые, промышленные, медицинские и др. — обязаны строго хранить персональные данные. В этой строгости они видят барьер для обучения нужных им ИИ-моделей, да и просто извлечения из данных пользы.
Существует технология, призванная решить этот вопрос, — так называемые конфиденциальные, или совместные, вычисления. Они позволяют заниматься анализом данных, при этом оставляя сами данные в тайне (о математическом базисе таких вычислений см. «Всего лишь математика»). Один из пионеров конфиденциальных вычислений на российском рынке — компания УБИК, в прошлом году она вошла в состав группы Arenadata. В том же году был запущен Ubic Conclave — продукт на основе механизма конфиденциальных вычислений, позволяющий банкам, телекомам и госструктурам совместно анализировать имеющиеся у них данные без их передачи.
Директор по дата-стратегии и искусственному интеллекту группы Arenadata Петр Емельянов рассказал «Моноклю», как именно конфиденциальные вычисления могут преобразить искусственный интеллект, где кроется экономика в анализе данных и почему надо тщательно выбирать себе друзей.
— Лет пять назад были надежды, что конфиденциальные вычисления могут стать неким прорывом в искусственном интеллекте.
— Конфиденциальные вычисления, в отличие от того же искусственного интеллекта, — это технология, которую не видно. Это не чат-бот, в котором можно поговорить с машиной, это инфраструктурная, низкоуровневая технология, которая не создает вау-эффекта. Но за пять лет здесь произошел существенный скачок. Прежде всего, технология вышла из академических исследований в промышленное применение. В России мы первые, кто смог построить коммерческие решения, основанные на технологиях конфиденциальных вычислений, — преимущественно в финтехе, сейчас выходим за границы финансовой области.
— Давайте сразу перейдем к примерам. Возьмем условные четыре небольших региональных банка — из Татарстана, из Якутии, из Северо-Западного региона и, допустим, дальневосточный. У каждого своя база, делиться которой они, естественно, не могут. Что за аналитику они хотят получить на основе конфиденциальных вычислений?
— Прежде всего это скоринг, оценка дохода.
— А зачем для этого нужны конфиденциальные вычисления и данные других игроков? У банков есть доступ ко всем государственным данным, к базе Соцфонда, к базе налоговой, к «Госуслугам». Казалось бы, чтобы принять решение, этого достаточно.
— Когда человек берет кредит, он действительно может дать согласие на все, что вы перечислили. Но есть такая штука, как конверсия. Сегодня у государственных сервисов, в частности у «Госуслуг», конверсия невысока, потому что люди не всегда вспоминают свой пароль от «Госуслуг», а еще есть второй фактор аутентификации — например, код из СМС или сообщения в мессенджере. Банки, безусловно, используют государственные сервисы, но не всегда это удобно и быстро. Поэтому нужны какие-то альтернативные источники данных. И, в принципе, все те данные, которые есть у госсервисов, у банков тоже есть. Просто они распределены по большому количеству игроков, которые не могут обмениваться этими данными между собой или консолидировать их в одном месте — по причине банковской тайны. Я уже не говорю про коммерческую историю.
— Что происходит, если у нас есть два относительно крупных банка, которые работают в одном регионе? Что они могут узнать, «сложив» свои базы? Наверное, ключевой вопрос: могут ли они выяснить, как ведет себя один и тот же клиент в двух разных банках? Или это как раз с помощью конфиденциальных вычислений не выявляется, а выявляются паттерны поведения, характерные для группы клиентов?
— Обычно конфиденциальные вычисления защищают одну из двух вещей. Первая — это конфиденциальность каждого конкретного банка и его отношений с клиентом: это и есть банковская тайна. Условно говоря, в системе могут участвовать пять, шесть, семь, двадцать банков. Они совместно выполняют вычисления и получают результат, например оценку дохода, скоринг или какой-то более сложный агрегированный показатель по конкретному клиенту. Но при этом нельзя установить, в каких банках у этого клиента открыты счета и сколько на них денег.
— То есть у нас есть некий Иванов Иван Иванович и десять банков. Как минимум в двух из них он обслуживается. Все банки получат доступ к аналитике, узнают, как он себя ведет, но никто не будет знать, в каком именно банке и сколько именно у него денег.
— Да, все верно. Это первый вариант: мы защищаем отношения конкретного банка и конкретного Ивана Ивановича. Есть еще второй вариант — прятать как раз клиента, отдельного человека. В этом случае нельзя разглашать информацию в отношении конкретного Ивана Ивановича, но можно использовать обобщенную информацию о группе людей, которые в чем-то на Ивана Ивановича похожи.
Одни и те же модели
— Допустим, у одного банка одна стратегия в отношении розничных клиентов касательно кешбэка или правил выдачи кредита, а у другого банка совершенно другая. И кажется, что, построив аналитику на данных этих двух банков, которые очень по-разному подходят к рознице, мы можем скорее запутаться или получить не очень релевантный итог.
— Начну издалека. Есть известное явление, называется парадокс Симпсона. Это то, о чем вы сейчас говорите, — некий направленный тренд, который наблюдается в разных группах, исчезает или меняет свое направление при их объединении. Есть канонический пример: где-то в 1970-х годах американский Институт Беркли (Калифорнийский университет в Беркли в России признан нежелательной организацией. — «Монокль») обвинили в том, что они сегрегируют женщин, то есть зачисляют больше мужчин, чем женщин. Это было видно в общей статистике по всем факультетам. Но если посмотреть на статистику по каждому факультету в отдельности, то тренд менялся на противоположный: женщины чаще выбирали факультеты, на которые было сложнее поступить, более конкурентные, поэтому их чаще, соответственно, не брали. Мужчины поступали на суровые технические факультеты, где конкурса не было, и их всегда зачисляли. Как раз тот самый скрытый фактор, который влияет на поведение агрегированных данных. Но этот скрытый фактор сам по себе крайне ценен, и увидеть его очень важно.
