Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Онкологические заболевания в детстве связали с последующим безбрачием и низким доходом Онкологические заболевания в детстве связали с последующим безбрачием и низким доходом

Люди, которые в детстве переболели раком, вряд ли получат высшее образование

N+1
Мы созданы для жизни вдвоем? Мы созданы для жизни вдвоем?

Люди предназначены для жизни вдвоем или в одиночестве?

Psychologies
Правда, что от страха можно поседеть за одну ночь? Правда, что от страха можно поседеть за одну ночь?

Неужели действительно можно в одночасье поседеть?

ТехИнсайдер
8 типов прыщей, которые нельзя давить никому и никогда 8 типов прыщей, которые нельзя давить никому и никогда

Можно ли давить самостоятельно и какие прыщи категорически нельзя трогать

Cosmopolitan
Почему у пожилых людей уменьшается рост? Почему у пожилых людей уменьшается рост?

Что такое остеопороз и как он влияет на рост пожилых людей?

ТехИнсайдер
Основатель «2ГИС» Александр Сысоев: «Сейчас мы даём технологии экосистеме “Сбера”, потом — она нам» Основатель «2ГИС» Александр Сысоев: «Сейчас мы даём технологии экосистеме “Сбера”, потом — она нам»

Основатель «2ГИС» — как сервис вписался в экосистему «Сбера»

VC.RU
Под фермерским полем нашли римскую мозаику битвы между Ахиллом и Гектором Под фермерским полем нашли римскую мозаику битвы между Ахиллом и Гектором

Плитка находилась на полу комнаты в древнеримской вилле III–IV веков нашей эры

N+1
Пигментация кожи: как избавиться от темных пятен Пигментация кожи: как избавиться от темных пятен

С чем связано появление темных участков кожи, как предотвратить этот процесс?

РБК
«Ты красивее моей сестры»: 10+ историй о самых глупых причинах расставания «Ты красивее моей сестры»: 10+ историй о самых глупых причинах расставания

Истории о самых нелепых поводах для расставания

Cosmopolitan
Социальный заказ Социальный заказ

Две студентки МИФИ превратили увлечение волонтерством в ESG-агентство You Social

Forbes
Что такое «хорошо» и что такое «плохо». Этические подходы к ИИ – с Востока, Запада и изнутри Что такое «хорошо» и что такое «плохо». Этические подходы к ИИ – с Востока, Запада и изнутри

Искусственный интеллект начал рассматриваться в поле этических смыслов

Цифровой океан
Великолепная тридцатка и вратарь Великолепная тридцатка и вратарь

Владимир Зеленский — о перевороте и о захвате

СНОБ
Как нам делали голову: что такое череп и как он сформировался Как нам делали голову: что такое череп и как он сформировался

Голову эволюция творила сотни миллионов лет.

Популярная механика
Учёные оценили время жизни одиночного нейтрона Учёные оценили время жизни одиночного нейтрона

Время жизни одиночного нейтрона составляет 887 секунд

Популярная механика
Пионер подпольного русского рока, композитор, певец и наставник. Памяти Александра Градского Пионер подпольного русского рока, композитор, певец и наставник. Памяти Александра Градского

О творческом наследии Александра Градского

Esquire
Британский фотограф снимает советские радиоактивные (ну почти) руины Британский фотограф снимает советские радиоактивные (ну почти) руины

Потрясающая галерея бывших советских ядерных полигонов произвела фурор в Лондоне

Maxim
Гастрономическая карта Гастрономическая карта

Гастрономические удовольствия – неотъемлемая часть любого путешествия

Лиза
Лицевой счет Лицевой счет

С недавних пор «лицом» можно оплатить проход на московскую подземку

Цифровой океан
Розовая вода (гидролат розы): чем полезна для кожи, глаз и горла Розовая вода (гидролат розы): чем полезна для кожи, глаз и горла

Преимущества розовой воды и инструкция для ее самостоятельного приготовления

РБК
15-минутный город будущего или как будут жить наши потомки 15-минутный город будущего или как будут жить наши потомки

По мнению ученых и экоактивистов, будущее за компактными локациями

Playboy
«Не время умирать»: как распознать и предотвратить суицид «Не время умирать»: как распознать и предотвратить суицид

Как понять, что человек склонен к суициду?

РБК
Музыка не для TikTok: каким получился новый альбом Адель «30» Музыка не для TikTok: каким получился новый альбом Адель «30»

Почему возвращение певицы Адель — важное музыкальное событие?

Forbes
Гегель и «Вагнер». Что статья Суркова говорит о режиме Путина Гегель и «Вагнер». Что статья Суркова говорит о режиме Путина

Владислав Сурков выложил в открытый доступ все страхи нынешней правящей верхушки

СНОБ
С видом на горы: 5 лучших мест для фотографирования на курорте Роза Хутор С видом на горы: 5 лучших мест для фотографирования на курорте Роза Хутор

Где сфотографироваться на Розе Хутор, чтобы гарантированно собрать урожай лайков

Cosmopolitan
Как сохранить Тик Ток без водяного знака: инструкция для смартфонов Как сохранить Тик Ток без водяного знака: инструкция для смартфонов

Самые простые и безопасные способы скачать видео из ТикТока без водяного знака

CHIP
Почему Россия не стремится защищать Армению от азербайджанского вторжения Почему Россия не стремится защищать Армению от азербайджанского вторжения

Нельзя защищать тех, кто сделал все, чтобы сдать свои территории

СНОБ
Зубная боль: как защититься от некачественных материалов у стоматолога Зубная боль: как защититься от некачественных материалов у стоматолога

Какие технологии чаще всего подделывают в стоматологиях?

Популярная механика
«Советский Союз разбился о собственный прекрасный образ» «Советский Союз разбился о собственный прекрасный образ»

Наш четвертый подкаст, посвященный мифам о распаде СССР

Эксперт
Открытие года: Екатерина Алехина Открытие года: Екатерина Алехина

Первой из российских женщин-шефов она получила звезду Michelin

Glamour
Цифровой пандус Цифровой пандус

Как инклюзивные интерфейсы помогают людям с инвалидностью

N+1
Открыть в приложении