Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Неустойчивость Рэлея — Плато заставила квантовую жидкость разделиться на капли Неустойчивость Рэлея — Плато заставила квантовую жидкость разделиться на капли

Физики увидели, как квантовая жидкость разделилась на несколько отдельных капель

N+1
“Зеленый” подросток: может ли молодое поколение спасти мир “Зеленый” подросток: может ли молодое поколение спасти мир

Для молодого поколения “зеленая” повестка занимает особое место в жизни

Популярная механика
Пальцы сморщиваются одинаково каждый раз, когда вы долго находитесь в воде Пальцы сморщиваются одинаково каждый раз, когда вы долго находитесь в воде

Как исследование показало, что морщины на коже пальцев остаются неизменными

ТехИнсайдер
Разработчик дисплеев дополненной реальности WayRay создал электромобиль для зумеров Разработчик дисплеев дополненной реальности WayRay создал электромобиль для зумеров

WayRay создала трехместный электрокар с дисплеями дополненной реальности

Forbes
Любовь или зависимость? 7 признаков нездоровых отношений Любовь или зависимость? 7 признаков нездоровых отношений

Как отличить истинные чувства от зависимости, способной разрушать нас изнутри?

VOICE
Это Элви Рэй Смит: он мечтал создать анимационный фильм на компьютере, соосновал Pixar, но ушёл из компании из-за Джобса Это Элви Рэй Смит: он мечтал создать анимационный фильм на компьютере, соосновал Pixar, но ушёл из компании из-за Джобса

Элви Рэй Смит убеждал всех, что за компьютерной графикой будущее

VC.RU
35 вещей, которые нас возбуждают 35 вещей, которые нас возбуждают

Эти вещи возбуждают с первого взгляда.

Maxim
«Французский вестник»: ода журналистике от Уэса Андерсона «Французский вестник»: ода журналистике от Уэса Андерсона

«Французский вестник» создает необыкновенное настроение ностальгии

GQ
На сколько можно похудеть за 2 месяца: минимум и максимум На сколько можно похудеть за 2 месяца: минимум и максимум

Какие варианты питания помогут похудеть и сколько можно сбросить за 2 месяца

Cosmopolitan
Сможет ли человек жить с половиной мозга Сможет ли человек жить с половиной мозга

Возможна ли жизнь с половиной мозга и как долго она продлится?

Популярная механика
Как алкоголь, уединение и чтение помогают найти гениальное решение и войти в поток Как алкоголь, уединение и чтение помогают найти гениальное решение и войти в поток

Как нейронаука помогает добиваться продуктивности в бизнесе, спорте и жизни

Forbes
Как перестать быть слишком мягким с коллегами Как перестать быть слишком мягким с коллегами

Всегда стараетесь во всем угодить коллегам и не можете сказать «нет»?

Psychologies
Трогательные отношения: что делать, если вам не хватает прикосновений партнера Трогательные отношения: что делать, если вам не хватает прикосновений партнера

Почему так важен телесный контакт? Какую роль в отношениях он играет?

Psychologies
4 способа извлечь максимальную пользу из онлайн-курсов 4 способа извлечь максимальную пользу из онлайн-курсов

Как не потратить деньги просто так на онлайн-курсы?

Inc.
Не .G единой Не .G единой

Главные буквы алфавита сексуального удовольствия

Playboy
Возник по просьбе бразильских банкиров и стал любимым напитком солдат во время Второй мировой: история Nescafe Возник по просьбе бразильских банкиров и стал любимым напитком солдат во время Второй мировой: история Nescafe

История Nescafe — крупнейшего подразделения Nestle

VC.RU
Как Екатерина Зинченко запустила бренд ароматов Pure Sense с незрячими сотрудниками Как Екатерина Зинченко запустила бренд ароматов Pure Sense с незрячими сотрудниками

Основательница Pure Sense — о парфюмерном рынке в России и особенных сотрудниках

Forbes
Быть Стрельцом — это… 10 вещей, которые поймет только этот знак Быть Стрельцом — это… 10 вещей, которые поймет только этот знак

Поскольку сейчас на дворе сезон Стрельцов, поговорим именно о них

Cosmopolitan
15 отличных южнокорейских сериалов, которые нужно смотреть 15 отличных южнокорейских сериалов, которые нужно смотреть

Южнокорейские дорамы, которые не уступают знаменитым сериалам

Esquire
5 страхов, мешающих вашей карьере 5 страхов, мешающих вашей карьере

Часто в движении по карьерной лестнице нас тормозят именно эти страхи

Psychologies
Как два друга бросили работу в офисе и создали приложение для барбершопов за $750 млн Как два друга бросили работу в офисе и создали приложение для барбершопов за $750 млн

Как Сонж ЛаРон и Дэйв Салвант создали самый перспективный стартап

Forbes
Погружение в Африку Погружение в Африку

Маршрут доктора Дэвида Ливингстона вглубь Африки спустя 160 лет

Вокруг света
Дела сердечные: какой пульс считается нормой и когда обращаться к врачу Дела сердечные: какой пульс считается нормой и когда обращаться к врачу

Разбираемся какая частота сердечных сокращений считается нормой

РБК
Back in the U.S.S.R. Back in the U.S.S.R.

Что рекомендовали советским женщинам журналы 70–80-х годов?

Cosmopolitan
Охота на невидимок: как ученые ищут черные дыры Охота на невидимок: как ученые ищут черные дыры

Черные дыры — возможно, самые странные объекты во Вселенной

Forbes
Ирина Хакамада: «Полезно нырнуть на самую глубину отчаяния» Ирина Хакамада: «Полезно нырнуть на самую глубину отчаяния»

Хакамада меняется в каждом отрезке времени. Сейчас у нее очень непростой период

Psychologies
Космический мусор: все, что ты хотел (или не хотел) знать о восьми тысячах тонн, летающих у тебя над головой Космический мусор: все, что ты хотел (или не хотел) знать о восьми тысячах тонн, летающих у тебя над головой

Человечество с размахом замусоривает и околоземную орбиту

Maxim
Лингвисты назвали Северо-Восточный Китай прародиной трансевразийских языков Лингвисты назвали Северо-Восточный Китай прародиной трансевразийских языков

Ученые исследовали происхождение трансевразийских языков

N+1
6 известных пирамид, кроме египетских 6 известных пирамид, кроме египетских

Пирамиды есть даже в России, правда, без фараонов внутри

Maxim
«Я пустила подругу пожить у нас, а она переспала с моим парнем» «Я пустила подругу пожить у нас, а она переспала с моим парнем»

Измена любимого и предательство подруги — это всегда больно

Psychologies
Открыть в приложении