Как искусственный интеллект работает со звуком

Популярная механикаHi-Tech

С машинами на одном языке: как компьютеры «слышат» музыку и для чего используют этот навык

Эксперименты с генерацией музыки с помощью искусственного интеллекта начались еще в 50-х годах прошлого века. С тех пор нейросети научились «понимать» и распознавать песни, определять наши вкусы в стриминговых сервисах и даже писать музыкальные произведения на основании данных о движении небесных тел. Как искусственный интеллект работает со звуком и какие прорывные продукты, созданные «кибер-композиторами», мы будем использовать в будущем, рассказывают специалисты «Яндекса».

Как компьютер «видит» звук?

Чтобы машина могла распознать или даже написать мелодию, ей необходимо познакомиться с сотнями музыкальных примеров. Но как поместить звук внутрь компьютерной нейросети, каким образом она может их воспринять? Вспомним учебник физики за девятый класс: источником звука всегда является колеблющееся тело. Это может быть мембрана барабана, натянутая струна или диффузор динамика в наших колонках. Колебания этих тел передаются по воздуху в виде множества волн, попадают на барабанную перепонку человека, раздражают окончания слуховых нервов, и мы слышим звук.

У машины этот процесс протекает иначе. Чтобы она «услышала» музыку, ее нужно преобразовать в набор цифр, понятный компьютеру. Преобразование в цифровой код происходит благодаря процессам дискретизации и квантования. Информация приходит в компьютер в виде непрерывной звуковой волны, «переведенной» в электрический ток. Чтобы описать ее на языке цифр, специальный преобразователь «нарезает» эту волну на очень маленькие отрезки длиной в несколько миллисекунд. Это дискретизация — процесс, когда непрерывная волна становится поделенной на части, то есть дискретной. Однако даже в самых крохотных отрезках звук представляет собой продолжительный кусочек волны. Для удобства преобразователь «округляет» его значения, измеренные во время дискретизации, и представляет в виде точки. Такой процесс называется квантованием.

В итоге вся волна превращается в набор точек, которым остается только присвоить цифровые коды. Другими словами, мы получаем большой набор цифр, описывающий каждый фрагмент песни. Эти числа можно внести в одну большую таблицу, а можно отобразить наглядно в виде спектрограммы. Так называют графическое изображение звуков в системе координат, где по вертикальной оси располагаются звуковые частоты (от высоких звуков до низких), а по горизонтальной — время. Чем теплее и ярче цвет на спектрограмме, тем интенсивнее звук в этом месте. Описать спектрограмму словами непросто, так что лучше сразу посмотрите, как она выглядит.

06b98161ad1203ae0bfc1ef4cbccf906.png
wikipedia.org

Еще более наглядное объяснение этого процесса дается в рамках «Урока Цифры» от Яндекса — «Цифровое искусство: музыка и IT». В этом проекте эксперты компании рассказывают о музыкальной оцифровке, теории звука, системах рекомендаций в медиасервисах, а после теоретической части участники могут попробовать самостоятельно продолжить композицию. Уроки и задания предназначены для школьников, но взрослым они тоже будут интересны.

Как ИИ распознает музыку и рекомендует песни?

Способность искусственного интеллекта представлять музыку цифровым кодом нашла практическое применение в нашей жизни. Именно благодаря спектрограммам нейросети анализируют и распознают музыку, чтобы, например, с помощью Shazam находить похожие треки. Когда приложение «слышит» композицию, оно сравнивает ее спектрограмму со множеством других из базы данных и отыскивает совпадения. При этом искусственный интеллект распознает мелодию даже сквозь помехи вроде голосов за соседним столиком или шума машин.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

8 рекомендаций, которые помогут контролировать уровень сахара в крови 8 рекомендаций, которые помогут контролировать уровень сахара в крови

Если вы заботитесь о своем здоровье, важно контролировать уровень сахара в крови

Популярная механика
Тайны жизни и смерти Майкла Джексона: от цвета кожи до привидений Тайны жизни и смерти Майкла Джексона: от цвета кожи до привидений

Имя Майкла Джексона связывают с множеством загадок и мистикой

VOICE
Карта памяти: как навигаторы и GPS меняют работу нашего мозга Карта памяти: как навигаторы и GPS меняют работу нашего мозга

Как навигаторы влияют на человеческий мозг и почему не всегда в лучшую сторону

Forbes
Кто дольше? Сколько ждали предложения руки и сердца Елизавета II, Кейт и Меган Кто дольше? Сколько ждали предложения руки и сердца Елизавета II, Кейт и Меган

Как обстояли дела с помолвкой у представительниц британской королевской семьи

Cosmopolitan
10 ситуаций, когда человеку нужен не психолог, а психиатр 10 ситуаций, когда человеку нужен не психолог, а психиатр

Как распознать, когда именно пора обратиться к психиатру?

Psychologies
67-летний Брюс Уиллис завершает карьеру из-за афазии: что это такое 67-летний Брюс Уиллис завершает карьеру из-за афазии: что это такое

Брюс Уиллис завершает карьеру из-за болезни. Что такое афазия?

Psychologies
Возможно, именно поэтому извержение вулкана на Тонге было таким мощным Возможно, именно поэтому извержение вулкана на Тонге было таким мощным

Вулкан выбросил шлейф газа, пыли и пепла, который улетел на 58 километров в небо

Популярная механика
50 цитат о настоящей любви 50 цитат о настоящей любви

Такое сильное и сложное чувство, как любовь, бывает трудно выразить словами

Cosmopolitan
Устойчивые мифы: 7 популярных заблуждений о мировых достопримечательностях Устойчивые мифы: 7 популярных заблуждений о мировых достопримечательностях

Предлагаем семь мифов о достопримечательностях, которые стоит развенчать

Вокруг света
О чем сейчас кричит наше тело? О чем сейчас кричит наше тело?

Почему немеют руки, почему зажаты мышцы или ощущается напряжение в челюсти?

Psychologies
Бизнес-завтрак C-Level: топ-менеджеры корпораций — о том, как привлекать и удерживать сильных управленцев в мартехе Бизнес-завтрак C-Level: топ-менеджеры корпораций — о том, как привлекать и удерживать сильных управленцев в мартехе

Что должны делать компании, чтобы успешно нанимать управленцев в мартехе

Inc.
Первооткрыватели CRISPR/Cas9 остались без патента на технологию в США Первооткрыватели CRISPR/Cas9 остались без патента на технологию в США

Решение по спору между создателями системы редактирования генома CRISPR/Cas9

N+1
Как разбудить ее либидо и что не так с женской виагрой: теория и личный опыт Как разбудить ее либидо и что не так с женской виагрой: теория и личный опыт

Существует ли женская виагра?

Playboy
Секреты мастеров Секреты мастеров

Путешествие по городам ремесел – неисчерпаемый источник вдохновения

Лиза
Чистка лица по типу кожи: какую лучше выбрать Чистка лица по типу кожи: какую лучше выбрать

Подробный гид о том, какую чистку лица лучше выбрать

VOICE
Избежать кассового разрыва: на что сократить расходы в период кризиса Избежать кассового разрыва: на что сократить расходы в период кризиса

В сложные времена бизнес должен сокращать расходы. Трудно понять, какие именно

Forbes
Как создать второе пространство и скрыть любые файлы на вашем мобильном устройстве Как создать второе пространство и скрыть любые файлы на вашем мобильном устройстве

Как скрыть файлы и приложения на телефоне?

Популярная механика
9 жутких и загадочных водоемов мира 9 жутких и загадочных водоемов мира

Что страшного таят темные воды?

Популярная механика
25 шагов к взаимному уважению в паре 25 шагов к взаимному уважению в паре

Любовь, страсть, интересы… О них мы вспоминаем чаще, чем о взаимном уважении

Psychologies
Дети и подростки в эпоху перемен Дети и подростки в эпоху перемен

Как воспитывать детей и подростков в условиях нестабильности

СНОБ
Полезен для сердца, помогает худеть: 5 причин пить кофе каждый день Полезен для сердца, помогает худеть: 5 причин пить кофе каждый день

Каждый день жители планеты выпивают не менее миллиарда чашек кофе

VOICE
Как «работает» экономика? 8 понятных книг, которые помогут разобраться в происходящем Как «работает» экономика? 8 понятных книг, которые помогут разобраться в происходящем

8 книг, которые помогут узнать и полюбить экономическую науку

Популярная механика
«Искренность после коммунизма: культурная история» «Искренность после коммунизма: культурная история»

Отрывок из книги Эллен Руттен о рефлексии в посткоммунистическом мире

N+1
Юлия Бордовских: «Женщина не стареет, она взрослеет» Юлия Бордовских: «Женщина не стареет, она взрослеет»

Юлия Бордовских — о новой профессии, отношении к возрасту и идеалах красоты

Здоровье
Опубликована полная последовательность человеческого генома Опубликована полная последовательность человеческого генома

Молекулярные биологи закончили собирать последовательность ДНК человека

N+1
«Макаки с коекаками» «Макаки с коекаками»

Информационная война шла на всём протяжении реальной Русско-японской войны

Дилетант
Транзистор толщиной в атом: что означает новый прорыв в IT-отрасли Транзистор толщиной в атом: что означает новый прорыв в IT-отрасли

Закончился ли прогресс в создании микросхем?

Forbes
Как и зачем Disney купила Marvel — сделка глазами легендарного CEO Боба Айгера Как и зачем Disney купила Marvel — сделка глазами легендарного CEO Боба Айгера

Отрывок из книги «Умение предвидеть» легендарного CEO Боба Айгера

Forbes
10 неожиданных признаков высокого интеллекта 10 неожиданных признаков высокого интеллекта

По каким признакам можно отличить обладателей высокого IQ и какие есть нюансы

Psychologies
Как отличить эмоциональный голод от настоящего – объясняет нутрициолог Как отличить эмоциональный голод от настоящего – объясняет нутрициолог

Как не дать себя обмануть эмоциональному голоду

Cosmopolitan
Открыть в приложении