С машинами на одном языке: как компьютеры «слышат» музыку и для чего используют этот навык

Эксперименты с генерацией музыки с помощью искусственного интеллекта начались еще в 50-х годах прошлого века. С тех пор нейросети научились «понимать» и распознавать песни, определять наши вкусы в стриминговых сервисах и даже писать музыкальные произведения на основании данных о движении небесных тел. Как искусственный интеллект работает со звуком и какие прорывные продукты, созданные «кибер-композиторами», мы будем использовать в будущем, рассказывают специалисты «Яндекса».

Как компьютер «видит» звук?

Чтобы машина могла распознать или даже написать мелодию, ей необходимо познакомиться с сотнями музыкальных примеров. Но как поместить звук внутрь компьютерной нейросети, каким образом она может их воспринять? Вспомним учебник физики за девятый класс: источником звука всегда является колеблющееся тело. Это может быть мембрана барабана, натянутая струна или диффузор динамика в наших колонках. Колебания этих тел передаются по воздуху в виде множества волн, попадают на барабанную перепонку человека, раздражают окончания слуховых нервов, и мы слышим звук.

У машины этот процесс протекает иначе. Чтобы она «услышала» музыку, ее нужно преобразовать в набор цифр, понятный компьютеру. Преобразование в цифровой код происходит благодаря процессам дискретизации и квантования. Информация приходит в компьютер в виде непрерывной звуковой волны, «переведенной» в электрический ток. Чтобы описать ее на языке цифр, специальный преобразователь «нарезает» эту волну на очень маленькие отрезки длиной в несколько миллисекунд. Это дискретизация — процесс, когда непрерывная волна становится поделенной на части, то есть дискретной. Однако даже в самых крохотных отрезках звук представляет собой продолжительный кусочек волны. Для удобства преобразователь «округляет» его значения, измеренные во время дискретизации, и представляет в виде точки. Такой процесс называется квантованием.

В итоге вся волна превращается в набор точек, которым остается только присвоить цифровые коды. Другими словами, мы получаем большой набор цифр, описывающий каждый фрагмент песни. Эти числа можно внести в одну большую таблицу, а можно отобразить наглядно в виде спектрограммы. Так называют графическое изображение звуков в системе координат, где по вертикальной оси располагаются звуковые частоты (от высоких звуков до низких), а по горизонтальной — время. Чем теплее и ярче цвет на спектрограмме, тем интенсивнее звук в этом месте. Описать спектрограмму словами непросто, так что лучше сразу посмотрите, как она выглядит.

Еще более наглядное объяснение этого процесса дается в рамках «Урока Цифры» от Яндекса — «Цифровое искусство: музыка и IT». В этом проекте эксперты компании рассказывают о музыкальной оцифровке, теории звука, системах рекомендаций в медиасервисах, а после теоретической части участники могут попробовать самостоятельно продолжить композицию. Уроки и задания предназначены для школьников, но взрослым они тоже будут интересны.

Как ИИ распознает музыку и рекомендует песни?

Способность искусственного интеллекта представлять музыку цифровым кодом нашла практическое применение в нашей жизни. Именно благодаря спектрограммам нейросети анализируют и распознают музыку, чтобы, например, с помощью Shazam находить похожие треки. Когда приложение «слышит» композицию, оно сравнивает ее спектрограмму со множеством других из базы данных и отыскивает совпадения. При этом искусственный интеллект распознает мелодию даже сквозь помехи вроде голосов за соседним столиком или шума машин.

С машинами на одном языке: как компьютеры «слышат» музыку и для чего используют этот навык

Как компьютер «видит» звук?

Как ИИ распознает музыку и рекомендует песни?

Рекомендуемые статьи

Кто такие саунд-дизайнеры и что такое сонорные объекты?

Что происходит с нашей психикой, если мы ни к чему не стремимся?

Как уже сейчас в новинках мира моды проявляются тренды гардероба будущего

Был ли у Юпитера шанс стать полноценной звездой?

Секрет прочных отношений

Сколько мы должны отдать родителям за жизнь, заботу и воспитание?

Ученый-материаловед приготовил бездрожжевое тесто для пиццы

Какие наши ежедневные действия могут повысить уровень сахара в крови?

Какие продукты помогут не набирать вес и даже сбросить его

Вы точно не догадывались, кто исполнял эти маленькие роли

Может и правда на Луне никто не высаживался

Дизайнер и художник по надгробиям придумали свой бренд керамики

Как строится работа над мобильными приложениями?

Почему компьютер сам перезапускается и что с этим делать

«Сядь за руль моей машины»: о пользе Чехова

Какое масло нужно лить в АКПП и когда его менять?

Почему представление об успехе и хорошей самооценке отличниц — миф

Рецепты, по которым блин точно не будут комом

Истории о далёких планетах и давно прошедших временах

Русско-японская война стала шоком отнюдь не только для России

Как из самого простого сюжета "Безумного Макса" получился эмоциональный боевик

Как повысить мастерство ведения переговоров?

Выбирая автомобиль, поинтересуйтесь какой у него тип привода

Ты что будешь — «Колу» или «Пепси»? Этот вопрос чуть ли не религиозный

Биологические, психологические и эволюционные основы социальных связей

Как приобрести квартиру и не попасться на уловки мошенников

Брак с иностранцем для многих жительниц СССР был мечтой

Представьте, что ребенок лет пяти преследует в африканской саванне газелей

Сможет ли в будущем нейросеть самостоятельно сочинять хиты

Классические и новые любовные романы, от которых невозможно оторваться