Представлять

audioFlux — это библиотека, реализованная на C и Python, которая обеспечивает систематическое, всестороннее и многомерное извлечение и комбинирование функций в области аудио. В сочетании с различными сетевыми моделями глубокого обучения он проводит бизнес-исследования и разработки в области аудио. Далее кратко описываются его соответствующие функции с шести аспектов: частотно-временное преобразование, переназначение спектрограммы, коэффициент кепстра, деконволюция, спектральные характеристики и поиск музыкальной информации.

Преобразование время-частота

audioFlux в области частотно-временного анализа включают следующие общие алгоритмы преобразования (поддерживающие все последующие типы частотной шкалы):

BFT — на основе преобразования Фурье. Эквивалентное кратковременное преобразование Фурье (STFT) обычно основано на этом для реализации хорошо известного спектра мела. Преобразование Фурье с перекрывающимся переносом и окном во временной области обычно составляет 1/4 длины перекрывающегося преобразования. Окно Гаусса также называют преобразованием Габора. Длину оконной функции можно отрегулировать для облегчения моделирования характеристик частотно-временного анализа. В дополнение к предоставлению стандартных спектров mel/bar/erb и других спектров, алгоритм BFT также поддерживает сложный спектр типов mel-шкалы. Он также поддерживает перестройку спектра mel-equscale.

NSGT — нестационарное преобразование Габора. Подобно STFT (кратковременное преобразование Фурье) с окном Гаусса, разница в том, что длина оконной функции и t устанавливают нестационарную зависимость. По сравнению с STFT, он может обеспечить лучший анализ нестационарных состояний в установившихся сигналах. Эффект лучшего обнаружения конечной точки начала часто основан на таком расчете спектра и может использоваться как эффективный способ достижения CQT. В этом алгоритме преобразование NSGT с октавной частотной шкалой является эффективной реализацией CQT.

CWT — непрерывное вейвлет-преобразование. Частотно-временной анализ с несколькими разрешениями: математически основой преобразования Фурье является бесконечная функция sin/cos, а основой вейвлет-преобразования является конечная и очень малая волновая функция. Общее выражение волновой функции:

среди них a определяет шкалу масштабирования частотной области, b шкалу преобразования времени и устанавливает адаптивный частотно-временной анализ. По сравнению с фиксированным частотно-временным разрешением STFT, он обладает характеристиками высокого разрешения по частоте в низкочастотном диапазоне и высокого временного разрешения в высокочастотном диапазоне, что очень подходит для анализа нестационарных сигналов и поддерживает обычно используемые методы Морзе, Морле, Бамп, Пуал, Мейер и другие волновые функции.

PWT — псевдовейвлет-преобразование. На основе аналогичного эффекта вейвлет-преобразования, реализуемого преобразованием Фурье, эффективный алгоритм CWT вычисляет банк фильтров и выполняет точечную операцию для вейвлет-функции частотной области и данных частотной области. Если рассматривать вейвлет-функцию как специальную оконную функцию, она может производить эффект, подобный CWT, а именно псевдовейвлет-преобразование. Если оконная функция устанавливает параметры полосы частот (еще не реализованные в библиотеке), она может быть эквивалентна вейвлет-преобразованию.

Приведенная выше функция преобразования поддерживает все следующие типы частотной шкалы:

  • Линейный — стандартный линейный частотный спектр, половина результата кратковременного преобразования Фурье представляет собой спектр с линейной шкалой, а шкала представляет собой частоту дискретизации/выборку, что является минимальным частотным разрешением.
  • Linsapce — спектр определяемой пользователем полосы частот может быть больше, чем линейная полоса частот, что эквивалентно понижению частоты дискретизации во временной области.
  • Mel — спектрограмма в шкале Mel, один из наиболее часто используемых типов спектрограмм в аудио, основана на характеристиках чувствительности человеческого слуха к низким частотам и нечувствительности к высоким частотам, а также на логарифмической сжатой линейной шкале. .
  • Кора — спектральная диаграмма шкалы коры больше подходит для человеческого слуха, чем шкала Мела.
  • ERB — эквивалентный прямоугольный спектр полосы пропускания, который больше соответствует человеческому слуху, чем шкала Баркера.
  • Octave — Спектр октавной шкалы.
  • Log — Спектр в логарифмическом масштабе.

Ниже приведена простая сравнительная диаграмма различных частотных шкал при преобразовании BFT.

Ниже приведена простая диаграмма сравнения различных волновых функций CWT.

В качестве независимого преобразования можно использовать следующие алгоритмы (множественные типы частотной шкалы не поддерживаются):

  • CQT — Преобразование с постоянной добротностью, которое представляет собой преобразование с постоянным соотношением полос частот, часто используется в музыке. Характеристики цветности часто рассчитываются на основе этого для анализа гармонии.
  • VQT — Преобразование переменной Q.
  • ST — S-преобразование/преобразование Стоквелла, подобное вейвлет-преобразованию, представляет собой крайний частный случай вейвлет-преобразования, который можно использовать для обнаружения и анализа некоторых экстремальных резких сигналов, таких как землетрясения, цунами и т. д. , По сравнению с NSGT, он также добавляет гауссовы окна, но устанавливает соотношение масштабирования между частотой и временем.
  • FST — Быстрое S-преобразование, дискретная реализация S-преобразования с основанием 2.
  • DWT — Дискретное вейвлет-преобразование по сравнению с CWT, частота на основе 2-х преобразований.
  • WPT — преобразование пакетов вейвлетов, также известное как разложение пакетов вейвлетов, может выполнять подробное и приблизительное разложение сигналов. Это способ разделения и синтеза сигналов, который можно использовать для шумоподавления, анализа модальной структуры и других целей.
  • SWT — стационарное вейвлет-преобразование, похожее на пакетное вейвлет-преобразование, разложенный сигнал имеет ту же длину, что и исходный сигнал.

Ниже приводится простое сравнение различных масштабов при преобразовании CQT и NSGT.

NSGT-Octave четче и сфокусированнее, чем CQT

Цветность — это характеристика более высокого уровня, основанная на спектре, относящаяся к категории системы музыкальных гамм. Шкала для немузыкальных тонов хуже, чем для музыкальных. В настоящее время он поддерживает типы спектра функций Chroma:

  • КТ
  • BFT-линейный
  • BFT-октава

Вот простое сравнение Chroma.

Спектр с разными частотными шкалами имеет свою прикладную ценность. В некоторых бизнес-ситуациях эти карты спектра с разным масштабом можно комбинировать, чтобы сформировать большой набор функций для участия в обучении работе с сетью.

Диаграмма спектра называется амплитудным спектром, спектром мощности, логарифмическим спектром/дБ спектром в соответствии с типом значения abs, квадрат, логарифм и другими нелинейными операциями. Логарифмический спектр обычно больше используется в глубоком обучении.

Переназначить спектрограмму

Синхросжатие или переназначение — это метод повышения резкости частотно-временного представления, audioFlux включает в себя следующие алгоритмы:

  • переназначить — переназначить преобразование для STFT.
  • synsq — переназначить данные с использованием данных CWT.
  • wsst — переназначить преобразование для CWT.

Ниже приведена диаграмма спектра и диаграмма эффекта после соответствующей перестановки.

Эффект после переназначения лучше, чем до переназначения.

Поскольку эффект переназначения очень хорош, можете ли вы переставить его несколько раз на основе последнего результата? Как это работает? Связанные алгоритмы переназначения audioFlux предоставляют несколько механизмов переназначения, и конкретные эффекты можно сравнить, обратившись к документу.

Кепстровый коэффициент

Подобно mfcc (коэффициент кепстра частоты Mel) для спектра mel, эта услуга функции относится к удалению высоты тона, которая является функцией, отражающей физическую структуру произношения. Обычно он используется для услуг, связанных с распознаванием голоса, и может использоваться для классификации различных инструментов, уточнения структуры и обучения другим бизнес-моделям.

Весь audioFlux в системе спектров проекта, кроме mfcc и соответствующих delta/deltaDelta, поддерживаются все типы спектральных кепстровых коэффициентов, а именно xxcc:

  • лфкк
  • GTC
  • bfcc
  • cqcc
  • ……

Кепстровые коэффициенты различных типов спектра представляют собой корреляцию основного тона различных типов спектра и имеют свои собственные прикладные значения. Например, документ gtcc отражает, что эффект фонемы в бизнесе распознавания речи лучше, чем у mfcc, а классификация и уточнение структуры cqcc для музыкальных инструментов намного лучше, чем у mfcc.

Ниже приведена сравнительная таблица различных коэффициентов спектрального кепстра для гитарной музыки и аудио.

На начальном этапе гитарной музыки лучше всего работает cqcc, а на последующем этапе непрерывной стабильности лучше работает gtcc.

Деконволюция

В математике деконволюция — это обратная операция свертки, которую можно использовать в качестве алгоритма разложения сигнала. Для спектра два разложенных данных могут быть представлены как формантный спектр и спектр основного тона. По сравнению с mfcc формант представляет собой более общую физическую структурную особенность произношения.

В audioFlux поддерживается операция деконволюции всех типов спектра, и ее ценность заключается в том, что для услуг, связанных с высотой тона, вывод модели может быть более точным после устранения формантных помех; Для сервисов со свойствами, связанными со структурой, шаг можно удалить, чтобы не мешать обучению модели.

Ниже приведен эффект деконволюции мел-спектра для гитарного звука 880 Гц.

Вы можете увидеть очевидный эффект разделения между формантной частью (тембром) и высотой тона гитары.

Спектральная характеристика

В audioFlux есть десятки спектральных характеристик, в том числе основанных на корреляции тембров, статистической корреляции, корреляции спектральных потоков, корреляции сингулярных значений и так далее.

Например:

  • плоскостность
  • асимметрия
  • герб
  • отстой
  • спад
  • ……
  • центроид
  • распространение
  • эксцесс
  • ……
  • поток
  • hfc
  • мкл
  • ……
  • ……

Все спектральные характеристики, предоставляемые audioFlux, более подробное функциональное описание, примеры, формулы и т. д. см. в официальных документах.

Ниже приводится сравнение некоторых спектральных характеристик.

Поиск музыкальной информации

audioFlux предоставляет области, связанные с mir, такие как оценка высоты тона, обнаружение начала, hpss (разделение гармонической перкуссии) и другие связанные бизнес-алгоритмы.

Оценка основного тона основана на YIN, STFT и других связанных алгоритмах. Ниже приведена картина эффекта обнаружения для питча вокальной практики.

Красный — это фактический эталонный тон, а синий – расчетный.

Обнаружение начала включает алгоритмы, основанные на спектральном потоке, новизне и т. д. Ниже приведена визуализация обнаружения конечной точки аккомпанемента гитарного свипа.

Красная пунктирная линия на среднем изображении во временной области накладывается на положение обнаружения конечной точки.

HPSS включает медианную фильтрацию, неотрицательную декомпозицию матриц (NMF) и другие алгоритмы. Ниже приведен эффект разделения, включающий игру на гитаре и звук метронома. Верхняя часть эффекта временной области, а нижняя часть соответствует эффекту частотной области.