Main Content

Nichtstationäre Gabor-Frames und die Constant-Q-Transformation

Nichtstationäre Gabor-Frames ermöglichen es Ihnen, zeit- oder frequenzadaptative Analysen von Signalen zu implementieren. Bei den Funktionen cqt und icqt werden nichtstationäre Gabor-Frames verwendet, um eine (frequenzadaptative) Constant-Q-Transformation (CQT) eines Signals zu erzielen. Eine bemerkenswerte Stärke der nichtstationären Gabor-Frames liegt darin, dass sie die Konstruktion stabiler Inversen ermöglichen und so eine perfekte Rekonstruktion ergeben.

Die Theorie nichtstationärer Gabor-Transformationen (Nonstationary Gabor Transforms, NSGTs) wurde von Jaillet [1] und Balazs, Dörfler, Jaillet, Holighaus sowie Velasco [2] eingeführt. Die Theorie ermöglicht effiziente Implementierungen von NGSTs mithilfe FFT-basierter Methoden. Dörfler, Holighaus, Grill und Velasco [3], [4] entwickeln ein Framework für eine effiziente, perfekt invertierbare CQT. Die Algorithmen in [3], [4] implementieren eine phasenstarre Version der CQT. Diese erhält nicht die dieselben Phasen aufrecht, die durch die naive Faltung erzielt werden würden. In [5] entwickeln Schörkhuber, Klapuri, Holighaus und Dörfler effiziente Algorithmen für die CQT und inverse CQT, mit denen die durch die naive Faltung erzielten Koeffizienten imitiert werden. Die große Toolbox für Zeit-Frequenz-Analysen [6] bietet eine umfangreiche Reihe von Algorithmen für die nichtstationäre Gabor-Analyse und -Synthese.

In der standardmäßigen Gabor-Analyse wird die Zeit-Frequenz-Ebene von einem Fenster fester Größe unterteilt. Ein nichtstationärer Gabor-Frames ist eine Sammlung von Fensterfunktionen verschiedener Größen, die dafür verwendet werden, die Zeit-Frequenz-Ebene in Fenster zu unterteilen. Die Wavelet-Analyse unterteilt die Zeit-Frequenz-Ebene auf ähnliche Weise in Fenster. Sie haben die Flexibilität, die Abtastdichte in Zeit und Frequenz zu ändern. Nichtstationäre Gabor-Frames sind in Bereichen wie der Verarbeitung von Audiosignalen nützlich, in denen Zeit-Frequenz-Fenster mit einer festgelegten Größe nicht optimal sind. Im Gegensatz zur Kurzzeit-Fourier-Transformation weisen die in der Constant-Q-Transformation verwendeten Fenster eine anpassbare Bandbreite und Abtastdichte auf. Im Frequenzraum sind die Fenster in logarithmisch angeordneten Mittenfrequenzen zentriert.

Zerlegen der Zeit-Frequenz-Ebene

Die Fourier-Transformation der f(t) stellt den Zusammenhang zwischen f(t) und ej ω t dar:

F(ω)=f(t)ejωtdt.

Da ej ω t keinen kompakten Träger aufweist, stellt die Fourier-Transformation keine ideale Wahl für die Untersuchung von nichtstationären Signalen dar. Falls sich der Frequenzinhalt eines Signals mit der Zeit ändert, erfasst die Fourier-Transformation nicht, welche Änderungen das sind und wann diese auftreten. Der Teilbereich der hier dargestellten Zeit-Frequenz-Ebene zeigt dieses Verhalten der Fourier-Transformation an.

Um eine Zeit-Frequenz-Analyse eines nichtstationären Signals f(t) vorzunehmen, verwenden Sie eine Fensterfunktion g(t) mit folgenden Eigenschaften:

  • Sie ist geradzahlig und reellwertig.

  • Sie ist nur in einem endlichen Intervall effektiv größer als 0.

  • Sie weist eine Norm von 1 auf.

  • Die Fourier-Transformation von g(t) wird bei 0 zentriert und weist einen Tiefpass auf.

Verschieben Sie das Fenster g(t) über f(t) und nehmen Sie die Fourier-Transformation des Ergebnisses vor:

SF(u,ζ)=f(t)g(tu)ejζtdt.

Die standardmäßige Gabor-Analyse besteht darin, f(t) zu den Gabor-Atomen g(tu)ejζt in Beziehung zu setzen. Durch Verändern von u berücksichtigen Sie nur Werte von f(t) nahe des Zeitbereichs u. Der Träger von g(t) legt die Größe der Umgebung nahe des Zeitbereichs fest u. Die Fourier-Transformation von gu,ζ(t)=g(tu)eζt ist die Translation der Fourier-Transformation von g(t) mittels ζ und wird festgelegt durch

g^u,ζ(ω)=e(ωζ)g^(ωζ).

Die Energiekonzentration von g^u,ζ(ω) weist eine Varianz σω auf und ist bei ζ zentriert. Wenn sich das Fenster gu,ζ(t)=g(tu)eζt auf einem regelmäßigen Raster verschiebt, sind die Fourier-Transformation des Produkts des verschobenen Fensters und f(t) die Kurzzeit-Fourier-Transformation (STFT). Die STFT-Unterteilung der Zeit-Frequenz-Ebene in Fenster kann als Raster von Feldern wiedergegeben werden (u, ζ):

Die Reihe der Funktionen {gu,ζ} wird als Gabor-Frames bezeichnet. Die Elemente dieser Reihe werden als Gabor-Atome bezeichnet. Bei einem Rahmen handelt es sich um eine Reihe von Funktionen, {hk(t)}, welche die folgende Bedingung erfüllen: Es gibt Konstanten 0 < A ≤ B < ∞, sodass bei jeder Funktion Folgendes gilt f(t),

Af2Σk|f,hk|2Bf2.

Die Energiekonzentration von g(t) in der Zeit weist eine Varianz σt auf. Die Energiekonzentration vong^(ω) in der Frequenz weist eine Varianz σω auf. Die Energiekonzentration legt fest, wie gut ein Fenster das Signal in Zeit und Frequenz lokalisiert. Nach dem Prinzip der Zeit-Frequenz-Unschärfe gibt es eine Beschränkung dafür, wie gut Sie gleichzeitig in den Zeit- und Frequenzebenen lokalisieren können,

wie aus Folgendem hervorgeht

σtσω12.

Eine Verengung des Fensters in einem Bereich führt zu einer schlechteren Lokalisierung im anderen Bereich. Gabor wies nach, dass der Bereich des Fensters am geringsten ist, wenn g(t) eine Gauß‘sche Zahl ist.

Constant-Q-Transformation

In der CQT sind die Bandbreite und die Abtastdichte in der Frequenz unterschiedlich. Die Fenster werden konstruiert und direkt im Frequenzbereich angewendet. Verschiedene Fenster weisen unterschiedliche Mittenfrequenzen und Bandbreiten auf. Das Verhältnis der Mittenfrequenz zur Bandbreite bleibt jedoch konstant. Die Beibehaltung eines konstanten Verhältnisses setzt Folgendes voraus:

  • Die Zeitauflösung verbessert sich bei höheren Frequenzen.

  • Die Frequenzauflösung verbessert sich bei niedrigeren Frequenzen.

Die Zeitverschiebungen für jedes Fenster hängen aufgrund des Unschärfeprinzips von der Bandbreite ab.

Die CQT hängt von Folgendem ab:

  • Die Fensterfunktionen gk sind geradzahlige, reellwertige Funktionen. Im Frequenzbereich wird die Fourier-Transformation von gk anhand des Intervalls [-Fs/2, Fs/2] definiert.

  • Abtastrate ζs.

  • Zahl der Intervalle pro Oktave b.

  • Mindest- und Höchstfrequenzen ζmin und ζmax.

Wählen Sie eine Mindestfrequenz ζmin sowie die Anzahl der Intervalle pro Oktave aus b. Bilden Sie als Nächstes eine Sequenz aus geometrisch angeordneten Frequenzen

ζk = ζmin × 2k/b

mit k = 0,...,K, wobei K eine ganze Zahl ist, sodass ζK als die höchste Frequenz streng kleiner als die Nyquist-Frequenz ζs/2 ist. Die Bandbreite der k-ten Frequenz wird auf Ωk = ζk+1k-1 festgelegt. Bei dieser Abtastung ist das Verhältnis der k-ten Mittenfrequenz zur Fensterbandbreite unabhängig von k:

Q = ζkk = (21/b-2-1/b)-1.

Um eine perfekte Rekonstruktion sicherzustellen, sind die DC-Komponente und die Nyquist-Frequenz jeweils der Sequenz vorangestellt oder an sie angefügt.

W(ω) bildet die Fensterfunktionen gk. W(ω) ist eine geradzahlige, reellwertige, stetige Funktion, die bei 0 zentriert, im Intervall [-½,½] positiv ist und an anderer Stelle 0 beträgt. W(ω) wird auf jede Mittenfrequenz ζk übertragen und dann skaliert. Die Bewertung einer skalierten und übertragenen Version von W(ω) ergibt die Filterkoeffizienten gk[m], die aus

gk[m] = W((m ζs/L - ζk)/Ωk)

entstehen, mit m = 0, …, L-1, wobei L die Signallänge ist. cqt verwendet standardmäßig das Fenster 'hann'.

Aufgrund des Unschärfeprinzips schränkt die Größe der Bandbreite den Wert der Zeitverschiebungen ein. Um der Rahmenungleichheit zu entsprechen, muss die Verschiebung akvon gk die Bedingung

ak ≤ ζkk.

erfüllen.

Wie bereits erwähnt, wird das Fenster im Frequenzbereich angewendet. Die Filter gk, die bei ζk zentriert sind, werden gebildet und bei der Fourier-Transformation des Signals angewendet. Durch Vornehmen der inversen Transformation erhalten Sie die Constant-Q-Koeffizienten.

Referenzen

[1] Jaillet, Florent. “Représentation et traitement temps-fréquence des signaux audionumériques pour des applications de design sonore.” Ph.D. dissertation, Université de la Méditerranée, Aix-Marseille II, 2005.

[2] Balazs, P., M. Dörfler, F. Jaillet, N. Holighaus, and G. Velasco. “Theory, Implementation and Applications of Nonstationary Gabor Frames.” Journal of Computational and Applied Mathematics 236, no. 6 (October 2011): 1481–96. https://doi.org/10.1016/j.cam.2011.09.011.

[3] Holighaus, Nicki, M. Dörfler, G. A. Velasco, and T. Grill. “A Framework for Invertible, Real-Time Constant-Q Transforms.” IEEE Transactions on Audio, Speech, and Language Processing 21, no. 4 (April 2013): 775–85. https://doi.org/10.1109/TASL.2012.2234114.

[4] Velasco, G. A., N. Holighaus, M. Dörfler, and T. Grill. "Constructing an invertible constant-Q transform with nonstationary Gabor frames." In Proceedings of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris, France: 2011.

[5] Schörkhuber, C., A. Klapuri, N. Holighaus, and M. Dörfler. "A MATLAB® Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution." Submitted to the AES 53rd International Conference on Semantic Audio. London, UK: 2014.

[6] Průša, Z., P. L. Søndergaard, N. Holighaus, C. Wiesmeyr, and P. Balazs. The Large Time-Frequency Analysis Toolbox 2.0. Sound, Music, and Motion, Lecture Notes in Computer Science 2014, pp 419–442. https://github.com/ltfat

Siehe auch

|

Verwandte Themen