Die Übersetzung dieser Seite ist veraltet. Klicken Sie hier, um die neueste Version auf Englisch zu sehen.

Nichtstationäre Gabor-Frames und die Constant-Q-Transformation

Nichtstationäre Gabor-Frames ermöglichen es Ihnen, zeit- oder frequenzadaptative Analysen von Signalen zu implementieren. Bei den Funktionen cqt und icqt werden nichtstationäre Gabor-Frames verwendet, um eine (frequenzadaptative) Constant-Q-Transformation (CQT) eines Signals zu erzielen. Eine bemerkenswerte Stärke der nichtstationären Gabor-Frames liegt darin, dass sie die Konstruktion stabiler Inversen ermöglichen und so eine perfekte Rekonstruktion ergeben.

Die Theorie nichtstationärer Gabor-Transformationen (Nonstationary Gabor Transforms, NSGTs) wurde von Jaillet [1] und Balazs, Dörfler, Jaillet, Holighaus sowie Velasco [2] eingeführt. Die Theorie ermöglicht effiziente Implementierungen von NGSTs mithilfe FFT-basierter Methoden. Dörfler, Holighaus, Grill und Velasco [3], [4] entwickeln ein Framework für eine effiziente, perfekt invertierbare CQT. Die Algorithmen in [3], [4] implementieren eine phasenstarre Version der CQT. Diese erhält nicht die dieselben Phasen aufrecht, die durch die naive Faltung erzielt werden würden. In [5] entwickeln Schörkhuber, Klapuri, Holighaus und Dörfler effiziente Algorithmen für die CQT und inverse CQT, mit denen die durch die naive Faltung erzielten Koeffizienten imitiert werden. Die große Toolbox für Zeit-Frequenz-Analysen [6] bietet eine umfangreiche Reihe von Algorithmen für die nichtstationäre Gabor-Analyse und -Synthese.

In der standardmäßigen Gabor-Analyse wird die Zeit-Frequenz-Ebene von einem Fenster fester Größe unterteilt. Ein nichtstationärer Gabor-Frames ist eine Sammlung von Fensterfunktionen verschiedener Größen, die dafür verwendet werden, die Zeit-Frequenz-Ebene in Fenster zu unterteilen. Die Wavelet-Analyse unterteilt die Zeit-Frequenz-Ebene auf ähnliche Weise in Fenster. Sie haben die Flexibilität, die Abtastdichte in Zeit und Frequenz zu ändern. Nichtstationäre Gabor-Frames sind in Bereichen wie der Verarbeitung von Audiosignalen nützlich, in denen Zeit-Frequenz-Fenster mit einer festgelegten Größe nicht optimal sind. Im Gegensatz zur Kurzzeit-Fourier-Transformation weisen die in der Constant-Q-Transformation verwendeten Fenster eine anpassbare Bandbreite und Abtastdichte auf. Im Frequenzraum sind die Fenster in logarithmisch angeordneten Mittenfrequenzen zentriert.

Zerlegen der Zeit-Frequenz-Ebene

Die Fourier-Transformation der f(t) stellt den Zusammenhang zwischen f(t) und e^{j ω t} dar:

$F (ω) = \int_{- \infty}^{\infty} f (t) e^{- j ω t} d t .$

Da e^{j ω t} keinen kompakten Träger aufweist, stellt die Fourier-Transformation keine ideale Wahl für die Untersuchung von nichtstationären Signalen dar. Falls sich der Frequenzinhalt eines Signals mit der Zeit ändert, erfasst die Fourier-Transformation nicht, welche Änderungen das sind und wann diese auftreten. Der Teilbereich der hier dargestellten Zeit-Frequenz-Ebene zeigt dieses Verhalten der Fourier-Transformation an.

Um eine Zeit-Frequenz-Analyse eines nichtstationären Signals f(t) vorzunehmen, verwenden Sie eine Fensterfunktion $g (t)$ mit folgenden Eigenschaften:

Sie ist geradzahlig und reellwertig.
Sie ist nur in einem endlichen Intervall effektiv größer als 0.
Sie weist eine Norm von 1 auf.
Die Fourier-Transformation von $g (t)$ wird bei 0 zentriert und weist einen Tiefpass auf.

Verschieben Sie das Fenster $g (t)$ über f(t) und nehmen Sie die Fourier-Transformation des Ergebnisses vor:

$S F (u, ζ) = \int f (t) g (t - u) e^{- j ζ t} d t .$

Die standardmäßige Gabor-Analyse besteht darin, f(t) zu den Gabor-Atomen $g (t - u) e^{j ζ t}$ in Beziehung zu setzen. Durch Verändern von u berücksichtigen Sie nur Werte von f(t) nahe des Zeitbereichs u. Der Träger von $g (t)$ legt die Größe der Umgebung nahe des Zeitbereichs fest u. Die Fourier-Transformation von $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ ist die Translation der Fourier-Transformation von $g (t)$ mittels ζ und wird festgelegt durch

${\hat{g}}_{u, ζ} (ω) = e^{- (ω - ζ)} \hat{g} (ω - ζ) .$

Die Energiekonzentration von ${\hat{g}}_{u, ζ} (ω)$ weist eine Varianz σ_ω auf und ist bei ζ zentriert. Wenn sich das Fenster $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ auf einem regelmäßigen Raster verschiebt, sind die Fourier-Transformation des Produkts des verschobenen Fensters und f(t) die Kurzzeit-Fourier-Transformation (STFT). Die STFT-Unterteilung der Zeit-Frequenz-Ebene in Fenster kann als Raster von Feldern wiedergegeben werden (u, ζ):

Die Reihe der Funktionen ${g_{u, ζ}}$ wird als Gabor-Frames bezeichnet. Die Elemente dieser Reihe werden als Gabor-Atome bezeichnet. Bei einem Rahmen handelt es sich um eine Reihe von Funktionen, {h_k(t)}, welche die folgende Bedingung erfüllen: Es gibt Konstanten 0 < A ≤ B < ∞, sodass bei jeder Funktion Folgendes gilt f(t),

$A ‖ f ‖^{2} \leq Σ_{k} | 〈 f, h_{k} 〉 |^{2} \leq B ‖ f ‖^{2} .$

Die Energiekonzentration von $g (t)$ in der Zeit weist eine Varianz σ_t auf. Die Energiekonzentration von $\hat{g} (ω)$ in der Frequenz weist eine Varianz σ_ω auf. Die Energiekonzentration legt fest, wie gut ein Fenster das Signal in Zeit und Frequenz lokalisiert. Nach dem Prinzip der Zeit-Frequenz-Unschärfe gibt es eine Beschränkung dafür, wie gut Sie gleichzeitig in den Zeit- und Frequenzebenen lokalisieren können,

wie aus Folgendem hervorgeht

$σ_{t} σ_{ω} \geq \frac{1}{2} .$

Eine Verengung des Fensters in einem Bereich führt zu einer schlechteren Lokalisierung im anderen Bereich. Gabor wies nach, dass der Bereich des Fensters am geringsten ist, wenn $g (t)$ eine Gauß‘sche Zahl ist.

Constant-Q-Transformation

In der CQT sind die Bandbreite und die Abtastdichte in der Frequenz unterschiedlich. Die Fenster werden konstruiert und direkt im Frequenzbereich angewendet. Verschiedene Fenster weisen unterschiedliche Mittenfrequenzen und Bandbreiten auf. Das Verhältnis der Mittenfrequenz zur Bandbreite bleibt jedoch konstant. Die Beibehaltung eines konstanten Verhältnisses setzt Folgendes voraus:

Die Zeitauflösung verbessert sich bei höheren Frequenzen.
Die Frequenzauflösung verbessert sich bei niedrigeren Frequenzen.

Die Zeitverschiebungen für jedes Fenster hängen aufgrund des Unschärfeprinzips von der Bandbreite ab.

Die CQT hängt von Folgendem ab:

Die Fensterfunktionen g_k sind geradzahlige, reellwertige Funktionen. Im Frequenzbereich wird die Fourier-Transformation von g_k anhand des Intervalls [-Fs/2, Fs/2] definiert.
Abtastrate ζ_s.
Zahl der Intervalle pro Oktave b.
Mindest- und Höchstfrequenzen ζ_min und ζ_max.

Wählen Sie eine Mindestfrequenz ζ_min sowie die Anzahl der Intervalle pro Oktave aus b. Bilden Sie als Nächstes eine Sequenz aus geometrisch angeordneten Frequenzen

ζ_k = ζ_min × 2^k/b

mit k = 0,...,K, wobei K eine ganze Zahl ist, sodass ζ_K als die höchste Frequenz streng kleiner als die Nyquist-Frequenz ζ_s/2 ist. Die Bandbreite der k-ten Frequenz wird auf Ω_k = ζ_k+1-ζ_k-1 festgelegt. Bei dieser Abtastung ist das Verhältnis der k-ten Mittenfrequenz zur Fensterbandbreite unabhängig von k:

Q = ζ_k/Δ_k = (2^1/b-2^-1/b)^-1.

Um eine perfekte Rekonstruktion sicherzustellen, sind die DC-Komponente und die Nyquist-Frequenz jeweils der Sequenz vorangestellt oder an sie angefügt.

W(ω) bildet die Fensterfunktionen g_k. W(ω) ist eine geradzahlige, reellwertige, stetige Funktion, die bei 0 zentriert, im Intervall [-½,½] positiv ist und an anderer Stelle 0 beträgt. W(ω) wird auf jede Mittenfrequenz ζ_{k übertragen} und dann skaliert. Die Bewertung einer skalierten und übertragenen Version von W(ω) ergibt die Filterkoeffizienten g_k[m], die aus

g_k[m] = W((m ζ_s/L - ζ_k)/Ω_k)

entstehen, mit m = 0, …, L-1, wobei L die Signallänge ist. cqt verwendet standardmäßig das Fenster 'hann'.

Aufgrund des Unschärfeprinzips schränkt die Größe der Bandbreite den Wert der Zeitverschiebungen ein. Um der Rahmenungleichheit zu entsprechen, muss die Verschiebung a_kvon g_k die Bedingung

a_k ≤ ζ_k/Ω_k.

erfüllen.

Wie bereits erwähnt, wird das Fenster im Frequenzbereich angewendet. Die Filter g_k, die bei ζ_k zentriert sind, werden gebildet und bei der Fourier-Transformation des Signals angewendet. Durch Vornehmen der inversen Transformation erhalten Sie die Constant-Q-Koeffizienten.

Referenzen

[1] Jaillet, Florent. “Représentation et traitement temps-fréquence des signaux audionumériques pour des applications de design sonore.” Ph.D. dissertation, Université de la Méditerranée, Aix-Marseille II, 2005.

[2] Balazs, P., M. Dörfler, F. Jaillet, N. Holighaus, and G. Velasco. “Theory, Implementation and Applications of Nonstationary Gabor Frames.” Journal of Computational and Applied Mathematics 236, no. 6 (October 2011): 1481–96. https://doi.org/10.1016/j.cam.2011.09.011.

[3] Holighaus, Nicki, M. Dörfler, G. A. Velasco, and T. Grill. “A Framework for Invertible, Real-Time Constant-Q Transforms.” IEEE Transactions on Audio, Speech, and Language Processing 21, no. 4 (April 2013): 775–85. https://doi.org/10.1109/TASL.2012.2234114.

[4] Velasco, G. A., N. Holighaus, M. Dörfler, and T. Grill. "Constructing an invertible constant-Q transform with nonstationary Gabor frames." In Proceedings of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris, France: 2011.

[5] Schörkhuber, C., A. Klapuri, N. Holighaus, and M. Dörfler. "A MATLAB^® Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution." Submitted to the AES 53rd International Conference on Semantic Audio. London, UK: 2014.

[6] Průša, Z., P. L. Søndergaard, N. Holighaus, C. Wiesmeyr, and P. Balazs. The Large Time-Frequency Analysis Toolbox 2.0. Sound, Music, and Motion, Lecture Notes in Computer Science 2014, pp 419–442. https://github.com/ltfat

Siehe auch

icqt | cqt

Themen

Kurzzeit-Fourier-Transformation