2 Sprecheridentifikation
2.5 Umweltkompensation

Um die Variabilität einer Sitzung zu verringern, die durch unterschiedliche Trainings- und Testbedingungen (Hintergrundgeräusche, verschiedene akustische Parameter der Aufnahmegeräte und der Zimmer) verursacht werden, wurden mehrere Konzepte entwickelt. Die einfachste Methoden gleichen die Leistung jedes Frequenzbandes aus. Man kann, feste Filtertechniken benutzen, die ein allgemeines Sprachsignal betonen, wie das Verstärken des Sprachmodulationsspektrums oder relative Spektralanalyse (RASTA) Filter. Anspruchsvollere Methoden versuchen optimale Transformationen zu finden, welche die Aufnahme-Funktionen auf die Funktionen in der Bereitstellungsumgebung (das so genannte Feature-Mapping-Verfahren) transformiert. Es kann auch versucht werden, ganze Modelle von Lautsprechern so zu transformieren, dass sie dem Modell der Arbeitsumgebung entsprechen (es heißt Sprechermodell-Synthese). Allerdings basieren diese Methoden auf höherer Mathematik, und ändern ihr Verhalten passend zu den ankommenden Daten. Ändert sich das Arbeitsumfeld, so ändert sich auch die optimale Zuordnung.

Eine andere, weniger anspruchsvolle, aber manchmal nützliche Lösung ist es, vorab aufgezeichnete Sprachproben (Eigenschaften oder Modelle) unter verschiedenen Bedingungen zur Verfügung zu haben und vor der Anwendung die richtige auszuwählen. Dann nutzen Sie für eine bestimmte Aufnahme die Umgebung, die am besten passt. Es ist offensichtlich, dass die besten Ergebnisse beobachtet werden, wenn es eine Übereinstimmung zwischen Trainings- und Testumgebung gibt.

Einen detaillierten Überblick über das Thema der Sprechererkennung sehen Sie z. B. [2].