3Kommunikation über Sprachbefehle

Die Kommunikation über Sprachbefehle fällt in das umfangreiche Gebiet der automatischen Spracherkennung (ASR).

Diese Bezeichnung bezieht sich auf automatische (Maschinen) Transkription der Rede. Der Eingang ist ein digitales Sprachsignal und der Ausgang ist eine Zeichenfolge, die die erkannten Wörter bezeichnet, die in dem verwendeten Wörterbuch enthaltenen sind. Da das gesamte Wörterbuch der Sprache sehr groß ist, in der Regel verwendet man nur eingeschränkte Versionen für einen bestimmten Einsatzbereich. Der Ausgabetext erfüllt die vorgeschriebene Grammatik oder beinhaltet die Phrasen die häufig in der vorhandenen Sprache verwendet werden.

ASR unterscheidet sich von der Aufgabe, den Sinn der Rede zu verstehen. Der Bereich, der diese Aufgaben behandelt wird künstliche Intelligenz genannt. Der Ausgangspunkt dafür ist ein Text, der nach der Anwendung von ASR entsteht.

In den letzten Jahrzehnten gab es eine intensive Forschung auf dem Gebiet der Konstruktion von ASR-Systemen, die in den folgenden Bereichen eingesetzt werden: Systeme der Bereitstellung von Informationen, Dialogsysteme, Hilfsmittel für Behinderte, Sprach-Transkription für die Archivierung usw. Es gibt die ersten nutzbaren Systeme, die außerhalb der kontrollierten Laborumgebung angewendet werden können, Deren Komplexität ist hoch, aber es gibt Anwendungen, die die kontinuierliche Sprache oder sogar ein normales Gespräch transkribieren können. Diese Aufgabe ist sehr komplex und muss die Probleme lösen, die in verschiedene wissenschaftliche Bereiche fallen. Praktische Systeme müssen in einer feindlichen Umgebung arbeiten (Änderungen von Hintergrund, Aufnahmegeräte usw.) müssen grammatische Vielfalt, akustische Variabilität des Sprechenden, große Wörterbücher usw. unterstützen. Ein typischer Benutzer fordert eine sofortige Antwort, ist nicht bereit seine Sprechart zu ändern, sich zu einem bestimmten Vokabular zu begrenzen und verliert schnell die Geduld mit möglichen ASR Systemfehler.

Es gibt eine große Anzahl von ASR-Anwendungen verschiedener Komplexität und mit unterschiedlichen Anforderungen und Randbedingungen. Dementsprechend gibt es mehrere unterschiedliche Klassifikationen derartiger Systeme nach verschiedenen Kriterien. Die bekannteste davon ist die Größe des Wörterbuches. Es werden folgenden Bereiche unterschieden:

Diese Aufteilung ändert sich natürlich mit der Weiterentwicklung der Technologie.

Die Systeme können weiter sprecherabhängig bzw. sprecherunabhängig sein. Wenn ein System sprecherunabhängig ist, ist es egal wer spricht. Dies erfordert die Existenz eines allgemeinen Modells, das aus der großen Menge an Sprechenden abgeleitet wurde. Systeme die sprecherabhängig sind, sind für einen bestimmten Benutzer angepasst, und erzielen daher in der Regel bessere Ergebnisse, aber nur für den konkreten Benutzer. Systeme, die eine sofortige Reaktion liefern, werden Echtzeit-Systeme genannt. Eine bedeutende Rolle spielt dabei auch, in welcher Form die Spracheingabe erwartet wird. Dementsprechend sind die folgenden Szenarien zu unterscheiden:

Eine Unterteilung ist auch nach dem modellierten Teil des Sprachmodells (Phoneme, Silben, Wörter, Phrasen, etc.) möglich bzw. wie sie es machen, z. B statistischer Ansatz mit Hidden-Markov-Modells (HMM). (...)

Das Sprachsignal wird von einer menschlichen Sprachorgan erzeugt und wird als Vibrationsgeräusch wahrgenommen. Unter anderem trägt es die lexikalischen Informationen (was gesagt wurde). Die wird durch die entsprechende Sequenz von geeigneten Geräuschen repräsentiert, die spezifische akustische Form aufweisen. Diese akustischen Einheiten reichen aus, um eine bestimmte Sprache zu erzeugen und werden Phoneme genannt. Ihre Anzahl kann variieren im Bereich von 40 bis 60, abhängig von der Sprache. Ihre aktuelle akustische Form ändert sich von Sprecher zu Sprecher und ist deutlich von den umliegenden Lauten beeinflusst (so genannte Koartikulation).

Um den Teil in der Rede zu unterdrücken, der keine lexikalischen Informationen enthält, ist es notwendig ein Extraktionsverfahren für geeignete Merkmale zu verwenden. Die übrigen Informationen können die Worterkennungsrate verringern. Die Informationen über den Sprechenden (seine Stimmung, Gesundheit und aktuelle körperliche und emotionale Lage) sind ein Hindernis.

Es ist daher eine primäre Rolle der Systeme zur Merkmalextraktion, nur die bestmöglichen Merkmale auszuwählen, was praktisch nicht vollkommen gelingen kann. Das Sprachsignal enthält etwa 100 kb/s Daten, während der lexikalische Inhalt nur etwa 10b/s der Daten beträgt, weshalb Algorithmen zur Merkmalsextraktion als effiziente Informationskompressoren arbeiten.

Eine gute Wahl ist daher das menschliche Gehör zu simulieren, es mathematisch zu beschreiben, für die praktische Anwendung zu vereinfachen und für eine einfache Zusammenarbeit mit übergeordneten Spracherkennungssystemen anzupassen.

Es gibt viele erfolgreiche Methoden, die entweder das menschliche Gehör (kritische Zone, die Volumen-Kurve, etc.) oder den Prozess der Sprachproduktion (Alarm, Vokaltrakt, ...) simulieren. Der Vorteil der Methoden, das Gehör zu simulieren, liegt daran, dass sie günstige Mechanismen integrieren die die Rede zwischen anderen ungewünschten Signalen der realen Umgebung hervorheben. Sie unterdrücken das normale Hintergrundrauschen und die Verzerrung.

Während der Untersuchungen in den letzten Jahrzehnten wurde festgestellt, dass eine große lexikalische Information in der Hüllkurve von Signalspektrum verborgen wird. Damit kann man z. B. einzelne Phoneme Klassifizieren und unterscheiden. Genauer gesagt, diese Information ist in der Position, Form und Anzahl der dominanten Frequenzkomponenten verborgen. Um dies in Abb. 3.1 zu zeigen, sieht man das Spektrum des Lautes "e", Hüllkurve und die Position der sogenannten Formantfrequenzen (dominanten Frequenzen zu den Vokaltrakt Resonanzen im Zusammenhang). Abb. 3.2 zeigt den zeitlichen Verlauf des Lautes „e“.

image
Abb. 3.1. Spektrum, Hüllkurve und Formantfrequenzen für den Laut „e“.
image
Abb. 3.2. Zeitlichen Verlauf des Lautes “e”.
image
Abb. 3.3. Spektrum des Lautes “t”.
image
Abb. 3.4. Zeitlichen Verlauf des Lautes “t”.

Um den Unterschied zwischen Lauten zu demonstrieren gibt es in Abb. 3.3 Spektrum und in Abb. 3.4 den zeitlichen Verlauf des Lautes „t“.

In der folgenden Tabelle ist die Positionierung der ersten zwei Formantfrequenzen für Slowakische Vokale gezeigt und zwar getrennt für Männer und Frauen als Durchschnitt der Bevölkerung. Diese Tabelle enthält eine sehr grobe und einfache Art und Weise wie man die Konsonanten basierend auf ihrer Frequenz Form klassifizieren kann.

Tabelle 3.1. Positionierung der ersten zwei Formantfrequenzen für Slowakische Vokale, getrennt für Männer und Frauen

Vokal

Männer

Frauen

F1 [Hz]

F2 [Hz]

F1 [Hz]

F2 [Hz]

a

730

1100

850

1200

e

530

1850

600

2350

i

400

2000

430

2500

o

570

850

590

900

u

440

1000

470

1150

Das Merkmal-Extraktions-System soll in der Lage sein, die Unterschiede zwischen Formantfrequenzen zu benutzen. Auf der anderen Seite muss er "taub" sein für die Veränderungen, die natürlich und nicht hörbar sind. Die folgende Tabelle zeigt das hörbare und nicht hörbare Spektrum der Modifikationen.

Tabelle 3.2. Hörbare und nicht hörbare Spektrum der Modifikationen

Änderung typ

Hörbar

Nicht hörbar

Anzahl von Formantfrequenzen

Die spektrale Neigung

Position von Formantfrequenzen

Frequenzen unterhalb von der ersten Formantfrequenz

Die Breite von Formantfrequenzen

Die Frequenzen oberhalb von der dritten Formantfrequenz

-

schmalbandigen Filter

Die Intensität des Geräuschs wird nicht linearen wahrgenommen. Dies kann durch die Logarithmus-Funktion approximiert werden.

In Bezug auf die Störung, sollten die Merkmale gegen additives Rauschen und auch Konvolution-Rauschen resistent sein.

Es muss möglich sein, die Merkmale leicht zu implementieren, mathematisch zu beschreiben, und sollte eine kompakte Form haben.

Es ist in der Regel gut, wenn die Merkmale untereinander linear unabhängig sind, um die Menge von Informationen zu verringern und anschließend die Modellierung zu erleichtern.