2 Sprecheridentifikation
2.1 Sprecheridentifikation Übersicht

Die Sprecheridentifikation ist als Teil eines umfassenderen Konzepts der Sprechererkennung bekannt. Es umfasst zwei wichtige und ähnliche, aber immer noch verschiedene Aufgaben, nämlich die Sprecheridentifizierung und der Sprecherverifikation. Mit der ersten Aufgabe wird automatisch entschieden, wem aus einer Gruppe von Benutzern die Sprachprobe gehört, wobei zum Vergleich eine Datenbank verwendet wird, die in einer Lernphase mit den Sprachproben gefüllt wurde.

Optional wird niemand erkannt, wenn das Vertrauen der endgültigen Entscheidung zu niedrig ist. Diese Aufgabe wird oft als Problem einer geschlossen Gruppe bezeichnet, da es einen festen Satz von Benutzern gibt, die erkannt werden kann.

Auf der anderen Seite, wertet der Verifizierungsprozess aus, ob das getestete Individuum derjenige ist, der er oder sie vorgibt zu sein.

Da es sehr viele Anwender gibt (evtl. sieben Milliarden weltweit), ist es unmöglich, eine Kennlinie oder ein Modell für alle Personen zu entwickeln und bezeichnet diesen Umstand als das Open Group Problem. In dieser Situation ist das allgemeine Modell eines Sprechers von großer Bedeutung, um eine angemessene Annahme / Ablehnung von Schwellenwerten festzulegen.

Die Sprechererkennung ist aus mehreren Gründen problematisch. Dies ist seit über 40 Jahren Gegenstand wissenschaftlicher Untersuchungen zahlreicher Forschungsteams. Da gibt es neue und zugängliche Technologien, man kann zunehmend Anwendung in vielen Bereichen finden; einige seien hier erwähnt:

Aufgrund des breiten Spektrums von Problemen, die angegangen werden müssen, gibt es viele geeignete Lösungen und Techniken der Sprecheridentifikation. Diese können in drei Hauptgruppen geteilt werden:

Die Aufgabe der Sprecheridentifikation ist in zwei große Gruppen unterteilt, dies sind die vom Text abhängigen bzw. die vom Text unabhängigen Probleme. In der ersten Gruppe setzt der Identifikationsprozess keinen bestimmten Text voraus, während in der zweiten Gruppe die Systeme einen nachgesprochen Text erfordern. Dabei erreicht das Text abhängige System offensichtlich höhere Genauigkeiten.