Speech Recognition Grammar Specification

Die Speech Recognition Grammar Specification (SRGS) ist ein W3C-Standard, der beschreibt, wie Spracherkennungs-Grammatiken (engl. speech recognition grammars) spezifiziert werden. Eine Spracherkennungs-Grammatik ist eine Reihe von Wortschemen, die dem Spracherkennungssystem mitteilen, was ein Mensch sagen würde. Zum Beispiel würde, wenn man ein automatisches Vermittlungssystem aufruft, das Spracherkennungssystem nach dem Namen der Person fragen, mit der man sprechen möchte. Danach wird ein Spracherkennungsprogramm aufgerufen, dem eine Spracherkennungs-Grammatik vorliegt. Diese Grammatik enthält die Namen aller Personen im Verzeichnis und die verschiedenen Satzmuster, mit denen Anrufer typischerweise anrufen.

SRGS spezifiziert zwei verschiedene, aber logisch gleichwertige Syntaxen, eine XML-basiert, die andere benutzt die angereicherte Backus-Naur-Form. In der Praxis wird allerdings die XML-Syntax öfter eingesetzt.

Würde das Spracherkennungsprogramm nur eine Zeichenkette der gesprochenen Wörter zurückgeben, würde die Sprachsoftware die sehr mühsame Arbeit übernehmen müssen, den Wörtern die semantische Bedeutung zu entnehmen. Aus diesem Grund können SRGS-Grammatiken mit tag-Elementen ausgestaltet werden, die, wenn sie ausgeführt werden, das semantische Ergebnis erzeugen. SRGS spezifiziert nicht den Inhalt dieser Tagelemente: dies wird in Zusammenarbeit mit dem W3C-Standard Semantic Interpretation for Speech Recognition (SISR) durchgeführt. SISR basiert auf ECMAScript und ECMAScript-Statements innerhalb der SRGS-Tags erzeugen ein ECMAScript-semantisches Ergebnisobjekt, das von der Voice-Application leicht verarbeitet werden kann.

Sowohl SRGS als auch SISR sind W3C-Empfehlungen, also auf der finalen Stufe auf dem Weg zum W3C-Standard. Der W3C VoiceXML-Standard, der definiert, wie Voice-Dialoge spezifiziert werden, basiert stark auf SRGS und SISR.