Galatea DM 1.0
>>
Galatea DM 1.0
西本 卓也
東京大学大学院 情報理工学系研究科
nishi@hil.t.u-tokyo.ac.jp
http://hil.t.u-tokyo.ac.jp/~galatea/
Table of Contents
1 Galatea DM マニュアル
1 導入マニュアル
1.1 動作環境
1.2 Galatea のインストール
1.2.1 Galatea のファイル構成
1.2.2 GLUT の更新
1.2.3 顔画像モジュール(FSM)の動作確認
1.2.4 Javaのインストール
1.2.5 形態素解析(morph)のインストール
1.2.6 音量コントロールの設定
1.2.7 音声合成(SSM)の動作確認
1.2.8 音声認識(SRM)の動作確認
1.2.9 タスクマネージャ(TM)の動作確認
1.2.10 Ruby/TK の確認
1.3 Galatea DM の実行
1.3.1 音量コントロールの確認
1.3.2 対話の実行(galateaコマンド)
1.3.3 不要プロセスの終了(finコマンド)
1.3.4 ドキュメント解釈結果の表示(-pオプション)
1.3.5 バージョンの表示(-vオプション)
2 VoiceXMLによる記述サンプル
2.1 drivenavi.vxml
2.2 kani.vxml
3 Galatea DM の仕様
3.1 対話記述言語の構成要素
3.2 音声認識文法の仕様
3.3 Galatea DM の制約
4 追加サブモジュールの仕様
4.1 MON サブモジュール (Galatea Monitor)
4.2 SND サブモジュール
4.3 PAR サブモジュール
4.4 GUI サブモジュール
4.5 SIM および DM-MCL サブモジュール
5 Galatea DM に関する著作権表記
2 文法リファレンス
6 VoiceXML基本要素
6.1 <assign> : 変数に値を割り当てる
6.2 <audio> : 録音されたオーディオをプロンプト内で再生する
6.3 <block> : 対話形式ではない処理を実行する
6.4 <break> : 出力に無音区間を挿入する
6.5 <catch> : イベントを捕捉する
6.6 <choice> : メニュー項目を定義する
6.7 <clear> : フィールド項目変数をリセットする
6.8 <disconnect> : セッションを切断する
6.9 <else> : 条件付き実行におけるelseを定義する
6.10 <elseif> : 条件付き実行におけるelseifを定義する
6.11 <emphasis> : 音声合成において強調したい箇所を指定する
6.12 <enumerate> : メニューの選択項目を列挙する
6.13 <error> : エラー・イベントを捕捉する
6.14 <exit> : セッションを終了する
6.15 <field> : 音声認識またはDTMF文法によって値を得るフィールド項目を宣言する
6.16 <filled> : 入力フィールドのデータが入力された際に実行される処理を定義する
6.17 <form> : 音声出力およびデータの収集を行う対話を定義する
6.18 <goto> : 他のダイアログに移動する
6.19 <help> : ヘルプ・イベントを捕捉する
6.20 <if> : 条件分岐を行う
6.21 <initial> : フォームの初期化ロジックを宣言する
6.22 <link> : 他のダイアログやドキュメントへの移動,またはイベントの発生を行う
6.23 <log> : ログ出力を行う
6.24 <mark> : 音声合成のブックマークを指定する
6.25 <menu> : メニュー形式の対話を行う
6.26 <meta> : メタ・データを指定する
6.27 <metadata> : RDF(Dublin Core)メタ・データを記述する
6.28 <noinput> : noinputイベントを捕捉する
6.29 <nomatch> : nomatchイベントを捕捉する
6.30 <object> : プラットフォーム固有の機能を提供するモジュールにアクセスする
6.31 <option> : 要素field内でオプションを指定する
6.32 <p> : パラグラフを指定する
6.33 <paragraph> : パラグラフを指定する
6.34 <param> : パラメータを指定する
6.35 <phoneme> : 音声合成において読みを指定する
6.36 <prompt> : プロンプトを定義する
6.37 <property> : プラットフォームの設定を変更する
6.38 <prosody> : 音声出力の韻律を変更する
6.39 <record> : ユーザにより録音された音声を値に持つ入力項目を定義する
6.40 <reprompt> : イベントが発生した後でプロンプトを実行することを指定する
6.41 <return> : サブダイアログから復帰する
6.42 <s> : 文の範囲を示す
6.43 <say-as> : 文字列の読み方に関する指示を行う
6.44 <script> : ECMAScriptを音声ブラウザ側で実行する
6.45 <sentence> : 文の範囲を示す
6.46 <subdialog> : サブダイアログとして他の対話を呼び出す
6.47 <submit> : ドキュメント・サーバに値を渡す
6.48 <throw> : イベントを発生させる
6.49 <transfer> : 電話を転送する
6.50 <value> : 変数の値を挿入する
6.51 <var> : 変数を宣言する
6.52 <voice> : 合成音声を変更する
6.53 <vxml> : VoiceXMLドキュメントのトップ・レベルを指定する
6.54 <alias> : 音声認識文法の別名を指定する
6.55 <example> : 音声認識文法の発話例を指定する
6.56 <grammar> : 音声認識文法を指定する
6.57 <item> : 音声認識文法において繰り返しなどを定義する
6.58 <lexicon> : 音声認識文法の語彙を定義する
6.59 <one-of> : 音声認識文法において選択を定義する
6.60 <rule> : 音声認識文法のルールを定義する
6.61 <ruleref> : 音声認識文法の外部ルール参照を指定する
6.62 <tag> : 音声認識文法の意味タグを指定する
6.63 <token> : 音声認識文法のトークンを指定する
7 日本語テキスト音声合成用記号(JEIDA-62-2000)要素
7.1 <BOOKMARK> : 音声合成においてブックマークを挿入する
7.2 <CONTEXT> : 音声合成において内容に関する情報を記述する
7.3 <EMPH> : 合成音声において指定範囲の強調を指定する
7.4 <LANG> : 合成音声において言語の指定を行なう
7.5 <PARTOFSP> : 合成音声において品詞の指定を行なう
7.6 <PITCH> : 合成音声においてピッチを指定する
7.7 <PRON> : 合成音声において発音を指定する
7.8 <RATE> : 合成音声の速さの基準となる話速を指定する
7.9 <REGWORD> : 合成音声において単語登録を行なう
7.10 <RESET> : 合成音声においてSPEECH要素内の設定をすべて既存値に設定する
7.11 <SPELL> : 合成音声において数字や英字の部分の綴り読みを指定する
7.12 <SILENCE> : 合成音声に無音(ポーズ)を挿入する
7.13 <SPEECH> : 合成音声においてRESETによって制御できる範囲を指定する
7.14 <VOICE> : 合成音声において音声フォントおよび音質を指定する
7.15 <VOLUME> : 合成音声の音量を指定する
8 Galatea Dialog Manager 拡張要素
8.1 <emotion> : 音声出力と同時に基本表情を行わせる
8.2 <native> : プラットフォーム依存の出力を実行する
3 VoiceXMLの解説
9 はじめに
10 概要
10.1 アーキテクチャモデル
10.2 VoiceXMLの目的(目標)
10.3 VoiceXMLの範囲
10.4 デザインの原則
10.5 実装プラットフォームへの要求
11 コンセプト
11.1 対話と副対話
11.2 セッション
11.3 アプリケーション
11.4 文法
11.5 イベント
11.6 リンク
12 ドキュメント構造と実行
13 フォーム
13.1 6.1. フォーム処理
13.2 フォーム項目
13.2.1 フィールド項目
13.2.2 コントロール項目
13.3 フォーム項目変数とコンディション
13.4 指示的フォーム
13.5 混合主導型フォーム
13.6 フォーム処理アルゴリズム
13.6.1 初期化フェーズ
13.6.2 メインループ
14 メニュー
15 リンク
16 変数と表現
16.1 変数宣言
16.2 変数範囲
16.3 変数参照
16.4 標準セッション変数
17 文法
17.1 音声入力文法
17.2 DTMF文法
17.3 文法の有効範囲
17.4 文法のアクティブ化
18 イベントハンドリング
18.1 throw
18.2 catch
18.3 略記法
18.4 キャッチ要素の選択
18.5 デフォルトのキャッチ要素
18.6 イベントタイプ
19 リソースフェッチング
19.1 フェッチング
19.2 キャッシング
20 プロンプト
20.1 基本的なプロンプト
20.2 13.2. 音声マークアップ
20.2.1 <break>
20.2.2 <div>
20.2.3 <emp>
20.2.4 <pros>
20.2.5 <sayas>
20.3 オーディオプロンプト
20.4 <value>要素
20.5 バージイン
20.6 プロンプトの選択
20.7 タイムアウト
21 フォーム項目
21.1 フィールド
21.1.1 組み込み文法を使用するフィールド
21.1.2 明示文法を用いるフィールド
21.1.3 オプションリストを用いるフィールド
21.1.4 組み込み文法
21.2 block
21.3 initial
21.4 subdialog
21.5 object
21.6 record
21.7 transfer
22 filled
23 meta
24 プロパティ
25 param
26 実行可能内容
26.1 VAR
26.2 ASSIGN
26.3 CLEAR
26.4 IF, ELSEIF, ELSE
26.5 PROMPT
26.6 REPROMPT
26.7 GOTO
26.8 SUBMIT
26.9 EXIT
26.10 RETURN
26.11 DISCONNECT
26.12 SCRIPT
27 時間指示
28 付録: フォーム処理アルゴリズム(FIA)
29 付録: オーディオファイル形式
30 付録: タイミング特性
30.1 DTMF文法
30.1.1 入力無しのときのタイムアウト
30.1.2 対話終了のための文法が用意されていないときのinterdigitタイムアウト
30.1.3 対話終了のための文法が用意されているときのinterdigitタイムアウト
30.1.4 対話終了可能な文法のときの条件集合とinterdigitタイムアウト
30.1.5 対話終了しなければならない文法のときに条件集合が空である
30.1.6 対話終了しなければならない文法のときの空でない条件集合と条件タイムアウト
30.1.7 対話終了しなければならない文法のときの空でない条件集合と条件タイムアウト
30.2 音声認識文法
30.2.1 発話がないときのタイムアウト
30.2.2 音声認識文法が認識されたときの完全タイムアウト
30.2.3 音声認識文法が認識されなかったときの不完全タイムアウト
4 Speech Recognition Grammar の解説
31 はじめに
31.1 文法プロセッサとユーザー・エージェント
31.2 範囲
31.3 文法変換
31.4 意味解釈
32 規則展開
32.1 トークン
32.2 規則参照
32.2.1 ローカル参照
32.2.2 URIによる外部参照
32.2.3 エイリアスによる外部参照
32.2.4 特別規則
32.2.5 N-gram文書を参照する
32.3 シーケンス
32.4 選択肢
32.4.1 重み
32.5 繰り返し
32.6 タグ
32.7 言語と場所
32.8 優先順位
33 規則定義
33.1 基本的な規則定義
33.2 規則定義の範囲指定
33.3 3.3. 例フレーズ
34 文法ドキュメント
34.1 文法のヘッダ
34.1.1 文字コード
34.1.2 文法のロケール
34.1.3 文法のモード
34.1.4 ルートルールの宣言
34.1.5 タグ形式の宣言
34.2 エイリアス
34.3 発話辞書
34.4 メタ宣言
34.5 コメント
34.6 文法フェッチ
34.7 ABNFのキーワード
35 適合
35.1 適合したXML文法フラグメント
35.2 適合したStand-Alone XML文法ドキュメント
35.3 他の名前空間を用いたXML文法の使用
35.4 適合したXML文法プロセッサ
35.5 適合したStand-Alone ABNF文法ドキュメント
35.6 適合したABNF文法プロセッサ
35.7 適合したABNF/XML文法プロセッサ
35.8 適合したユーザエージェント
36 付録: ABNF形式とXML形式の文法の例
37 付録: XML形式のためのDTD
38 付録: XML文法形式のためのスキーマ
39 付録: Augmented BNFのための形式上の構文
40 付録: DTMF文法
5 この文書について
41 著作者表記
Revision 2003-08-21 20:59
Galatea DM 1.0
>>