音声認識

音声認識機能を利用し、テキストを入力することができる。(改行や句読点も音声入力可能)

認識精度を上げるには一語一語をハッキリと話し、単語で区切るよりできるだけ長い文節単位に話すことで認識精度が向上する。また、認識精度はマイクの性能にも影響を受けるので、認識精度が低いと感じる場合は、他のマイクも試してみることを推奨する。(音声認識には単一指向性のマイクを推奨)

音声認識を行う言語は、音声入力する言語毎に音声認識エンジンを指定することができる。初期状態ではOSで設定されている言語の音声認識エンジンが自動的に選択される。音声入力した言語と一致していない場合は正確な認識結果が得られないため、適切な音声認識エンジンを指定する必要がある。

(例:英語で話す時は音声認識エンジンを英語に切り替える)

なお、音声認識による入力は、検索や置換、メール件名のテキストボックスにも対応している。入力したいテキストボックスをフォーカス状態にすることで入力できる。

音声認識の操作機能を以下に説明する。

 

 

1.開始・停止

このボタンをクリック(タップ)することで、音声認識の開始・停止を行う。

開始の場合は、アイコンが赤色になり「聞き取り中…」が表示された状態で音声入力を開始する。

本アプリでは文章の入力が最適になるように、音声認識作業を継続してできる設定にしている。

また、Version 2.1.0からは、タイムアウトを検出した場合でも、自動的に継続して音声入力作業ができるように変更している。これは、文章を考える時間を考慮した場合、無通音時間が数十秒~数分間発生することが考えられるため、音声認識のON/OFFによる作業の中断を防止することを目的としている。

そのため、音声入力が不要になった場合は、必ず手動でOFFにする必要がある。

なお、編集パネルを表示し、UnDo・ReDoを利用しながら音声入力を行うと、認識結果が間違っている場合にやり直し作業の効率がよくなる。

 

2.音声認識の制約

制約は、音声入力でアプリが認識する単語と語句 (ボキャブラリ) を定義している。 制約は音声認識の中心であり、アプリの音声認識の精度に大きく影響する。

制約にはいくつかの種類が存在するが、本アプリの文章入力では、ディクテーションとWEB検索を採用している。

どちらもマイクロソフト社で定義済みの制約を利用するという点では同じである。WEB検索制約は、WEB検索で一般的に用いる用語の認識に最適化されている。WEB検索制約は、本アプリの将来のバージョンでWEB検索機能として機能変更を行う予定である。

そのため文書作成にはディクテーション制約の利用を推奨する。

なお、上記どちらの制約を指定する場合でも、マイクロソフト社のクラウドサービスを利用するためインターネットに接続している必要がある。

 

3.音声認識言語

このボタンをクリック(タップ)することで音声認識言語を指定できる。音声入力を行う言語と同じ認識言語を指定しない場合は、正しい結果が得られないので注意する必要がある。

 

4.音声認識ディクテーションコマンド

このリストに表示されているコマンド「Command」を、音声入力で認識させることができる。音声認識させたい場合は、コマンドのフレーズ「Phrases」を話す。フレーズが複数あるコマンドは、認識させやすい何れかのフレーズを話す。

なお、全てのコマンドは、リストで選択し実行ボタンをクリック(タップ)することでも入力できる。

 

5.句読点の自動挿入

自動挿入がONの場合は、音声認識された文字の確定時に句読点が自動的に挿入される。句読点を任意に挿入したい場合は、OFFにする。

※この機能は、Anniversary Updateの場合にのみ表示される。(マイクロソフトの仕様が変更されたため)

 

6.タッチキーボード手動表示(タッチ機能搭載デバイスのみ)

オンにすることで、テキスト入力エリアをタッチした場合でも自動的にタッチキーボードを非表示にできる。

オンの状態でタッチキーボードを表示したい場合は、OSのタスクバーにあるタッチキーボードアイコンをタッチする。