技術進歩の中でアナログ的スキルの退化【音声認識】

近年１０年の技術革新について、スマートフォンの普及は言うまでもありませんが、音声認識(Automatic Speech Recognition)技術が大幅に進歩して、入力方法として実用でも使えるようになってきました。スマートフォンが市販される以前にも、カーナビ等において音声認識は活用されてきましたが、利用者の声に関する特性を習得させ、決められたキーワードを抽出できる限られたものでした。

スマートフォンの音声認識を活用されている方も多いと思いますが、明らかに音声認識精度が向上しています。多言語にも対応しています。当然音声認識技術を先行しているのはAppleとGoogleであり、日常どちらかのサービスを活用していると思います。操作及び入力方法として、話しかけることによって機械が動作してくれれば、人工知能(Artificial Intelligence)の一種とも言えます。

人間にとって話すや聞くという行為は自然な動作です。約２０万年前に人類が進化的に誕生し、言語を操る脳が発達させてきました。文字が生み出されるまで、意思疎通を図る言語は音声のみでした。意味をもつ抽象的な記号としての文字が使用され始めたのは、５千年くらい前です。すなわち、人間の脳は音声による言語を処理するように長らく発達し、その後に文字も扱えるようになりました。

子供の成長において、母国語を驚異的な速さで習得し、音声による会話を不自由なくこなせるようになってきます。この考察を通じても、キーボードのキー操作や画面をフリックする方法を学ぶよりも、音声入力のほうが自然であまり練習もいらずにできます。

自然すぎて音声認識の仕組みを理解しないでも良いかもしれませんが、機密情報を扱うならば注意が必要です。音声認識のボタンを押せば、あなたが話した音声情報もネットワークを通じて送信されます。そして、AppleやGoogleが所有するサーバに蓄積されます。IBMだったと思いますが、音声認識を用いると情報がライバルであるAppleやGoogleへ通信されることになるため、使用を禁止したそうです。

人間が発した声をデジタル信号に変換してしまえば、音声認識もパターン認識(Pattern Recognition)の応用となります。パターン認識とは『同じ種類に属するものから特徴を見いだして識別・分類すること』です。高速・大容量化した情報通信技術を活用して、膨大のデータを元に機械的な処理で特徴を抽出しておき（機械学習）、入力されたデータと特徴が近似なデータ群を検索し、その検索結果を出力します。

実際に人の声を抽出するには、周囲から流れてくる音楽や雑踏の雑音などを取り除き、人それぞれの声には個性があるため、特徴を捉えることは困難でした。この問題を解決するため、力技かもしれませんが、膨大のデータを機械学習させて克服しています。我々が音声認識を利用するために入力した音声データも、データとして蓄積され、機械学習に活用されて認識率の向上が図られています。

音声認識のプロセスをまとめると、人間の肺から押し出された空気が、喉にある声帯を通って口や鼻から放出されて声となります。スマートフォン等の端末におけるマイクがその声を拾って音声データへデジタル変換します。音声データのままでは送信するデータ量が多くなってしまうため、端末側で一部信号処理が行われて特徴を取り出し、インターネット経由で音声認識サーバへ送られます。音声認識サーバでは、受信したデータを機械学習にて抽出されたデータ群と比較して、音声と最も一致する文字を端末へ返します。

日本語の特徴として同音異語が多いため、その文脈における意味を理解して、該当する漢字を認識結果として返信しなければなりません。時々間違って変換がされることもありますが、混乱しそうな内容でも自分が考えているように変換されるため、使えるようになってきたと感じます。音声認識の特徴として、単発の単語を認識させるよりも、少し長い文章のほうが認識率が上がってきます。スマートフォンの音声認識を活用して、本や記事を書いたという話も聞くようになってきました。

話しかけるような自然な方法で文字を入力できるため、日常では、パソコンを使わず、スマートフォンやタブレットのみで困らなくなってきました。そして、パソコンを使えない世代が登場してきたとニュースで聞きました。今後、キーボード入力ができない世代も増えてくるのでしょうか。

ワードプロセッサー（死語になりつつあります）そしてパソコンが登場してきて、タイピングで文書を作成することに慣れてくると、漢字が書けなくなってきました。そして、音声認識が普及してくれば、タイピングもできなくなってくるのでしょうか。自らの経験を通じても、文書作成にはキーボードを使用したほうが格段に速いです。技術革新に伴って、人間の能力も退化してきているような危惧もいだきます。

精度が高い音声認識には、音声認識サーバにアクセスする必要があり、ネットワーク障害や整備されていない環境下に置かれれば、何もできない人になりかねません。日頃に浮かんだアイデアを記録しておくには、音声認識でメモを作成するのは良い方法と思います。しかし、アイデアやメモを手書きできるアナログ的なスキルを維持することも必要なのかもしれません。

photo by topgold

参考文献

チーム・マネジメント

有人宇宙の運用管制から、チームマネジメント、人間-機械システム、そしてヒューマンファクターズを考える

技術進歩の中でアナログ的スキルの退化【音声認識】