矢野経済研究所 ICT・金融ユニット

アナリストオピニオン
2017.01.25

音声認識で生活は変わるか?

「アレクサ」と呼びかけることで作動する家庭用のボイスアシスタンスデバイス「Amazon Echo」の累計販売台数は5百万台に達すると言われ、この先行するAmazon Echoに対抗するように、Googleも2016年10月にGoogle Homeを発売した。
両方とも日本では未発売だが、アメリカでは、特にクリスマスシーズンの売れ行きはかなりのものだったようで、VoiceLabs(音声プラットフォームのアナリティクスを提供する企業)によれば、Amazon Echoのクリスマスの販売台数は前年比400%だったと言う。
Appleも近く同様のデバイスを発表するとの噂もあり、iPhoneで家電を操作したりドアや窓の開閉状態を確認したりできるホームオートメーション「HomeKit」との連携が予想されている。

では、これらのボイスアシスタンスデバイスは何ができるのだろうか?
目覚ましの設定、音楽の再生、ショッピングリストの追加、予定の追加や確認等を声で命令するだけで実行できる。また、家を出る前に午後の降水確率や道路の渋滞情報などの質問に対して回答してくれ、ウェブで検索するようにエベレストの標高を調べたり、料理しながら「大さじ1杯は小さじ何杯分か」を尋ねたりすることもできる。更には、ニュースを読み上げてくれたり、音楽をかけたり、対応機器を追加すればベッドにもぐりこんでからテレビでビデオを再生したり、照明を消したりすることも可能で、使い始めるとすこぶる便利らしいのだ。古くは、ナイトライダーのキット(車での実現はもう少し先だろうが…)、最近ではアイアンマンのジャービスのように、言葉を発するだけで様々なタスクを実行してくれる世界が近づいているのである。

2015年に販売が開始されて市場を先行するAmazon Echoは、プリングルスの缶とほぼ同じ大きさの円筒形で、「アレクサ」と呼びかけることで作動する。発せられた命令や質問はクラウドに送られ、ASR/NLUのAIが命令を実行したり質問への回答を探したりする。
しかし、多くの音声認識機能がそうであるように、Amazon Echoの認識率もそれなりであるようだ。そこで、持ち主の話し言葉の「クセ」を学ばせるトレーニングセッションも設けられている。
本体には、呼びかけずに起動するための物理ボタンとマイクをオフにするミュートボタンに加え、360度スピーカーを内蔵しており、音楽再生のためのスピーカーとしてもなかなかの性能だと言う。

一方、後発のGoogle Homeもまた、「オッケー、グーグル」のフレーズで作動を開始する。Amazon Echoが黒い円筒形であるのに対して、白いしずくのような形状で、スピーカーメッシュ部分となっている下部1/3は7色から選べるようになっており、様々なインテリアにマッチするよう工夫されている。

既に、様々なところで両者の比較が行われており、Google Homeの方がAmazon Echoより優れている点も明らかになってきている。例えば、Google Homeは近くの銀行までの所要時間を道路の込み具合も併せて回答してくれるが、Amazon Echoは距離のみである。
Google Homeにできて、Amazon Echoができないことは

  • 50の言語に翻訳することができる。
  • 各部屋に設置されたGoogle Homeのスピーカーから、音楽を同期して再生できる。
  • 直前の質問を覚えており、追加質問に対応できる。
  • Chromecastを使えば、TVで動画を再生できる。

逆に、Amazon Echoができて、Google Homeにできないことは

  • ユーザーアカウントを音声で切り替えられる(Google HomeはPCかスマホが必要)
  • バッテリーを装着すると持ち運ぶことができる。
  • 小型で低価格のEcho Dotもある。(49USドル)
  • Kindleの本を音声で読み上げることができる。
  • リマインダーを作成することができる。(Google Homeも対応を予定だが今は不可)
  • Amazonで買い物することができる。

等がある。また、少し複雑な質問に対する回答はGoogle Homeの方が優れているようだ。例えば、「映画アイアンマンが最初に公開されたのは?」と言う問いに対しては、2008年とどちらも回答するが、「誰が出演している?」と言う問いには、Google Homeが主演俳優と主だった出演者を回答するのに対して、Amazon Echoの回答は「その質問への回答は見つかりませんでした」である。これは、Googleの検索エンジンの幅広く深く浸透していること、また、音声認識による検索を早くから研究してきたところが大きい。 他方、Amazon Echoは、Google Homeに2年間先んじて展開してきたこともあり、「できること」が豊富である。このAmazon Echoで「できること」をAmazonでは「スキル(Skill)」と呼んでいる。前述のVoiceLabsによれば、サードパーティーの開発者による利用は2016年のクリスマスには1500%増加したとのことである。 Amazon Echoのスキルとして主なものは:

  • Nest‐利用者の生活パターンを学習するサーモスタット。
  • Hive‐ホームオートメーション(暖房、電源タップ、照明等)コントロール
  • Philips Hue‐LED照明のオン・オフ、色、照度コントロール。
  • Logitech Harmony‐ユニバーサルリモコン(TV、HDD、オーディオ等)。
  • Samsung SmartThings-家電やセキュリティシステム等のホームオートメーション。
  • Lyft-ライドシェアサービスの予約(乗車はAmazon Echo設置場所から)
  • Uber-上記のLyftと同様。
  • Expeda‐飛行機やホテル、レンタカーの手配、予約の確認や飛行時間、料金の照会。
  • Kayak-上記Expediaと同様。
  • Domino’s Pizza-ピザのデリバリー注文と追跡。
  • Fitbit‐エクササイズ、歩数、体重などを記録するアクティビティトラッカー。
  • The Magic Door-聞き手の選択肢によってストーリー展開が変わるオーディオブック。

これらの他にも、TV番組ガイド、銀行口座残高確認、株式情報などの生活アシスタンスに加え、ジョークやワードゲームなどのエンターテイメントもある。このようなAmazon Echo向けのスキル(Skill)は既に3,000種類以上が提供されており、その数は更に増え続けている。2017年1月のCESでは、アレクサで使えること(アレクサ・イネーブル)を謳う展示が700件を超えたと言う。

Google Homeは、自然な会話に長け、YouTubeをベースに音楽をかけることができるため、Amazon Primeのようなサービスをサブスクリプションしなくても利用できる。しかし、ホームオートメーションの対応機種は、Philips Hues、Nest、Samsung SmartThingsの3種類だけである。今のところ、Amazon Echoが圧倒的に先行している状況は疑いようがない。

Amazon Echoは、「アレクサ」と呼びかけない限り静かにたたずむだけだ。「新着メールがあります」だとか、フェイスブックに「友だちが新しい写真を投稿しました」だとかのたびに警告音や光の点滅にあふれる現在では、珍しいほどに受け身で静かである。
ところが、Amazon Echoは常に音声を聞いており、テレビの音やドアの閉まる音、足音や室内での会話など直近60秒間の音を常に記録しており、60秒間を越えると順次上書きされていくようになっている。ウェイクワードである「アレクサ」と言う発声を聞き分けると本格的に録音をし始め、タイマーを設定したり、音楽をかけるようリクエストしたりした声がクラウドのASR/NLUに送られる。直前60秒間の音声を記録することによって、ほぼ瞬時(約1秒の反応時間は最速)ともいえるレスポンスを可能にしている。
つまり、家の中にあるAmazon Echoは、「耳」でしかなく、実際の「脳」ははるか遠くにある。そのため、聞こえた要求内容を理解し、回答するためにはクラウドへのインターネット接続が必要なのである。そして、検索や要求のために話しかけた言葉は、アマゾンに送られ、機能追加やサービス向上のための解析に利用されると言うことになる。

そうなると、プライバシーは守られているのか?と言う点が気になる。
作動のきっかけとなるウェイクワードである「アレクサ」が発せられるのを待って、Amazon Echoは常に聞き耳を立てているわけだ。ちょっとこれは怖い気はするが、私たちは既に、日常的にウェブでの検索ワードや閲覧記録、オンラインショッピングの履歴などをこれまでずっと、常に、見張られ続けてきているので、今さら驚くことではない。
Amazon Echoの場合、60秒間の記録はローカルで行われており、マイクが拾った音声全てを常にクラウドに転送しているわけではないとAmazonは主張している。
とは言え、いつもブラウザをプライベートモードで使い、ノートパソコンのカメラにはシールを貼っているような人にとっては、常時ネット接続されたマイクなんて気色悪いと感じるかもしれない。自分がこれまでにどんなことを尋ね、どんな命令をしてきたのかは、Amazon Echoのアプリやウェブサイトで確認したり、実際に聞き直したりすることも可能で、Webブラウザの履歴と同じように削除することができる。

プライバシーが問題になったケースとしては、去年2016年12月には、米アーカンソー州で起きた殺人の裁判の証拠としてAmazon Echoの記録内容の提出を求めたケースがあったが、アマゾンはプライバシーを理由に提出を拒否している。

プライバシーとは別に、つい最近、2017年1月には、テキサス州の6歳の女の子がアレクサに「一緒に遊べるドールハウスが欲しいね」とでも話しかけたのか、2㎏のクッキーと共にドールハウスが送られてきたと言う話がある。そしてさらに、それを伝えるローカルニュースで、アナウンサーが「小さな女の子がアレクサにドールハウスを注文なんて、かわいいニュースですね」と言ったところ、テレビを見ていた人々のAmazon Echoがドールハウスを注文しようとしたと言う。このような不用意な購入を防ぐためには購入を承認するパスコードを設定する必要がある。
音声コントロールは、IoTの成長に大きな役割を果たすとも言われているものの、新しいテクノロジーの出現は、新たな課題も浮き彫りにするのはドローンと同様と言えるだろう。
Amazon Echoは、既にイギリスとドイツでの販売も開始されているが、日本での発売は依然未定。Google Homeも同様である。5億人の英語を母語とする人口に比べ日本語はその1/5であるとは言え、ドイツ語も同程度である。マーケットポテンシャルからすれば、魅力的な市場の一つに違いない。近いうち、ボイスコントロール可能な家電も登場するのではないだろうか。

古舘 渉(フルダテ ワタル) 主任研究員
新規事業コンサルティング部門、上海現地法人、海外部門を歴任し、新規市場開拓のお手伝いには自信があります。

YanoICT(矢野経済研究所ICT・金融ユニット)は、お客様のご要望に合わせたオリジナル調査を無料でプランニングいたします。相談をご希望の方、ご興味をお持ちの方は、こちらからお問い合わせください。

YanoICTサイト全般に関するお問い合わせ、ご質問やご不明点がございましたら、こちらからお問い合わせください。

東京カスタマーセンター

03-5371-6901
03-5371-6970

大阪カスタマーセンター

06-6266-1382
06-6266-1422