iPhoneの音声入力機能を試してみた

July 22, 2018 – 4:29 pm

最近、音声入力の性能が著しく向上していることに気付いた。特に、この音声入力機能、スマホ上で威力を発揮している。

私にとって、スマホでソフトキーボードを使って文字入力しようとすると誤入力が多くて大変である。歳をとったこともあり、まずます難しくなってきた。そういうこともあり、最近、LINEのテキスト入力にはソフトキーボードに代えて音声入力機能を使い始めた。なかなか良い。

短文の入力は良いのだが、通常の新聞記事程度のテキストではどうなのか試してみることにした。

予想した以上の性能だった。最近の技術の進歩に驚いた。以下、今回の音声入力性能テストの経験を纏めておいた。

テストの概要
自宅で購読している日経のなかから平均的な長さの記事を選び、この記事を通常スピードで「音読」し、これを音声入力機能を使いテキスト化し、このテキストをオリジナルの新聞記事テキストと比較し、精度を確かめることにした。

使用した音声入力装置は、iPhone8(64GB)のソフトキーボードについている「音声入力」を用いた。iPhoneのOSは、iOS 11.4.1である。

「音読」の対象にした新聞記事は以下に示す日経(電子版7月22日付朝刊)記事、「平均寿命、男女とも最高」である。


          (クリックすると拡大)

「音読」にあたっては、テキストが出力される速度を殆ど気にすることなく、新聞記事を一気に「棒読み」した。音声入力結果のテキストはiPhoneのメールソフト上に吐き出した。

「音読」終了直後に生成されたテキストは以下である。音声入力ということもあり、句読点は含まれていない。「音読」時に、新聞記事の改行部で、iPhoneのソフトキーボード上の「音声」–> [キーボード」変換ボタンを押しており、それを反映して、吐き出されたテキストは改行されている。

平均寿命男女とも最高
2017年の日本人の平均寿命は女性が87.26歳男性が51.09歳でともに過去最高更新したことが20日厚生労働省の調査で分かった16年に比べ女性は0.13歳男性= 0.11歳の+過去最高の更新は男性は6年連続女性は今年連続となった男性は初めて81歳を超えた国地域別では女性は昨年に引き続き世界に至った一方で男性は人を1つ落として歳になった厚労省は健康意識が高まり生活習慣改善の取り組みが9時に適用の間で住んでいることが影響してると分析男女とも長寿化が住んでいる実態が改めて浮き彫りになった
平均寿命は死亡率が今後変わらないと仮定しその年に生まれた00歳時があと何年生きられるかを表す指摘しよう同省の試算では自動6円までの男女が75歳まで生きる割合は男性が70号店3%女性が5 88.1% 40歳の面兵卒10まで生きる割合は男性が20号店8%女性が50.2%となりいずれも過去最高になった女性の話では初めて5割を超えた
厚労省は顔心疾患の血管疾患の日本人の3大神による死亡率と低下傾向が平均寿命を押し上げていると見ている
17年生まれの人が将来元心臓病脳溢血脳出血肝疾患のいずれかで死亡する確率は男性が50.71%女性40号店96%仮にこれらの病気で亡くなる人がゼロになれば平均寿命が男性で6.8歳女性で号店6歳伸びると推定した色技術が進歩で今後も平均寿命が伸びる可能性がある
17年生まれの日本人で半数以上が制度をすると仮定される年齢は男性が84 84.06歳女性は90.03歳となり平均寿命に比べて男性は2.9 9年女性は2.7 7年上回った同省は平均15の夜もより長く生きる人が多くなると指摘する

音声入力テキストと新聞記事テキストの比較:
音声入力から得られるテキストは、上述したように新聞記事「棒読み」していることもあり、句読点は含まれず、段落はきちんとコントロールされているものではない。

音声入力の精度を確かめるため、音声入力から得られたテキストに句読点を加え、段落をオリジナルに合わせ、段落毎に比較してみた。

段落毎に「音声入力からのテキスト」、「電子版から転載したテキスト」の順に以下に示した。電子版のテキスト上に二つのテキストが相違部を赤字で示した。また、相違した部分を抜き書きしたものを追加しておいた。

  表題部

(音声入力)
平均寿命男女とも最高

(電子版テキスト)
平均寿命、男女とも最高

  第一段落

(音声入力)
2017年の日本人の平均寿命は女性が87.26歳男性が51.09歳でともに過去最高更新したことが20日厚生労働省の調査で分かった。16年に比べ女性は0.13歳男性= 0.11歳の+過去最高の更新は男性は6年連続女性は今年連続となった男性は初めて81歳を超えた国地域別では女性は昨年に引き続き世界に至った一方で男性は人を1つ落として歳になった

(電子版テキスト 音声入力と相違する部分は赤字で表示
 2017年の日本人の平均寿命は女性が87.26歳、男性が81.09歳で、ともに過去最高を更新したことが20日、厚生労働省の調査で分かった。16年に比べ女性は0.13歳、男性0.11歳のプラス。過去最高の更新は男性は6年連続、女性は年連続となった。男性は初めて81歳を超えた。国・地域別では、女性は昨年に引き続き世界2位だった一方で、男性は順位を1つ落として3位になった。

(句読点を覗く相違)

音声入力テキスト  電子版テキスト 
51.09 81.09
男性= 男性は
プラス
今年 5年
に至った 2位だった
人を 順位を

  第二段落

(音声入力)
厚労省は健康意識が高まり生活習慣改善の取り組みが9時に適用の間で住んでいることが影響してると分析男女とも長寿化が住んでいる実態が改めて浮き彫りになった。

(電子版テキスト 音声入力と相違する部分は赤字で表示
 厚労省は「健康意識が高まり、生活習慣改善の取り組みが個人や企業の間でんでいることが影響している」と分析。男女とも長寿化が進んでいる実態が改めて浮き彫りになった。

(句読点を除く相違)

音声入力テキスト  電子版テキスト 
9時に適用 個人や企業
住んで 進んで

  第三段落

(音声入力)
平均寿命は死亡率が今後変わらないと仮定しその年に生まれた00歳時があと何年生きられるかを表す指摘しよう同省の試算では自動6円までの男女が75歳まで生きる割合は男性が70号店3%女性が5 88.1% 40歳の面兵卒10まで生きる割合は男性が20号店8%女性が50.2%となりいずれも過去最高になった女性の話では初めて5割を超えた

(電子版テキスト 音声入力と相違する部分は赤字で表示
 平均寿命は死亡率が今後も変わらないと仮定し、その年に生まれた0歳児があと何年生きられるかを表す指。同省の試算では、17年生まれの男女が75歳まで生きる割合は男性が75.3%、女性が^88.1%。90歳の卒寿まで生きる割合は男性が25.8%、女性が50.2%となりいずれも過去最高になった。女性の割合は初めて5割を超えた。

(句読点を除く相違)

音声入力テキスト  電子版テキスト 
指摘しよう 指標
自動6円まで 17年生まれ
70号店3 75.3
5
40歳の面兵卒10 90歳の卒寿
20号店8% 25.8%
話では 割合は

  第四段落

(音声入力)
厚労省は顔心疾患の血管疾患の日本人の3大神による死亡率と低下傾向が平均寿命を押し上げていると見ている

(電子版テキスト 音声入力と相違する部分は赤字で表示
 厚労省は、がん、心疾患、血管疾患の日本人の三大死因による死亡率の低下傾向が平均寿命を押し上げているとみている。

(句読点を除く相違)

音声入力テキスト  電子版テキスト 
がん
の血管 脳血管
死因

  第五段落

(音声入力)
17年生まれの人が将来元心臓病脳溢血脳出血肝疾患のいずれかで死亡する確率は男性が50.71%女性40号店96%仮にこれらの病気で亡くなる人がゼロになれば平均寿命が男性で6.8歳女性で号店6歳伸びると推定した色技術が進歩で今後も平均寿命が伸びる可能性がある

(電子版テキスト 音声入力と相違する部分は赤字で表示
 17年生まれの人が将来、がん、心臓病、脳血管疾患のいずれかで死亡する確率は男性が50.71%、女性45.96%。仮にこれらの病気で亡くなる人がゼロになれば、平均寿命が男性で6.81歳、女性で5.61歳伸びると推定した。医療技術の進歩で、今後も平均寿命が伸びる可能性がある。

(句読点を除く相違)

音声入力テキスト  電子版テキスト 
がん
脳溢血脳出血肝 脳血管
40号店 45.
6.8歳 6.81歳
号店6歳 5.61歳
医療

  第六段落

(音声入力)
17年生まれの日本人で半数以上が制度をすると仮定される年齢は男性が84 84.06歳女性は90.03歳となり平均寿命に比べて男性は2.9 9年女性は2.7 7年上回った同省は平均15の夜もより長く生きる人が多くなると指摘する

(電子版テキスト 音声入力と相違する部分は赤字で表示
 17年生まれの日本人で半数以上が生存すると推定される年齢は、男性が84.08歳、女性は90.03歳となり、平均寿命に比べて男性は2.99年、女性は2.77年上回った。同省は「平均寿命よりより長く生きる人が多くなる」と指摘する。

(句読点を除く相違)

音声入力テキスト  電子版テキスト 
仮定 推定
84.84.06 84.06
15の夜も 寿命よりも

まとめ
予想した以上の精度がでているのではないかと思う。私が「音読」した際の、読みまちがいとか、滑舌の悪さを原因とする変換不備も含まれていることを考えると、かなりの精度ではないか、と思う。

数年前の音声入力で必要な声質などを識別するための「学習」操作といったものを全くしないで、一発本番の「音声入力」操作でこの程度の性能がでるというのは驚くべきことではないか、と思う。

スマホ上のアプリ(例えばtwitter)上の写真撮影機能とあわせて、この音声入力機能を使えば、リアルタイムで行動記録が作れるのではないか、と思う。


Post a Comment