2011年から人工知能分野のグランドチャレンジ「ロボットは東大に入れるか」のプロジェクトディレクターを務めている新井紀子さんが、「iFLYTEK」(アイフライテック;科大迅飛)という新興IT企業で開催される“中国版「ロボットは東大に入れるか」”のキックオフミーティングで基調講演を務めてきた関連の話が興味深い。
機械学習の基礎となっているのは統計の理論であり、統計だけで物事を当てようとなれば、必要なのは何を差し置いてもデータが集まらなければ、コンピューターがどれほど早かろうが、並列計算の理論が発達しようが、いかんともしがたいが、日本はビッグデータが極めて集まりにくい国だと嘆いているのは尤もだと思う。
Googleはゼロ年代から、電話番号問い合わせサービスを無料化する代わりに問い合わせの際の音声を録音し、その十数年のデータの上で機械学習をすることにより、音声認識精度を向上させてきたし、写真管理サービスを提供していたPicasaを買収し、膨大な写真データを収集することで、人や物を識別し、分類する精度を向上してきたらしい。
中国では、国家公務員や教員に採用されるためには、標準的な中国語を話せることが必要条件でそのための試験があり、年間100万人以上が受験するとも言われる標準中国語のスピーキングテストの音声データを集めることを中国政府は決定し、そのビッグデータを元に、標準的な中国語を話せるか否かを判定するための音声認識器を開発したのが、iFLYTEKとのことである。
このビッグデータを背景にiFLYTEKは音声認識精度を年々上げ、音声認識の世界的ベンチマークで1位を獲得し、今や中国のスマートフォンの7割にiFLYTEKの音声認識技術が搭載され、大学入試の英語スピーキングテストの採点にも乗り出しているらしい。
さらに、中国は人海戦術を使って、悪いデータであるゴミをピッキングして取り除くなどの前処理をすることによって、一段と精度を上げたらしい。
新井さんが悩んだ末にひねり出したアイデアが、サイズは小さくてもゴミがない質の良いデータ、例えば教科書や過去の試験問題から深く知識を読み取り、問題を解決する人工知能という枠組みだったようで、日本は世界でも類を見ない丁寧な大学入試試験を実施している国であることを活用したようだ。
ところで、「日本では今、多くの人工知能研究者が深層学習に関心を寄せている。深層学習によってシンギュラリティ(技術的特異点=人工知能が自らより高性能な人工知能を作り出せるようになる段階)がもたらされると考える研究者も少なくない。深層学習は、機械に本質的な知能を持たせる上でどれくらい役に立つと思うか?」と新井さんが質問すると、「深層学習は、音声や画像などに関する分類問題には一定程度役に立つがそれ以上ではない。深層学習で解決できるような問題は、もうだいたいわかったので、私たちは新しい問題を求めている」と、日頃から考えていたのと、同じ答えであったという。
新井さんが、日本は一歩遅れではなく、周回遅れになってしまっているのではないかと不安を感じているというのは、厳しい現実なのかもしれない。
http://www.yomiuri.co.jp/fukayomi/ichiran/20151016-OYT8T50057.html?page_no=1