ディープ・ラーニング(Deep Learning)

deeplearning_001_R

注目されるDeep Learning

2012年11月に開催された画像認識などの技術力のコンテスト「Image Net Large Scale Visual Recognition Challenge 2012」でトロント大学のGeoffrey Hinton教授のグループが他のグループと誤識別率10%以上もの差をつけて優勝し、翌年の3月にこのGeoffrey Hinton教授が立ち上げた従業員数3名の研究企業DNNresearchをGoogleが買収したことで、Deep Learningが一躍世間でも注目されるようになりました。そして、マサチューセッツ工科大学が2013年に公表した「10 Breakthrough Technologies 2013(変革をもたらす10大技術)」にDeep Learningが選ばれ、さらに、FacebookがDeep Learningを用いたニュースフィードの性能改善に着手したり、中国の検索サービス大手の百度(Baidu)が人工知能研究所をシリコンバレーに設立したり、YahooがLookFlow社を買収し、共同してDeep Learning Groupを創設したりなど、米国の大手IT企業は、ディープラーニングを開発するベンチャー企業を買収したり、社内に専門の開発チームを設けるなど、活発な動きを見せています。ディープラーニングを、SaaSとして広く一般企業に提供するベンチャー企業(例:米サンフランシスコに本社を構える「Ersatz」)もいくつも生まれています。

従来の人工知能技術とのちがい

従来の人工知能技術では、データを扱うときにデータを前処理して変数に直します。例えば、「りんご」を認識させるとき、人間がコンピューターに対して「りんごは赤い」などの判断基準を多数与える必要がありました。しかしDeep Learningでは、コンピューター自身がデータの特徴を捉え、さまざまな判断基準を自ら学んでいきます。ニューラルネットワークと呼ばれる人間の脳を模倣した仕組みで、より人間の脳に近い処理を実現していきます。

deeplearning_002_R

私たちが人を識別するとき、視覚や聴覚などを総動員して人を識別しますが、Deep Learningでも同じような手法を用いています。つまり複数の入力値(視覚や聴覚)を元に、階層的に人の全体像(身長や体格)を見て細部(目つきや声)を認識し、細部を見てはまた全体を認識しなおすというような、人が脳の中で一瞬にして行っている階層的で深いパターン認識のアプローチをDeep Learningでも用いているわけです。その点で従来の直列的解析手法と大きく異なります。

Deep Learningの概要

Deep Learningは機械学習の一種です。では、機械学習とは何なのでしょうか。「言語やゲームなどをはじめとした人間の様々な知的活動の中で、人間が自然と行っているパターン認識や経験則を導き出したりするような活動を、コンピュータを使って実現するための技術や理論、またはソフトウェアなどの総称(IT用語辞典 Weblio辞書)」と一般には説明されています。簡単に言えば、人間のように、いろんな情報を元にして何かを判断するプログラムです(ちょっと乱暴か?)。実際には、センサやデータベースなどからの入力・解析を行い、その得られたデータから知識やルールだけでなく、データの適切な表現方法をも獲得します。なお、データ集合を解析する点で統計学との関連が深い分野でもあります。

この機械学習の中でも脳の機能を参考したものに「ニューラルネットワーク」というものがあります。「人工ニューロン」を層状に配したものです。そしてDeep Learningは、そのニューラルネットワークの中で人口ニューロンの層の数をより増やしたものです。と言ってもちょっと理解しにくいですね。

もう少し歴史を紐解いて説明すると、実は、ニューラルネットワークというのは古くからあった技術なのです。AI(人工知能)の研究開発が始まったころ(1950年代)から存在する技術です。ですが、最初のころは、初歩的な論理演算ができなかったり、それが克服されたかと思うと、「動詞の過去形」などの簡単な概念が理解できなかったりして、実用化にはほど遠いものでした。こうした問題を処理しようとすると隠れ層といわれるものの数をどんどん増やさねばならず、そうすると途方もない計算時間が必要となってくるのです。

ようやく2000年代半ばになって、 ニューラルネットに入力される大量の情報から、概念形成に寄与する少量だが本質的な情報だけを抜き出してくる技術が開発され、隠れ層を多層化しても、現実的な時間内で情報処理ができる見通しがついてきました。

隠れ層の1層目から2層目、2層目から3層目へと情報が深部にまで伝達される(例えば、画像に認識であれば、点から線、線から輪郭、輪郭から部分、部分から全体のイメージへと、概念がより高次元へと段階的に引き上げられる)いわば、「学習が徐々に深められる」ということが可能になってきたのです、これが「ディープ・ラーニング(深い学習)」と呼ばれるものです。

Deep Learningの実用化

Deep Learningが得意とする処理は、画像の分類や音声の認識などを行うパターン認識処理です。これまではなかなか研究室から出られなかったDeep Learningですが、その得意とするパターン認識処理を生かして、今では製品に応用されて実用化されつつあります。

例えば、グーグルの音声検索やアップルの「Siri」などの音声認識技術があります。手書き認識の向上によって、将来的には、「コンピューターに文章で指示を出す」と言ったことも可能になると考えられます。また、画像の認識精度が良くなってきたことで、例えば、買い物客の顔を認識して、男性には男性向け、女性には女性向け、あるいは年齢に応じた広告を表示するといったことも考えられています。医学の分野においては、皮膚がんの疑いがあるといったことが、スマホで判断できるようになるかもしれません。人の感情を認識するといったこともできるようになれば、防犯にも生かせるかもしれません。

Deep Learningは、自分でルールを再構築できるという特徴を持っています。判断基準を自動で学習するわけです。ですので、農業のような急な状況の変化への対応を求められる分野での利用に向いています。将来的には、様々な判断の精度が向上し、家事や介護といった日常の生活にロボットを活用する技術、あるいは翻訳・通訳といった領域でのイノベーションにつながるかもしれません。

 

(執筆中)

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です