ビッグデータ:ビッグデータって何?

bigdata_004_R

ビッグデータって何?

ビッグデータの共通した定義は定まっていないようですが、一般には米国の調査会社ガートナーの定義が引用されます。それは、(1)ペタバイトやエクサバイト級の巨大なデータ量(Volume)、(2)発信、更新が頻繁に繰り返される発生頻度(Velocity)、(3)文字に限らずあらゆる種類のデータが、SNSやセンサなど様々な場所から発生する多様性(Variety)の3つ、つまり、Volume、Velocity、Varietyです。

しかし、企業や研究者のそれぞれの立場によって、多少ビッグデータのとらえ方に違いがあります。

  • 総務省の平成24年版「情報通信白書」

鈴木良介著「ビッグデータビジネスの時代」を引用して、

「事業に役立つ知見を導出するためのデータ」とし、ビッグデータは、どの程度のデータ規模かという量的側面だけでなく、どのようなデータから構成されるか、あるいはそのデータがどのように利用されるかという質的側面において、従来のシステムとは違いがある。

bigdata_001_R

(http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html より)

  •  株式会社オージス総研(明神 知 氏)

「ビッグデータ」はこれまでの情報システムが扱ってきたデータに比べ、3つの部分に違いがあります。1つめはデータ量が多いということ、2つめはデータの種類が多いということ、そして3つ目はデータの変化する頻度が高いということです。そして、これらの条件が重なることで、従来のシステムでは取り扱うことが困難であったデータ(狭義)と、それを扱うためのシステムや技術、さらにデータサイエンティストといった専門的人材や組織を含む包括的概念(広義)として「ビッグデータ」と呼んでいます。

(http://www.ogis-ri.co.jp/rad/webmaga/rwm20130201.html より)

  • 日本オラクル

ビッグデータの捉え方には、大別して「技術」と「ビジネス」という2つの視点が考えられる。

(1)異なる構造のデータを網羅的に扱う

現代の情報システムが取り扱うデータには、2次元のテーブル構造に格納される構造化データや、各種のセンサー機器などから生じる準構造化データ(半構造化データ)、さらには2次元のテーブル構造への格納が難しい非構造化データなどがある。近年は技術や製品の進化により、構造の異なるデータを網羅的に扱うのが容易になっている。そこで、それら構造の異なるデータを網羅的に扱うことをビッグデータと呼ぶ場合がある。

bigdata_006

(2)社内外で生じるデータを網羅的に扱う

これまで多くの企業にとって、参考にする情報は主に自社内のビジネス・プロセス(生産プロセスや販売管理プロセス)で発生したものであった。しかし、現代では各種のコンピュータ・デバイスやインターネットが普及したことにより、それらを利用したさまざまな社会活動で生じるデータが爆発的に増えており、そのデータを社内のビジネス・プロセスで発生したデータと突き合わせて、何らかの気づきやビジネス機会、新たな価値を見い出していこうという動きが活発化している。これら「ファスト・データ」と呼ばれるデータをビッグデータの一種として捉える向きもある。

(オラクルデータベースインサイダーhttps://blogs.oracle.com/dbjp/entry/bigdata_000244 より)

  •   富士通

富士通では、実社会における人の活動やモノの動きから生まれる「データの価値」に注目し、今まで集められなかったデータや集めても活用しきれていなかった大量のデータから新たな価値を導き出すことが最も重要として、前述の3つのVにValue(価値)を加えてとらえています。

fuji_big_001

(http://jp.fujitsu.com/solutions/convergence/bigdata/ より)

  •  日立(株式会社アイ・ティ・アール 生熊清司 氏)

「ビッグデータ」とは、「1ペタバイトのような非常に大量データをNoSQLを利用して処理するシステム」と定義しても不十分であり、ビッグデータはもう少し複雑なもの。

ビッグデータはインターネットの普及とIT技術の進化によって生まれ、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すものであり、その特性は量、頻度(更新速度)、多様性(データの種類)によって表される。

bigdata_002

図の左側のようなデータに対する考え方であればRDBMSが向いており、左側のような場合はNoSQLが向いており、ビッグデータは右側のような考え方に基づいたデータ処理

bigdata_003

(http://www.hitachi.co.jp/products/it/bigdata/column/column01.html より)

  •  IBM

IBMではビッグデータにの特徴を次の4つに示しています。初めの3つは一般的な定義ですが、それに加えて、正確さ(Veracity)を加えて、4Vとしています。

容量 (Volume): ビッグデータの特長はその容量の巨大さです。企業内外にはデータが溢れており、数テラバイトから数ペタバイトにもおよびます。またデータが増大することによる計算量も非常に膨大となってしまいます。

頻度・スピード(Velocity): 今この瞬間にも、ものすごい頻度でICタグやセンサーからデータが生成されています。昨今の変化の著しい市場環境では、これらのデータによりリアルタイムに対応することが求められてきています。不正行為の発見など、スピードの果たす役割が重要なプロセスである場合、効果を最大化するには、企業に流入してくるビッグデータを、即座に活用する必要があります。

種類 (Variety): ビッグデータは企業システムで通常扱っているような構造化データであるとは限りません。テキスト、音声、ビデオ、クリックストリーム、ログファイル等のさまざまな種類の非構造化データも存在し、これらのデータをビジネスに活用する動きが世界中で広がってきています。これらのさまざまな種類のデータを分析することで、新しい洞察の獲得が可能になります。

正確さ (Veracity): データの矛盾、曖昧さによる不確実性、近似値を積み重ねた不正確さなどを排除して、本当に信頼できるデータによる意思決定が重要です。

(http://www-03.ibm.com/software/products/ja/category/bigdata より)

  •  米Oracle(ビッグデータストラテジスト Paul Sonderegger氏)

氏は、次のようにインタビューで述べています。

「ビッグデータとは、テクノロジでもソリューションでもなく、特別なデータというわけでもない。日常に生まれる多くのデータをキャプチャし、活用する現象だと捉えるべきだ」

「現在は活用が追いつかない量のデータが時々刻々と生み出されている時代だ。・・・」

  •  ビッグデータストラテジスト(Mark van Rijmenam氏)

氏は、ブログ記事の中で、3つのVの定義に、「正確さ(veracity)、変動性(variability)、可視化(visualization)、価値(value)」を付け加えています。

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です