プレディクティブ・コーディング(Predictive Coding)と eディスカバリー法

predictive_006_R

プレディクティブ・コーディング

Predictive CodingのPredictiveとは日本語では「予測」と訳されます。Codingは、一般にはコンピュータが処理可能な形式のプログラム(ソースコード)を記述する意味で使われますが、「符号化」と訳されて、Predictive Codingを日本語で「予測符号化」と表現することもあります。(株)UBICはCodingを「仕分け」と意味づけ、「人とコンピュータによる仕分け=プレディクティブ・コーディング」としています。具体的には、テキストマイニング技術、人工知能技術などを応用して自動的に文書解析を行うもので。

この技術は、もともとは2006年に施行されたアメリカの「eディスカバリー」という法律の施行とともに発展してきた技術で、メールやデジタル文書から機械が自動的に証拠として重要と判断される文書を振り分けるものです。この作業を人がやっていたのでは膨大な時間とコストがかかるため、人工知能を使って仕分けてコストの削減とスピードアップを図ろうとしたものです。

eディスカバリー法

アメリカの民事訴訟では「ディスカバリー」(証拠開示手続)によって、相手方に証拠の開示を要求することができます。e-ディスカバリー法とは、この民事訴訟における証拠開示手続きのうちの電子データに基づくものを指します。

アメリカの裁判では、原告、被告ともに証拠を可能な限り公開するのが原則で、もし開示が不十分だとか意図的に証拠を隠していると判断されると、隠そうとすることは不正や犯罪の事実があるからであると判断され、たとえ有利な証拠があっても相手の方の証拠を中心に審議が進められ裁判で負けてしまうことがあります。実際に日本企業では、2007年に、特許侵害で訴えられて争っていた東芝が裁判の証拠に関連するソフトウエアのソースコードを故意に隠したとされて、弁論時間の大幅削減という制裁を受けたことがありました。

predictive_005_R

(http://iplawbusiness.net/blog/archives/539 より)

ただ、ディスカバリーにかかる費用(ほとんどが弁護士費用)がかさむため、和解金を払って早期に決着した方が費用が少なくて済む場合が多く、公判に至らないで解決を見るケースが多いようです。

このようにアメリカの民事訴訟においては、事前に証拠を裁判所に提示する「証拠開示」ということが非常に重要なわけですが、企業が関わる訴訟の場合、関連する資料は膨大な量になります。Eメールなど数百万あるいはそれ以上の電子データから裁判における証拠となるものを仕分けるには、法的な専門知識が必要であり、多くの弁護士を必要とします。(巨額の企業訴訟費用のほとんどはこの弁護士の費用と言われています。)多ければ数百人以上の弁護士が数ヶ月〜数年にわたって取り組むようなこともあるそうです。そのコストを削減し、時間を縮めようというのがプレディクティブコーディングの目的といえます。

Predictive Codingの基礎的なプロセス

日本で唯一プレディクティブ・コーディングを使ったサービスを提供しているのはUBICです。UBIC社のeディスカバリーでのPredictive Codingは、あらかじめベテラン弁護士(最も正確に資料を判別できる能力の高い弁護士)が重要データだと判断するパターンをシステムに学習させることで膨大なデータの解析作業を自動化し、重要文書を自動判別しています。UBIC社の説明では、人がおこなうレビューの4000倍以上のスピードで、しかも判断精度のばらつきもないとのことです。

predictive_004_R

(ダイヤモンド・オンライン http://diamond.jp/articles/-/46172?page=2 より)

Predictive Codingの基礎的なプロセスは大きく3つあります。

1 教師データの作成(人による判定)

調査対象の文書群から、サンプルドキュメントを複数ピックアップし、それが調査対象として重要なドキュメントであるか否かを判定します。(人の判断による教師データの作成)

2 教師データをもとにした評価軸の構築

上記教師データを対象として、そこで用いられているキーワードを全て抽出し、UBIC独自の手法でその重要度をさまざまな角度から算出、他のドキュメントを評価する際の評価軸となるデータを構築します。

3 Predictive Codingによるドキュメントごとのスコア算出

上記2を用いて、実際に調査対象の文書を評価し、その重要度のスコアを自動的に算出します。

 (株式会社 UBIC http://www.ubic.co.jp/technology/predictive-coding.html より)

Predictive Codingが注目されるわけ

注目される一番の要因は、企業の管理するデータが膨大であるということです。20GBのデータでさえ、プリントアウトして積み上げると100階建てビルの高さに相当するというのですから、社内のファイルサーバーや社員のPCなどにあるメールや文書ファイルを合わせると膨大なデータ量となります。このデータを手作業で、証拠かどうかもれなく調査しることは不可能に近いと言えます。しかも、時間をかけて調べてみても、必ずしも証拠のデータであるとは限りません。こうしたことから、時間とコストを削減したいという企業にとって、Predictive Codingは非常に魅力的な技術なわけです。

アメリカの企業であるカタリストによれば、米国で訴訟を起こされたある日本企業を支援するため、電子データの証拠探しにプレディクティブ・コーディングを適用したところ、全データの半数以上は確認する必要がなくなり、コストを大幅に削減できたとのことです。また、UBICは、人手では1億円かかるとみられていた作業を、プレディクティブ・コーディングで4000万円に抑えられたと話しています。

(ITpro http://itpro.nikkeibp.co.jp/atcl/keyword/14/463081/082000002/ より)

プレディクティブコーディングの応用

プレディクティブコーディングは「教師データが少量で済む=専門家の負担を軽減」、「計算量が少ない=一般的なコンピュータで十分対応可能」、しかも「精度が高い」という特徴をもっており、テキストで表現された文書やデータなら何でも対象にすることができることから、他分野への応用が始まっています。

日本の法執行機関ではフォレンジック目的で利用されたり、民間企業の特許調査などの知財評価、医薬品開発時の臨床実験効果測定分析を効率化する医療データ(問診情報など非構造化データ)分析、ソーシャルメディア分析などです。

(※1)フォレンジック(forensic)とは、もともとは「法廷で用いる」とか「科学捜査の」といった意味ですが、フォレンジック調査と言ったときは、電磁的記録の証拠保全及び調査・分析を指し、PCのハードディスクから犯罪の証拠となるメールやファイルを特定したり、サーバのログファイルから不正アクセスの記録を見つけ出したりします。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です