ウィノグラード・スキーマ・チャレンジ

winograd_schema_001_R

Turing Test

人工知能に有名なチューリング・テスト(Turing Test)があります。相手が機会かどうかわからない状況において、キーボードを使って会話をし、対話後、話した相手が人工知能か人間かを当てるといういうもので、コンピュータが審判員をだますことができれば人工知能とみなされます。

最近まで、チューリングテストに合格できた人工知能はありませんでしたが2014年に、「ウクライナ在住の13歳の少年(ユージーン・グーツマン君)」という設定の人工知能が、33%の審査員をチャット・ロボットは「人間」だと思わせることに成功しました。ですが、英語が母国語でないという設定が、審査員に「言葉遣いが多少変でも許す」というバイアスを与えたとか、このテストでの会話は5分程度であり、ユージーン・グーツマン君は質問に対してあいまいな答えを繰り返していたため審査員が騙されたとの批判もあります。

こうしたことから、チューリングテストの合否は、機械の知能によるよりもいかに人間を騙すかというゲームに陥っているとして、チューリングテストに代わる人工知能を見分けるテストが提案されてきています。その一つが「ウィノグラード・スキーマ・チャレンジ」です。

Winograd Schema Challenge(ウィノグラード・スキーマ・チャレンジ)

ウィノグラード・スキーマ・チャレンジはスタンフォード大学のテリー・ウィノグラード教授にちなんでつけられた名前で、現在トロント大学のヘクター・レベスク(Hector J. Levesque)教授が提案しました。

コンピュータに簡単な質問を文章で示し、コンピューターの常識と知識を試験するというものです。簡単な質問とはいっても、対象物が二つ登場し、それが代名詞で結ばれる文章で、統計情報から回答できないように工夫されています。

このような質問は「代名詞明確化問題(Pronoun Disambiguation Problems(PDP))と呼ばれ、曖昧さを解消するために常識的な知識を必要とする代名詞を含むテキストです。インターネット検索で答えを導くのが難しくなっています。

例えば次のような質問です。

The trophy doesn’t fit into the brown suitcase because it’s too [small/large].
あまりに[小さい/大きい]ので、トロフィーが茶色いスーツケースに収まらなかった。
What is too [small/large]?
何があまりに[小さい/大きい]か?

(The Winograd Schema Challenge http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html より)

人間にとっては、「入れ物にものを入れる場合には、入れ物が物よりも大きくなければならない」ということは常識であり、トロフィーが大きすぎてスーツケースに入らないということはすぐに想像できます。
また、次の質問では、

The city councilmen refused the demonstrators a permit because they [feared/advocated] violence.
暴動を[恐れて/呼びかけて]いたので、市議会はデモ隊に許可を与えなかった。
Who [feared/advocated] violence?
暴動を[恐れて/呼びかけて]いたのは誰か?

(The Winograd Schema Challenge http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html より)

Councilmenもdemonstratorsも複数形ですが、人間は迷うことなく暴動を起こす可能性があるのはデモ隊であり、それを恐れるのは市議会であるということが理解でき、theyはcouncilmenを指すことが分かります。
このような人間にとっては簡単な構文で即座に文章の意味を想像して判断できることも、コンピュータにはまだ難しいようです。
他にも次のような問題があります。

① The delivery truck zoomed by the school bus because it was going so [fast/slow].
スピードが[速かった/遅かった]ので、配送トラックがバスを追い越した。
What was going so [fast/slow]?
何のスピードが[速かった/遅かった]か?
② Frank felt [vindicated/crushed] when his longtime rival Bill revealed that he was the winner of the competition.
長年のライバルであるビルが、誰が競技の勝者なのか明かしたとき、フランクは[優越感を持った/落ち込んだ]。
Who was the winner of the competition?
競技の勝者は誰か?
③ The large ball crashed right through the table because it was made of [steel/styrofoam]
[鉄/発泡スチロール]でできているので、大きなボールがテーブルに落ちたときに壊れてしまった。
What was made of [steel/styrofoam]?
[鉄/発泡スチロール]でできているのは何か?

(The Winograd Schema Challenge http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html より)

2016年7月11日に実施されたWinograd Schema Challengeでは、4つのシステムが60の質問に挑戦しました。しかし、最も高い得点は、中国科学技術大学のQuan Liuによる58%でした。合格ラインは90%ですので、まだまだハードルは高いようです。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です