文字に文字を埋め込むステガノグラフィ

56ed7de252fa188b75107b9677de1723_s_R

FontCode

「FontCode」と呼ぶ文書中にテキスト情報やメタデータなどを埋め込む技術をコロンビア大学のチームが開発したとのニュースがWeb上に掲載されています。文章中のフォントの形状を肉眼ではわからないくらい僅かに変形させることで別の情報を文章の中に埋め込むというものです。「FontCode: Embedding Information in Text Documents using Glyph Perturbation」という論文に詳しく記載されています。YouTubeにはその説明の動画なども公開されています。

それらの情報によれば、小文字の線の太さを変えたり、アセンダ(Ascender)やディセンダ(Descender)(※1)の高さを調整したり、セリフ(Serif)やo 、 p 、 bなどの文字のボウル(bowl)を締めたり緩めたり、いわば、日本語の習字でいうなら、とめ、ハネ、はらいなどを変化させるようなものでしょうか?そして、それぞれの変化に対して1、2、3などの整数を割り当てます。メッセージを文書中に埋め込むとき、任意のテキストメッセージをASCIIまたはUnicodeでビット列に変換し、次に一連の整数に変換します。そして、文書中からフォントを変化させる部分を取り出して、数字に合わせたフォントに変換するそうです。

fontcode_001_R

(FontCode: Embedding Information in Text Documents using Glyph Perturbation  https://arxiv.org/pdf/1707.09418.pdf より)

また、FontCodeは紙媒体、PNGなどの画像ファイル、PDFファイルなどでも使用でき、フォントも「Times Roman」「Helvetica」「Calibri」などに対応しているそうです。

情報の読み取りは、スマホのカメラでテキストを撮影し、専用アプリで読み込むことでメッセージが解読できます。用途としてはQRコードのような使い方や電子透かしなどの他、文書の外観やレイアウトを変更することなくデータを埋め込むことができるため、著作権保護や今話題の文書の改竄防止にも使えそうです。ただ、FontCodeは機械学習のアルゴリズムを使えば簡単に見破れるため、不正利用には適さないという意見もあるようです。

(※1)

fontcode_004_Rhttp://asserttrue.blogspot.com/2013/01/the-serif-readability-myth.html より)

インフォメーションハイディング

あるものに本来とは異なる別の情報を密かに埋め込むことをインフォメーションハイディング(Information Hiding、情報隠蔽)や データハイディング(Data Hiding)と呼ばれています。データハイディングという用語については、IBM社が使用した用語でステガノグラフィ(Steganography)の代名詞であるという意見もあります。

インフォメーションハイディングは、大きく2つに分けて説明されることが多いようです。一つは、埋め込む情報が重要で、情報の存在・通信の事実そのものを隠すステガノグラフィです。もう一つは、著作権保護や改ざん防止など情報が埋め込まれたコンテンツが重要な場合で、電子透かし(Digital Watermark)と言われるものです。電子透かしでは、情報が埋め込まれていることは知られても構わないという点でステガノグラフィと違いがあります。前述のFontCodeはインフォメーションハイディング技術の中のステガノグラフィの一種といえます。

他にも、インフォメーションハイディングには、フィンガープリントあるいはデジタルフィンガーフリント(デジタル指紋)といわれる技術があります。ハッシュ値を使って電子証明書やメールなどの同一性(改竄されていないこと)を証明するもので、電子透かしと同じように、カバーデータ自体が重要になります。「隠れチャネル(Covert channels)」というのは、通常は想定してない手段によって情報を伝えるものです。匿名通信路は、誰が誰と通信を行っているのかが分からない通信路で、データの内容もデータの送受信者も秘密にされるもので、Torなどがあります。

ところでステガノグラフィにおいては、カバーデータとして用いられるものは画像や音声、動画などが多いようですが、文章の中に情報を埋め込むという点でFontCodeは特徴があるようです。ちなみに文章に情報を埋め込む事例として、2007年の「Digital Watermarking and Steganography」という論文に、次のようなおもしろい記述があります。正確にはFontCodeのようにフォントに埋め込むというのではありませんが、文章に媒体の属性情報を隠すという点では似ているかもしれません。

「1981年、英国内閣の機密文書の複写が新聞に印刷されました。マーガレット・サッチャー氏は、漏洩の原因を特定するために、各閣僚に一意に識別可能な文書のコピーを配布するようにしていたという噂があります。各コピーは、受信者の身元をコード化した異なる単語間隔となっており、これによって漏えい元を特定することができました。文書の各コピーの受信者に関連する情報を符号化し、秘密裡に漏れの原因を特定できるようにし、大臣はその存在を知らされていませんでした。」(要約)

「Digital Watermarking and Steganography」(Ingemar J. Cox、Matthew L. Miller、Jeffrey A. Bloom、Jessica Fridrich、Ton Kalker)より

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です