生成AIによる画像や音源コンテンツの無断学習を防ぐ技術

AI, 生成AI

はじめに

こんにちは。システム開発推進部第1Gの坂本です。
突然ですが、みなさんは 生成AIによる画像や音源コンテンツの無断学習 問題について関心を持っていますでしょうか。
生成AI技術の進化に伴い、AIが既存のコンテンツを無断で学習することによる著作権侵害やプライバシーの問題が増えています。本記事では、生成AIによる無断学習の事例と、コンテンツを守るための対策についてまとめました。

無断学習の事例

生成AIによる無断学習はさまざまな分野で問題となっています。以下にいくつかの具体的な事例を紹介します。

新聞記事の無断利用

朝日新聞社と日経新聞社は、生成AI検索サービス「Perplexity(パープレキシティ)」が自社の記事を無断で利用しているとして提訴しました。
自社コンテンツが無断で複製され利用者の回答に使用されているほか、回答の引用元として社名が表示されているにも関わらず誤った情報が含まれており、新聞社としての信用が著しく傷つけられているとしています。

生成AI検索サービスめぐり朝日新聞社 日経新聞社がPerplexity(パープレキシティ)を提訴 “記事無断利用” | NHK | 生成AI・人工知能

声の無断利用

声優などが加入する「日本俳優連合」「日本芸能マネージメント事業者協会」「日本声優事業社協議会」の3つの業界団体は、AIによる声の無断利用に対して共同で声明を発表しました。この声明はAIで声優の声を利用する際は本人の許諾を得ること、またAIによる音声であると明記することを求めるものになります。

“AIで声の無断利用やめて”声優などの業界団体が声明 | NHK | 生成AI・人工知能

フィギュア画像と商標の無断使用

バンダイは、生成AIを使用したフィギュア画像に自社の登録商標が無断で使用されていることに対して公式声明を発表しました。生成された画像によってはSNSへの投稿が著作権の侵害にあたる可能性もあるとし、商品であると誤解を与えるような投稿は控えるようアナウンスしています。
これはAIが既存の画像や商標を学習し、新たなコンテンツを生成する際に発生する問題の一例です。

バンダイ・BANDAI SPIRITSの登録商標を使用した生成画像について|株式会社バンダイ・株式会社BANDAI SPIRITS 公式企業サイト

無断学習への対策

では、こういった無断学習からコンテンツを守るにはどういった対策を取ればよいのでしょうか。
この記事では大きく分けて2種類の方法を紹介します。

メタデータやプロトコルでの利用制御

こちらはWebサービスの開発者や管理者が講じることの出来る対策になります。

noai / noimageaiタグ

Webページや画像に「AIによる学習を禁止する」ことを示すメタデータを埋め込む方式です。
一部検索エンジンや生成AI企業が尊重する動きはありますが、強制力はありません。

使う場合はHTMLのタグ内に以下のように記述するか、

HTTPヘッダーに次のような記述を追加することで使用できます。

Robots.txtを使用する

検索エンジンなどのクローラーに対し、クロールを許可する、あるいは拒否するページを指定する方法です。
実際にOpenAI(ChatGPTを開発した企業)やGoogleがクローラールールを設けています。
ただし、こちらもnoai/noimageaiタグと同じように強制力はありません。

参考

ステガノグラフィ・データポイズニング(学習妨害)

こちらは前項で紹介した手法とは異なり、コンテンツそのものに対して行う方法になります。
ステガノグラフィとは、情報を「目に見えない形で別のデータの中に埋め込む」技術です。
たとえば、画像や音声、テキストの中に人間には分からないが機械には検出できるパターンを仕込むことができます。
AIに対しては以下のような方法が研究されています。

1.画像への不可視ウォーターマーク埋め込み

  • 人間の目には影響がない範囲で画素値や周波数成分を微妙に変える。
  • 学習データに取り込まれても、後で検出できるようにする。
  • 例:「Glaze」「Nightshade

2.音声への微小なノイズ埋め込み

3.テキストに不可視文字や言い換えを埋め込む

  • Unicodeの不可視文字やゼロ幅スペースを仕込む。
  • 自然な文章に見えても、機械学習用の前処理でノイズが増え、正しく学習されないようにする。
  • 例: 「StegZero

クリエイターとAIの健全な関係を築くために

AIによる無断学習からクリエイターを守るために、今後プラットフォーマーが学習阻害ノイズをコンテンツに施すことが必要になるかもしれません。なぜなら、個人のネットリテラシーに頼るだけでは限界があるためです。
プラットフォーマーが率先してクリエイターの権利を守る姿勢を示すことがクリエイターとAIの健全な関係を築くことや、安心して創作活動を行える社会に繋がっていくと筆者は考えています。
コストの問題により一つ一つのコンテンツに対応が出来ない場合でも、メタデータやプロトコルによる利用制御を実施するだけでもクリエイターを守る姿勢を表明することが出来るのではないでしょうか。

参考にしたもの

AI, 生成AI