
AIスタートアップ企業Rumiは最近、OpenAIの最新のo3およびo4-miniモデルによって生成されたテキストに、特殊なUnicode文字「Narrow Non-Breaking Space」(NNBSP、U+202F)が埋め込まれており、これがAI生成コンテンツをマークするために使用される目に見えない透かしである疑いがあるとのレポートを発表した。現時点では、OpenAIはこれについて公にコメントしていない。
Rumi 氏は、これらの文字は通常の文書では標準スペースとして表示されますが、その特殊コードは SoSciSurvey や Sublime Text などの専門ツールによって検出できると指摘しました。テストの結果、これらのシンボルは o3/o4-mini モデルにのみ表示され、GPT-4o などの以前にリリースされたバージョンには同様の設定がないことがわかりました。ルミ氏は、このようなシンボルは OpenAI によって意図的に埋め込まれたロゴである可能性があると推測しているが、セキュリティが限られている単純な「検索と置換」操作によって削除することもできる。
シンボルの使用に関して、ルミは 2 つの可能性を提案しました。1 つは、AI によって生成されたコンテンツを追跡するための目に見えない透かしとして機能することです。もう 1 つは、モデルがトレーニング データから学習したタイプ設定の習慣です。これは、折り返し時に通貨記号や名前の略語が切り捨てられるのを回避するために使用されます。 OpenAIはこれまで、2024年にDALL·E 3にC2PAメタデータを追加し、2025年4月にGPT-4oモデルで目に見える「ImageGen」ラベルをテストするなど、画像生成の分野でさまざまな種類の透かし技術をテストしてきました。
現在、Google、Microsoft、Meta などのテクノロジー企業は、Google SynthID や Microsoft メタデータ埋め込みなどの AI コンテンツ追跡テクノロジーを導入していますが、調査によると、ほとんどの透かしソリューションは簡単に改ざんまたは削除できることがわかっています。この論争は、AIコンテンツ識別技術の脆弱性を改めて浮き彫りにしている。OpenAIが隠し文字を使用していたとしても、悪用されるリスクを完全に排除することは依然として難しい。