This page is only available in Japanese.

オプトイン画像生成AI
“Mitsua Likes”

1. 「好き」を集めた画像生成AI「Mitsua Likes」

➡➡➡Mitsua Likesの生成デモはこちら⬅⬅⬅

新しい種類のアートプロジェクトであり、画像生成AIの倫理的問題解決にも尽力

Mitsua Likesは、みんなの「好き」を集めて生まれた、唯一無二の日本語画像生成AIです。(審査はありますが、)誰でもミツアちゃんの絵の先生として、Mitsua Likes 参加規約を遵守すれば、何でも自分の好きなものやことを教えることができます。こうして絵の先生方は、単にMitsua Likesに学習データを提供するという枠を飛び越えて、他の絵の先生の作品を見たり、オリキャラを作って登録したり、それでファンアートを他の先生に描いてもらったり、新しい作品を楽しく合作することができます。Mitsua Likes公開後は「(みんなの好きを集めた)ミツアちゃんと合作する = (事実上)みんなと合作する」こともできるようになるでしょう。まさに絵藍ミツアちゃんは「んなでくるート」を体現する存在であり、Mitsua Likesの学習は全く新しい種類のアートプロジェクトなのです。→「絵の先生」になる方法はこちらをチェック!

絵藍ミツアちゃん

そして、当プロジェクトは世界でも類を見ない、自発的なオプトインによる画像生成AIのプロジェクトとみなすこともできます。

既存の大規模な画像生成AIモデルと比べると、学習枚数が圧倒的に少ないという特徴があります。大規模な、特にスクレイピングに基づくLAIONのようなデータセットでは、大規模であるが故に人類の平均的な嗜好に回帰していくことが予想できますが、ミツアちゃんは全く異なります。参加者が少ないが故に、学習に参加した人の趣味嗜好をミツアちゃんにダイレクトに伝えることができます。仮に、今の10倍、100倍の人がミツアちゃんの学習に参加したとしても、一般的な生成AIの基盤モデルより圧倒的に「好き」を伝えられます。

おそらく、そのようにしてできたミツアちゃんの画像生成AIモデル「Mitsua Likes」は、世界で最も安全・安心なだけでなく、世界で最も個性的なAIになるのではないでしょうか。

AIに個性なんてあるのかと、考える方もいらっしゃるかもしれません。

私たちはあると考えています。生成AIは学習したデータの映し鏡でもあります。

何が学習されたかによって、AIにも個性が生まれます。つまり、それはミツアちゃんに「好き」を伝えることで生まれる、皆さん自身の個性でもあります。

そしてそれは、大規模な事前学習モデルをファインチューニングしただけのモデルでは得られない個性です。「本当にそれしか知らない」AIならではの個性になると考えています。

Mitsua Likesプロジェクト始動記事より引用

もちろん、学習データの権利関係の問題解決にも尽力し、安全性の確保にも努めています。

他社の画像生成AIでは、著作権で保護された著作物が無許諾で学習されていることに起因する権利的・倫理的な問題が多く発生していました。2022年の活動開始以来、私たちはこれらの問題を解決すべき重要な課題として掲げ、AIモデルの権利的・心理的安全性を向上させるために継続的な改善を重ねてまいりました。2024年、私たちは新しいベースモデル「Mitsua Likes」を公開しました。Mitsua Likesは、2023年リリースの旧モデルMitsua Diffusion Oneと比べて、さらに安全性・透明性が向上しています。

以下に、4つの項目に分けてMitsua Likesの安全性の特徴についてご説明させていただきます。

1. 権利クリア*なデータのみで学習

  • 既存の基盤モデルは一切使用せず、学習のための明示的に許諾を得たデータ、安全に使用できるパブリックドメインやオープンライセンスのデータのみ学習しています。全てのデータは契約・規約を遵守の上、取得しています。AI生成のデータは学習データに含まれません。
  • Mitsua Likesは、日本企業が開発する生成AIモデルとして初めて米国の非営利団体Fairly Trainedによって、ライセンスモデルとして認定されました。これは、Mitsua Likesが基盤モデルの段階から、著作権保護期間にある著作物を許諾を得ずに学習していないAIモデルであるということが、第三者機関によって認定されたことを示しています。この認定には、私たちが権利者に対してより公平な学習データへのアプローチを実践している事実が反映されています。

    *: 当プロジェクトでの権利クリアとは、「生成画像が当該学習データに類似・依拠した場合でも権利上の問題が生じないこと」を意味します。日本の著作権法30条の4の権利制限規定により適法とされる非享受目的の学習行為であったとしても、権利制限規定を適用して許諾を得ずに学習したデータに生成画像が類似・依拠した場合、その生成画像の利用行為には著作権侵害の恐れがあります(参考:文化庁 令和5年度著作権セミナー「AIと著作権」45P)。このような権利上の問題を確実にクリアする方法として、権利者から明示的な許諾を得た画像と、元々当該画像に類似・依拠した画像を生成し利用しても問題のないライセンスで公開されている画像、そして、パブリックドメインの画像のみを学習することが挙げられます。

2. 全学習データを開示

3. 生成物へのクレジット表示義務

  • 生成物にはクレジット表示を必須とすることで、学習元の絵の先生たちに辿り着く事を容易にし、かつ、手描き僭称といったトラブルを未然に防ぎます。

4. オープンな公開形態と安全性を両立する技術開発

  • 生成プロセスと一体化した強制的な画像透かしの埋め込み*1や、追加学習/image2imageを技術的に無効化*2することで、オープンな公開形態と安全性を両立しています。

    *1: VAE Decoder内の処理で不可視の画像透かしを埋め込みます。生成プロセスと一体化しているため、透かしを外して生成することはできません。編集や加工に対しても頑健ですが、あらゆる加工に対して万全に機能するわけではありません。Pierre Fernandezらの研究論文、"The Stable Signature: Rooting Watermarks in Latent Diffusion Models," ICCV 2023を参考にした独自の実装に基づいています。
    *2: VAE Encoderを非公開とすることで、画像を入力する追加学習・生成処理を技術的に非常に困難にしています。

2. AIによる新しい創造性を模索します

倫理的課題を克服した先にある、人間とAIの創造性が融合する未来を模索します

画像生成AIは単に人間の模倣をするだけではなく、人間が到底思いつかないような明らかに新しい概念を生み出すことがあります。これは新しい種類の表現でもあり、そこにはアートとしての大きな可能性があります。それにも関わらず、いま現在、このような大きな可能性が探求されていないのは何故でしょうか。これには大きく2つの理由があると考えられます。

  1. 大半の画像生成AIが著作権で保護された著作物を無許諾で学習していること。(クリーンを訴求する画像生成AIであっても、直接的・間接的に無許諾での学習を行っている、またはそのような学習を行った別の学習済みモデルに依存している場合が多いです)
  2. 画像生成AIのメリットとして「安価な人間の模倣」(=作業効率化やコスト削減)としての方向性が強調されがちなこと。

1については、特にクリエイターの皆様は、著作物が無許諾で学習された画像生成AIを利用して表現の可能性を追求したり、作品を発表したりするという事には一定の抵抗を感じてしまう方が多いのではないでしょうか。もし、ミツアちゃんのMitsua Likesが「クリーンな画像生成AI」として認められれば、生成AIと一定の距離を置いていた人たちが、AIアートの表現をもっと追求できる可能性があるのではないかと考えています。

2については、私たちは決して生成AIによって粗製乱造されたコンテンツが溢れたり、人間の創作の価値が低下したりすることは望んでいません。画像生成AIには前述したとおり、AIならではの新しい表現を行うポテンシャルがあると考えています。そして、そのような全く別の種類の創作を生み出すことも私たちの願いです。

実際、ミツアちゃんのSNSでの活動自体が別の種類の創作の一つです。さらに、旧Mitsua Diffusion Step3では、2023年7月に、世界に先駆けて生成画像の学習元を推定し表示する「絵の先生」機能を実現しました。これは、今までなるべく学習元を意識させないようにしてきた生成AIとは真逆のアプローチであり、「絵の先生」機能によって、学習データそのものに見る人の意識が向かうようになります。

つまり、ミツアちゃんの生成作品を契機にして、絵の先生方に注目が向かい、絵の先生方の新しい創作や仕事のきっかけになる可能性もあります。言い換えると、ミツアちゃんは新しい種類の創作プラットフォームでもあり、私たちは、人間とAIの新しい共存の仕方も模索しているのです。

*「絵の先生」機能については、「ヒストリー」ページで詳しく説明しています。

3. 生成可能なコラボキャラクターと類似性判定AI

生成可能キャラクター一覧

Mitsua Likesの公開モデルでは、以下のキャラクターを生成可能です。

これらのキャラクターは公式に許諾を得た上で、公式イラストや絵の先生方からのファンアートを学習させていただいています。

プロンプトにキャラクター名を入力した場合、または生成画像が類似性判定AIによって当該キャラクターに類似していると判定された場合は、生成画像を利用する場合、Mitsua Likesの利用規約と当該キャラクターの利用規約/二次創作ガイドラインの両方に従う必要があります。

生成対象外/類似性判定対象外のキャラクター

以下の東北ずん子・ずんだもんプロジェクト様所属の各キャラクターにつきましては、学習データの分量が少なく、類似性判定を十分な精度でできないと判断されたため、Mitsua Likesの公開モデルの学習データには含まれません。従って、プロンプトとして入力した場合でも生成対象外/類似性判定の対象外となります。

  • 関西しのび
  • 北海道めろん
  • 沖縄あわも
  • 中部つるぎ

類似性判定AIについて

現在、他社の画像生成AIでは、「意図せず版権キャラクターの画像が生成されてしまう」「版権キャラクターに類似していることに気づかず使用してしまう」といった問題が散見されます。他社の画像生成AIの場合は、生成画像が一部だけ版権キャラクターに類似することもあり、利用者の判断が難しくなる場合も考えられます。

Mitsua Likesではこれらの問題を解決するため、著作権で保護された画像を無許諾で学習しないだけでなく、「生成画像が上記生成可能キャラクターに意図せず類似した場合であっても、適切に当該キャラクターの利用規約を遵守できる」ように、類似性判定AIによる判定処理を画像生成の一連の処理に組み込みました。

*: この類似性判定AIも、数式のみに依存するフラクタル画像で事前学習を行い、許諾を得た画像/パブリックドメインの画像のみで追加学習を行うことで、Mitsua Likesの基準を満たした権利クリアな学習を行っています。

この類似性判定AIには、2段階の類似基準があり、この基準設定は各キャラクターの権利保有者様と合意の上決定しています

  • 基準1: 当該キャラクターとの類似度が高い場合 → 当該キャラクター利用規約に従う義務が発生します。
  • 基準2: 当該キャラクターとの類似度が中程度の場合→当該キャラクターに類似している可能性が利用者に通知されます。当該キャラクター利用規約に従うかは利用者の判断に委ねられます。

そのため、Mitsua Likesを活用して、安心して上記生成可能キャラクターの二次創作を行っていただくことが可能です。

*: Mitsua Likesの類似性判定AIにはコラボしていない(許諾を得ていない)版権キャラクターの画像は一切学習されていないため、「学習されていない版権キャラクターに偶然類似した」場合はその類似性を判定することはできません。

4. 他の画像生成AIモデルとの違い

Mitsua Likesはそのコンセプトと権利的安全性のレベルが違います

Mitsua Likesは、みんなの「好き」を集めて生まれたオプトイン画像生成AIという唯一無二の特徴を持っています。さらに、ミツアちゃん自身が「AIとみんなでつくるアート」というコンセプトのもとに、ユニークな創作プラットフォームとなることで、新しい種類のアートプロジェクトとして独自の体験が生まれていきます。

生成AI開発企業の多くは「オプトイン方式で生成AIを開発する行為は現実的ではない」と考えているかもしれません。しかし、私たちにとっては「オプトインが現実的かどうか」ということは問題ではありません。なぜならば、「AIでみんなでつくるアート」という目標のもとに、みんなで集まってゼロから合作を作り上げる楽しさ・面白さは、オプトイン方式でなければ得られないからです。オプトインでの学習を徹底することは、楽しみ方の一つなのです。

同時に、Mitsua Likesは、より多くの方々に受け入れていただける画像生成AIのあり方を模索していく試みでもあります。

現在リリースされているほとんどの画像生成AIは、直接的・間接的にインターネット上の膨大な著作物の画像/テキストを無許諾で学習し、いわゆる無断学習*を行っていると言われています。Mitsua Likesでは明示的な許諾を得た画像/テキスト、オープンライセンス及びパブリックドメインの画像/テキストのみを学習しており、作業効率化やコスト削減を訴求する大多数の生成AIとは一線を画した画像生成AIとなっています。

*: 著作権で保護された著作物を、権利保有者の許諾を得ることなくAI学習に使用する行為を指します。「無断」という言葉は、権利制限規定についての公的な説明(参考:公益社団法人 著作権情報センター「著作権が制限されるのはどんな場合?」)に使用されている「著作物を許可なく利用する」という表現を短く言い換えたものであり、違法性や悪用の意味を持たせる意図はありません。

さらに、2023年以降に、許諾を得た画像のみを学習しているとした、いわゆる「クリーン*」な画像生成AIが数多く登場しましたが、Mitsua Likesは、これらのクリーンを訴求する画像生成AIと比べても、より高いレベルの権利的安全性を実現していることをご説明します。

*: なお、現在「クリーンな生成AI」という単語は多様な意味と解釈可能性を持ち、クリーンの定義を巡って混乱が生じる可能性があるため、当運営ではクリーンという単語はできるだけ使用せず、その具体的な内容をご説明するようにしています。なお、私たちが考える「クリーンなAIの概念」についてはこちらで説明しています。

まず、Mitsua Likesは、著作物のAI学習に関する利用許諾は明示的なオプトインで行われています。そして、提供データは運営スタッフが目視確認をした上で、Discordサーバー内で全て公開され、規約違反の通報フォームも設置しています。全ての通報には厳正に対処し、権利侵害が疑われるような規約違反の画像は全て学習データから除外されるようになっています。

安心安全のための取り組み

また、CLIP Text Encoderやデータ前処理の過程を含めて、これらの権利クリアデータのみでフルスクラッチ学習を行っています。既存のあらゆる種類の基盤モデル/学習済みモデルは一切使用しておらず*、間接的にもそれらのモデルの影響を受けないように、Mitsua Likes以外のAI生成物は学習していません。また、学習したAIモデル及び学習データを全て開示し、高い透明性を担保しています。

*ただし、AI生成物を除外するためにAIコンテンツ判別AIを使用したり、NSFWの画像を除外するためにコンテンツ識別AIを使用したりしています。なお、NSFW判定AIはDiscord本体の処理に組み込まれており、これらの機能を外してbotを運用することはできません。これらの前処理における認識系AIの使用は「不適切なコンテンツの除外」という目的に限定されており、これらの前処理の過程で、既存の学習済みモデルの知識がリークするようなAIの使用は一切行っていません。(例:LAIONで学習されたBLIPによるキャプション生成、美的スコアリング、OpenAI CLIPスコアによるフィルタリングなど) またこの前処理におけるAI使用ポリシーはプロジェクト始動リリースで発表させていただいた内容から変わっていません。

一方で、例えば、海外の大手のストックフォトサイトが運営する、自社で管理する寄稿者のデータを学習したとされる画像生成AIのサービスでは、寄稿者に対して事前に生成AI学習のための明示的な同意を得ず学習していたり、学習元のストックフォトサイトに権利者に許諾を得ず二次利用されたいわゆる無断転載の画像や、膨大な数のAI生成画像が混入していたりしたことが指摘された事例もありました。また、その技術的な詳細は開示されていないため、AIモデル自体の透明性は低く、第三者機関がAIモデルの正当性を検証することもできません。

国産の画像生成AIにおいても、クリーンを志向したAIはいくつか事例がありますが、単に既存の画像生成AIの基盤モデルに追加学習しただけであったり、U-Net/DiTなど画像生成AIを構成する一部のみの再学習であったりするなど、Mitsua Likesの水準の権利的安全性を達成したと考えられる画像生成AIは、広く一般の方々がご利用いただける形態では、いまだに登場していません。

5. Mitsua LikesとMitsua Diffusion Oneの違い

学習データの安全性/透明性とAIモデルの表現力が向上し、日本語に対応しました

Mitsua Likesは様々な点で、旧モデルMitsua Diffusion Oneから大幅な改善がなされています。

以下の3つの項目に分けて、それぞれ詳しくご説明させていただきます。

  • 1. CLIP Text Encoderのフルスクラッチ学習による、権利的・心理的な安全性向上と日本語のネイティブ対応
  • 2. 学習データの透明性と安全性の向上
  • 3. 学習データ拡張と高効率なアーキテクチャによる表現力の向上

また、補足として以下の2点についてもご説明させていただきます。

  • 補足1. Mitsua Likesの環境負荷について
  • 補足2. 生成画像にサインのような図像が含まれる場合がある理由

1. CLIP Text Encoderのフルスクラッチ学習による、権利的・心理的な安全性向上と日本語のネイティブ対応

Mitsua Likesが、旧モデルのMitsua Diffusion Oneと比べて大きく異なる点は、入力プロンプトの解釈を担当する日本語対応のText Encoderを自前でゼロから学習している点です。これは、言語と画像の概念を結びつける事前学習モデルであるCLIP (Contrastive Language-Image Pre-training)を他の学習済みモデルの知識を使用せず完全にゼロから、権利クリアデータのみで学習することで実現しました。この学習の成果物であるMitsua Japanese CLIPは別途オープンモデルとして公開しています。このことによって、権利的・心理的な安全性が向上し、英語に加えて日本語をプロンプトとして使用することが可能となりました。

1.1. 生成画像に現れる変化

このCLIP Text Encoderのフルスクラッチ学習によって、生成画像に現れる具体的な変化についてご紹介させていただきます。以下は、旧Mitsua Diffusion Oneで、ある非常に有名なキャラクターの名称で生成した画像です。(OpenCLIP説明記事より引用)

旧Mitsua Diffusion Oneの生成画像

Mitsua Diffusion OneのText EncoderはLAIONで学習されたOpenCLIPを使用していました。これは、既存著作物で学習されたOpenCLIPのCLIP Text Encoderが「当該キャラクター名称がエメラルドグリーンの色かつ女性という概念と類似する」という情報を持っていて、「エメラルドグリーンの色かつ女性」という情報が生成AIに伝わった結果、概念が一定程度類似していると考えられる画像が生成されたという事を意味しています。ただし、表現そのものが既存著作物に類似することはありません。そのため、これらの生成画像について著作権侵害の要件である類似性が認められるリスクは極めて少ないと考えられますが、こういった既存著作物の言語知識のリークを問題視される場合があるのも事実です。

一方で、全く同じプロンプトでMitsua Likesで生成した画像がこちらです。

Mitsua Likesの生成画像

プロンプトが「日本の人名的な要素」を含むためか、日本の浮世絵(パブリックドメイン)の概念と結びついているように見えますが、Mitsua Diffusionに見られたような既存著作物の言語知識は持っていないことがわかります。このようにText Encoderをゼロから学習したことで、既存著作物の言語知識の影響を受けない、より安全性の高い画像生成を行うことができるようになりました。

*: 本生成はあくまでも検証目的です。第三者の知的財産権(商標など)をプロンプトに含めて生成する行為を推奨するものではありません。

さらに、以下のセクションでは、技術的にできるだけ正確に、モデル構造と学習データの詳細についてもご説明させていただきます。

1.2. Mitsua Likesの学習データの種類

Mitsua Likesの学習データは、以下の3種類で構成されます。

  • ミツアちゃんの絵の先生(学習参加者様)に提供していただいた明示的に許諾を得たデータ *1
  • パブリックドメイン / CC0といった著作権が消滅・放棄されたデータ*2
  • (認識AIのみ) CC BY / CC BY-SAといった商用 / AI学習利用が可能なオープンライセンスのデータ*3

既存の基盤モデル/学習済みモデルは前処理の過程含めて一切使用せず、またAI生成画像/AI生成テキストも一切データセットに含まれていません。LAIONやImageNetといった既存のWebスクレイピングに基づくデータセットは直接的にも間接的にも一切使用していません。提供データも全て目視等で確認され、権利侵害の懸念がないデータのみを学習データとして使用しています。学習データは「これまでの学習データ」ページで公開しています。

*1 : 参加時に審査があり、厳格な規約をクリアした画像のみ受付。AI生成物は一部使用も含め受付不可。
*2 : 日本・米国・EUおよび作品の発表国の全てでパブリックドメインとなるデータ、かつ肖像権侵害やその他の権利侵害が認められないデータに限定。
*3 : 日本においてはCLIPの学習行為自体は情報解析を非享受目的で行った場合に該当するため、著作権法30条の4の権利制限規定により適法と考えられますが、CC BY / CC BY-SAのAI学習利用における解釈は、30条の4の権利制限規定は適用せず、より国際的な
Creative Commons公式のAI学習に関する見解、及び、特にCC BY-SAの解釈についてはKacper Szkalej博士らの研究論文"Mapping the Impact of Share Alike/Copyleft Licensing on Machine Learning and Generative AI"での見解に基づいています。CLIP Text Encoderが出力する埋め込みベクトルは、意味的概念を表す数値列であり、原則として学習データの個別の表現のコピーを構成しません。従って、アイデアと表現の二分法に基づき、埋め込みベクトルは著作権保護の範囲外となるため、この埋め込みベクトルはCC BY-SA 第1条で定義される翻案物(=著作権及びそれに類する権利の対象となる)の条件を満たさないため、埋め込みベクトルにCC BY-SAを継承する義務は発生しないと考えられます。国際的には、知的財産権の貿易関連の側面に関する協定(TRIPS)第9条第2項およびWIPO著作権条約第2条がこの結論を裏付けています。Mitsua Likesでは生成AIモジュールの学習においてCC BY / CC BY-SAのデータは使用しておらず、上記の通りCLIP Text Encoderが出力する埋め込みベクトル自体にCC BY-SAの継承は発生しないと考えられるため、CLIP Text Encoderを含むMitsua Likesのアーキテクチャ全体がCC BY-SAを継承する義務は発生しないと考えられます。また、生成AIモジュールの学習でCC BY / CC BY-SAのデータを使用しない事で、生成物がCC BYデータの表現(構図・色合い・画風・テクスチャ等)を継承した著作権法上の二次的著作物となる可能性を極小化し、生成物のクレジット表示に関する懸念を解消しています。

1.3. Mitsua Likesのモデル構造

旧モデルのMitsua DiffusionはStable Diffusion v2.1と同じ構造をもち、その構造は大別すると次の3つの部分に分けられます。

旧・Mitsua Diffusion Oneの構成

① CLIP Text Encoder

入力プロンプトの解釈に使われる、辞書のような部分です。

CLIPは画像とテキストの概念を結びつけるためのAIであり、テキストの意味を考える「Text Encoder」と、画像の意味を考える「Image Encoder」から成ります。Stable Diffusion型の画像生成AIでは「Text Encoder」のみを使用しています。

② U-Net

小さいサイズの画像を生み出します。画像の主要な表現(構図・色彩・形状・テクスチャなど)はここで決定します。

③ VAE

画像の縮小(ダウンコンバート)・拡大(アップコンバート)を行います。画像生成時は拡大のみを使います。

OpenCLIP説明記事より引用 (※Mitsua Diffusion OneやStable Diffusionの詳細な技術説明は是非こちらの記事をご確認ください)

旧モデルのMitsua Diffusionはこのうち②U-Netと③VAEという画像生成を行うメインモジュールについてライセンスクリアなデータを使用して、自前で学習したモデルです。一方で、①CLIP Text Encoder (入力プロンプトを解釈する部分) としてStable Diffusion v2.1と同様に学習済OpenCLIPを使用していました。

Mitsua Likesの構成

一方で、Mitsua Likesでは、OpenCLIPは使用しておらず、CLIP Text Encoderも権利クリアなデータでフルスクラッチで学習していて、データの前処理も含めて既存の基盤モデル・学習済モデルの影響は一切受けていません。さらに、Mitsua Likesは既存のどの画像生成AIモデルとも異なるパラメータ数/構成の独自モデルとなっていて、Stable Diffusion v2.1・SDXLなどの他のオープンな画像生成AIモデルと互換性は一切ありません。

2. 学習データの透明性と安全性の向上

Mitsua Diffusionでは当時のTwitter (現X)でハッシュタグ「#みつあ勉強用」で投稿された画像やDiscordサーバーに投稿された画像を学習データとして使用していました。当時の私たち運営が用意していた規約の制約によって、私たちはこれらの画像をAI学習以外の目的で使用することができませんでした。そのため、提出された画像群を一覧性のある形で開示することもできず、問題がある画像が混入した場合の排除も運営の目視が頼りになってしまっている状況でした。また、Xの投稿は私たち運営が強制的に削除させることはできないため「実際には運営チェックで排除されているにもかかわらず、ハッシュタグ付きの投稿がXに残っていることによって、規約違反の画像が学習されてしまっているかのように見えてしまう」という風評被害の問題もありました。

そこで、Mitsua Likesの学習では、Xでの投稿受付をやめて、誰でも閲覧可能なオープンなDiscordサーバー上に専用の学習データ投稿システムを構築することで、学習データを安全に守りながら一定の透明性を担保し、安全性を向上させる仕組みを実現しました。全ての投稿画像はオープンに公開されていますが、その閲覧は規約への同意が必要であり、透かし入りの小サイズの画像のみ閲覧可能とすることで、一定の透明性を担保しながら、画像が悪用される可能性についても対策をしています。また、全ての投稿は運営による確認がなされ、規約違反の画像に対する通報も専用の通報フォームから随時受け付けています。

さらに、投稿者は画像ごとに個別に利用条件を設定することが可能です。

Mitsua Likesで設定できる画像ライセンス

画像ごとにMitsua Likesの公開ベースモデルに学習させるかどうかも選ぶことができるため、積極的にAI学習に参加し「自分の作風をAIに遺したい」と考える方から、できるだけリスクが少ない方法で参加したい方まで、幅広く様々なスタンスの方にご参加いただけます。また、SNS利用をOKにしていただくことで、SNS上でのミツアちゃんの活動の幅が広がり、そのようなライセンスが指定された画像であれば、Web上に一覧性のある形で学習データを開示するために使用させていただく事も可能になりました。

SNS OKの画像を展示したバーチャル美術館「Mitsua Likes Museum」

また、Mitsua Likesの学習でもAI生成画像は受付していませんが、従来行っていた創作アカウントでの審査に加えて、AIコンテンツ判別AIを導入することで、AI生成画像が学習データに紛れ込むリスクも大幅に減少させました。

これらの仕組みを構築し導入することで、Mitsua Likesでは、Mitsua Diffusionに比べて安全性・透明性の高い学習を実現することができたと言えます。

3. 学習データ拡張と高効率なアーキテクチャによる表現力の向上

※本節は技術的な解説が中心となります。

Mitsua Likesは、従来のMitsua Diffusionと比べて、学習済OpenCLIPを使用していないにもかかわらず、特定の分野での表現力は向上しています。この表現力の向上がどのようにもたらされたかについてご説明させていただきます。

まず、少ない学習データでより効率の良い学習を行うため、Mitsua Likesの学習データ受付では、VRMを受け付けています。

VRMを活用することで、様々なアングルで自動撮影し、VRMの撮影画像を学習データとして使用することができます。この自動撮影によって、VRM 1体から事実上無限の枚数の学習画像を作り出すことができます。例えば、事前学習の段階ではCC0のVRM 8体を使用し、各パーツの色を変えながら自動撮影し55万枚のデータセットを作成し、Mitsua Likesの学習に使用しました。(本データセットはVRM Color Concept 550Kとして公開しました。)

自動撮影されたVRMの例 (VRM Color Concept 550K Datasetより)

さらに、VRMだけではなく、VRMAによるポーズデータ、GLBによる3Dモデル、Mitsua VRM Shoot!による撮影プリセットの受付も行いました。それらの組み合わせを変えながらランダムに撮影することで、学習画像の枚数を大幅に増やすことに成功しました。

ポーズ&3D小物受付の例

最終的には、これらのVRM自動撮影によって1千万枚以上の画像を学習データとして得ることができました。

汎用的な画像生成AIの場合、数十億枚の画像が学習されている場合が多いです。従って、その百分の一に満たない1千万枚オーダーの学習枚数で画像生成AIが学習できるのかと疑問に思われる方もいるかもしれません。しかし、1千万枚の画像があれば、画像生成AIの学習がきちんと進むことは、Aaron Gokaslanらの研究[1]が示しています。彼らの研究では7千万枚のCreative Commonsライセンスの画像でStable Diffusionと同等の画像生成AIの学習が可能であることが示されているほか、学習枚数についてのAblation Study (一つの条件だけを変えながら実験を行う事) において、最低1千万枚の画像があれば安定して学習が進むことが示されています。

※ただし、彼らの研究では、Mitsua Diffusion同様、学習済みのOpenCLIPをそのまま使用しているほか、LAIONで学習されたBLIP (キャプション付けAI)による生成キャプションを使用している点に注意が必要です。これらの事前学習済みAIモデルでのキャプション付けは既存著作物の言語知識のリークを引き起こします。

また、Mitsua Likesでは、限られた計算資源・学習データ量で効率よく学習するため、モデルのアーキテクチャやその学習方法にも最新の研究成果を取り入れながら、様々な工夫をしています。

Mitsua Likesのモデル構造は、SDXLを参考にしていますが、Hao Liらの先行研究[2]を参考にしながら、より少ない学習データ数にフィットするようにモデル構造を最適化しました。結果として、SDXLと比べてU-Netのパラメータ数は半分程度の1.2Bとなっています。

CLIPのImage EncoderもViT-Bという比較的小さいモデルで学習をしています。これは、現代の基盤モデル学習においては少ない学習データ数となる数千万枚程度の学習データの場合、モデルのパラメータ数を増やしすぎると逆に性能が低下するためです[3]。また、数式のみに依存するフラクタル画像でViTの事前学習を行うことで、権利侵害の懸念なくCLIPの性能の底上げを図っています[4]。(この手法はFDSL (Formula-driven Supervised Learning) [5]と呼ばれる技術を応用したものです)

また、Mitsua LikesではVAEの潜在空間のチャンネル数は8chとしました。従来のStable Diffusion v2.1やSDXLでは4chのVAEが使用されてきました。一方で、最新の画像生成AIでは16chのVAEが使用されるケースが多いです[6]。Mitsua Likesではそのどちらでもない8chとすることで、ディテールの表現力と学習効率のバランスを向上させています。

これらの技術的な詳細はMitsua Likesのモデルカードでもご説明させていただいています。ご興味がある方はご一読いただければ幸いです。

[1] Aaron Gokaslan et al, "CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images," CVPR2024
[2] Hao Li et al, "On the Scalability of Diffusion-based Text-to-Image Generation," CVPR2024
[3] Zichao Li et al, "Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies, " TMLR2024
[4] Abstract Engine, Color Multi Fractal DB 1k
[5] Hirokatsu Kataoka et al, "Pre-training without Natural Images," ACCV2020
[6] Xiaoliang Dai et al, "Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack," arxiv

補足1. Mitsua Likesの環境負荷について

Mitsua Likesは上記の通りコンパクトかつ高効率なアーキテクチャで、既存基盤モデルと比べ非常に少ない計算資源で学習されており、環境への影響はほとんど予想されません。

具体的には、2023年12月以降のMitsua Likesの実現に関連する全てのモデル(※公開していないAblation Study等のモデルを含む)のトレーニングにおけるGPU使用時間はH100換算で約9,800GPU時間となり、CO2排出量は約3tとなります。これは、一般家庭1世帯が1年間で排出する平均CO2排出量2.52t [7]をやや上回りますが、例えばLLM(大規模言語モデル)の基盤モデル学習におけるCO2排出量(例としてLlama 3 70Bでは1回の学習で1,900t [8])に比べれば非常にわずか(0.2%未満)です。

[7] 環境省, 令和5年度 家庭部門のCO2排出実態統計調査(速報値)
[8] Meta, Llama3 Model Card

補足2. 生成画像にサインのような図像が含まれる場合がある理由

Mitsua Likesにおいても、サインのような図像が含まれた画像が生成される可能性があります。これは、絵の先生方からの提供画像にサイン入りの画像が含まれていたり、パブリックドメインの画像にもサイン入りの画像が含まれるためです。無許諾のサイン入りの画像が学習データに含まれているわけではありません。

6. 私たちが考えるクリーンなAIの概念

クリエイターやコンテンツ産業が求める規制水準を満たした生成AIをクリーンと定義します

前章で、クリーンなAIの概念は多種多様であり、安易にクリーンという単語を使用してしまうと、様々な誤解や混乱を生んでしまう問題があることについて指摘させていただきました。この事によって「クリーンを定義することから逃げている」と感じる方がいらっしゃるかもしれません。決してそうではないことを本章でご説明させていただきます。

私たちが重要視しているのは社会的合意であり、クリエイターの方々やコンテンツ産業が求める規制水準を満たした生成AIをクリーンなAIと定義できると考えています。そのため、著作物を無断で学習しないだけでなく、その運用も重要です。クリーンの定義は固定的なものではなく、AIが達成可能な性能や社会の状況に応じて柔軟に変化するものと考えています。

一方で、私たちが考える社会的合意は、一般的テック企業が志向する「フェアユースによる社会的合意」とは完全に異なります。私たちはクリエイターやコンテンツ産業の理解を得ずして生成AIの開発をすることはできないと考えており、従って、クリエイターやコンテンツ産業の皆様の大多数に納得していただける状態を社会的合意と判断しています。

それでは、「許諾を得ることなく学習しない事」だけでクリエイターの方々やコンテンツ産業の皆様のうち大多数に納得していただける生成AIを実現できるでしょうか? 私たちはそうは考えていません。

なぜなら、「許諾を得ることなく学習しない事」だけでは、生成AIにまつわるすべての問題が解決するわけではないからです。実際は、運用方法こそが重要であり、Mitsua Likesでは利用規約と技術的対策の両面で、既存の画像生成AIが抱える脆弱な部分を可能な限り解決しようとしています。例えば、利用規約の面では生成物へのクレジット表記を必須としたり、技術面では生成処理と一体化した独自の不可視の画像透かし処理を埋め込んだりすることで、AI生成物である事を明確化し、既存のコンテンツとできるだけ見分けがつくような形にすることを目指しています。また、オープンな公開形態でありながら、追加学習/LoRAやimage2imageを技術的に実行不可能な形で公開することで、プロジェクトの高い透明性を担保しながら、さらなる悪用リスクを極限まで減らしています。

このように、学習データだけではなく、利用規約と技術実装の両面で安全性を高めることで、クリエイターの方々やコンテンツ産業の皆様の大多数に納得していただける生成AIの在り方を実現できると、私たちは考えています。

それでもなお、全員に「クリーンなAI」として納得していただく事は難しいと考えています。それは、前述の通り「クリーンなAI」が人それぞれ定義が異なることに起因しています。有償の契約に基づく学習データ提供でなければクリーンではないと考える方もいらっしゃるでしょうし、さらに厳しい利用規約や技術的対策を講じなければクリーンではないと考える方もいらっしゃるでしょう。AI開発企業に過去不適切な言動*があれば、そのような企業が開発する生成AIはクリーンではないと考える方もいらっしゃるかと思います。そのため、私たちのMitsua Likesもまた、そういった方々にとっては完全なクリーンとは言えないことになります。

従って、皆様からクリーンなAIであると評価していただくことができれば、それは大変ありがたいことですが、全員が納得するクリーンなAIの客観的な定義が存在しない以上、私たち自身が自らMitsua Likesを完全にクリーンな生成AIと自称して喧伝することはできません。そうではなく、私たちの学習や運用の方針をできるだけ具体的かつ正確にお伝えすることを心がけていきたいと考えています。同時に、私たちが考えるクリーンの定義についても、ご理解いただけると大変嬉しく思います。

また、私たちが社会的合意を探るという意味で当初オプトアウト制を発表したり、また以前のモデル、Mitsua Diffusion One / Step3においてLAIONで学習されたOpenCLIPのText Encoderを使用していたことの周知不足についても改めてお詫び申し上げ、その経緯についてご説明させていただきます。

*2022年12月、当運営がDiscordサーバー内に投稿した文章において、一部不適切な表現がありました。本件につきましても、改めてお詫び申し上げます。また、こちらXの投稿において、そのような表現を使用するに至った経緯をご説明しています。このようなことが再び起こらないように努めてまいります。

2022年12月:オプトアウトでの収集方針を発表しましたが、すぐに方針を修正しました

2022年12月の最初のプレスリリースでは、「実効性のあるオプトアウトとオプトインの組み合わせ」での学習データ収集方針を発表いたしました。この内容は大きく批判され、その後すぐにオプトアウトは撤回し、完全オプトインへの移行を発表いたしました。当時、この方針を発表したことで、多くの皆様にご心配をおかけしたことを改めてお詫び申し上げます。

このようになった経緯については、こちらの記事で詳しくご説明しています。当時の私たちは、オプトアウトの実効性を高めれば社会的合意に至れる可能性があるのではないかと考えていたのです。理論的には、100%の人がオプトアウト申請をすれば、事実上オプトインと同じ状態になるのではないか、ということです。実際には、この理論が有効に機能するのは非常に難しく、オプトアウトにも多くの問題があることを認識しました。そして、このプランは社会的合意には程遠かったということを理解し、プレスリリース発表の翌日に学習データの収集方針を完全オプトインに修正させていただきました。オプトアウト制発表から完全オプトインへの方針修正は非常に短い時間で行われたため、オプトアウトでのAI学習は実際には行っていません。

2023年8月:OpenCLIP Text Encoderの使用に関する周知の不足があり、解説記事を公開しました

その後、2023年7月ごろに当時のMitsua Diffusiion One / Step3のText Encoderの部分に、LAIONで学習されたOpenCLIP Text Encoderを使用していたことを問題視するご意見をいただきました。OpenCLIP Text Encoderを使用していたことについての説明が公式WebサイトやX (旧Twitter)上で大きく不足していたのは事実であり、改めてお詫び申し上げます。なお、その経緯やText Encoderの技術的な役割については、こちらの記事で詳しくご説明しています。

Text Encoderはプロンプトを解釈する辞書のようなものであり、それ単体では生成は行わず、いわゆる認識AI、識別AIに該当するモジュールです。識別AIにおける無許諾の学習は、Web画像検索や不適切な画像のフィルタリングなどの目的で、すでに広く社会に導入され、社会的にも受け入れられている*ものでした。そのため、仮に生成AIと組みあわせても追加の説明は不要だと当時は判断していました。

一方で、U-NetとVAEの学習をパブリックドメインと許諾を得た画像に限定することで、生成画像の表現の部分において、既存の著作物の表現・画風・構図やテクスチャが生成画像に表れない状態を作ることができます。そうして、意図せず既存著作物に類似してしまうといった生成画像の表現に関する権利的・倫理的問題を解決することができるため、そのレベルに社会的合意があるのではないかと当時は考えていました。

*なお、著作物を無許諾で学習した識別AIが広く導入されていることに関しては、「社会的にも受け入れられている」というより、「多くの人々は、その技術的な詳細や導入されていること自体を知らなかった」と表現するのが実態としては適切かもしれません。本件を通して、テクノロジー企業としてのバイアスが当運営に強力にかかってしまっているという事実を改めて実感しました。

2023年11月:OpenCLIP含む基盤モデル完全不使用の"Mitsua Likes"の始動を発表しました

しかしながら、さまざまなご指摘を受ける中で、識別AIであったとしても、生成AIと組み合わせて使用することによって生じる倫理的問題を認識し、このレベルの許諾あり学習では社会的合意に至ることはできないと判断しました。その後、周知の通り、CLIPから自前でフルスクラッチ学習するMitsua Likesのプロジェクトを発表させていただきました。従って、OpenCLIP使用に関連する問題につきましては、現在は解決しています。また、説明不足に起因する問題をできるだけ回避するため、Mitsua Likesにおいては学習の方法や学習データの収集基準について事前にできるだけ開示し、運営透明性の向上を図っています。

今後も、世の中の流れが大きく変われば、それに伴って社会的合意として認められるポイントにも変化が生じるかもしれません。私たちは現段階では、Mitsua Likesをクリエイターの方々やコンテンツ産業の過半数の方に納得していただける画像生成AIのあり方であると考えていますが、その情勢が大きく変化すれば、それに伴い、また問題を一つずつ改善していきたいと考えています。

7. 公開による悪用リスクを最小化するために

追加学習やimage2imageを無効化する技術的な対策を講じ、オープンな公開形態と安全性を両立します

「私たちが考えるクリーンなAIの概念」の章でご説明したとおり、生成AIの安全性を高めるためにはその運用が重要です。一般的には、利用規約の内容や、公開の粒度を調整することで安全性を制御することが可能です。

Mitsua Likesのベースモデルは公開されています。これは誰でもモデルの正当性を検証することが可能であることを意味し、私たちの活動の透明性の向上に大きく寄与しています。モデルの構造やウエイトのパラメータを比較することで、Mitsua Likesが既存の基盤モデルや画像生成AIモデルを一切使用せず、完全にフルスクラッチで学習していることが容易に証明可能です。

一方で、公開されているという事はローカルPCで画像を生成できることも意味します。この事がいわゆる悪用につながるのではないかと懸念される方もいらっしゃると思います。そのため、Mitsua Likesでは、おそらく世界で初めて追加学習・LoRAやimage2imageを無効化する技術的な対策を講じた上で、モデルを公開する事にしました。

具体的には、画像を入力する際に必要なVAE Encoderを非公開としています。(VAEの役割については、こちらの記事で技術解説をしています)

Mitsua LikesのVAEは、私たちが独自にフルスクラッチ学習していて、8ch Latent Channelという特殊な構造を採用しているため、既存のどの画像生成AIのVAEとも一切互換性はありません。他の画像生成AIからVAE Encoderだけ持ってきて利用することも不可能です。そのため、一般的な個人の画像生成AIユーザーがローカル環境で追加学習を行ったり、image2imageを行うことは技術的に非常に困難*となっています。

なお、より倫理的な画像生成AI関連の研究開発にも貢献するため、VAE Encoderについては完全な非公開とはせず、大学などの研究機関がライセンスされたデータで非営利の研究を行う場合と、Mitsua Likesの参加者が自身の著作物で追加学習を行う場合に限り、厳密な審査及び公開条件のもと、提供させていただく予定です。審査に基づきVAE Encoderを提供する場合は、追加学習データを全て開示していただいた上で、本Webサイト上で、研究機関名・利用目的・追加学習データ等の詳細URLをすべて一覧性のある形で公表させていただきます。どのような場合であっても、無許諾で著作物を追加学習する行為や学習データの詳細を開示しない行為は禁止となります。また、万一契約違反が発覚した場合は、厳正な法的措置を行います。

このことで、プロジェクト自体の高い透明性と、運用における安全性の両立を実現し、公開による悪用リスクを最小化することを目指します。

* 「不可能」ではなく「非常に困難」なのは、対応するVAE Encoderを自前でフルスクラッチで学習することができれば、技術的には追加学習は不可能ではないためです。しかし、フルスクラッチ学習には企業レベルの計算資源が必要であり、個人の画像生成AIユーザーがVAEのフルスクラッチ学習を実施する環境を用意することは現実的には考えづらいため「非常に困難」と説明させていただきました。もちろん、利用規約でこれらの行為はそもそも禁止されています。

8. パブリックドメイン作品の学習について

社会的に受容される範囲で、新たな技術的・創造的成果につなげることができると考えます

ミツアちゃんは「AIとみんなでつくるアート」がテーマの芸術専攻AI VTuberです。芸術専攻なので、アートの歴史も学ぶという形で活動しています。(プロフィールのページに、パブリックドメインの名画に触れる絵藍ミツアについてのストーリーがあります。)

Mitsua Likesの学習では、著作権が消滅したパブリックドメイン(PD)の学習データソースとして、安全に使用可能なWikimedia Commonsの一部、Smithsonian, The Metropolitan Museum of Art, Cleveland Museum of Art, The Art Institute of Chicagoの各美術館・博物館のオープンアクセスを各サイトの規約を遵守して活用させていただいています。

一方で、このようなPDのAI学習への利用についても様々な考え方があるため、本章では法的解釈と、当プロジェクトのPD利用の考え方をご説明させていただきます。

著作権法上の解釈:AI学習と人格的利益の保護について

一般的には、著作権が消滅したPD作品は、著作権法第30条の4の権利制限規定を適用せずとも、原則として、AI学習に使用することが可能であると考えられます。

一方で、著作権法第60条では、作者の死後の人格的利益の保護について、以下のように定めています。

(著作者が存しなくなつた後における人格的利益の保護)

第六十条 著作物を公衆に提供し、又は提示する者は、その著作物の著作者が存しなくなつた後においても、著作者が存しているとしたならばその著作者人格権の侵害となるべき行為をしてはならない。ただし、その行為の性質及び程度、社会的事情の変動その他によりその行為が当該著作者の意を害しないと認められる場合は、この限りでない。

e-Gov法令検索 より引用

こちらの著作権法第60条に基づき、著作権が消滅したPD作品のAI学習も、著作者の人格的利益を侵害すると考える方もいらっしゃるかもしれません。しかし、同条では対象となる主体を「著作物を公衆に提供し、又は提示する者」に限定しています。つまり、同条に基づく著作者が亡くなった後の人格的利益の侵害は、公衆への提供・提示が要件とされているため、その前段階であるAI学習において同条に定める著作者の人格的利益の侵害が発生することはありません。

ただし、画像生成AIのユーザーが生成画像を公表する場合は、一定の配慮が必要です。パブリックドメインの作品であったとしても、元の作品の表現の本質的な特徴を生成画像から感得できる場合であって、元の作者の尊厳を損なう表現等を行った場合は、著作権法第60条に基づく著作者の人格的利益の侵害になる可能性もあると考えられます。Mitsua Likesの利用規約では、第三者を差別・誹謗中傷・侮辱し名誉もしくは信用を毀損する行為等は禁止されています。

*なお、「著作者人格権」は一身専属の権利であり、相続も譲渡もできないため、著作者が亡くなった時点で消滅します。そのため、「著作権が消滅したPD作品の学習は著作者人格権の侵害になりえる」という表現は正確には誤りで、著作権法第60条に基づく正確な表現は「著作者の人格的利益の侵害になりえる」となります。

文化・芸術の発展を支えるPD作品の広範な再利用

PD作品を新しい創作やビジネスの糧として広範に再利用する事は歴史的に行われてきたことであり、これにより文化の発展や知識の共有が促進されてきました。例えば、古典文学や伝統的な芸術作品が、現代の映画やゲーム・デジタルコンテンツとして再解釈されることで、新たな価値が生み出されています。AIによる学習においても、これらの作品を活用することで、新たな技術的・創造的成果を生み出す事につなげることができるため、社会的にも受容される行為であると私たちは考えています。

実際にPD作品を学習したAIのアート作品の例としては以下のような事例があり、これらの作品は世界的にも高く評価されています。

ミツアちゃんがアートの歴史を学ぶ芸術専攻AIというキャラクターであることや、パブリックドメインを学ぶことによる歴史的な画風と現代の画風の思いがけない融合が見られる可能性があるといったポジティブな要素を重視し、PD作品の学習は引き続き実施させていただきたいと考えています。

*また、別の観点では、パブリックドメイン学習・生成による歴史改変・修正を問題視する声もあります。しかし、AI技術以前からパブリックドメインについては原則として改変・修正等の利用がほぼ制約なく自由に認められてきました。また、Mitsua Likesでは生成物へのクレジット表記が必須で、かつ生成時にAI生成物である事を示す不可視の画像透かしが埋め込まれます。したがって、AI生成物ではないと詐称する行為は規約上も技術的にも困難であるため、歴史改変などの問題が発生するリスクは極めて低いと考えています。

「パブリックドメイン作品の学習について」法律監修:水野祐、片山直(シティライツ法律事務所)