少数の画像から学習する行為は情報解析か

2022-09-21 まとめ

松田政行編『著作権法コンメンタール別冊平成30年・令和2年改正解説』（勁草書房・2022）〔澤田将史担当〕15頁

「必ずしも多数の著作物を解析する必要はない」

「2つの楽曲を構成する『音』」も大量の情報に当たる

少数画像を学習に利用する場合であっても、著作権法30条の4の「情報解析」に該当し、同法が適用されることはある

2022-09-01 Facebook

ファインチューニングの議論の中で「ファインチューニングは多数の著作物を使わないので情報解析ではない」という主張を見た。

確認してみたら30条の4の第二項において「情報解析」は「多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう」と定義されている。だから、一人の著作者の数枚の画像でファインチューニングするのは「多数」の要件を満たさないので「情報解析」ではない、という主張なわけだ。確かにそうだなぁ〜。

2022-09-02

@nishio: @tka0120 画像自動生成AIと著作権の記事を拝見しました。3.1.1(1)「AIソフトウェアの生成に必要な限度においては原則として著作物を自由に利用できる」に関して、先生の記述は正しいのですが読者が誤読しそうだと懸念しています。

先生は「ウェブ上に存在している大量の写真やイラストを収集し、学習用データセットを生成したうえで画像自動生成AIを作る場合」と限定しておられます。一方で、既存のデータセットを使い、3〜5枚の画像を追加学習させることによって特定の画風を獲得させる技術があります。

後者の技術を利用する場合は「情報解析」の定義にある「多数の著作物その他の大量の情報から」の要件を満たさないため、著作物を自由に利用できないと思います。読者が「AIソフトウェア」を後者の技術を使うものにまで広げて解釈した場合、正しくない結論に至りそうです。

ref: https://textual-inversion.github.io

https://gyazo.com/8d0ade7a5556516d3ed763601fd8465b

Textual Inversion

Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権（その2） | STORIA法律事務所　#画像生成AIと著作権

■　著作権法30条の4の条文はあくまで「多数の著作物」を学習データとするのを前提としていますが、機械学習では、少数データを教師とすることもあると思います。mimicも、問題とされていたのは、大量データによる事前学習よりも、「作風」を学習する十数枚の画像による部分でした。そのような少数画像の利用でも著作権法30条の4は適用されるのでしょうか。

問題は、少数の画像から学習する行為が2号の「情報解析」の定義に該当するかです。...「多数の著作物」というのは、あくまで「大量の情報」の一例に過ぎません。

したがって「多数の著作物」を利用していなくても「大量の情報」を利用していれば「情報解析」に該当することになります。

そして、少数の画像を学習に利用することを考えたときに、「1枚1枚の画像」に着目すると確かに「多数の著作物」には該当しませんが、「当該1枚1枚の画像に含まれる情報（個々の画素の内容、画素の位置関係等）」に着目すれば「大量の情報」に該当することはあり得ると思います。

したがって結論としては、少数画像を学習に利用する場合であっても、著作権法30条の4の「情報解析」に該当し、同法が適用されることはある、ということになります。

@OKMRKJ: 参考として、松田政行編『著作権法コンメンタール別冊平成30年・令和2年改正解説』（勁草書房・2022）〔澤田将史担当〕15頁は、「必ずしも多数の著作物を解析する必要はない」とした上で、「2つの楽曲を構成する『音』」も大量の情報に当たるとする。