2023年がAI元年と言われることについての考察などなど
https://scrapbox.io/files/656619758aab63001bc8a273.png
作成日:2023/11/28 20:50
作成者:tdu_na.icon
これは「Rad Advent Calendar 2023」の1日目の記事です。
文章生成AI
画像生成AI
音声生成AI
動画生成AI
AIとの関わりかたについて
まとめ・感想
/icons/---.icon
https://scrapbox.io/files/65661995fc821d001b6f4fe2.png
上記の画像はさっそく、ChatGPT での GPT-4 限定の DALL-E3 で画像生成しました。
こんにちは!最近親知らずを抜いた青木直人と申します。自分は学部4年ですが院進するので、この1年で就活を全くせずに生きてきました👀
来年度の就活が心配でしょうがないです🥺
そんなことはさておき、X(旧Twitter)で AI がかなり話題になりました。 いわずもがな 大規模言語モデルの GPT-3 を一般向けに公開した ChatGPT やら、去年の11月とかにも流行った Stable Diffusion が話題ですね。前半が文章生成AI、後半が画像生成AIです。文章生成AIは特に文章添削、要約、論文サーベイ、コード生成、QA が正確にできると話題になりました。反対に、ハルシネーション(幻想)が含んでいることがあります。世間で言われるもっともらしい嘘ってやつですね。とりあえず、文章生成AIはこんな感じのことが容易くできるようになりました。(もちろん、完璧にできることはありません。)
画像生成AIでは、きれいな2次元美少女イラストや背景画像を容易く行えるようになりました。オリジナルのStable Diffusion モデルは、すべてのWeb画像を学習しています。(と言われています。)なので画像が荒かったり、画像にいる人物の手足が5本や6本になっているなどヒューマンエラーでは発生しないようなノイズ(間違い)がありました。しかし、追加学習やファインチューニングをすることによって、これらの問題はかなり改善されました。特に、最近リリースされた日本画像に特化したDiffusionモデルが話題になりましたね。
https://asset.watch.impress.co.jp/img/ipw/docs/1547/820/jdxl003_s.jpg
Stablity AI は、Stable Diffusion を出した会社ですので、日本のモデルを出すことは日本人として嬉しいですね😊
追加学習での手法では、LoRA (Low-Rank Adaption)という手法が有名です。その中でもCounterfeit というモデルが有名です。
簡単にイラストレーターが描いたような美少女が生成できるので、ぜひ試してみてください。
LoRA に関しての使い方
Counterfeit -v3.0 のHuggingface
https://huggingface.co/gsdf/Counterfeit-V3.0/resolve/main/images/01.png
可愛いですね👀
他の画像生成は、DALL-E や Midjourney が有名ですね。今はgenerate回数に差がありますが画像を無料で作れたりします。Midjourney はDiscordで、DALL-EはOpenAIの公式サイトでできるのでぜひやってみてください~
これまでは、画像生成や文章生成が有名でしたが、今では音声生成や動画生成も話題になっています。
https://www.youtube.com/watch?v=O_pvtTTwtaQ
https://www.youtube.com/watch?v=-0u2Ds6BMNo
少ないサンプルファイルで、好きなセリフや好きな歌を使わせることが有名な so-vits-svc がありました。
自分の歌声が他の人に変換されることで、好きな自分になれるのいいですね✨
動画生成AIは、出力するファイルサイズが大きいことや学習自体も難しいことからあまり進展されていません。と思ったら、11月30日にこういったものが発表されていました👀
https://www.youtube.com/watch?v=8PCn5hLKNu4
また、テキストから動画生成することもできると言われています。(どこかの記事にあったのですが、見つかりませんでした…)
2023/12/02 追記
ありました!こちらです
txt2mov の記事ありました。これです↓
こういった人間の伝達方法である文字や画像、動画、音声が生成できるようになってきています。しかし、すべての人間の行動をAIで表現することは難しいと言われています。フレーム問題 - Wikipedia また、各国の法律関係なども注視することも重要となってきます。
画像生成AIでは、
著作権が誰に帰属するのか?
生成した画像にリタッチしたら、リタッチした人の著作権なのか?そもそも著作権に該当するものなのか?
文章生成AIでは、
教育現場で使っていいのか?
ユーザーが使ったら、思考放棄することになるから使わないべきなのか?
人間が考える葦にならずに、プロンプト(呪文)を与えるだけのエージェントになってしまうのか?
音声生成AIでは、
死人の声を学習データに使ったら、生命に対する冒涜なんじゃないか?
悪用に使われるのではないか?
動画生成AIでは、
ディープフェイクなどのフェイクニュースや扇動的な動画を作ることがあるんじゃないか?
AI を使う上でこういった議論を必ずする必要があります。いずれにせよ、議論をしている間にもどんどん進化していく(AIが人間としてのふるまいの精度が高まっていく)ことになります。
いかがでしたでしょうか👀
2023年だけで、かなり短縮してAIに関して技術の話を書きましたがまだまだあります。プロンプトの書き方、特化型AI、AIとの付き合い方、などなど…
考えれば考えるほどいっぱい出てきますね😁
自分はこんなにもAIにいっぱい触れられる時代に生まれて本当に良かったなと思ってます。
今後はAIが自動運転とか法律関係ですぐに実行できることになる世の中だと期待しています👍
ではまた~👋