生成AIとゴールのないモーフィング
from 2024/09/18
生成AIとゴールのないモーフィング
生成AIの生み出す動画のサイケデリックさ、音楽にもどうにか活かせないかな。誰かやってんのかな。
直前との類似によって形を変えていくイメージが常に再解釈されて別のものに変化していくって、むちゃくちゃサイケだよな。無邪気。
聞こえていたギターのメロディの音色がシームレスに変化していき、サックスのような音に変わる、どこまでがギターと言えて、どこからがサックスと言えて、その先には何があるのかわからない。みたいな感じで生成AI的に音色を変化させることをイメージしている。
ゴールのない音色のモーフィング。生成AIというかモーフィングだな。
去年のソニマニのFlyloのVJがそのサイケさを完全にモノにしてて面白かった記憶があるnozakimugai.icon
最近のVJ、生成AIを使ったサイケなやつ流行ってますよね。確かにソニマニのFlyloもそんな感じだった気がします!
長谷川白紙のVJとかも生成AIモーフィングでキモいサイケなやつがあった気がする。
2025/03/01
モーフィングがキモいのは、生命的な見た目ではないのにミクロには生命ぽい動きをしているところにあるんじゃないかと思う。
AIの生命的な働きとしてはハルシネーションがアツいのでは。オシレーター的に考えると、自分が吐き出したオシレーター波形をひたすらリサンプリングして行くとかすれば、アルゴリズムによってはひたすらにハルシネーションしていくシンセとかできるのかな。
generative musicみたいな界隈のやり方とか学ぶべきかも。
Abletonにまとまった記事があった。助かる。
AIと音楽制作:現段階の状況
音色変換:新しい音を探求
AIのような先鋭的な新技術を考えるとき、ワイルドで新しい音や質感を想像するのではないでしょうか。 MIDI では決してそこまで辿り着けません。 そのためには、オーディオの領域に目を向ける必要があります。
“ニューラルシンセシス”という新興分野でにおいて、音色変換は最も有力な技術の一つです。 簡単に言うと、音色変換とは、入力されたオーディオを別のものに聞こえるようにすることです。 声がバイオリンになり、ドアのきしみがアーメンブレイクに変換します。
どんな仕組みになっているのでしょうか? IRCAMのRAVE (“Realtime Audio Variational autoEncoder”)のような音色変換モデルは、ふたつのニューラルネットワークが連携して動作するのが特徴です。 ひとつは受信したオーディオをエンコードし、特定のパラメータ(ラウドネスやピッチなど)に従ってキャプチャします。 この記録されたデータを使って、もう一方のニューラルネットは入力の再構築(またはデコード)を試みます。
オートエンコーダが出力する音は、学習させたオーディオに依存します。 フルートの録音で学習させた場合、デコーダはフルートのような音を出力します。 ここから“音色変換”の出番です。 フルートを学習させたエンコーダに人間の声を聞かせても、まだフルートの音が出力されます。 しかしその結果に、声の輪郭とフルートの音色という奇妙な融合が生まれました。
音色変換は、すでに数々のプラグインで利用可能ですが、まだ大衆向けに発表されたものはありません。 おそらく最もアクセスしやすいのは、無料でダウンロードできるQosmoのNeutoneプラグインで、数多くのニューラルシンセシス技術をDAW上で試すことができます。 これには、RAVEや、他の音色変換方法、DDSP(Differentiable Digital Signal Processing)と呼ばれるものも含まれます。 DDSPは、エンコーダ技術と従来のシンセサイザーに搭載されていたDSPを組み合わせたようなものです。 学習させることが簡単で、入力オーディオがモノフォニックであれば、より良い音を出力することができます。
音色変換技術は、ここ数年の間に発売されている楽曲への導入が進んでいます。 初期の例で言うと、Holly Herndonのアルバム『PROTO』に収録されている“Godmother”は、パーカッシブなトラックで、プロデューサーJlinが、音色変換モデルに人間の声を学習させ、通したものです。 その結果、奇妙なディテールに満ち、粒子の粗い芸術的な、どこか薄気味の悪いビートボックス演出が生まれました。
“Godmother”は、まるで新しい音の風景を感じているような探索的な性質を持ちます。 これは、音色変換を用いて作られた音楽に共通する性質です。 『A Model Within』では、プロデューサーのScott Youngが、まさにそのような性質を持った、実験的な5曲を披露しています。 それぞれがNeutoneの異なるプリセットモデルを探求し、人間と機械間の奇妙な相互作用を表現しています。
AIツールに出会う前から、多忙な日々を送るYoungは、楽曲生成のアプローチの仕方に興味がありました。 彼が音楽制作を始めた頃に振り返ります。「1ヶ月かけて曲を作っていました。 それはとてもロマンチックでした。 でも、香港での生活では、それを続ける余裕がなかったんです。 そこで、徐々にReaktorのジェネレーターに順応していき、シーケンスを作り、それらをつなぎ合わせるようになりました」
昨年、ミュージシャンのEamesは、生成AIで物事をさらにスピードアップできると述べました。 Youngは探し求め、RAVEに出会いましたが、過去にソフトウェア工学の経験があるのにもかかわらず、動作させるのに苦戦しました。 そこで彼はNeutoneを見つけたのです。 「プリセットモデルがとても印象的だったので、さっそくこれを使って曲作りを始めました。 結果は驚くべきものでした。 出力がすごく生き生きしているんです」
AIツールをめぐる典型的な懸念は、音楽制作から創造性を奪ってしまうのではないかということです。 Youngの音色変換経験は、その逆でした。 音色変換モデルは、少なくとも今は、不安定です。 音質が不安定で、入力に対し、予測不可能な反応をします。 Youngにとって、この予測不可能性は、退屈だった音楽制作の習慣から抜け出すための道しるべとなったのです。 「制作過程では、思いもよらない偶然がもたらす幸運の可能性を重視しています。というのも、毎回何を演奏するかによって出力を予測できるものでもないからです」
いったん素材が生成されても、それを組み合わせて魅力的な楽曲に仕上げる必要があります。その作業は、かつてのジャズライブ録音を編集する作業に似ている、と彼は例えました。 「この生成的なアプローチを使うとき、人間の作り手として重要なのは、どこを切り取り、箇所をつなげて、私たちの心に響くような意味のある作品にすることを、知ることです」
Youngは、EPの中で最も奇妙な曲“Crytrumpet”で、赤ん坊の娘の泣き声を録音し、トランペットを学習させたモデルを通しています。 このような瞬間が、AI技術の妙味をうまく表しています。 しかし、プラグインにおけるAI適用の可能性は音色変換だけではありません。
3月、Steinmetzは、QosmoのAndrew Fyfeと、 the Audio ProgrammerのプラットフォームでNeural Audio Plugin Competition を共同主催しました。 この大会では、最も印象的な作品に賞金を与えることで、技術革新を促進させることを目標としていました。 「プラグイン内にニューラルネットワークを作成するというのは、まだ確立されていなかったんです」Steinmetzは言います。 「より多くの人にこの空間で働いてもらう方法がありました。なぜなら、ここではやるべきことがあり、そしてそれは本当に影響力のあるものになるはずだからです」
応募された18作品の中には、コンプレッサーなど従来のエフェクトに神経を使うものや、MIDIを使った生成的なツールを提案するものがありました。 さらに驚くべきアイデアもありました。 サウンドデザインツールVroomは、文章指示を使って単音を生成することができます。 HARDは、ふたつのトラックのハーモニーパートとリズムパート間、それぞれに対しクロスフェードを有効にできる斬新な“オーディオリミキサー”です。 全員がそれぞれのコードをオープンソース化することが求められ、Steinmetzは将来のプラグイン設計者がこの仕事を基に前進してくれることを期待しています。 彼は、“今回のトピックに関心を持つ人々のムーブメント“が始まる、と見ています。