Linguitone: 音色の言語表現を用いたエレクトリックギターの音作り支援システム

◎小林篤矢, 徳井直生（慶應義塾大学）

エレクトリックギターの演奏において重要なスキルの一つであるエフェクトペダル等を用いて音色を変化させる「音作り」には，音色の特徴を表すのに独特な言語表現が用いられる．そのため，初心者は音色の言語表現と実際の音像が結び付かず，具体的な音をイメージしエフェクターを用いて音を作ることが難しい．本研究では，音色の言語表現から音作りを支援するシステム Linguitone を提案する．当システムの開発にあたり，ギタリストへの事前アンケート調査，ギターの音色の言語表現のデータの収集，データセット作成用インターフェースの作成，自然文の分散表現からエフェクトのパラメータを予測する機械学習モデルの構築を行い，Web ブラウザで動作するインターフェースを開発した．さらに，開発したシステムに対してはギター奏者を被験者としたユーザビリティと音作りの支援性，創造支援性の評価を実施した．

https://cclab.sfc..keio.ac.jp

http://id.nii.ac.jp/1001/00210170/

https://www.youtube.com/watch?v=rVBiaRbN19U

非常に便利なシステムだと思います．ギター経験者ですが，音色表現句よりも具体的なサウンドのリファレンスを基に音作りができるようなシステムだとさらに便利だと思いました．個人的にはあまり音色表現句が思いつかないので，あの曲のあの音みたいな感じというような指定がしたいなと．（平井・駒大）

(小林) ありがとうございます。そのようなフィードバックは被験者からも実はいくつか得ているのですが，一種の固有名詞に紐づくような具体的なサウンドは，既存のマルチエフェクターのプリセットが優れているのでLinguitoneのアプローチでの対象ではないかなと考えています。事実として，BOSS GT-100 等のマルチエフェクターには，多くの著名な他社製品のモデリングエフェクトが収録されており，説明書には「1969 XPERIENC—1969 年ウッドストックの頃のサイケデリック・ロック・サウンドです。ファズを使用した激しい歪みが得られます。」(1969 年ウッドストック公演でのジミ・ヘンドリックス・エクスペリエンスのパフォーマンスを指していると思われる)や「MinneapolisFNK—非常にクリーンなリズム・カッティングに最適なサウンドです。」(プリンスの作り出したミネアポリス・サウンと呼ばれるトーンを指していると思われる)などとあります。もちろん実装畳難しいというのもあるのですが，Linguitoneによって得られる事を目指すスキルは，「もう少し滑らかな歪みで，丸みの帯びたトーンがほしい」5などのコメントがバンドメンバーや他のギタリストからあった際に，自身の感覚で適切なパラメータを操作できるようになることだと考えています。

（都立大安藤）となると、「プリセットをバンドサウンドに合わせて変更する必要に迫られた時に、言葉でパラメータを動かす方向と動かす量を指定したい（少なくとも「提案」まではして欲しい）」が目標なのでしょうか？

（小林）具体的な手続きの例として挙げましたが，本質的な目標は，自然言語での表現がどのような音像に紐づくか，それらの音像はどのようなエフェクターのどのようなパラメータが司っているのか，を認識するスキルを養うもしくは補助するということです。

（都立大安藤）駒大・平井先生、音を与えてギターエフェクタのパラメータ探索だと、手前味噌ではありますが、こんな研究をやっていました。https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=207738&item_no=1&page_id=13&block_id=8

（小林）ありがとうございます。有山さんと安藤さんの研究はいくつか見させてもらっています。オーディオドメインでの機械学習によるアプローチを行うほうが本質的ではあるのですが，私自身のリアルタイム信号処理力が無く諦めていたというのが正直なところです。紹介いただいた研究も読みます。ありがとうございます！

（都立大安藤）エレキギターの音色と感性語の結び付けは、芸大の北千住の丸井先生がやっていらっしゃったので、そちらもご参考にされると良いかと思います。

（小林）ありがとうございます。マギル大での時の研究でしたら，卒論では引用しています。ハードウェアのラックエフェクターに対してMIDIで制御をするという発想が無く，早く出会っていればよかったと思いました…ハードウェアエフェクターのハックにも手を出したい所存です。

各種音色パラメータのプリセットが言語表現（形容詞）になったと．アリだなぁ．でも一方で，用意された形容詞からプリセットされる音色パラメータって全然納得行かないのは自身の語感と合わないからか（橋田：福公大）

（小林）ありがとうございます。個人によって語感が異なるというのは絶対にそうだと思うので，データ作成時のアノテータの数を増やすなどの工夫をして，今の手法だと数で解決する他無い気もします。

ギターの種類，弾き方，奏法などがすべてバイアスとなってしまうので，どのような環境でも同様に機能させるような工夫の余地があると思いました．DNNのインプットにユーザの環境に関するパラメータを入れるとかですかね．（平井・駒大）

（小林）まさしくそのとおりです。ストラトキャスターとレスポールでは異なる音になることは明確です。また，エフェクターだけでなくアンプとスピーカーの違いや音量などによっても大きく異なります。本研究では，データ作成から被験者による評価実験まで一貫してシングルコイルピックアップとハムバッキングピックアップ両方搭載しているギター(Telecaster Custom)を用いて，ピックアップセレクターをセンター(両者のミックス)にしてデータ作成と検証を行いました。集められるデータに限りがある中で正しいパラメータ推定のモデルを構築するためこのような対処をとりましたが，本来ならピックアップの位置 × ピックアップの種類の組み合わせも，出音の印象からの推測対象に含めるべきです。Linguitone の機能として実現するならば，例えば「丸くて太いクリーントーン」という入力に対してエフェクターとアンプのパラメータの推測に加えてエレクトリックギターのピックアップセレクターのセッティングも同時に提案してくれるようなものだと考えます。

小林さんの研究ほどしっかりした研究ではないですが、うちの研究室で以前こういう研究をしていました。少々関連すると思いますので、紹介させていただきます。 http://wimp2019.bcu.ac.uk/papers/WIMP2019_paper_7.pdf （北原）

（小林）ありがとうございます。読まさせていただきます。

(長嶋)この手の研究はぜひ、日本音楽知覚認知学会で発表して下さい。音楽感性語と音響との関係の専門家に突っ込んでもらって欲しいです。あと、いくらエフェクタで作れても、まず元々の対象ギターは何なんでしょうか。ストラトキャスターとレスポールで同じ土俵にはならない気がします。

（小林）Linguitoneの研究は感性工学・HCI寄りであると考えていますが，ヒトの認知に対して音響とことばの2つの側面からアプローチをかけられる良い対象だと考えています。