Whisper
AIキャラクターとの会話、音声認識もストリーム処理にしたら相槌しなくてもスムーズに会話できるようになっちゃった......
https://video.twimg.com/ext_tw_video/1719317280348381184/pu/vid/avc1/1164x720/orz_VyOZjdUZG-ZJ.mp4?tag=12#.mp4
そういやVision Encoderとllmを組み合わせたvlmは割と見るけど音声での組み合わせ意外と見ないわね(それこそwhisperでテキスト化すりゃええやん、ということなのだろうけどそれだと口調とかそう言うニュアンス情報が欠落するなーと)