Whisper
https://github.com/openai/whisperopenai/whisper
OpenAI開発のtext2speech,speech2textモデル
https://huggingface.co/openai/whisper-large-v2openai/whisper-large-v2
https://github.com/openai/whisper/discussions/1762Whisper large-v3
https://github.com/openai/whisper/releases/tag/v20231106v20231106
うえぞう@うな技研代表(@uezochan)
AIキャラクターとの会話、音声認識もストリーム処理にしたら相槌しなくてもスムーズに会話できるようになっちゃった......
https://video.twimg.com/ext_tw_video/1719317280348381184/pu/vid/avc1/1164x720/orz_VyOZjdUZG-ZJ.mp4?tag=12#.mp4
そういやVision Encoderとllmを組み合わせたvlmは割と見るけど音声での組み合わせ意外と見ないわね(それこそwhisperでテキスト化すりゃええやん、ということなのだろうけどそれだと口調とかそう言うニュアンス情報が欠落するなーと)