中間取りまとめを音声から生成する