文脈理解を並列で行うことで従来モデルを凌駕する精度と速さを実現していることは理解しました。これを文章ではなく、画像や音声といったデータに応用する場合はどんな仕組みになっているのかをもう少し詳しく易しく教えてほしいです。