KOSMOS
Microsoftがマルチモーダル大規模言語モデル(MLLM)のKOSOMOS-1を発表(KOSMOS-2,3を見据えてる感、音は今後つけるっぽい)。
様々な自然言語タスクに加えて、視覚的対話、視覚的説明、視覚的質問応答、画像キャプション、単純な方程式計算、OCR、画像分類を行える。 bioshok(INFJ)
https://gyazo.com/9cb2041632bb1b4dce57ed1313d181a7https://gyazo.com/c5d16c9d26edd3b16383a71e4d36e796https://gyazo.com/a99d27b665964b763d30114de88bb1f3
LLM