KOSMOS
Microsoft
が
マルチモーダル
大規模言語モデル(MLLM)の
KOSOMOS-1
を発表(
KOSMOS-2
,3を見据えてる感、音は今後つけるっぽい)。
様々な自然言語タスクに加えて、視覚的対話、視覚的説明、視覚的質問応答、画像キャプション、単純な方程式計算、OCR、画像分類を行える。
bioshok(INFJ)
https://gyazo.com/9cb2041632bb1b4dce57ed1313d181a7
https://gyazo.com/c5d16c9d26edd3b16383a71e4d36e796
https://gyazo.com/a99d27b665964b763d30114de88bb1f3
LLM