KOSMOS-2.5
https://arxiv.org/abs/2309.11419
KOSMOS-2.5: A Multimodal Literate Model
テキスト画像を入力として、空間的に位置付けられた
テキストブロック
や
マークダウン
形式のテキストを生成することができる
https://gyazo.com/84db7c291392937a3ad28452abf6a671
関連
Nougat
#KOSMOS
#Microsoft