Florence-2
https://arxiv.org/abs/2311.06242
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
https://huggingface.co/spaces/gokaygokay/Florence-2
Demo
https://gyazo.com/e0868c8739b7c241940dd333ba7760f1
単一の重みで
キャプション生成
・
物体検出
・
セグメンテーション
・
OCR
を行う
視覚基盤モデル
FLD-5B
Florence-2の作成に使ったデータセット
126百万枚の画像、500百万のテキスト注釈、1.3億の領域テキスト注釈、3.6億のテキストフレーズ領域注釈を含む大規模なデータセット
モデル
https://huggingface.co/microsoft/Florence-2-base
Florence-2-base
https://huggingface.co/microsoft/Florence-2-base-ft
Florence-2-base-ft
https://huggingface.co/microsoft/Florence-2-large
Florence-2-large
https://huggingface.co/microsoft/Florence-2-large-ft
Florence-2-large-ft
https://huggingface.co/HuggingFaceM4/Florence-2-DocVQA
HuggingFaceM4/Florence-2-DocVQA
https://huggingface.co/blog/finetune-florence2
Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models
関連
KOSMOS-2
#Microsoft