Florence-2
https://arxiv.org/abs/2311.06242Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
https://huggingface.co/spaces/gokaygokay/Florence-2Demo
https://gyazo.com/e0868c8739b7c241940dd333ba7760f1
単一の重みでキャプション生成・物体検出・セグメンテーション・OCRを行う視覚基盤モデル
FLD-5B
Florence-2の作成に使ったデータセット
126百万枚の画像、500百万のテキスト注釈、1.3億の領域テキスト注釈、3.6億のテキストフレーズ領域注釈を含む大規模なデータセット
モデル
https://huggingface.co/microsoft/Florence-2-baseFlorence-2-base
https://huggingface.co/microsoft/Florence-2-base-ftFlorence-2-base-ft
https://huggingface.co/microsoft/Florence-2-largeFlorence-2-large
https://huggingface.co/microsoft/Florence-2-large-ft Florence-2-large-ft
https://huggingface.co/HuggingFaceM4/Florence-2-DocVQAHuggingFaceM4/Florence-2-DocVQA
https://huggingface.co/blog/finetune-florence2Fine-tuning Florence-2 - Microsoft's Cutting-edge Vision Language Models
関連
KOSMOS-2
#Microsoft