DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCRdeepseek-ai/DeepSeek-OCR
https://huggingface.co/deepseek-ai/DeepSeek-OCRdeepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdfDeepSeek-OCR: Contexts Optical Compression
https://gyazo.com/22d21acf863498e4725ee16e34ec9f0e
テキスト情報を画像に圧縮し、それを復号(OCR)する
OCRが目的ではなく、テキストを視覚トークンにすることで計算コストを抑えるoptical compression(視覚的圧縮)の実証
latent diffusion model的な…nomadoor.icon
ocr性能が(サイズに対して)普通に優秀ではあるのもあってOCR重視のモデルがでたのかなーと思ってたら寧ろ逆(OCR性能が性能向上のための副産物)だった…morisoba65536.icon
これがうまくいくなら今後のllmはチャット履歴を文字の書いたレンダリング画像として保存するんだろうけど、lI1|とか0O辺りはフォントが悪いと人間も普通に間違えるのでllmが勘違いしないフォントは冗談抜きで必要になりそうな気はするmorisoba65536.icon