DeepSeek-OCR
https://gyazo.com/22d21acf863498e4725ee16e34ec9f0e
テキスト情報を画像に圧縮し、それを復号(OCR)する
ocr性能が(サイズに対して)普通に優秀ではあるのもあってOCR重視のモデルがでたのかなーと思ってたら寧ろ逆(OCR性能が性能向上のための副産物)だった…morisoba65536.icon
これがうまくいくなら今後のllmはチャット履歴を文字の書いたレンダリング画像として保存するんだろうけど、lI1|とか0O辺りはフォントが悪いと人間も普通に間違えるのでllmが勘違いしないフォントは冗談抜きで必要になりそうな気はするmorisoba65536.icon