DeepSeek-OCR
https://gyazo.com/22d21acf863498e4725ee16e34ec9f0e
テキスト情報を画像に圧縮し、それを復号(OCR)する ocr性能が(サイズに対して)普通に優秀ではあるのもあってOCR重視のモデルがでたのかなーと思ってたら寧ろ逆(OCR性能が性能向上のための副産物)だった…morisoba65536.icon
基本的にはこういった「テキストをそのままトークンに持つよりも、画像トークンにして持つほうが効率よくね?」という検証のため作られたモデルのようだ。多分チャット履歴をテキストとして持つより画像として入力するほうが総トークン数が少なくなる?
そもそもテキストをテキストとして扱わずに、保存も理解も画像のまま行うLLM?が出てきたりするんだろうかnomadoor.icon
これがうまくいくなら今後のllmはチャット履歴を文字の書いたレンダリング画像として保存するんだろうけど、lI1|とか0O辺りはフォントが悪いと人間も普通に間違えるのでllmが勘違いしないフォントは冗談抜きで必要になりそうな気はするmorisoba65536.icon