DeepSeek-OCR

https://gyazo.com/22d21acf863498e4725ee16e34ec9f0e

テキスト情報を画像に圧縮し、それを復号(OCR)する

OCRが目的ではなく、テキストを視覚トークンにすることで計算コストを抑えるoptical compression(視覚的圧縮)の実証

ocr性能が(サイズに対して)普通に優秀ではあるのもあってOCR重視のモデルがでたのかなーと思ってたら寧ろ逆(OCR性能が性能向上のための副産物)だった…morisoba65536.icon

基本的にはこういった「テキストをそのままトークンに持つよりも、画像トークンにして持つほうが効率よくね？」という検証のため作られたモデルのようだ。多分チャット履歴をテキストとして持つより画像として入力するほうが総トークン数が少なくなる？

そもそもテキストをテキストとして扱わずに、保存も理解も画像のまま行うLLM?が出てきたりするんだろうかnomadoor.icon

これがうまくいくなら今後のllmはチャット履歴を文字の書いたレンダリング画像として保存するんだろうけど、lI1|とか0O辺りはフォントが悪いと人間も普通に間違えるのでllmが勘違いしないフォントは冗談抜きで必要になりそうな気はするmorisoba65536.icon