Zerox
ソースコード読んでみる
ブランチ
ステップ
convert_pdf_to_images
PDFを画像に変換する
processor.pdf.process_page
litellmmodel.completion
画像からmarkdown形式に変換、実質メインの処理
litellmmodel._prepare_messages
LLMに投げるためのリクエストを作成する
変換用のプロンプトは以下の感じで結構シンプル
Convert the following PDF page to markdown.
Return only the markdown with no explanation text.
Do not exclude any content from the page.
直前の出力結果があれば、それも投げてフォーマットを保持するようにする
Markdown must maintain consistent formatting with the following page:
画像データはbase64として渡す
後は作ったメッセージをlitellm.acompletionに投げるだけ
processor.text.format_markdown
LLMの出力をmarkdownに整形する
中では正規表現で簡単に置換しているだけ