类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2026年02月14号 20点37分36秒

用 LLM 将扫描 PDF 转为 EPUB/Kindle:从图像到整洁 Markdown 的实战指南

加密活动与会议

钱财 qian.cx

介绍如何使用 LLM 驱动的 OCR 工作流将扫描页图像批量转为可编辑的 Markdown,并最终打包为标准 EPUB 与 Kindle 格式,涵盖工具准备、参数选择、质量优化与常见故障排查等实用方法

现代数字化读物与知识管理日益依赖可编辑、可搜索的文本格式。面对大量扫描的纸质书籍或老旧档案,如何高效地将页面图像转成高质量的电子书,既保留排版又便于后续编辑和检索,是许多个人与小型团队的实际需求。LLM PDF OCR Markdown Book 项目提供了一条可重复、可恢复且面向实用的流水线,将一组扫描页图像通过多模态大模型的 OCR 能力转成清理后的 Markdown,再合并成单一的 book.md,最后借助 pandoc 和可选的 Calibre 输出 EPUB、AZW3 或 MOBI 格式,适合作为个人电子书库或 Kindle 阅读器的源文件。工具与依赖的准备是整个流程顺利进行的前提。需要 Python 3.10 及以上版本,并安装 httpx、Pillow、tqdm、pyyaml 等依赖以支持异步请求、图像处理和配置管理。必须安装 pandoc 用于 Markdown 到 EPUB 的转换,而如果需要生成 AZW3 或 MOBI 则要确保 Calibre 的 ebook-convert 已就绪。

项目的 OCR 核心对接阿里巴巴的 DashScope(即 Tongyi)多模态模型,需要设置环境变量 DASHSCOPE_API_KEY 并传入相应模型名称,例如 qwen3-omni-flash。这套组合既能利用大型语言模型的图像识别能力,也能在后处理阶段进行文本清洗、页眉页脚剔除与换行合并,显著提升可读性和编辑体验。从 PDF 转为图像是常见的前置步骤。若源文件为 PDF,建议先用 pdftoppm 将每页导出为高分辨率 PNG 或 JPG,通常以 300 DPI 或更高的分辨率导出以保证 OCR 识别质量。生成的图像文件应放在同一目录下,命名采用自然递增的数字后缀方便排序,例如 output-01.png、output-02.png。项目脚本会按自然顺序读取目录中的图像,或者通过 --from-list 参数读取按行列出的文件路径以精确控制顺序,这在处理混合来源或局部页码需要重排时非常实用。

运行主程序 ocr_md_book.py 的基本命令包含指定图片目录、书名、作者与语言等元数据。常见示例命令格式为 python3 ocr_md_book.py --images-dir ./book_images --title "书名" --author "作者" --lang zh-CN --max-width 1800 --concurrency 4 --model qwen3-omni-flash --cover ./book_images/output-001.png --out-name book --skip-ocr-existing --to-azw3 --to-mobi。关键参数需要理解其意义与影响。--max-width 会在上传前对图像做下采样以控制带宽与请求大小,但始终不放大图像以避免质量损失。--concurrency 决定并发 OCR 请求数,视 API 限制和网络条件建议从 1 到 4 之间开始调试。--skip-ocr-existing 能实现在中断后继续运行时跳过已完成的页,有助于长任务的可恢复性。

OCR 阶段包含若干技术细节与兼容性考量。DashScope 的不同模型对 payload 类型支持不同,有的接受 base64 编码的图像,有的要求可公网访问的 HTTPS 链接,遇到 HTTP 400 "url error" 时常常意味着所选模型不支持 base64。在此情形下可以借助 --from-list 参数传入已上传到公共存储的图像 URL,或切换到支持 base64 的模型。脚本内部会自动根据模型做多种负载尝试以提升兼容性,同时记录失败的页码以便重试。图像质量直接决定 OCR 的准确率。建议在导出图像时保证清晰、充足对比和适当的分辨率,避免过度压缩或模糊。

如果扫描的原稿存在旋转问题,脚本会利用 EXIF 旋转信息做自动旋转。特殊情况下,可在预处理阶段手动裁剪或去噪以提高识别率。对某些书籍来说,页眉页脚、页码与重复水印会干扰语句连贯性,脚本在得到原始文本后会执行轻量化后处理逻辑来删除这些噪声,并合并由硬换行产生的断裂句子,从而保证生成的 Markdown 更接近连续阅读体验而不是原始扫描的直译。生成的每页 Markdown 会被输出到 images 目录下的 _out/pages/page-0001.md、page-0002.md 等文件。这样的分页输出不仅便于逐页校对,也支持跳过已存在页面的增量处理。合并步骤会把所有页面汇总为 _out/book.md,便于统一查阅与全文编辑。

若需要在合并前人工校对某些页面,可以直接在 page-xxxx.md 文件中编辑,随后重新运行合并与打包步骤以得到最终 EPUB。对于多语言或混合语言的书籍,参数 --lang 可以用于设置 EPUB 的语言元数据,同时模型本身的识别能力决定了不同语种的识别精度,中文印刷体通常表现良好,而手写体或老旧印刷可能需要更多后期校对。打包 EPUB 使用 pandoc,因其对元数据、封面和目录的处理较为成熟。封面图片需要通过 --cover 指定其路径,若路径不存在 pandoc 会报错,因此在运行前务必确认封面文件在指定位置。生成 EPUB 后,如果系统安装了 Calibre 的 ebook-convert,可通过 --to-azw3 和 --to-mobi 参数调用它生成 Kindle 兼容格式。没有 Calibre 时脚本会记录并跳过 AZW3/MOBI 的生成步骤。

需要注意的是,转换为 Kindle 格式时可能需要对字体嵌入或封面尺寸做调整以达到最佳显示效果,Calibre 的参数灵活但也复杂,必要时参考 Calibre 官方文档以微调输出效果。性能优化涉及并发、图像大小与模型选择的平衡。并发数过高可能触及 API 限制或导致网络瓶颈;图像分辨率过高会增加上传时间与成本;模型能力越强通常调用费用越高。建议在开始大规模转换前先用 10 页左右的样张测试不同分辨率与模型的识别率,并据此选择合适的参数组合。对于需要严格保真度的学术文本,人工校对仍然是必需的步骤;但通过自动化流水线可以把人工工作量从绝大多数重复性校对中解放出来,仅对关键段落或公式进行审核。隐私与成本是部署时必须考虑的两个层面。

将图像上传到第三方 API 进行 OCR 意味着你需要信任服务提供方的隐私策略与数据处理方式。敏感文档或受版权保护的材料在上传前应评估法律风险或采用本地 OCR 方案。成本方面,多模态大模型的调用通常按字符或请求计费,长篇书籍的全文识别会产生显著支出。可行的策略包括先用更低成本或本地模型完成初步识别,再把难识别的页面提交到付费模型上,或者仅对关键章节使用高精度模型以控制预算。遇到故障时,合理的排查步骤能加快问题定位。若某些页面始终无法识别出合理文本,先手动检查图像质量并尝试提高分辨率或做简单的二值化处理。

API 返回 400 或 500 错误时,查看脚本日志获取模型对 payload 的具体响应,以确定是否为 base64/URL 不兼容或超出大小限制导致。若出现输出丢失或书籍合并失败,检查 _out 目录权限与磁盘空间。有时候细小的问题如封面路径错误或 pandoc 版本不兼容也会导致最终打包失败。对于想要更深度定制的用户,脚本提供了多个可选参数来控制页范围、文件列表与干跑模式。使用 --pages 参数可以只处理指定页码段或单页,便于局部重跑与节省成本。--from-list 支持通过文件精确控制处理顺序,并适用于起始图像来自多个来源的场景。

--dry-run 则可以在不实际调用 OCR 的前提下列出将要处理的页,便于在批处理前做检查。社区与扩展方面,尽管该项目没有明示开源许可条款,但其实现思路对个人或内部使用具有高度参考价值。替代方案包括使用本地 OCR 引擎如 Tesseract 或基于开源大模型与布局分析的自研管线。但与云端大模型相比,本地方案在识别复杂版式或表格时通常需要额外调教。未来的改进方向可以包括更智能的版面检测、对表格与公式的专门识别插件、以及与笔记管理工具(例如 Obsidian 或 Notion)的无缝集成,使得由扫描图像到结构化知识库的转化更加自动化。实际案例能帮助理解流程在不同场景下的表现。

对于一本印刷较新的中文通俗读物,使用 300 DPI 导出的 PNG,模型 qwen3-omni-flash 在一次批量运行中能达到极高的段落完整性,后处理的页眉页脚剔除逻辑将重复章节信息和页码有效清除,仅需进行少量人工校正即可生成高品质的 EPUB。对于老旧灰度扫描或带有手写批注的档案,OCR 的误识别率会明显提升,此时建议先做图像预处理去噪与增强,或保留原始扫描作为审校对照。学术书籍中存在大量公式与特殊符号,若目标是保留原始格式和准确度,应考虑将公式以图片形式保留并在正文中注释,而非盲目将其转为 LaTeX。综合来看,LLM PDF OCR Markdown Book 提供了一条现实可行的路径,将人工密集型的扫描文字录入任务自动化并降本增效。通过结合 DashScope 的多模态模型进行 OCR、利用轻量后处理提升可读性,以及借助 pandoc 和 Calibre 完成最终打包,个人与小团队可以在保留可编辑性与可搜索性的前提下,快速把大量扫描资源转为便捷的电子书与知识库材料。实践中建议先做小规模试验以确定合适的分辨率、并发与模型组合,并建立审校流程以保证最终文本质量。

对于注重隐私或预算的用户,可评估本地替代方案或混合策略,以在准确率、成本与合规性之间找到最合适的平衡。。