类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年12月21号 14点49分36秒

FinePDFs:释放3万亿优质PDF文本,推动语言模型训练新时代

山寨币更新去中心化金融 (DeFi) 新闻

钱财 qian.cx

FinePDFs是一项开创性的项目,致力于从PDF文档中提取海量高质量文本数据,总计达到3万亿词元规模,涵盖超过1700种语言。它为自然语言处理领域带来了丰富且多样的训练资源,极大地提升了大型语言模型的性能和多语言适应能力。

随着人工智能和自然语言处理技术的不断发展,训练更强大的大型语言模型对高质量、多样化且庞大的文本数据的需求日益增长。传统的数据来源主要是网络HTML页面,虽数量庞大,但内容质量和领域覆盖存在一定局限。FinePDFs项目的诞生为解决这一难题提供了新思路,它从历年CommonCrawl的网络抓取中提取PDF格式文档的内容,打造了一个庞大且高质的数据集,为语言模型训练注入了全新的动力。FinePDFs收录了超过4.75亿份PDF文档,语言种类丰富达1733种,数据量惊人,约3万亿词元,数据体积达3.65TB,是目前公开获取的最大规模PDF文本语料库。PDF作为文档格式历史悠久,广泛应用于学术论文、法律文件、政府公文、技术手册等多个高价值领域。相比网页内容,PDF中承载的内容更加正式、专业,文字排版更为严谨,减少了垃圾信息和广告噪声的干扰。

这使得FinePDFs中的文本不仅数量巨大,更在质量和专业度上有明显优势。提取PDF中的文本数据具有巨大难度。PDF格式复杂,往往是扫描生成或排版不规范,纯文本提取效率低下。FinePDFs团队采用了先进的分层处理流程,包括首先判定PDF文档是否为可直接抽取文本的数字化文档,还是需要通过光学字符识别(OCR)技术进行图像文字识别,针对不同类型采用不同技术路径,大幅提高了提取效率和准确率。同时,融合了机器学习模型自动识别截断PDF并从源网站重新下载完整文档,减少数据丢失。FinePDFs使用了多种开源与自研工具,如Docling库和RolmOCR系统,结合PyMuPDF进行页面布局分析,采用模型推断过滤重复、垃圾内容及低质量文本。

文本预处理阶段包括消除页眉页脚重复数据、修复编码异常、剔除格式异常表格行列等,确保数据整洁性和训练效果。语言识别上,FinePDFs利用GlotLID工具逐页判断文本语言并赋予置信度分值,对多语言混合(code-switching)问题进行了精细处理,保留主体语言占比过半以上的文档,满足不同语言模型的需求。在数据安全和隐私保护方面,该项目重点对电子邮件地址和公网IP地址进行了匿名化处理,同时为涉及个人可识别信息(PII)的数据提供了移除渠道,保障数据合法合规。FinePDFs的数据集开放采用ODC-By 1.0开源协议,完全透明且可复现,支持学术研究和工业界模型训练结果的可验证性。FinePDFs对于提升大型语言模型的训练质量具备独特优势。首先,PDF文档多为学术法律等专业内容,语言表达严谨精准,有助于模型理解复杂知识和领域术语。

其次,PDF文档长度普遍较长,有利于训练具备长文本理解能力的模型。其训练效果已接近当前最先进的网页混合语料SmolLM-3 Web,并且在与网页数据混合训练时,实现了显著性能提升,尤其在阅读理解、推理和专业知识问答等任务上表现突出。多语言覆盖方面,FinePDFs囊括了超过1700种语言及文字,远超传统网页语料库,使得模型在多语种理解和跨语言任务中受益显著,特别是汉语、法语、阿拉伯语、俄语等高资源语言数据丰富。FinePDFs为后续深度学习与自然语言处理研究打开了新天地。它拓宽了训练语料的边界,由单一网页文本拓展到高度结构化、领域丰富的PDF文档。这不仅提升了数据多样性和模型泛化能力,也为检测和处理PDF特有的文本结构、格式和内容创新了方法。

未来,FinePDFs将继续优化处理流程,注重教育和科研内容的精细筛选,发挥其在专业领域模型训练的潜力。此外,项目组还计划将数据覆盖拓展至更多文档格式,进一步加深对非网页文本资源的探索。综上所述,FinePDFs作为目前最大规模的公开PDF文本语料库,通过创新的技术手段和严谨的数据处理流程,实现了3万亿词元的高质量文本释放。它极大丰富了语言模型训练的数据源,推动了多语言、多领域大型语言模型的性能提升。随着开源代码和数据的持续完善,FinePDFs必将在自然语言处理领域发挥长远且深远的影响,助力人工智能迈向更精准、更智能的未来。。