随着人工智能和自然语言处理技术的不断发展,训练更强大的大型语言模型对高质量、多样化且庞大的文本数据的需求日益增长。传统的数据来源主要是网络HTML页面,虽数量庞大,但内容质量和领域覆盖存在一定局限。FinePDFs项目的诞生为解决这一难题提供了新思路,它从历年CommonCrawl的网络抓取中提取PDF格式文档的内容,打造了一个庞大且高质的数据集,为语言模型训练注入了全新的动力。FinePDFs收录了超过4.75亿份PDF文档,语言种类丰富达1733种,数据量惊人,约3万亿词元,数据体积达3.65TB,是目前公开获取的最大规模PDF文本语料库。PDF作为文档格式历史悠久,广泛应用于学术论文、法律文件、政府公文、技术手册等多个高价值领域。相比网页内容,PDF中承载的内容更加正式、专业,文字排版更为严谨,减少了垃圾信息和广告噪声的干扰。
这使得FinePDFs中的文本不仅数量巨大,更在质量和专业度上有明显优势。提取PDF中的文本数据具有巨大难度。PDF格式复杂,往往是扫描生成或排版不规范,纯文本提取效率低下。FinePDFs团队采用了先进的分层处理流程,包括首先判定PDF文档是否为可直接抽取文本的数字化文档,还是需要通过光学字符识别(OCR)技术进行图像文字识别,针对不同类型采用不同技术路径,大幅提高了提取效率和准确率。同时,融合了机器学习模型自动识别截断PDF并从源网站重新下载完整文档,减少数据丢失。FinePDFs使用了多种开源与自研工具,如Docling库和RolmOCR系统,结合PyMuPDF进行页面布局分析,采用模型推断过滤重复、垃圾内容及低质量文本。
文本预处理阶段包括消除页眉页脚重复数据、修复编码异常、剔除格式异常表格行列等,确保数据整洁性和训练效果。语言识别上,FinePDFs利用GlotLID工具逐页判断文本语言并赋予置信度分值,对多语言混合(code-switching)问题进行了精细处理,保留主体语言占比过半以上的文档,满足不同语言模型的需求。在数据安全和隐私保护方面,该项目重点对电子邮件地址和公网IP地址进行了匿名化处理,同时为涉及个人可识别信息(PII)的数据提供了移除渠道,保障数据合法合规。FinePDFs的数据集开放采用ODC-By 1.0开源协议,完全透明且可复现,支持学术研究和工业界模型训练结果的可验证性。FinePDFs对于提升大型语言模型的训练质量具备独特优势。首先,PDF文档多为学术法律等专业内容,语言表达严谨精准,有助于模型理解复杂知识和领域术语。
其次,PDF文档长度普遍较长,有利于训练具备长文本理解能力的模型。其训练效果已接近当前最先进的网页混合语料SmolLM-3 Web,并且在与网页数据混合训练时,实现了显著性能提升,尤其在阅读理解、推理和专业知识问答等任务上表现突出。多语言覆盖方面,FinePDFs囊括了超过1700种语言及文字,远超传统网页语料库,使得模型在多语种理解和跨语言任务中受益显著,特别是汉语、法语、阿拉伯语、俄语等高资源语言数据丰富。FinePDFs为后续深度学习与自然语言处理研究打开了新天地。它拓宽了训练语料的边界,由单一网页文本拓展到高度结构化、领域丰富的PDF文档。这不仅提升了数据多样性和模型泛化能力,也为检测和处理PDF特有的文本结构、格式和内容创新了方法。
未来,FinePDFs将继续优化处理流程,注重教育和科研内容的精细筛选,发挥其在专业领域模型训练的潜力。此外,项目组还计划将数据覆盖拓展至更多文档格式,进一步加深对非网页文本资源的探索。综上所述,FinePDFs作为目前最大规模的公开PDF文本语料库,通过创新的技术手段和严谨的数据处理流程,实现了3万亿词元的高质量文本释放。它极大丰富了语言模型训练的数据源,推动了多语言、多领域大型语言模型的性能提升。随着开源代码和数据的持续完善,FinePDFs必将在自然语言处理领域发挥长远且深远的影响,助力人工智能迈向更精准、更智能的未来。 。