优化历史知识检索：利用大语言模型进行内容清理

本文介绍了Baklib如何利用大语言模型和光学字符识别技术优化历史知识检索，解决文档分类中的噪声问题，以提高搜索效率和准确性。

挑战：低质量档案文献导致检索效率与知识完整性双重受损

企业知识管理平台 Baklib 近期与一家联邦资助的科研开发中心展开合作。该机构长期积累了大量档案级科学论文，但在实际研究过程中，研究人员在检索相关内容时面临严重困难：

文档数量庞大，搜索耗时过长
关键资料难以被准确检索，存在潜在的知识流失风险

关于该客户的使用场景与 Baklib 的初步应对思路，可参考《优化历史知识检索》系列文章第一篇——《通过标准化元数据增强研究访问能力》。

在本案例中，为了提升研究论文的可发现性，Baklib 的核心策略之一，是在文档元数据中引入“关于性（Aboutness）”标签，通过自动分类帮助研究人员快速定位主题相关内容。

然而，真正的挑战来自底层数据本身。

核心难点：低质量 OCR 文本严重干扰自动分类

该客户所使用的文件管理系统（DMS）中，大量文件为低质量扫描 PDF，内容包括：

打字稿
早期未数字化的技术报告
含有大量手写批注的历史文档

要实现自动分类，第一步必须将扫描 PDF 转换为机器可读文本。为此，Baklib 使用了成熟的 OCR（光学字符识别） 技术，将非文本格式转化为数字文本。

但在档案文献场景中，即便是最先进的 OCR 工具，也不可避免地产生大量噪声（Noise），主要表现为：

表格、图表或手写内容被识别为随机符号或无意义空白
随机或错误的标点符号破坏词语和句子的完整性
段落被过度或错误拆分，导致语义割裂
其他导致文本不连贯的杂项噪声

这些问题直接削弱了文本的可理解性，严重影响搜索体验和自动分类的准确性。

问题暴露：OCR 噪声直接拉低分类模型性能

在第一轮处理中，团队使用默认 OCR 能力生成文本，并将其直接输入分类模型进行标签标注。

通过对分类结果的人工检查，团队发现：

一些无关概念被错误标记
多个本应命中的关键主题却完全未被识别

进一步分析表明，文本中存在的大量杂乱与不一致，已经超出了分类模型可容忍的范围，模型难以从中提取稳定、可靠的语义线索。

这清晰地表明：必须增强系统对文档内容的理解能力，而不仅仅是“读到文字”。

解决方案：利用 LLM 为 OCR 文本生成高质量语义补充

在探索解决方案时，团队曾考虑直接清洗或重写 OCR 文本，但很快意识到：

直接修改原始文本，可能带来不可逆的信息丢失风险。

最终，Baklib 选择了一条更安全、也更具扩展性的路径：

不改变原始 OCR 文本，而是利用大语言模型（LLM）生成“补充文本”。

核心思路

LLM 擅长在不完美文本中理解上下文
可对 noisy OCR 输出进行“语义解释”
生成更干净、更连贯、适合机器与人类理解的内容摘要

团队通过精细化的 提示工程（Prompt Engineering），测试了多种摘要策略，包括：

抽取式摘要 vs. 抽象式摘要
不同长度、不同信息密度的摘要形式

同时引入人工参与的评估流程，在一组 OCR 质量极低的 PDF 样本上，对不同方案进行对比测试。

评估维度包括：

提示复杂度
摘要生成时间
人类可读性
错误与幻觉风险
以及最关键的：分类结果的精确度

这些指标直接关系到 Baklib 产品在真实场景下的可用性与稳定性。

Baklib 的独特实践：以“抽象摘要”增强分类语义

经过多轮迭代，团队最终确定了最优方案：

使用约四句话的抽象式摘要，对文档内容进行重新表述。

这一形式在多个维度上达成了平衡：

语义足够完整，既利于人类理解，也利于分类模型判断
长度适中，避免引入冗余噪声
能有效“纠偏”OCR 带来的文本失真问题

关键设计原则

LLM 摘要不是替代 OCR 文本，而是补充它
摘要作为一个新的元数据字段写入 DMS
在自动分类流程中，与完整 OCR 文本一并提交
通过调整模型配置，对新旧字段设置不同权重（优先级）

这种方式既保留了原始信息的完整性，又显著提升了语义清晰度。

结果：分类准确性与文档可访问性双提升

在分类请求中引入 LLM 生成的摘要后，系统获得了：

更清晰的上下文
更稳定的主题线索
更结构化的语义输入

与仅使用 OCR 文本相比，自动生成的 subject 标签准确度显著提升。

此外，LLM 摘要本身也被保存在 DMS 的文档元数据中，为研究人员提供了：

更直观的内容概览
更高效的浏览与判断能力
对历史档案更友好的访问体验

总结：用 AI 清理噪声，用语义释放知识价值

通过引入大语言模型，Baklib 成功将 noisy OCR 输出转化为可理解、可分类、可检索的高价值信息：

提升了自动生成标签的准确性
丰富了文档元数据结构
降低了历史档案的使用门槛
最大限度保护了原始资料的完整性

如果您的组织同样需要管理大量旧档案、扫描文献或复杂文档，不妨思考：企业知识库如何借助先进的 AI 技术，真正释放沉睡内容的价值。

👉 现在就开始，用 Baklib 打造更智能、更可访问的知识体系。

优化历史知识检索：利用大语言模型进行内容清理

挑战：低质量档案文献导致检索效率与知识完整性双重受损

核心难点：低质量 OCR 文本严重干扰自动分类

问题暴露：OCR 噪声直接拉低分类模型性能

解决方案：利用 LLM 为 OCR 文本生成高质量语义补充

核心思路

评估维度包括：

Baklib 的独特实践：以“抽象摘要”增强分类语义

关键设计原则

结果：分类准确性与文档可访问性双提升

总结：用 AI 清理噪声，用语义释放知识价值

资讯

直达客 AI 知识库平台介绍

人工智能驱动的内联网：每个团队的变革性知识管理

网络研讨会预览：打造客户喜爱的数字通信体验

高效金融知识管理：提升数据安全与团队协作的创新解决方案

赢得客户终身信任的客户支持策略

释放数据潜力：Baklib 一体化知识管理平台助力企业智能决策与创新驱动