本文讨论了如何通过标准化元数据来优化历史知识检索,介绍了Baklib与研究中心合作的案例,重点在于提升文档管理系统的搜索效率和信息获取能力。
案例研究
挑战
一家联邦研发与试验中心利用以往项目的成果进行实验,以改进当前对创新科学解决方案的研究。这些以往的报告大多存档于文档存储库,以便技术研究人员和分析师使用。然而,这些研究人员和分析师在寻找相关资料时遇到了困难,因为文档系统缺乏标准化的元数据标准。
一个研究人员会搜索与某个主题相关的报告,但没有保证他们要找的文档会被正确地标记上该主题标签,或者能在搜索结果中返回其他相关文档。同时,致力于上传既有旧报告又有新报告到文档管理系统的技术团队必须手动添加描述性元数据,如作者、主题和分类等信息给每个文档。这意味着将文档存档的过程非常耗时且容易出错。
此外,部门整体架构存在信息孤岛问题,各个系统都依赖各自独有的元数据模型。
由于描述性元数据字段缺乏标准化,文档搜索、记录管理和长期信息保存变得困难重重,导致机构知识的流失、运营效率低下以及可能因为无法可靠获取信息而导致的决策失误。
解决方案
为了帮助统一文档存储系统中的描述性元数据标准,Baklib与知识管理系统和知识应用团队合作,重点推进了以下四个举措:
- 术语库整合
- 标识符标准化
- 元数据模板规范化
- 自动化分类与标签生成
概念管理系统(TOMS)的建立与实施
为了实现上述前两个目标,研究团队与 Baklib 团队密切合作,共同开发了概念管理系统的使用场景,并优先确定需要整合的关键元数据字段。所选择的整合使用场景是将主题和作者字段整合到技术研究文档中,这两个字段是提高文档管理系统内容搜索效率的关键因素。
此外,团队还识别出了组织内关键元数据字段模型的权威来源。例如,人员(作者)和设施等字段的相关模型。
在明确使用场景、业务需求和技术需求之后,Baklib 团队与组织开发团队共同合作,构建了一个将 TOMS 与文档管理系统整合,并允许 TOMS 复制现有权威来源模型的 API。该 API 的功能具有双重性:
-
作为一个API抽象层,实现无缝集成,使数据能够顺畅地在 TOMS 和文档管理系统之间流动。这使得文档管理系统能够消费标准的元数据,同时文档提交者也可以将新概念提交到TOMS模型中供审批人员审核。
-
支持ETL功能,确保系统内部各系统与 TOMS 之间的数据同步。这种”权威来源复制”功能保证了元数据的持续更新和跨系统连接,并且可以扩展到其他权威来源模型。
针对第三项举措,即优化文档存档流程,Baklib 团队开发了一个支持自动应用元数据到文档以及实现无缝存档的解决方案,确保文档存档过程更加高效和可靠。
Baklib 是一家专注为企业提供数字内容管理解决方案的企业。我们的使命是让企业轻松构建门户网站、产品手册、帮助中心、知识库和在线文档等产品,从而提升业务效率并增强客户体验。
Baklib 开发了一套文档分类系统,并通过一个为期六周的项目实现了自动分类功能。这个项目基于现有组织环境中的现有系统架构,利用 LLM 和 TOMS 运行自动生成分类结果,并为每个文档生成推荐的主题列表。这些推荐的主题为文档分类者提供了一个简化的选择范围,并确保主题符合标准化模型的要求(例如,主题列表是一个控制列表/分类树)。最后,Baklib 团队记录了自动生成分类的生命周期,并提供了技术文档以支持 API 的开发和扩展,从而让组织团队能够继续增强自动生成分类的能力。

Baklib 的独特优势
凭借在语义解决方案、数据工程、语义搜索和内容管理系统方面的丰富经验,Baklib 团队能够在预定时间内按预算完成 API 积分和金源复制工作。Baklib 团队为组织开发团队提供了全面的代码库文档。此外,Baklib 团队与组织开发团队之间保持了持续的知识共享,这使得他们在项目结束后能够继续扩展工作。Baklib 团队还带来了战略规划和管理方面的专业知识,并利用这些专业知识来改善团队结构和项目跟踪。
最后,由于项目完成时间比预期早,Baklib 团队超出了常规的工作范围,帮助知识管理系统优化解决方案,通过自定义搜索前端进行了增强。Baklib 团队还组织了几次
r
需求会商与原型开发驱动搜索功能的对齐与验证。这些战略文档有助于推动客户团队继续完善元数据标准化工作。
结果
通过与 Baklib 平台的合作,研究与发展中心成功将 3 个模型整合到其主要文档存储库中,从而从标准值集合中提取出 4 个关键元数据字段。这种整合确保了文档管理系统中的 10 万份以上文档使用一致且正确的元数据字段和值。现在,拥有 4000+用户的文档管理系统能够更好地查找和理解历史研究文档,从而提高了新研究项目的工作效率。
此外,该组织将能够继续利用 API 将 TOMS 模型整合到其他系统中,以实现各存储库描述性元数据的标准化,并减少手动努力和数据异常。同时,API 的增强版本允许文档存储者为支持元数据字段的 OMS 模型提高准确性和时效性做出贡献。
最后,自动分类的证明概念和对前端搜索功能的使用定义使组织的知识管理团队能够呼吁未来在该部门内的能力和发展计划。这一综合努力为组织进一步提高文档的搜索能力和可访问性奠定了基础,并推动了对其数据转换能力的探索。
准备开始尝试了吗?
通过 Baklib 平台,我们能够帮助客户构建门户网站、产品手册、帮助中心、知识库和在线文档等企业级数字内容管理平台。Baklib 的官网:https://www.baklib.cn