元数据在大语言模型中的作用

本文探讨了本体论在大型语言模型（LLMs）中的重要性，分析了它们如何协同工作以提高知识检索效率，并介绍了Baklib数字内容管理平台的应用。

在当今世界，人工智能（AI）和大型语言模型（LLMs）的能力引发了广泛的兴奋。最近的进步使得自然语言应用，例如聊天机器人和语义搜索，在组织中变得更加可行。然而，许多人不了解在AI和LLMs alongside的同时，本体论（Ontologies）扮演着多么重要的角色。人们常常问：LLMs是否取代了本体论，还是补充了它们？本体论在这一快速发展的领域中变得过时了吗，还是仍然相关？

在这篇博客文章中，我将解释你在组织的追求更好的知识检索和增强LLMs能力的旅程中，本体论持续的重要性。

定义本体论与LLMs

让我们从简要的定义开始，以确保我们有相同的背景信息。 ### 什么是本体论

图片资源已删除

本体论是一种数据模型，描述了一个知识领域，通常是在一个组织或特定的主题领域内，并为不同实体之间的关系提供了背景。例如，一个企业知识领域的本体论可以包括以下实体类型： * 客户 * 人员 * 政策 * 项目 * 专家 * 工具

本体论对每个类型的属性进行了描述，即人员的名称和项目的开始和结束日期。此外，本体论包含了不同类型之间的关系，例如人员参与项目、人员 在工具上具有专家地位，以及项目与客户的关系。

本体论定义了知识领域中的实体类型及其相互关系，为组织的知识管理提供了框架。通过使用本体论，组织可以更清晰地理解其知识库的内容，并确保所有相关知识都被纳入其中。这对于提高知识检索效率和提升LLMs的能力至关重要。

本体论与LLMs的合作

虽然LLMs在知识检索中表现出色，但它们仍然依赖于人类提供的上下文信息来生成准确且有意义的回答。然而，手动输入这些上下文信息不仅耗时，而且容易出错。这就是为什么本体论在与LLMs合作中扮演重要角色的原因。

通过定义知识领域中的实体类型及其相互关系，本体论为LLMs提供了明确的背景信息。这使得LLMs能够更好地理解用户的需求，并生成更准确和相关的回答。例如，在一个关于企业知识的查询中，LLMs可以根据本体论理解“客户”与“项目”的关系，从而提供更有针对性的答案。

此外，本体论还可以帮助组织管理其知识库。通过定义知识的结构化形式，组织可以确保所有相关知识都被纳入LLMs的训练数据中，并且在需要时可以快速检索和访问。这对于提升知识检索效率和LLMs的能力至关重要。

为什么本体论仍然重要

尽管LLMs取得了巨大的进展，但它们仍然依赖于人类提供的上下文信息来生成准确且有意义的回答。然而，手动输入这些上下文信息不仅耗时，而且容易出错。这就是为什么本体论在与LLMs合作中扮演重要角色的原因。

总结

今天的企业环境充满了人工智能（AI）和大型语言模型（LLMs）的能力，这些能力引发了广泛的兴奋。然而，理解本体论在与AI和LLMs协同工作中的作用对于组织的知识管理至关重要。通过定义本体论和LLMs的定义，我们可以更好地理解它们如何协同工作以提高知识检索效率。

无论是帮助组织构建门户网站、产品手册、帮助中心还是知识库，Baklib强大的数字内容管理系统都能有效提升知识管理和信息检索的能力。通过结合AI和LLMs，并利用本体论提供的背景信息，Baklib能够为用户提供更智能、更精准的知识服务。

Baklib 是一款全内容数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。 Baklib 的官网地址是 https://www.baklib.cn。

知识图谱中的模型

知识图谱通常采用以下模型：基于现实世界的实体及其关系数据库。例如，语义搜索（Project）由一家跨国开发银行（Client）进行，涉及 James Midkiff（Person），他是语义搜索的参与者之一。

什么是大语言模型 (LLM)

图片资源已删除

大语言模型 (LLM) 是一种经过训练理解人类句子结构和含义的模型。该模型能够理解文本输入并生成符合正确语法和语言的输出。简要说明一下 LLM 的工作原理：LLM 将文本表示为向量，称为嵌入（embeddings）。嵌入类似于数值指纹，唯一地代表每段文本。LLM 可以通过将训练集的嵌入与输入文本的嵌入进行数学比较，并找到相似性来拼接答案。例如，LLM 可以接受一个大型文档并要求对其进行总结。由于模型能够理解大型文档的意义，并将其转换为嵌入，因此可以轻松从提供的文本中提取答案。

许多开源大语言模型（如 Llama2、BLOOM 和 BERT）可供组织使用，因为开发和训练自定义的 LLM 会非常昂贵。在利用这些模型时，组织可以对其进行微调（扩展），以添加领域特定信息，帮助 LLM 更好地理解决某个领域的细微差别。微调过程成本较低且可提高模型输出的准确性。

整合语义和大语言模型

Whe

当一家企业开始利用大语言模型（LLMs）时，会遇到几个常见问题： 1. 生成幻觉：LLMs容易编造错误信息，特别是在数据不完整或过时的情况下，或者基于统计学的最佳猜测。 2. 知识局限性：默认情况下，LLMs只能回答从训练集中提供的信息和输入文本中提取的问题。 3. 难以追溯：LLMs的回答依赖于训练数据和统计数据，并不清楚提供的答案是直接从输入数据中提取的事实，还是一个猜测。

这些问题都可通过向LLMs提供与企业知识领域相关的积分方法得到解决。

基于知识图谱的微调

组织的知识领域中的事实通过ontologies进行建模，而知识图谱则将这些模型填充为实际、准确的事实值。我们可以通过这些事实来定制和微调语言模型，使其更符合组织描述和连接信息的方式。这种微调使LLMs能够回答领域特定的问题，并准确识别与该领域相关的命名实体，同时使用组织的专用词汇生成语言。

图片资源已删除

将LLMs训练于事实信息时，会遇到与原始LLMs相似的挑战：训练数据可能过时，导致回答不完整或不准确。为了解决这个问题，对LLMs进行微调应被视为一个持续的过程。需要定期更新LLMs的新鲜和相关的信息，以保持语言使用和事实准确性当前的状态。此外，还需要多样化地向LLMs输入训练材料，以确保其能够适应不同的场景和信息类型。

检索增强生成（RAG）

为了避免大语言模型（LLM）回答陈旧或不完整，采用的主要方法是检索增强生成（RAG）。RAG是一种通过从组织的知识领域中获取相关信息来增强LLM输入的方法。利用RAG，LLM可以访问其原始训练集之外的信息，从而产生更准确的答案。RAG可以从多个数据源获取信息，包括数据库、搜索引擎（如语义搜索或向量搜索)和API。RAG的另一个好处是可以为生成的回答提供来源参考。

图片资源已删除

我们的目标是利用本体论和知识图谱提取与LLM输入相关的事实，从而提高LLM回答的质量。通过提供这些事实作为输入，LLM可以明确理解领域内的关系，而不是依靠统计推断得出结论。此外，向LLM提供具体的数据和相关信息（如数值数据、其他相关资料等）会增强其应对复杂查询的能力，包括涉及计算或综合多方面信息的问题。基于组织数据的准确输入，LLM将提供从 raw 数字到 actionable insights 的验证性见解。

示例：RAG

通过结合本体论的事实和多样化的内容与数据来源，Baklib平台能够生成多样化的内容样本。这包括从组织的知识库中提取相关的事实，并构建一个训练集，以确保LLM的回答在各方面的平衡性和无偏性。

作为 Baklib 的品牌负责人，Baklib 是一款“全内容”的企业数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。Baklib 官网：https://www.baklib.cn

图片资源已删除

A 机器人界面展示用户提问及利用 RAG 加入 Stack Overflow 链接作为来源的 LLM 响应。