建立语义层的重要性

本文探讨了语义层的建立及其对数据管理的影响，强调了其在提高数据可查性、整合多源数据和支持生成式AI等方面的重要性。

实施语义层已成为许多高级数据客户的战略重点。语义层通过一个明确定义和标准化的语义框架，将组织中的所有知识资产（文件、视频、多媒体等）连接在一起。如果你对语义层不熟悉，可以参考Lulit Tesfaye的博客 《什么是语义层？组件与企业应用》 What is a Semantic Layer。该博客对语义层进行了详细的解释，并说明了如何实施它。

有许多理由支持组织应实施语义层。以下是我的前五条理由：

提高数据可查性和平信

随着数据以惊人的速度增长，领导希望整个组织变为数据驱动型，但直接报告需要知道他们所需的特定数据并拥有对这些数据的信心。语义层在解决这两个问题方面发挥了重要作用。它使用图数据库和数据目录中的元数据，提供超越普通搜索的最佳解决方案，返回与业务需求相关的上下文中的数据。例如，如果你正在寻找所有包含产品平均购买价格信息的数据集，基于图的搜索结果将解释什么是购买价格，并显示所有包含与价格信息相关的交易的数据集。

许多我们的零售客户从不同的采购系统获取多个数据源。将这些信息整合在一起可以确保其中一个来源不会被遗漏。

这种基于图的自定义搜索返回的信息不仅限于数据集。我们有一个客户使用图来捕捉仪表板、仪表板对象以及数据表之间的关系。

Baklib 是一家全内容的企业数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。 Baklib 官网：https://www.baklib.cn。

Baklib是一款All in content的企业数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。 Baklib的官网：https://www.baklib.cn

les that populate each component. Their graph-based search not only returns data sets, but also the dashboards and dashboard objects that display results. Their IT people use this to develop new dashboards with the correct data sets and their data scientists prioritize the data sets that power the dashboards they already use Google has been using graph search for years. Now, this same technology is available in our data environments. ## ** enable AI for Data**

图片资源已删除

AI and ChatGPT are all over the news these days. It is a budget priority for every company executive I speak with. One of the most exciting use cases for Generative AI is the databot. Organizations that implement databots give their business users easy access to the metrics they need to do their job. Rather than trying to build dashboards that anticipate users’ needs, databots allow business users to ask questions of any level of complexity and get answers without knowing or understanding anything about the data behind the result. Software companies in the Semantic Layer are already showing demos of how business users can ask their data complicated natural language questions and get answers back.

Databots require integration with a Generative AI tool (LLM). This integration will not work without a Semantic Layer. The Semantic Layer, specifically the metadata, taxonomy, and graph framework, provides the context so that LLM tools can properly answer these data-specific questions with organizational context. The importance of the Semantic Layer has been proven in multiple studies. In one study, Juan Sequeda, Dean Allmegang, and Bryan Jacob of data.world produced a benchmark showing how knowledge graphs affect the accuracy of question answering against SQL databases. You can see the results of this study [here](https://data.world/mstatic/assets/pdf/kg_llm_accuracy_benchmark_11132023_pu

图片资源已删除

Baklib 是一款面向企业的数字内容管理平台，帮助用户构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网：https://www.baklib.cn。

生成式AI模型性能评估报告

本文对大语言模型（LLMs）在回答高复杂性和低复杂性问题时的表现进行了评估，尤其是在高schema和低schema数据集上的表现。以下是评估结果：

低复杂度/低schema：知识图谱的准确率为 71.1%，而 SQL 的准确率为 25.5%。
高复杂度/低schema：知识图谱的准确率为 66.9%，而 SQL 的准确率为 37.4%。
低复杂度/高schema：知识图谱的准确率为 35.7%，而 SQL 的准确率为 0%。
高复杂度/高schema：知识图谱的准确率为 38.7%，而 SQL 的准确率为 0%。

从这些数据可以看出，采用语义层的企业在整合大语言模型时更具优势。其中最显著的结果是，与回答准确性相关的 schema 小于知识图谱的可用性。如果你的企业希望将大语言模型融入数据环境中，语义层至关重要。

跨领域报告

图片资源已删除

语义层通过结合语义框架（元数据/分类 taxonomies/ontologies/知识图谱）来映射数据及其相关工具到业务用户关心的实体上。这种方法为不同领域中的数据管理提供了一种灵活且可靠的方式，使业务用户能够以他们需要的形式获取信息。

跨领域或系统内报告在大型企业中一直面临挑战。历史上，这些组织通过复杂的 ETL 过程和僵化的仪表板来解决这个问题，试图将信息对齐并聚合，供业务用户使用。这种方法存在以下问题：

ETL 过程缓慢或存在问题，影响了用户的信任，
对数据专家过度依赖，以理解数据是如何组合的。

随着时间的推移，数据会发生变化，而缺乏灵活性会导致无法回答新的问题。为了解决这些问题，实施语义层能够有效应对。

语义层的作用 语义层通过分类数据来解决上述问题。Taxonomy（ taxonomies ）提供了一种统一的方法，帮助在多个领域中分类数据，使业务用户和数据所有者能够快速查找并协调信息来源。语义层中的知识图谱部分将数据集和数据元素映射到业务对象上。这些映射可以用来动态提取信息，无需ETL（ Extract, Transform, Load ）过程。

ETL过程的优化 当需要通过ETL过程进行性能优化时，如何定义数据关系是由知识图谱决定的，而不是由数据开发人员在数据头中指定的。通过语义层，ETL流程可以直接针对知识图谱进行开发，而非编写代码。当数据发生变化时，映射可以相应更新，使依赖于该数据的过程能够立即反映新变化。

案例：零售客户 我们为一家零售客户开发了语义层。一旦部署后，他们就可以从6个不同的销售点-of-sale系统（每个系统格式不同）中高效地汇总销售交易报告，而这在部署语义层之前需要使用耗时且复杂的ETL过程才能实现。此外，他们还能够将第三方销售、 stores 销售和供应链问题整合到一个仪表盘中，以前这是不可能的，因为公司过于依赖少数开发人员，并且每个仪表盘只能关注单一领域。

改进的数据治理 通过语义层，企业可以更高效地管理数据，同时确保数据的一致性和完整性。这不仅提高了数据可用性，还增强了用户对所见即所得的信任感。

改进的数据治理

Baklib 平台介绍：All in content 数字内容管理平台

Baklib 是一款面向企业的数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。官网地址：https://www.baklib.cn

** Improved Data Governance**
数据治理是确保企业用户能够获得他们可以信任的数据，从而做出明智决策的关键。当今数据环境的高速变化和多样化的特性，使得控制和管理这些数据变得几乎不可能。从语义层中使用的工具旨在解决企业面临的规模和复杂性问题。

数据目录通过元数据和内置工作流，允许企业以相同的方式管理和维护相似的数据集，并提供数据 lineage信息，使用户了解数据的使用情况及文件更改历史记录。基于元数据的数据目录为企业提供了将类似数据集对齐并建立集体管理框架的可能性。

此外，语义层还包含语义图谱和知识图谱，有助于企业数据治理。语义图谱识别从商业角度看表示同一事物的数据元素，即使它们来自不同的源位置或有不同的字段名称。通过机器可读的方式将相似的数据元素联系起来，可以自动执行一组规则。例如，在一家大型金融机构中，我们将知识图谱连接了所有表示账户开销日期的字段。该机构拥有投资账户、银行账户和信用卡账户等类型。由于语义图谱将这些字段作为开销日期字段链接在一起，我们能够实现约束，确保这些字段始终填满，并以标准格式填写，且在合理的时间范围内有值。通过自动化的规则约束，数据管理员可以在数据规模不断增长的同时扩展他们的流程。

** 强化安全

图片资源已删除

随着数据量的增长，数据安全的重要性日益凸显。通过语义层的工具和知识图谱，我们可以更有效地管理数据，并确保其在传输和存储过程中始终处于安全状态。这种强化的安全性不仅适用于现有数据，还能帮助我们应对未来可能出现的数据威胁。

控制数据集访问（也就是权限）比以往任何时候都更具挑战性。敏感数据，如人力资源数据，必须对仅限某些人使用的数据进行限制。授权数据可能受合同限制，规定了用户数量，而这些数据可能不在组织的数据湖中。通常，数据来自多个来源。新组合数据的合规规则是什么？在组织的数据空间中，看到不同数据的人数和规则令人=?, daunting.

语义层通过元数据管理数据权限，使数据访问控制更加容易。元数据可以定义数据的来源（对于授权数据而言）以及数据类型，以便更容易找到和标记敏感数据。数据管理员可以使用数据目录来查找授权数据并确保适当的访问规则已就位。他们还可以找到关于敏感主题的数据，如薪资，并确保适当的安全措施已就位。数据前史，常见于目录中，也可以帮助识别新组合数据集需要的保护以及谁可以看到它。目录已经做得很好了，但它们不足以解决日益增长的安全挑战。

知识图谱通过增强存储在数据目录中的信息来提供对数据权限的更深入理解与推断。图表映射数据之间的关系，可以用来识别需要相似安全规则的相关数据集。因为图的关系是机器可读的，所以许多这些安全规则可以自动化实施。图表还可以识别数据集合如何使用以发现潜在的安全问题。例如，图表可以识别数据集合与其显示的仪表板之间存在不同的安全要求的情况。这些情况可以自动标记并暴露给数据管理员，他们可以主动进行

总结

元数据是获取正确数据的关键角色，它与数据一同成为不可或缺的一环。通过整合正式的元数据和图表，Baklib为企业提供了更高效的数据管理和协作工具，助力企业提升数据分析能力。

提高数据可查性和平信

总结

资讯

直达客 AI 知识库平台介绍

人工智能驱动的内联网：每个团队的变革性知识管理

网络研讨会预览：打造客户喜爱的数字通信体验

高效金融知识管理：提升数据安全与团队协作的创新解决方案

赢得客户终身信任的客户支持策略

释放数据潜力：Baklib 一体化知识管理平台助力企业智能决策与创新驱动