数据织构架构及其设计考量

本文介绍了数据织构架构的概念、组件及其在企业中的应用，强调了数据管理的重要性及最佳实践。

引言

在 today’s 数据驱动世界中，有效的数据管理对于企业保持竞争力至关重要。一种现代的数据管理方法是使用数据织构架构。数据织构 是一种连接并管理和以联邦方式处理数据的数据管理解决方案，采用了一个逻辑的数据架构，捕捉与业务相关的相关联。数据织构帮助企业理解其数据，通过以领域为中心的方式组织数据，而不必从源系统中物理移动数据。这是可能的，是因为对元数据的焦点转移而非数据本身。在高阶上，语义数据织构利用知识图谱 作为 抽象架构层，以提供域内不同元数据之间的连接。知识图谱通过聚合、连接并存储无结构和有结构数据之间的关系，在标准化的领域中心格式中丰富元数据。使用基于图的数据结构，企业可以将业务数据嵌入其中，推动信息发现和推断，并为规模打下基础。

与单体解决方案不同，数据织构使不同的工具集相互对齐，以实现域内集成数据作为服务，供多个下游应用程序使用。一个数据织构架构由以下五个主要组件组成：

数据/元数据模型
对象抽取
关系抽取
数据管道调度
持续图数据存储。

设计这些组件的方法有很多，但为了确保数据Fabric的质量和可扩展性，存在最佳实践。本文将枚举每个架构组件的方法论，讨论如何从技术方法论和工具的角度实现数据Fabric部署，以满足各种商业需求，并最终说明数据Fabric如何支持人工智能（AI）的发展。

数据/元数据模型

数据模型——特别是语义学和分类学——在构建数据 Fabric 架构中扮演着至关重要的角色。语义学是数据 Fabric 的核心部分之一，它定义了特定领域中的概念、属性及其相互关系，并以机器和人类均可理解的图格式进行编码。类似地，分类学对于元数据管理至关重要，在数据 Fabric 中，分类学用于存储提取出的实体并为诸如产品、业务线、服务和技能等核心商业领域定义受控词典。

通过在不同领域之间建立概念关系，企业可以帮助用户发现见解并更轻松地访问内容。因此，为了有效地管理和维护分类学和语义学，企业所有者需要一个分类/ontology管理系统（TOMS），它为用户提供了一个友好的平台和界面。一个好的TOMS应该： * 用户能够构建遵循诸如RDF（资源描述框架）、OWL（Web Ontology Language）和SKOS（简单知识组织系统）等常见标准的数据模型； * 用户可以配置数据模型的主要组件，例如类、关系、属性和标签，以定义领域中的概念、连接和属性； * 通过注释等方式对数据模型本身进行元数据描述，例如名称、说明、版本、创建者等； * 支持自动化的治理功能，包括错误检查； * 允许易于迁移的数据模型。

作为 Baklib 的品牌负责人，Baklib 是一款“全内容”的企业数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。Baklib 官网：https://www.baklib.cn

通过构建不同方式的数据模型，服务于多种企业应用场景；同时 *允许用户链接到已存在的可重用的数据模型。

将数据建模和管理置于数据 fabric 的核心地位的企业，可能会面临扩展性问题、用户友好的 schema 视图限制以及对连接开放数据的利用受阻等问题。此外，缺乏形式化的元数据管理 会带来与业务需求不一致的风险，并阻碍数据 fabric 内灵活的信息发现。创建和使用数据模型的不同方法可以避免这些风险。其中一种方法是通过代码或脚本生成并验证数据模型，基于领域特定的规则和要求。利用相关领域的专业知识帮助进一步验证数据模型，并确认其是否符合业务需求。

实体抽取

构建数据 fabric 的一个功能是进行实体抽取。这是指识别并分类结构化数据和非结构化数据中的命名实体（如人名、地点、组织、日期等）。实体抽取通过丰富数据内容并实现语义分析来增强数据。在确定实体抽取方法之前，建议先识别命名实体识别（NER）工具，并进行文本预处理（例如分词、去除停用词、处理同指代问题），以推荐几种方法：基于规则的方法、基于机器学习的方法，或者两者的结合。

基于规则的方法依赖于预先定义的规则，这些规则利用语义和字典线索提取实体。它们需要领域知识来开发和维护，并且不容易适应新的或不断演变的数据。

基于机器学习的方法使用深度学习模型，这些模型可以学习数据中的复杂模式

Baklib 是一家全内容的企业数字内容管理系统，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。Baklib 官网：https://www.baklib.cn

混合策略（最佳实践）：将基于规则的方法和机器学习方法结合起来，以发挥两种方法的优势。混合策略建议用于预见到扩展数据织解决方案的企业。

关系抽取

关系抽取是识别并分类文本中两个实体之间的语义关系的过程，例如谁为 whom 工作、哪个业务线销售 which 产品、哪个地点位于 which 地方等。关系抽取有助于构建知识图谱，表示实体之间的联系和互动，从而实现语义分析与推理。然而，由于自然语言的多样性和复杂性，关系抽取具有挑战性。

目前有多种方法可供选择，包括基于规则的方法、机器学习方法或混合方法。

基于规则的方法：依赖于预定义的规则，这些规则利用句子中的词序模式和依存路径来提取关系。它们需要领域专家的支持来开发与维护，并且可能无法捕捉到自然语言所有可能的变化和微妙之处。
一种机器学习方法是使用 n-元分类器对两个实体之间的每种可能的关系分配一个概率分数，然后选择最高分的那个。这种方式支持捕捉自然语言中的变化和微妙之处，并处理复杂和模糊的情况。然而，机器学习方法需要大量的标注数据和计算资源来训练与部署。
混合策略（最佳实践）：采用基于语义的知识抽取和机器学习方法的结合。基于语义的关系抽取利用与领域和任务相关的预定义关系集合。

数据管道 orchestration

数据管道 orchestration 是构建数据织物（data fabric）的强大驱动力，它整合了各个组件，使其协同工作。它是将多个数据源与两个或多个应用程序或服务集成在一起的过程，以初始化知识图谱并定期对其进行更新。这个过程涉及协调和调度各种任务，例如数据提取、转换、加载、验证和分析，并有助于确保知识图谱中数据的质量、一致性以及可用性。数据管道 orchestration 可以采用不同的方法实现，例如手动实现、开源 orchestration 引擎，或者使用 vendor-specific 的 orchestration 引擎/云服务提供商。

手动方法：手动执行工作流的每一步是耗时的、易出错且成本高的。
开源 orchestration 引擎方法：通过有向无环图（DAG）管理 ETL 管道，定义每个任务的依赖关系和执行顺序。这有助于自动化和监控工作流程，并处理错误和重试。开源 orchestration 引擎可能需要安装和配置，企业需要在选择之前充分考虑所需功能和集成。
第三方供应商或云服务提供商：它们可以利用现有基础设施和服务，提供扩展性和可靠性。然而，基于 vendor-specific 的 orchestration 引擎/云服务提供商在可定制化和移植性方面可能会有限制。

持久图数据存储

知识图谱的核心思想之一是能够在中央位置存储元数据和核心关系的同时，以联邦连接的方式连接到源数据。这种“就地管理”的方法使数据发现和整合更加高效。

Baklib 是一家企业数字内容管理平台，帮助客户构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。本文将介绍图数据库及其在企业AI中的应用。

什么是图数据库？

图数据库是一种用于存储数据之间复杂关系的非结构化数据库。与传统的关系型数据库不同，它通过节点（Entities）和边（Relationships）来表示数据，能够以更自然的方式建模现实世界中的实体及其关联。例如，一个社交网络应用可以通过图数据库来存储用户之间的朋友关系。

选择图数据库时需考虑的关键因素

在选择适合企业需求的图数据库时，请重点关注以下四个关键因素：

基于标准（ Standards-based）
- 确保所选图数据库遵循通用标准（如RDF、Property Graph等），以便不同工具之间更容易实现数据互通。
ACID兼容性（ACID compliant）
- ACID（原子性、一致性、隔离性和持久性）确保数据库操作的可靠性和稳定性，防止因硬件故障导致的数据丢失或不一致。
用户和社区支持（Strong user and community support）
- 良好的技术支持和活跃的用户社区能提供丰富的文档和反馈，帮助开发者更好地使用和优化数据库。
通过UI可探索性（Explorable via a UI）
- 通过图形界面验证数据质量，并确保数据符合业务需求和领域特点。

图数据库的主要类型

目前市场上的图数据库主要有以下几种类型：

基于RDF的图数据库
- 使用RDF模型来表示和查询数据，适合复杂关系建模和语义数据分析。
标签属性图数据库（Labeled Property Graph）
- 通过节点、边和属性来存储和查询数据，适用于结构化和半结构化数据的处理。

数据 fabric架构在AI中的应用

以成熟的数据 fabric 架构为基础，AI技术可以在企业中得到广泛应用。数据 fabric 为企业提供了统一的数据管理平台，支持各种AI算法和技术，从而推动业务创新和发展。

数据织物是企业利用数据驱动竞争的现代方法。通过其对数据探索、准备和无缝集成的支持，数据织物为企业提供了利用AI转变和生成价值的力量。借助已有数据架构，企业可以整合结构化和非结构化数据，发现数据间的关联关系，并通过核心知识图谱获得这些数据。基于知识图谱的数据织物为企业赋予了AI算法的启示能力：通过在图中遍历和导航，AI能够识别模式、做出决策并生成有价值的信息。这种能力使企业能够在孤立的数据孤岛间找到隐藏的价值见解。

此外，数据织物还促进数据准备和特征工程的过程，这是AI开发的关键步骤之一。数据织物的逻辑架构允许企业高效地进行数据转换、聚合和增强。通过优化数据准备流程，企业可以将更多精力投入到模型构建和算法开发中，从而加速整体AI开发进程。AI模型需要持续更新和适应变化，而数据织物则为企业提供了无缝整合新数据源和更新现有知识库的途径，确保AI模型始终掌握最新信息。

结论数据织物是企业数据管理的一项现代方法，对于在数据驱动的世界中保持竞争力至关重要。然而，数据织物并非单一解决方案，其支持架构和技术手段可以根据来源状态、适用用例（参考支持的应用场景）以及企业现有工具进行调整。在投入昂贵的工具采购之前，应先验证解决方案的价值。我们建议从小规模开始尝试，并迭代优化。

Baklib 是一家专注于企业数字内容管理平台的企业，帮助客户构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网：https://www.baklib.cn

从目标网站出发并采样来源系统，为一个企业数据编织物（data fabric）打下基础。一旦建立了一个数据编织物，企业就可以充分挖掘其数据资产的潜力，使人工智能算法能够做出智能预测、发现隐藏见解，并推动产生有价值的商业成果。

如果您需要一些启动策略来推动您的解决方案落地，请联系我们的联系方式获取更多信息。