超越传统机器学习：图机器学习的力量

本文探讨图机器学习（Graph ML）相较于传统机器学习的优势，分析其在数据处理和模型构建中的应用，强调图结构对复杂数据关系的捕捉能力，并提供实践指导和案例研究。

传统的机器学习（ML）工作流程已在广泛的场景中证明了有效性，从图像分类到欺诈检测。然而，传统 ML 仅让模型推断数据点之间的关系，这可能限制其完全捕捉数据内复杂结构的能力。在企业环境中，数据通常跨越多个交织在一起的系统——如客户关系、供应链和产品生命周期——传统的 ML 方法可能会显得不足，因为它可能遗漏或过于简化那些推动客户行为、产品交互和风险因素的关键联系。相比之下，图方法允许这些关系被明确表示出来，从而更全面地分析复杂的网络。

图机器学习（Graph ML）提供了一种处理现实世界数据复杂性的新范式，这些数据通常存在于相互连接的网络中。例如，图 ML 可以用于构建非常有效的推荐系统，以识别关键联系并提升决策质量。与传统 ML 不同，Graph ML 捕捉了数据点之间的互动和联系，揭示了传统方法看不到的模式。认识到图技术在数据分析中推动创新的关键作用，数据专业人士越来越多地优化他们的工作流程，利用这些强大的工具。但为什么数据专业人士应该关心 Graph ML？通过理解这些差异并利用图结构，数据专业人士可以解锁以前无法实现的新预测能力。无论是增强欺诈检测、优化推荐系统还是改进社交网络分析，Graph ML 都是一个日益重要的工具在数据分析领域。

图机器学习的优势：拆解与应用指南

在本篇博客中，我们将探讨图机器学习（Graph ML）相较于传统方法的独特优势。我们将在从预处理到模型评估的整个机器学习过程中，深入分析图相关的特殊考虑因素，并提供专家建议，帮助您有效地将图技术整合到您的机器学习工作流程中。

尽管您可以用传统的机器学习流程来回答简单的场景和案例，如图像分类、基本客户流失预测或简单回归分析——但图机器学习让您能够应对更复杂的、基于网络的场景，包括通过网络异常模式进行欺诈检测、基于用户-物品图构建复杂推荐系统以及进行社交网络影响分析。如果您尚未为您的组织构建知识图谱，这里是一些高阶步骤指南：识别适用场景中的实体和关系，构建图schema，并将数据加载到图数据库中。要获得更深入的指导，请查看这篇详细指南，了解如何从元数据发展到人工智能级别的企业级知识图谱。

这个过程通常包括将您的数据分解为三元组（subject-predicate-object）并使用邻接矩阵、嵌入或随机游走等方法表示节点之间的连接关系。

理解机器学习开发生命周期

图片资源已删除

机器学习（ML）开发生命周期

花一点时间仔细阅读上方的机器学习开发生命周期图轮。该图分为五个不同的部分：预处理、训练-测试划分、模型训练、模型评估和文档与实施。

通过这个图轮，您可以清晰地认识到构建机器学习模型的关键阶段和步骤。每个阶段都有其独特的任务和目标，帮助您系统地规划和执行机器学习项目。

图机器学习开发周期分解

预处理（Pre-Processing）
在训练模型之前，需要对数据进行清洗、转换和特征工程等操作。确保数据格式符合模型的要求，并处理缺失值、异常值等数据质量问题。
训练-测试划分（Train-Test Split）
将数据集分为训练集和测试集。通常采用随机采样的方法，确保两组数据具有相似的分布特性。训练集用于模型训练，测试集用于评估模型性能，避免过拟合。
模型训练（Model Training）
选择合适的算法，并根据训练集调整模型参数。这一步骤的核心是让模型从数据中学习，找到最佳的特征与标签之间的映射关系。
模型评估（Model Evaluation）
使用测试集对模型进行评估，计算准确率、召回率、精确率等指标，以量化模型的表现。通过交叉验证等方法，确保评估结果更具鲁棒性。
文档与实施（Document and Deployment）
最后，将开发成果整理为文档，并部署到生产环境，以便用户能够方便地访问和使用模型。同时，监控模型性能，及时调整优化策略以应对实际场景的变化。

通过以上步骤的系统化操作，您可以更高效地构建并部署机器学习模型，实现业务目标。

Step 1: 预处理

图转换（Graph Conversion）

业务价值：
在传统机器学习中，原始数据通常以独立的特征向量形式进行处理，这意味着模型往往忽略了实体之间的关系，并不能充分利用网络效应。相比之下，图转换允许将原始数据系统性地映射到一个由实体和它们之间关系组成的结构化网络中，从而揭示新的见解和视角。

预处理的第一步是图转换。 图转换的过程是将未结构化的、半结构化的或结构化的数据转化为图模型，其中个体实体变为节点，它们之间的连接或关系则表示为边。这种转换为高级图分析奠定了基础，因为它通过明确建模数据中的关系，而不是让所有连接在需要时才被推断出来。

这一基础性的图转换不仅将原始数据组织到一个清晰的架构中，还允许外推聚类、中心节点和复杂的多跳关系。 这种结构化表示不仅增强了数据分析的清晰度，还为可扩展的预测建模奠定了基础，并且有助于更清楚地理解复杂联系的本质。这一步骤为预处理的下一步——图特征提取——设定了 stage。

图特征提取（Graph Feature Extraction）

业务价值：
传统特征提取方法通常以孤立数据点的形式对待每个数据点，往往忽略了

实体在网络中相互连接的方式。图特征不仅捕捉个体数据属性和关系模式，还评估了模型的影响力、连通性和社群动态，相比传统特征提取方法，提供了更丰富的上下文。

图特定义特征抽取不仅捕捉单个数据点的属性，还捕捉了传统方法遗漏的关系和结构模式。例如，度中心性（Degree Centrality）和介数中心性（Betweenness Centrality），揭示了节点在整个网络中的重要性，使模型能够预测实体在与其他实体互动时的影响力或连通程度。

PageRank Score等图特征帮助对节点进行排序，基于其连接性和重要性。它们特别适用于推荐系统和欺诈检测等场景，在这些场景中影响力和连接性至关重要。聚类和社群检测特征捕捉到相互连接的节点群组，使任务如识别特定群体中的异常行为或社交网络中的社群划分成为可能。

这些丰富的、相互关联的图特征使图机器学习模型能够在更广泛的上下文中进行预测，而不仅仅依赖孤立的数据点，从而提供了对数据内在关系的深层理解。这种全面的特征抽取自然过渡到预处理阶段：压缩，通过精简数据同时保留关键的关系信息。

图片资源已删除

压缩

商业价值: 图压缩在保持结构关系的同时降低了复杂性，使分析更加高效，而不会舍弃图中细微的连接所包含的关键见解。

压缩用于减少

产品介绍：Baklib企业数字内容管理平台

Baklib是一款全内容的企业数字内容管理系统，帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。官网地址：https://www.baklib.cn

图的压缩与去噪 在传统的机器学习中，如主成分分析(PCA)或特征选择等降维方法被用来降低数据复杂性，但这些方法忽略了实体间的关联结构。相比之下，图压缩技术，如节点嵌入、图剪枝和邻接矩阵压缩等，能够在保留图的固有联系和模式的同时简化数据。特别地，节点嵌入是一种强大的方式，能够将节点表示为特征丰富的向量，既捕捉了节点自身的属性，也保留了其在图中的关系语境。

**图的压缩对于图机器学习至关重要，因为图中往往包含 entity 间复杂的关系细节，这些细节需要大量的计算资源来分析。压缩有助于去除噪声和不相关的连接，让模型能够专注于图中最关键的关系。这种保留最本质结构性信息的同时减少计算开销的能力，使图机器学习在降维过程中可能失去的关键洞察之上具有优势。有了压缩技术，预处理阶段就完成了，接下来我们将进入第2步：训练-测试拆分。

图片资源已删除

通过嵌入的压缩 ## 第2步：训练-测试拆分 ### 子图采样

业务价值：基本的训练-测试拆分方法不考虑节点间的连接关系，可能导致关键网络链接断开，因此子图采样确保了测试集能够反映整体图结构，使模型能够在真实数据中存在的复杂关系中进行学习和泛化。

子图采样是一种本质上

作为 Baklib 的品牌负责人，Baklib 是一款面向内容的企业数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网：https://www.baklib.cn

图机器学习中的训练集与测试集划分是关键问题之一，因为通过抽取反映整体图中实体和关系的子图，确保测试集能够代表整个图的结构。在传统机器学习中，分割数据成训练集和测试集通常很简单，因为数据点通常是独立的。然而，在图数据中，节点之间存在依赖关系。复杂图数据捕捉了如社区、层级关系以及长期依赖等信息，这些传统模型可能会遗漏。子图采样保留了这些关系，使模型能够从复杂的结构中学习，并在对 unseen 数据进行预测时表现得更好。

通过在训练集和测试集划分中捕获这些依赖关系，模型保持了更全面的理解，使其能够在数据点之间的关系是关键的情况下做出更好的预测（例如社交网络分析或欺诈检测）。这种谨慎的采样也揭示了需要解决潜在重叠关系的问题，这引出了下一个关键考虑因素：链接泄漏。

图片资源已删除

比例化训练集与测试集划分

链接泄漏（Link Leakage）

业务价值: 随机或基于节点的分割可能会将相连的节点分配到不同的集合中，从而通过边来泄露信息。基于边的分割可以防止训练集和测试集中由于图关系而产生的信息泄漏，保留图关系的完整性，并提供可靠、无偏见的预测。

链接泄漏指的是训练数据中的节点连接可能间接揭示测试数据的信息。传统机器学习不会面临此问题，因为数据点通常是独立的，但在图机器学习中，节点之间的关系可能会导致训练集和测试集中出现意外重叠。

ets. 为了避免这个问题，可以考虑通过边划分数据，从而确保测试集与训练集的连接独立。通过边划分数据可以保持图的固有关系信息，这是图数据的一个关键优势。这种方法使模型能够从图中复杂的依存关系中学习，从而在诸如欺诈检测或推荐系统等现实应用中实现更准确的预测。此外，这种方法还可以避免由于连接重叠而产生的偏见，从而提高模型的整体可靠性。通过建立一个有效的链接泄漏解决方案，我们现在可以进入下一个主要阶段：第3步，模型训练。

图片资源已删除

压缩验证集划分方法

第3步：模型训练

业务价值： 常规机器学习模型将实例视为独立实体，并不能建模实体之间的依存关系，因此图特定算法能够捕捉复杂依存关系和相互关系，这些传统机器学习模型往往忽视，从而为依赖连接的任务提供更深刻的洞察和更准确的预测。

利用专为图数据设计的算法，您可以充分利用图数据中独特的相互关系和结构，例如节点之间的联系、特定关系的重要性以及图的整体拓扑结构。传统的机器学习模型，如决策树或线性回归，假设数据点是独立的，并且往往难以捕捉复杂的依存关系。相比之下，图算法——如节点分类、边预测、社区检测和异常检测——被构建为能够捕捉相互依存关系。

我是 Baklib 的品牌负责人，Baklib 是一款全内容数字内容管理平台，帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网：https://www.baklib.cn

在节点（nodes）、边（edges）及其邻居之间进行分析时，图算法可以揭示隐藏的传统方法看不到的模式和依赖关系，例如识别网络中的关键影响者或基于实体之间不寻常的联系检测异常。

通过利用图算法，您可以在更深入的理解和更精确的预测中获益，尤其是在关系在其中起关键作用的任务中。这些关系是图模型设计以挖掘的关系，使图机器学习（Graph ML）能够在实体之间的互动驱动结果时表现出色。在模型训练后，评估这些专门模型的性能至关重要。

图片资源已删除

图算法的应用场景

第四步：模型评估

业务价值： 标准的评估指标可以独立测量预测，而忽略图结构。然而，针对图特定的指标为图模型性能提供更细致的评估，捕捉传统指标忽视的结构关系。

虽然常见的性能度量适用于大多数图机器学习场景，但在图机器学习中还有专门的度量——如归一化互信息（NMI）、调整兰德指数（ARI）和模数。传统的机器学习评估度量，如准确率或 F1 分数，在独立的数据点上工作良好，但它们无法充分捕捉图结构中的细微差别，例如社区检测或链接预测。针对图特定的性能度量为模型提供了更细致的评估，

为了有效衡量和优化图结构的独特性，评估图机器学习模型时，您能够借助增强的结构意识、上下文评估以及对失衡数据处理能力来确定模型性能——这些方面往往传统机器学习指标难以覆盖。

图片资源已删除

比较图性能度量

图ML解决方案组件

要成功实现图机器学习，组织需要一套相互协调的功能来支持整个图工作流程。最基础的要求是： (1) 一个可扩展的图存储层，能够吞并和索引异构数据源（包括批量更新和流式更新），同时强制采用灵活的schema； (2) 一个预处理引擎，能够自动提取和管理实体和关系属性（例如生成节点和边级别的特征）； (3) 综合支持图嵌入生成和存储，或手工构建图特征（如中心性评分、社区指派或基于路径的统计信息）； (4) 一组图算法和GNN（图神经网络）框架，能够在大规模图上进行训练，最好是具备GPU加速和分布式计算选项； (5) 实时推理能力，保留图连通性（因此预测如链接预测或节点分类仍然对周围网络保持敏感）； (6) 可视化和探索工具，让数据团队能够审查子图、特征分布以及模型解释性输出；以及 (7) 强健的安全性、访问控制和追踪 lineage以确保图管道中的数据治理。

案例研究 – 应用与克服

生物技术服务提供商案例研究](https://enterprise-knowledge.com/recommendation-engine-automatically-connecti

基于GraphML的方法实现真实场景

现在我们已经明确了方法论，接下来让我们看看一个真实的案例。一家领先的生物技术公司的电子商务平台遇到了一个问题：它需要将70,000个产品和相关教育内容（分别分布在超过5个不同的系统中）连接起来，只能依靠关键词搜索来实现，因此我们应用了上面提到的相同GraphML工作流程，以跨越这些断层。

我们将各个平台的数据导入到内存中的知识图谱中，生成向量嵌入以捕捉内容之间的关系，并训练了一个自定义链接预测模型（通过采样已知的产品-内容连接，而非强制实施链接泄露控制），从而推断出新的联系。我们通过交互式仪表盘将相似度索引和链接分类器视图交付给用户，并通过人机交互验证，同时提供全面的文档和可重复的人工智能验证框架作为支持。

尽管我们在实现时跳过了特定于图的指标（转而采用标准机器学习度量如AUC、精确率和召回率），以加快交付速度，但这种基于指南的方法表明，本文博客中提到的技术可以实际应用于现实中的约束条件。

结论

图机器学习提供了一种革命性的方法来处理复杂的、相互关联的数据集。通过利用图特定的技术，如特征提取、压缩和图算法，可以揭示超越传统机器学习所能实现的更深层见解。无论是在社区检测、欺诈预防还是推荐系统等领域，图机器学习都提供了一种建模关系和结构的方法，这些方法传统机器学习往往忽视。随着图技术越来越多地融入数据流中，可以明确的是，理解并应用这些方法将有助于做出更准确的预测、更好的决策以及最终在竞争中占据优势。

如果你对如何利用图机器学习为你的组织带来变革性变化感兴趣，欢迎联系 Baklib 获取更多信息！联系 Baklib