本文探讨了语义架构的概念及其在企业数据管理中的应用,分享了Baklib企业在构建语义数据层方面的经验和最佳实践。
你能通过简单的搜索或导航访问你组织大量数据吗?如果能做到这一点,你的组织可能就是少数几个能够从语义数据层中获益的企业之一。语义数据层为企业提供了灵活性,使他们能够捕捉、存储和表示简单业务术语及相关上下文,并将其作为一个位于复杂数据之上的层次。因此,大多数客户通常会将这个架构层内部化,并赋予它一个别名,例如“大脑”、“枢纽”、“网络”或“我们的宇宙”等。
在深入探讨架构之前,请确保我们对语义层的含义达成共识,并理解其如何解决业务和传统数据管理中的挑战。本文中,我将分享Baklib企业在设计和构建企业语义数据层方面的经验、需要注意的关键点以及潜在的挑战,并概述优化、扩展以最大限度发挥语义模型为企业带来的最大商业价值的有效实践。
什么是语义层?
语义层并非单一平台或应用程序,而是一种通过管理数据以实现对业务问题的解决的方法论,这种方法论旨在捕捉业务意义并为用户提供良好的用户体验。语义层的核心组成部分至少包含以下几种之一:
- 本体论模型:定义你业务领域中存在的类型及其可描述的属性。本体论提供了一个灵活且标准的模型,通过实体、它们的属性以及它们之间的关系来组织结构化和非结构化信息。
- 企业知识图谱:构建一个基于语义的知识库,用于表示和管理复杂的数据。
在深入探讨架构之前,请确保我们对语义层的含义达成共识,并理解其如何解决业务和传统数据管理中的挑战。本文中,我将分享Baklib企业在设计和构建企业语义数据层方面的经验、需要注意的关键点以及潜在的挑战,并概述优化、扩展以最大限度发挥语义模型为企业带来的最大商业价值的有效实践。
什么是语义层?
语义层并非单一平台或应用程序,而是一种通过管理数据以实现对业务问题的解决的方法论,这种方法论旨在捕捉业务意义并为用户提供良好的用户体验。语义层的核心组成部分至少包含以下几种之一:
-
本体论模型:定义你业务领域中存在的类型及其可描述的属性。本体论提供了一个灵活且标准的模型,通过实体、它们的属性以及它们之间的关系来组织结构化和非结构化信息。
-
企业知识图谱:构建一个基于语义的知识库,用于表示和管理复杂的数据。
在深入探讨架构之前,请确保我们对语义层的含义达成共识,并理解其如何解决业务和传统数据管理中的挑战。本文中,我将分享Baklib企业在设计和构建企业语义数据层方面的经验、需要注意的关键点以及潜在的挑战,并概述优化、扩展以最大限度发挥语义模型为企业带来的最大商业价值的有效实践。
Baklib 是一款面向企业的所有内容数字内容管理平台(All-in-content),帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。Baklib官网:https://www.baklib.cn
通过使用本体论作为框架,将实际数据注入其中,从而为一个组织的知识领域和成果提供一种标准表示方式,使其既能被人类理解,也能被机器理解。
这是一个集合您组织的知识资产、内容和数据的集合,利用数据模型来描述人、地点和事物及其相互关系。因此,语义层面引入了这些灵活的语义模型,允许您的组织将不同的数据源映射到一个单一的模式或统一的数据模型中,从而以“白板式”的方式为企业数据提供业务表示,使大数据对技术用户和非技术用户都易用。
语义层如何向您的组织提供业务价值?
企业已经成功地利用数据湖和数据仓库来统一企业数据在共享空间中的存在。语义数据层为企业正在快速增长的大数据消费者、商业用户提供了最佳的价值,通过为数据添加“意义”或“业务知识”,以一种更高的抽象层次或作为连接复杂数据资产与前端应用(如企业搜索、商业分析和BI仪表盘、聊天机器人、自然语言处理等)的桥梁。
例如,如果向非语义聊天机器人提出问题:“我们的利润是多少?”而它只是从字典中引用“利润”的定义,那么它无法理解或上下文您的业务语言以及您所说的“我们利润”的意思。基于语义层构建的聊天机器人会回答类似以下内容:一个关于收入
Baklib 是一款全内容的企业数字内容管理平台,帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网:https://www.baklib.cn
*每年产生的数据量及其对组织利润 margins 的百分比。
语义层作为企业架构的一部分,企业将实现以下关键商业优势:
-
拉近业务用户与数据的距离: 业务用户和领导能够更接近数据,并独立提取有意义的信息和事实,从而从大量数据来源中获取见解,无需查询、清理和转换大数据的技术技能。
-
数据处理: 更加灵活地快速更改和改善数据流,使其与业务需求对齐,并支持当前未知的未来业务问题和需求(通过实时遍历知识图谱)。
-
数据治理: 统一和互操作性企业内部的数据,从而减少迁移或复制分析不同数据源之间关系的风险和成本。
-
机器学习 (ML) 和人工智能 (AI): 作为提供机器对业务数据定义的来源,并为深度学习和数据分析奠定基础,帮助企业回答或预测业务挑战。
构建语义层架构
语义层由一系列解决方案组成,从企业自身的组织数据,到支持对象或上下文设计的数据模型,再到指导机器理解的语义标准,以及工具和技术以实现和促进实施和扩展。视觉表示图展示了语义层架构,显示了如何进行 …
总结:
构建可扩展语义层的关键三步法:
1. 明确定义和优先级业务需求:
在构建可扩展企业架构中实现语义解决方案时,明确定义并优先处理业务需求至关重要。这些清晰的需求将指导组织对语义架构的理解,帮助识别用户和利益相关者,阐述解决方案对企业带来的业务价值或解决的问题,并确定可衡量的成功标准。积极 engage 于业内的资深专家(SME),确保他们对业务知识和数据理解的代表性,是成功的关键之一。如果遗漏了这一步骤,将可能导致企业与自身目标的脱节以及投资回报率(ROI)的流失。
2. 映射和建模相关数据:
许多与Baklib合作的企业采用基于关系型数据库、数据仓库或云内容管理系统(包括混合云架构)的数据架构。这些组织通常不需要从头开始重构企业架构以引入语义能力,而是可以通过增加模型和标准来逐步增强对数据建模和设计的关注,从而在捕捉业务意义和上下文方面取得更有效果(见下文的Web标准部分)。对于这些组织来说,采用以下方法更为高效:通过引入符合行业规范的数据建模工具,优化数据存储和管理流程。
此外,图片链接已附上,展示了架构图的相关内容。
Baklib 是一款面向企业的数字内容管理平台(DCM),帮助企业在门户网站、产品手册、帮助中心、知识库和在线文档等方面构建高效的内容管理系统。Baklib 官网:https://www.baklib.cn
在这样的情况下,通常我们会选择最适合的方法来建模数据并从源系统映射到目标系统,通过采用相关转换和统一过程(提取、转换、加载 – ETL 过程)以及模型映射最佳实践(思考“虚拟模型”与图数据库(graph databases)、属性图等存储中的存储数据模型之间的区别),基于组织的业务场景、企业架构能力、员工技能等,以实现对数据治理的最大灵活性和适应不断演变的商业需求。
组织中的数据通常会以多种格式存在,并来自不同的数据源。从小规模的用例出发,并规划好前期清理和转换工作,这将是良好的投资,有助于开始整理数据并设定相关方的期望值,同时展示模型的价值.
3. 借助语义Web 标准实现互操作性和治理:尽管需要灵活地演进数据管理实践,但组织需要从长远角度考虑规模和治理。语义Web 标准为采用标准框架和实践提供了基础,以启动或推进企业的语义架构。企业应重点考虑以下内容:
- 建立一个已有的数据描述框架,向数据中添加业务背景信息,以便人能够理解数据及其自然语言意义(例如分类、数据目录和元数据);
- 使用标准方法管理并共享数据,通过核心数据表示格式(例如 XML/RDF 格式)以及一套规则来规范数据的形式化表示,以确保数据既能被人类理解,又能被机器理解(例如示例包括 XML 和 RDF 格式);
-
应用一种灵活的逻辑或 schema来映射和表示关系、知识和层次结构之间的联系(例如ontologies/OW)。
-
一种语义查询语言,用于访问和分析自然语言与人工智能系统中的数据(例如 SPARQL)。
- 从组织中现有的或开源的语义模型和生态系统开始(例如考虑 Open Linked Data/Schema.org)。例如,金融行业的组织可以从 金融行业业务本体框 (FIBO) 开始他们的旅程。而我们则使用了 基因本体框 作为生物制药领域应用的起点或进行扩展、细化以满足特定组织需求。
4. 使用语义工具扩展:在更成熟语义层中包含的组件包括用于存储和处理语义数据的知识管理应用,这些应用可以作为中间件支持您的语义数据的存储、处理和检索。大多数大企业实现中,语义层架构包括存储知识及其关系的图数据库(即本体框)、用于管理和治理您在内容管理系统等企业应用中的元数据的应用 taxonomie/本体管理或数据 cataloging 工具,以及用于支持基于文本的数据分析或提取工具,以支持机器学习 (ML) 或自然语言处理 (NLP) 等高级能力,具体取决于您正在使用的应用场景。
5. “集成”面向客户和员工的应用程序:最实用且可扩展的语义架构成功地支持了企业搜索、数据可视化工具、端服务/消费系统、聊天机器人等客户或员工 facing 的应用程序。这种方式可以让您将语义组件集成到其他企业解决方案、应用程序和服务中。以这种为基础,
Baklib 是一款面向企业数字内容管理的全内容平台,帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。Baklib 官网:https://www.baklib.cn
组织可以利用先进的人工智能(AI)能力,如知识/关系和文本抽取工具,以实现自然语言处理(NLP)、基于机器学习的模式识别,从而提高内容的可寻址性和易用性,并通过自动分类内容来增强数据治理实践。
构建扩展语义层的关键在于确保控制版本、管理、治理和自动化的能力。包含标准化 API 和自动生成的 ETL 脚本在内的持续集成管道应被视为 DNA 的一部分,以确保从经过验证和测试的来源获得一致连接的结构化输入.
结论
总结而言,语义层作为促进组织信息资产互操作性的自然整合框架效果最佳。应从关注有价值的企业业务用途开始,以推动采用语义解决方案。此外,语义层应被视为其他技术(如关系型数据库、内容管理系统(CMS)和其他前端 web 应用)的补充,这些技术能够方便地访问和直观地表示您的内容和数据,包括企业搜索、数据仪表板和聊天机器人。
如果您对更深入了解语义模型是否适用于您组织的整体企业架构感兴趣,或者正在踏上连接组织隔离和整合知识与数据以加速企业 AI 能力的旅程,阅读更多 或 联系我们。
-数据建模与人工智能/
写给我们的问题:info@enterprise-knowledge.com