About

为人工智能做好准备:高质量内容是成功的核心基石

Author Tanmer Tanmer
Tanmer · 2026-01-19发布 · 6 次浏览

本文探讨了高质量内容在人工智能成功中的重要性,并提供了七个步骤帮助企业构建AI就绪的知识资产,以实现智能化与可持续增长。

高质量、结构化且语义清晰的内容是AI成功的关键。本文梳理七个步骤,帮助企业构建AI就绪的知识资产,实现智能化与可持续增长。

1996年,比尔·盖茨宣布“内容为王”,因为它在全球网站上的重要性(和创收潜力)。如今,内容仍然是王道,特别是当作为企业人工智能的重要投入时。高质量、结构化且语义清晰的内容,是成功实施人工智能的关键前提。AI就绪内容能够减少模型幻觉与错误、提升算法效率和可扩展性,并确保系统与不断演进的AI技术无缝集成。

简而言之:如果内容未为AI做好准备,任何AI战略都可能失败、停滞,或产生低价值输出。

在您自己的组织内实现人工智能的核心障碍之一是质量差的内容和数据。如果没有高质量内容和数据的适当基础,任何人工智能解决方案都会充满“幻觉”和错误。这将使组织面临不可接受的风险,因为人工智能工具可能会提供不正确或过时的信息,导致危险和代价高昂的结果。这也是为什么作为演示性能良好的工具未能跃升到生产。如果组织没有准备其内容和数据,即使是最先进的人工智能也不会提供可接受的结果。

本博客概述了确保您的内容和数据为人工智能做好准备的七种顶级方法。通过正确的准备和投资,您的组织可以成功实施最新的人工智能技术,并提供值得信赖的完整结果。

1)理解您所说的“内容”和/或“数据”(知识资产定义)

虽然这似乎很明显,但确保您的内容和数据为人工智能做好准备的第一步是明确定义“内容”和“数据”在您的组织中的含义。许多组织可以互换使用这些术语,而另一些则将一个术语用作另一个术语的父术语。这显然导致了很大的混乱。

利用传统定义,我们将内容定义为非结构化信息(从文件和文档到内联网文本块),将数据定义为结构化信息(即数据库和其他应用程序中的行和列,如客户关系管理系统、人员管理系统和产品信息管理系统)。如果你不寻求将人工智能应用于内容和数据,为最终用户提供完整和全面的信息,你就是在浪费人工智能的潜力。事实上,我们鼓励组织更广泛地思考,超越内容和数据,考虑人工智能可以利用的所有组织资产。

我们创造了知识资产一词来表达这一点。知识资产包括组织可用于创造价值的所有信息和专业知识。这不仅包括内容和数据,还包括员工、业务流程、设施、设备和产品的专业知识。这种思维方式迅速打破了组织内部的人为孤岛,让你集体考虑你的资产,而不是按类型考虑。在本文中,我们将使用知识资产一词来代替内容和数据来加强这一点。简单直接地说,以下每个让内容和数据人工智能准备步骤都应从知识资产的企业角度考虑,因此,您应该定义知识资产治理的综合方法,而不是离散地开发内容治理和数据治理。这种方法不仅能帮助您实现人工智能的准备,还能帮助您的组织消除孤岛和冗余,以最大限度地提高企业效率和一致性。

2)确保质量(资产清理)

我们发现,大多数组织维护的信息比他们应该保留的信息多了大约60-80%,在许多情况下,甚至可能没有意识到他们仍然拥有什么。这意味着五分之四的知识资产是旧的、过时的、重复的或接近重复的。

甚至在考虑人工智能之前,这种过度保留的成本就很高,包括维持这80%的行政负担(包括不必要的服务器存储的成本和环境影响),以及组织最终用户在通过过时的知识资产时的可用性和可查找性成本。

由于几个原因,人工智能的成本变得更高。首先,人工智能通常会给它找到的知识资产贴上“白色标签”。如果人类发现一个过时的旧政策,他们可能会认出上面的旧公司品牌,或者在上面注明几年前的日期,但当人工智能利用该知识资产中的信息并重新浮出水面时,它看起来是新的,上下文线索会丢失。

接下来,我们必须考虑“垃圾进,垃圾出”的古老格格。输入人工智能工具的不正确知识资产将导致不正确的结果,也称为幻觉。虽然可以使用快速工程来尝试避免这些冲突,甚至可能的错误,但避免这个问题的唯一可靠保证是确保原始知识资产的准确性,或者至少是其中绝大部分的准确性。

许多人工智能模型还与近乎重复的“知识资产”作斗争,无法辨别哪个版本是可信的。考虑您组织的版本控制问题、工作文档、使用不同假设建模的数据,以及当前存储的大型交付成果和报告的迭代。知识资产可能会经历无数次迭代,大多数时候,所有这些版本都被保存了。当被人工智能摄取时,多个版本可能会造成混乱和冲突,特别是当这些版本不是简单地相互建立,而是经过编辑以改进调查结果或建议时。在每种情况下,这些都是人工智能让你的组织失败的机会。

最后,这也是您考虑重组资产以提高可读性(包括人类和机器)的要点。从人类的角度看,这可能包括格式化(降低认知提升并提高一致性)。对于人类和人工智能来说,这也意味着添加文本和标签来更好地描述图像和其他非基于文本的元素。从人工智能的角度来看,在更长、更复杂的资产中,接近性和顺序可能会对精度产生负面影响,因此这可能包括重组文档,使它们更加线性、按时间顺序或主题一致。对于所有类型的资产来说,这都没有必要,甚至不是重要的,但仍然是一个重要的考虑因素,特别是对于基于文本和较长的资产类型。

3)填补空白(隐性知识捕获)

确保人工智能准备就绪的下一步是确定你的差距。此时,您应该查看您的人工智能用例,并考虑您希望人工智能回答的问题。在许多情况下,您当前的知识资产存储库将不具备完全回答这些问题所需的所有信息,特别是以结构化的、机器可读的格式。这本身就存在风险,特别是如果人工智能解决方案没有意识到它缺乏必要的完整知识资产,并将不完整或有限的答案描绘成确定的答案。

填补知识资产的空白是极其困难的。第一步是确定缺少什么。援引另一句老谁句,组织长期以来一直担心他们“不知道他们不知道的东西”,这意味着他们缺乏组织成熟度来识别自己知识的差距。当主动寻求将人工智能解决方案与提供完整和准确答案所需的所有知识资产武装在一起时,这成为一个重大挑战。然而,好消息是,让知识资产人工智能准备的过程有助于识别差距。在接下来的两个部分,我们介绍语义设计和标记。除其他步骤外,这些步骤可以识别似乎缺少的知识资产的地方。此外,鉴于设计和部署人工智能解决方案的迭代性质,人工智能无法回答问题可能会触发填补空白,我们将稍后将介绍。

当然,一旦你确定了差距,真正的挑战就开始了,即组织必须生成新的知识资产(或定位“隐藏”资产)来填补这些差距。这方面有很多技术,从隐性知识捕获到内容清单,所有这些技术都可以共同帮助组织从人工智能转向知识智能(KI)。

4)添加结构和上下文(语义组件)

一旦知识资产被清理并填补了空白,流程的下一步就是将它们构建,以便它们能够正确相互关联,并具有适当的上下文和意义。这需要使用语义成分,特别是分类法和本体论。分类法提供意义和结构,帮助人工智能理解用户的查询,根据其中使用的单词和短语之间的关系关联知识资产,并利用上下文正确解释同义词和其他“接近”术语。分类法还可以包含词汇表,这些词汇表可以进一步定义人工智能在生成结果时可以利用的单词和短语。

虽然经常与分类学混淆或混为一谈,但本体提供了一种更先进的知识组织类型,这既与分类学相辅相成,又独特。本体专注于定义知识资产与包含它们的系统之间的关系,使人工智能能够做出推理。例如:

<人>在<公司>工作

<Zach Wahl>在<企业知识>工作

<公司>是<主题>的专家

<企业知识>是<人工智能准备>的专家

由此,可以做出基于结构化逻辑的简单推断,即在公司工作的人是该主题的专家:Zach Wahl是人工智能准备方面的专家。更详细的本体可以迅速推动更复杂的推理,允许组织的人工智能解决方案连接组织内不同的知识资产。通过这种方式,本体使人工智能解决方案能够遍历知识资产,更准确地做出“假设”,并提供更完整、更有凝聚力的答案。

总体而言,您可以将这些语义组件视为它做什么、谁做以及如何做的组织地图。语义组件可以向人工智能展示如何在不迷路或走错弯的情况下到达你想要去的地方。

5)语义模型应用(标记)

当然,仅仅设计语义组件是不够的;您必须将它们应用于您的知识资产来完成该过程。如果语义组件是地图,那么将语义组件应用为元数据就是GPS,让您轻松直观地使用它。这一步通常是组织的绊脚石,这也是我们讨论知识资产而不是内容和数据等离散领域的原因。为了最好地实现人工智能的准备,您的所有知识资产,无论其状态如何(结构化、非结构化、半结构化等)都必须有一致的元数据。

当应用得当时,这种一致的元数据将成为人工智能在追求完整和正确答案时利用的额外含义和上下文层。随着领先分类学和本体管理系统的最新更新,自动应用元数据或在元数据图中存储知识资产之间的关系的过程得到了极大改善,尽管仍然需要人工在循环中确保准确性。即便如此,曾经是元数据应用计划的主要障碍,比以前简单得多。

6)地址访问和安全(统一权利)

当你最终交付了你的组织一直在寻求的东西,并赋予它集体和完全为最终用户提供他们一直在寻求的知识资产的能力时,会发生什么?如果跳过这一步,答案就是灾难。人工智能价值的明确点之一是,它可以发现知识资产中隐藏的宝石,建立人类通常无法建立的联系,并结合不同的来源来构建新的知识资产和新答案。这非常令人兴奋,但也带来了巨大的组织风险。

目前,许多组织的应享权利模型不完整或实际上很差,或确保正确的人看到正确的资产,而错误的人看不到。我们一直在组织系统上以各种形式发现高度敏感的知识资产,这些资产应该得到保护,但并没有得到保护。其中一些采取离散文档或应用程序中的一行数据的形式,这出奇地常见,但相对容易解决。只有当您从企业角度看待一个组织时,才会看到更多内容。

例如,数据库A可能包含用于保险报告的员工的匿名健康信息,但映射到离散的唯一标识符。文件 B 包含一个与员工人口统计对映的唯一标识符的表格。应用程序C包含组织结构图的实际员工姓名和头衔,但也包括其唯一标识符作为隐藏字段。绝大多数人类永远不会找到这种联系,但人工智能被设计成这样做,如果你不小心,就会毫无掩饰地为你的组织制造大规模诉讼。

如果您的现有系统存在安全和授权问题(相信我,您确实存在),人工智能会无意中发现它们,连接点,并显示知识资产和它们之间的连接,这对您的组织来说可能是真正的灾难。任何人工智能准备工作都必须面对这一挑战,然后您的人工智能解决方案才能阐明您现有的安全和权利问题。

7)保持质量,同时迭代改进(治理)

第一步到第六步描述了如何让你的知识资产为人工智能做好准备,但最后一步让你的组织为人工智能做好准备。在使您的知识资产处于人工智能的正确状态和人工智能解决方案本身方面进行大量投资,最后一步是确保两者的持续质量。成熟的组织将投资一个核心团队,以确保知识资产从人工智能就绪到人工智能成熟,包括:

  • 维护和执行核心原则,以确保知识资产保持最新状态,人工智能解决方案只查看可信资产;

  • 对幻觉和无法回答的问题做出反应,以填补知识资产的空白;

  • 调整语义组件,以及时了解组织变化。

最成熟的组织,那些希望成为人工智能驱动的组织,将首先将其知识资产视为推动成功的关键基石。这些组织将寻求ROCK(相关、组织语境化、完整和以知识为中心)知识资产,作为提供企业人工智能的第一线,该人工智能可以为组织带来真正变革。

结论

AI 的成功不在于算法的先进程度,而在于其所依赖的内容与知识的质量。
只有当组织具备清晰定义的知识资产、可靠的数据质量、完善的语义结构与严格的治理机制时,人工智能才能真正发挥作用。

从清理、补全到结构化与治理,这一系统过程不仅让内容“为 AI 做好准备”,更推动了整个组织的知识现代化与智能化转型。

最终,AI 就绪的内容,才是智能企业的真正核心竞争力。

提交反馈

博客 博客

智能知识库,未来企业基石