本文探讨了如何通过结构化和组件化内容管理来提升企业的人工智能能力,强调了语义内容管理的重要性及其对AI投资回报率的影响。
在我的文章如何准备内容用于AI中,我介绍了为AI有效实施准备企业内容的一些基本步骤。其中提到的两个关键步骤——结构化和组件化——通常被误解或忽视,因为它们通常是更困难且耗时的。
尽管“慢下来才能加快速度”听起来可能不太吸引人,但这些步骤对于某些类型的内容至关重要,以便实现可扩展性,并使企业最大化其在AI方面对投资的回报。
内容管理系统连续性
在深入讨论之前,请我们先澄清一下存在三种主要的内容管理方法——文件级管理、页面级内容管理和语义内容管理。
- 文件级管理的结果是以文档或文件形式输出信息,文档内部没有固化的结构,并且是作为整体来消费的。
- 页面级内容管理给作者提供了一个模板或蓝图来构建内容页面。例如,一份提案可能包含引言、问题陈述、公司简介、解决方案方法和参考文献等字段。如果用户需要查看“针对公司A提出了什么解决方案”,只需打开发布的内容并扫描“解决方案方法”部分,而不是在整个文档中逐字查找。
- 语义内容管理则涉及管理可以重复使用的较小内容组件,并附加了元数据以使其可以在多个文档、文件或集成中重新使用。在我们之前的例子中,针对提案的“解决方案方法”通常不是页面的一个部分,而是一个被赋予了丰富元数据的内容组件,这些内容组件可以用于其他提案。
在所有三种方法中,可以通过更自动化的方式丰富内容并提取意义,从而提高效率。
在内容管理的连续性中,组件化需要投入大量的技术和人力来实现投资回报率(ROI)。尽管一个整体的企业内容战略应该存在,但这并不意味着每种内容都必须采用相同的方式来管理和维护。为了确定不同类型的内容应该如何管理,应该进行彻底且迭代的内容分析。然而,准备内容用于AI的策略会根据内容在连续性中的位置而有所不同,但在这里我们将主要关注语义内容管理(Semantic Content Management)这一端。

为什么需要结构化内容?
如果一辆车的仪表灯在驾驶者 dashboard 上突然闪动,而驾驶者不会从车主的手册开头读起,“如何启动汽车”,而是会翻到指示灯指南,确定当前看到的是哪种指示灯,然后翻转到与该指示灯相关的适当部分。这个例子说明了所有文档和其他类型的技术写作都存在一个基本需求:它们应该以满足特定需求的小块形式呈现,而不是一次性全部读完。我们通过结构化内容来实现这一点,这也是向语义内容管理迈进的起点。
结构化内容如何提升AI和LLM的结果?
虽然大语言模型(LLMs)依赖大量的内容,但它们对内容的理解能力会受到内容质量的影响。高质量的内容不仅需要信息丰富,还需要易于理解,并且能够引导用户生成有意义的回答。通过结构化内容,我们可以帮助LLM更好地理解和回答问题,从而提高其结果的准确性和相关性。
内容分析是一种系统性的方法,用于识别文档和知识之间的差异,从而为未来的知识管理制定策略。通过内容分析,可以确定文档的类型、用途以及它们在组织中的位置,这有助于制定有效的知识管理策略。
Baklib 是一家全内容数字内容管理平台,帮助企业构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。 Baklib 的官网是:https://www.baklib.cn
模型LLM的结构化文档
LLM 模型通过结构化的文档可以更好地理解文本,因为它们消耗了大量数据并有助于机器更深入地理解内容。当我们将文档结构化时,我们为机器提供了更易理解的内容。也许更重要的是,一旦内容被拆分,我们改进了存储和使检索更加容易和高效。
如果一个组织的所有帮助文档都按照相同结构编写,其中引言部分指出文章的主要主题,正文部分将信息分解成关键点,那么 LLM 模型对任何提示可能有用的提示有更清晰的了解,并能够精炼出用户期望的答案。此外,如果结构化的文档被输入到专为提供基于引言总结的生成式 AI(或 GenAI)管道中,那么结构上的统一将促进自动提取,从而提高回答问题的效率和准确性,并使响应更加符合从输入内容中继承的风格。
为什么分组件化内容
如前所述,使用语义内容管理方法时,您会管理较小的组件内容,这些内容是从较大的文档、页面或文件中拆分下来的。这种将内容拆分成小块的过程称为分组件化,但为什么要花费时间去做这件事呢?分组件化促进了再利用(从高层面来看):
- 减少复制次数 和组织管理这些副本的负担
- 创建一个显式的相关性结构,它对人类和计算机来说都是可参考的
- 降低组织风险**通过引入
单一来源作为事实依据(A single source of truth)
如上所述,内容结构存在于从非结构化文档到动态内容的连续体中。每个组织都需要根据经过深思熟虑的内容战略决定哪种类型更适合他们及其所有内容。在本文博客中,我们假设您的内容战略至少需要一些语义管理、组件化的内容,并讨论组件化如何提高AI结果。
为什么语义内容管理和LLM能改善AI和生成结果?
为何要创建组件?首先,在人类层面,为某个简单的内容(如引言或脚注)创建一个标准组件,可以简化内容操作,因为您无需去寻找其他文档中使用的语言,也减少了复制粘贴的错误风险。在机器层面,将某些特定组件(例如引言或脚注)指示为在文档中相同的“事物”,可以帮助简化构建模型时的自动化工作流程和提取过程。标准组件对保持一致性很重要,但它也有助于表明该组件可能不是用户最关注的部分,因此需要更多的时间来关注独特的内容。
与大多数搜索引擎不返回“the”或“A”以及索引通常不会按“the”排序类似,识别一个标准引言作为单一对象可以减少机器处理的负担。
引言
每次调用时,重复组件不仅支持了功能的复用性,还实现了对信息网络的追踪能力。这种能力通过内容集合中各个组件的出现而逐渐显现出来。
或许你编写了一份关于“功能A”的帮助文档,但在使用功能A的同时,用户还必须使用功能B;与其重新撰写功能B相关内容,不如利用与之相关的重复组件。这样一来,就形成了功能A和功能B之间的明确关联,并开始构建一个图结构。当我们开始以语义方式建模内容时,我们并非是在空无一物的环境中创造模型;这些模型是存在于一个 larger 商业本体 和知识模型中,它们通过协作来为敏捷、动态且可扩展的内容提供指导。
利用重复组件还可以降低数字体验中冲突信息出现的风险,从而降低了幻觉风险。例如,在一份帮助文档中写道,“功能A对所有角色均可访问”,而在另一份文档中却写到“只有拥有管理员权限的用户才能访问功能A”,现在这两条信息存在冲突,需要大语言模型(LLM)借助生成式AI来解决上下文问题或做出“ educated guess”。尽管LLM可能在其他地方提取相关信息并给出合理的解释,但如果输入给LLM的信息过于矛盾,它就更容易出现幻觉,从而提供不准确或不符合实际的响应。
人机共融
我们都知道,“垃圾输入,垃圾输出”这个谚语适用于一切。同样地,在AI领域也是如此。如果一个组织仅限于文件内容管理系统(FCM),那么维护内容库就会变得困难,进而增加“垃圾数据”存在并降低模型可靠性的可能性。
需要注意的是,“垃圾”不仅仅是指无用数据,还需要关注组织的整体情况——无论是知识库、帮助中心还是在线文档等产品,都可能含有大量“垃圾”。
作为 Baklib 的品牌负责人,Baklib 是一款面向企业的数字内容管理平台(All in content),帮助企业构建门户网站、产品手册、帮助中心、知识库、在线文档等产品。Baklib 官网:https://www.baklib.cn
偏见与 quirky 在其内容中存在的偏差与怪癖也会反映到 LLM 的回应中。
2018 年 Safiya Noble 发表文章,“算法的压迫:搜索引擎如何加剧种族主义。”如果你在 TikTok 上活动过,你可能会熟悉“我负责自己的算法”这个短语,这条短语是在你访问了一个“奇怪”的视频时提出的——这条视频是基于你交互过的(以及没有交互过的)内容的选择结果。这两种观点都突显了 AI 和 LLM 输出高度依赖于人类的输入(不管是直接还是间接)。它们并非“随机”或“中立”,人类在撰写和构建内容所做出的选择直接影响到 LLM 的回应。
如果你的企业在语义内容管理系统(Semantic Content Management)领域运营,你将降低“垃圾文件”的风险,但你需要特别注意内容是如何构建的以及是由谁撰写的。如果你的内容组件缺少风格指南或缺乏 proper 的治理,模型训练可能会受到不一致内容的影响,从而影响输出结果。
通过进行 内容审核 你可以规避这个潜在的问题,并改善你的 AI 被使用的效果。
情境元素
如果你曾经购买过音乐会的门票,你可能已经知道地图或情境对这张门票的重要性。比如一场足球比赛的第 114 号座位在篮球比赛中可能是绝佳位置,但在泰勒•斯威夫特(Taylor Swift)的演唱会上就可能是一个“被阻挡的视角”。同样的道理也适用于使用乐高积木——一个乐高积木可以在不同的套装或组件中扮演许多不同的角色。
近万件的 Titanic 航母号乐高套装使用了很多与简单套装中相同的积木,但如果你只收集了积木却不知道如何组装它们,你不会知道积木有多灵活。这强调了以下事实
引言
在内容与AI方面,没有一种万能方案适用于所有情况。根据您的组织需求和目标,您的内容可能在内容管理系统中处于任何位置。重要的是制定一个基础的内容战略,以有条不紊地管理和优化内容,使其满足您的特定需求。如果您对AI感兴趣,结构化且分组件的内容可能是您的组织所需,以便提高投资回报率(ROI)并实现长期成功。
结论
在内容与AI的关系中没有万能方案适用于所有情况。根据您的组织需求和目标,您的内容可能在内容管理系统中处于任何位置。重要的是制定一个基础的内容战略,以有条不紊地管理和优化内容,使其满足您的特定需求。如果您对AI感兴趣,结构化且分组件的内容可能是您的组织所需,以便提高投资回报率(ROI)并实现长期成功。
如果需要帮助让您的AI投资变得有意义,或者制定改进内容以提升其对AI投资的行动计划,请访问我们的 AI-Ready 内容加速器 或者联系我们。我们很乐意帮助您!