本文讨论了如何为企业构建自定义的 ChatGPT,以确保数据隐私和安全。文章分析了第三方 API 的挑战及其对企业知识的影响,并提出使用开源 LLM 作为解决方案。
https://document360.com/blog/custom-chatgpt-for-your-companys-knowledge-base/
介绍
几十年来,谷歌一直主导着搜索引擎市场。它使用起来很简单,因为任何人都可以输入他们想要的搜索关键字,谷歌会在几秒钟内带来数千个相关网页。然后,用户可以浏览顶部链接,并通过浏览这些网页链接中的内容来找到他们需要的内容。然而,Siri 和 Alexa 等基于语音的系统的出现改变了游戏规则。用户的习惯已经转向寻找准确的答案,而不是从不同的网页访问一堆内容!
拥抱 ChatGPT! ChatGPT 正在彻底改变人们搜索内容和寻找问题答案的方式。这是搜索和寻找问题答案的新范例! ChatGPT 不是提供一堆热门网页,而是使用生成人工智能 (GenAI) 技术为用户问题提供准确的答案。用户可以在短时间内得到答案。 ChatGPT 已经在互联网上可用的大量文本数据上进行了训练,从而封装了互联网世界中已知的所有知识! ChatGPT 基于大型语言模型 (LLM) 构建,能够将人类用户可以理解的有意义的语义句子组合在一起。
ChatGPT 的工作原理是用户输入一个名为“提示”的问题并获得一个名为“响应”的答案。响应取决于提示中输入的内容以及 ChatGPT 可以访问的基础知识的范围。可以根据用户偏好调整响应。例如,如果用户想要表格、电影脚本、要点等形式的响应,ChatGPT 会以用户请求的格式提供响应。
ChatGPT 技术已可供开发人员通过其丰富的应用程序编程接口 (API)集使用。 OpenAI、Cohere、Anthrophic、Hugging Face 等少数公司为其底层 ChatGPT 技术提供 API。这对于许多公司利用 GenAI 功能并将其纳入其 SaaS 产品和服务来说是一个福音。
第三方 API 面临的挑战
第三方 API 掀起了新一波创新浪潮,SaaS 公司正在将 ChatGPT 技术融入其产品组合中,以解决新兴业务用例。这些 API 的早期采用者是知识库提供商、客户体验供应商和创意工具。知识库和客户体验供应商使用这些 API 来提供对话支持系统,该系统利用与其产品或服务相关的基础知识库文章来回答用户的问题。这已经为减少客户支持请求和提高支持代理的生产力铺平了道路。
另外,请查看我们知识库中关于 ChatGPT 插件的角色的文章
然而,一些企业仍然对采用不同LLM供应商的这些API持怀疑态度,因为他们担心数据隐私和企业知识的泄露。一些高级挑战是:
数据隐私
大多数企业知识都是文本形式的,通过API将这些数据暴露给LLM提供商会给企业带来巨大的风险,因为他们的企业知识被发送到第三方服务器。企业担心LLM提供商是否会使用他们的任何数据来培训他们的底层LLM,这可能会导致他们的企业知识的信息泄露。尽管许多 LLM 提供商都有数据隐私政策,规定通过其 API 传入的任何数据都不会用于培训其基础 LLM,但企业仍根据其法律团队的风险评估采取谨慎的做法。
数据安全
企业还担心其私有企业文本数据的数据安全。文本数据可能包含敏感信息并且可能无法得到适当的管理。这会给监管和合规机构带来法律后果。大多数 ChatGPT / LLM 提供商都遵守 GDPR、CCPA 等数据保护法。然而,企业不希望他们的数据离开他们的安全边界。
内容创作中的法律问题
在内容创作方面,企业担心GenAI能力所创作内容的知识产权(IP)。对于GenAI制作的文本、图像、音乐等内容,知识产权法尚不明确。企业不希望卷入诉讼,损害其品牌价值。
构建自定义 ChatGPT
为了解决 LLM 提供商的 API 带来的挑战,企业可以使用开源 LLM 并将其托管在其私有基础设施中。这些开源模型由 Meta 和 Google 等大公司发布,帮助开源社区利用 LLM 的力量并进行微调,使其变得更好。 Llama 2、PaLM 2 等模型可以在不同的 Creative Common 许可证上使用,企业可以使用它们。这些模型在大量文本数据上进行训练,并且可以使用企业数据进行微调。因此,企业可以使用类似 ChatGPT 的私有技术来推动其创新战略项目。这种多功能方法使企业能够使用 GenAI 功能解决新兴的新用例。构建自定义 ChatGPT 模型有利有弊。他们是
优点
提供数据隐私和数据安全,因为自定义 LLM 托管在企业安全边界内
遵守当地法律
遵守合规性和规律性法律
根据公司内部知识进行微调
可以通过仅限于内部利益相关者的私有 API 提供此自定义 LLM 作为 API
缺点
随着时间的推移,基础设施可能会变得昂贵
普通 LLM 模型的微调需要昂贵的 GPU,从而增加了成本
无法利用私人法学硕士提供商的能力和创新
雇用具有托管和维护这些定制法学硕士专业技能的新员工
结论
自定义 ChatGPT 为企业提供灵活性,确保数据隐私和安全完好无损。这些定制的LLM可以利用私人企业知识进行微调,从而推动创新。企业可以优化定制法学硕士的用户体验(UX)和响应时间,以满足其业务需求。更重要的是,定制的法学硕士可以防止信息泄露给任何第三方法学硕士供应商,从而让客户相信他们的数据是安全的。这有助于企业提升品牌形象。企业需要投入巨额投资来构建这些定制的法学硕士并随着时间的推移对其进行维护。必须进行一致的升级,以确保这些模型稳健且适合用途。此外,企业需要聘请能够构建、维护和支持这些定制法学硕士的技术人员。许多企业的董事会已经做出决定,通过构建定制的法学硕士来帮助企业采用这些 GenAI 技术。