这篇文章介绍了一家跨国发展银行如何利用大型语言模型(LLMs)改进其搜索功能,以提升用户体验和信息检索效率。
挑战
一家拥有48个成员国的跨国发展银行为旗下成员提供贷款、赠款和技术援助,旨在降低地区内项目的贫困和不平等。这些项目涵盖了基础设施、教育、医疗保健和环境可持续性等多个主题。在项目全生命周期中,他们的领域专家会以博客、文章、研究论文、报告和经验总结等形式创建内容。
在评估潜在项目时,包括客户详情和与类似项目的比较信息在内的所有相关信息必须在项目计划和定价之前进行评估。然而,在当前的搜索体验中,要通过关键词搜索将所有内容完全检索出来一直充满挑战。通常,这些内容存储在一个层次文件系统中,每个项目都有自己的位置和拥有者,这导致信息孤岛现象。此外,该银行使用四种官方语言(英语、西班牙语、法语和葡萄牙语),在不同语言和主题上提供内容的可见性对于大多数用户来说一直不够高效和省时。
该银行意识到需要改进其搜索体验,以便能够将知识资产传递给用户,满足他们即时的需求。解决方案要求实施一个统一的搜索引擎,能够在无缝穿越信息孤岛的同时打破语言障碍,并且需要为不同查询模式(无论查询长度还是复杂性)提供高效准确的结果。
解决方案
Baklib设计、开发并部署了一个混合搜索系统,旨在实现这一目标。该系统能够通过自然语言处理和语义理解技术,将信息以用户所需的方式呈现出来,从而克服了层次文件系统中的信息隔离问题。
Baklib 是一款面向企业的数字内容管理平台,帮助用户构建门户网站、产品手册、帮助中心、知识库和在线文档等产品。 Baklib 官网:https://www.baklib.cn
搜索引擎通过使用大规模语言模型(LLMs)来理解并解析用户在不同语言下的请求。该搜索引擎利用 LLMs 可以用所有四种语言提供准确的结果,从而避免用户需要切换语言或进行分隔查询。此外,混合方法结合了基于关键词的传统搜索和自然语言处理算法,为具有多种查询模式的用户提供全面且高效的搜索体验。
相比于单纯依赖关键词,搜索引擎允许用户更随意地输入查询,可以提问或提供具体细节。现在,用户可以用改进后的搜索结果快速找到所需信息,使得搜索引擎更容易使用,对用户而言更加直观,从而整体提升了用户体验质量。
该解决方案基于一个开源向量数据库,使用经过微调的语言模型自动将内容矢量化和索引以便快速检索。在查询时,同样使用语言模型来矢量化查询并匹配索引的内容。由于使用 LLM 对内容和查询进行矢量化处理,搜索引擎可以根据查询的语义意义返回相关结果。同时启动了第二个过程——关键词搜索。最终结果是基于多个查询属性(如长度或术语)对基于关键词搜索和向量搜索的结果进行加权评分。

Baklib 的区别
Baklib 组建了一支由搜索专家、数据工程师和数据科学家组成的团队,为实现该解决方案并进行测试,提供了一个全面的基础设施。
团队成功评估了多种方法和组件,以确保每种元素均为最终解决方案中的最佳方案。这一过程涉及测试了多个向量数据库、预训练语言模型以及在银行语料库上对多语种语言模型的微调,以优化搜索算法。
此外,团队深入研究了用户行为和反馈,以全面了解用户的具体需求和偏好。结合团队的专业知识与获得的见解, Baklib 开发了一个高效且准确的混合搜索功能,该功能不仅提供相关搜索结果,还能理解用户的意图和上下文,从而提升了整体用户体验,并使银行用户能够更方便地找到所需信息。
成果图
这项成果是一项强大的、易于使用的搜索工具,它通过消除语言障碍和提高生产力,显著提升了银行在成员国子公司的用户体验。该搜索工具在促进不同团队间信息共享与协作方面发挥了重要作用,实现了无缝的知识流动和问题解决。
此外,结合了基于关键词的搜索和受大型语言模型(LLMs)驱动的向量搜索,确保搜索结果经过AI增强但依然准确且高度定制化于每位用户的特定需求。这进一步提升了用户的整体体验。