Elasticsearch实战(第2版)
上QQ阅读APP看书,第一时间看更新

1.6 生成式人工智能与现代搜索

你一定听说过最近互联网上最具革命性的产品——ChatGPT。ChatGPT是由OpenAI团队在2022年11月开发并发布的生成式人工智能工具。在我25年的IT经验中,我从未见过像ChatGPT这样在互联网上引起如此轰动的技术工具。很少有这样技术上先进的工具落到普通大众手里,能够以不敢想象的方式帮助他们,如为夏天去雅典的旅行制订旅行计划,用通俗的语言总结法律文件,制定自助减肥计划,分析代码的安全性和性能漏洞,设计应用的数据模型,对比和分析特定使用场景所需的技术,给Twitter(现X公司)的CEO写投诉信等。

ChatGPT是一个在基于转换器的生成式预训练(generative pretrained transformer,GPT)架构的基础上构建的对话智能体(聊天机器人),它能够根据用户的提示词生成类似人类语言的回答。它是一个大语言模型(large language model,LLM)的实例,为对话而设计,具体的目标是在进行有意义的对话时生成安全且相关的内容。该模型使用大量的文本数据进行训练,它通过学习预测句子中的下一个单词的方式进行工作。它一般使用互联网上多样化的文本进行训练,但也可以使用特定的数据集进行微调以完成各种特定的任务。通过这个过程,该模型学习人类语言文本的各个部分,即语法、标点、句法、关于世界的事实,以及一定程度的推理能力。

注意 LLM是指任何大模型的广义术语,这些模型经过训练,能够理解或生成类似人类语言的文本。这些模型的特点是它们有大量的参数,并且能够处理各种自然语言处理任务。LLM可以基于各种架构和训练方法进行训练。

随着ChatGPT的发布,利用人工智能进行搜索的领域几乎一夜之间出现了一场激烈的竞赛。ChatGPT已成为许多行业的颠覆者,对Google搜索也构成了不小的威胁。未来几年,类似于ChatGPT这样的人工智能支持的工具还将颠覆更多的行业。在巨大的压力下,可能是为了保住其搜索领导者的地位,Google决定推出自己的对话生成式人工智能,其名为Bard的智能体在2023年5月向公众开放。

与此同时,微软承诺在2019年以来的30亿美元初始投资的基础上,再给ChatGPT追加100亿美元的投资。微软的Edge浏览器通过Bing搜索引擎集成了ChatGPT,并在2023年5月向公众开放。此外,微软还推出了人工智能驱动的Microsoft 365应用,因此AI智能体现在可以在Microsoft Word、Excel、电子邮件和其他工具中使用。而Meta的LLaMA也是生成式人工智能竞赛中的一个竞争对手。

GPT-3和GPT-4模型是通过对数十亿份数字化的图书、文章、论文、博客等内容进行训练得到的。GPT-4模型的数据输入截至2021年9月(它无法获取这个日期之后的数据)。虽然GPT-4无法访问互联网以获取实时信息,但在我写本书的时候,OpenAI刚刚为其Plus用户推出了一个网页浏览器的测试版。因此,我预计OpenAI可联网的生成式AI助手很快就会向公众开放。

搜索工程师总会被问到一些根本性的问题,包括生成式人工智能将如何改变搜索的方式。让我们通过询问ChatGPT来回答这个问题,看看AI智能体如何补充或帮助现代搜索,或者改变其演进方向。像生成式人工智能这样的工具将在以下几方面重塑搜索领域。

直观搜索——搜索查询将变得更具对话性和直观性。像GPT-4这样的生成式人工智能模型对自然语言有着更深入的理解,这使它们能够更有效地理解复杂的查询。用户将不再需要依赖特定的关键词或短语,他们可以像与另一个人交谈一样简单地提问。这将使搜索结果更准确和相关,因为人工智能可以更好地理解查询的上下文和意图。随着更强的生成式AI智能体和模型的引入和发布,我们可以预见现代搜索引擎(如Elasticsearch)提供的全文搜索功能将发生重大变化。随着这项技术被越来越多地整合到搜索平台中,我们可以期待看到一些将重新定义用户和开发者的搜索体验的关键改变。

个性化搜索——随着生成式人工智能的引入,搜索结果可以变得更加个性化和自适应。搜索引擎将能够从用户的偏好、行为和搜索历史中学到许多有价值的信息,从而帮助引擎根据每个用户的需求定制搜索结果。随着人工智能不断收集数据,它将不断完善对用户搜索意图的理解,从而带来越来越个性化的搜索体验。

预测性搜索——生成式人工智能具有让搜索引擎更加主动预测用户需求的潜力。人工智能驱动的搜索引擎可能不仅仅是响应查询,而是能够基于用户之前的交互或当前上下文来预测用户感兴趣的信息。这将使搜索平台能够主动提供相关的建议,从而减少用户额外的查询,以此提升搜索体验。

高级搜索——生成式人工智能将使搜索引擎能够提供更多样化、更丰富的搜索结果。通过理解查询的上下文和语义,人工智能驱动的搜索引擎可以生成内容摘要和相关的可视化内容,甚至合成新的信息来辅助回答用户的问题。这将带来超越仅连接到现有内容的更全面、信息更丰富的搜索体验。

在我看来,生成式人工智能的引入将彻底改变全文搜索的能力,使搜索引擎变得更具对话性、更个性化、适应性更强,并且更主动。这将不只是提升用户体验,还可以为企业和开发人员提供新的机会,创造新的搜索应用和服务。随着人工智能的到来,团队正在努力适应搜索领域即将发生的变化。所以,期待一场搜索领域的革命吧!

本章为使用Elasticsearch奠定了基础,介绍了其搜索功能,并探讨了搜索是如何成为众多应用不可或缺的一部分的。在第2章中,我们将安装、配置并运行Elasticsearch和Kibana,通过索引一些文档并执行搜索查询和分析来使用Elasticsearch。