编者按:
Perplexity 是在第一波大语言模型应用潮里跑出来的优秀选手。成立不到两年的时间里,已经融资超过一亿美元,与三家模型大厂合作,是黄仁勋最喜欢的 AI 产品。
同时,它也受到诸多争议。上个月它被福布斯指控,未经允许盗用媒体的付费专属内容。WIRED 也跟进调查,发现自家网站上的反爬虫设置,也没挡住 Perplexity 对内容的抓取。
同样是六月,Perplexity 的 CEO Aravind Srinivas 接受知名播客 Lex Fridman 的专访,他们聊了人工智能、互联网以及搜索 —— 在 Aravind Srinivas 心中,Perplexity 是关于知识的获取、传播和再生产。
Perplexity 实现了自己的愿景吗?这次专访可能是一次回顾来路的机会。
以下为访谈节选,内容经过编辑:
Lex Fridman:Perplexity 的愿景是彻底改变我们人类在互联网上获取问题答案方式的公司。它结合了搜索引擎和大型语言模型(LLM)让回答的每个部分,都引用到人类在互联网上创建的来源。
这显著减少了 LLM 的幻觉问题,并使人更轻松、更可靠地使用它进行研究,以及通常在深夜会出现的、纯粹出于好奇心的冲浪。
Aravind 曾是伯克利的博士生,并且在 DeepMind、谷歌担任 AI 研究员,最后在 OpenAI 担任研究科学家。
这次对谈包含了许多关于机器学习最前沿的迷人技术细节,以及在增强生成(即 RAG)、思维链推理、网络索引、UX 设计等方面的创新。
Perplexity 既是搜索引擎,又是 LLM。它是如何工作的?搜索和 LLM 的各个部分在提供最终结果方面发挥了什么作用?
Aravind Srinivas:Perplexity 当然可以被描述为一个搜索引擎。你问它一个问题,你得到一个答案。但 不同之处在于,所有的答案都有引用来源作为支持。这就像一个学者写论文一样。
引用就是搜索引擎的工作,结合传统搜索,提取与用户问询的相关结果,然后阅读这些链接,提取相关段落,输入到一个大型语言模型(LLM)中。
模型接收相关段落,查看问询,并给出一个格式漂亮的答案,并对其说的每个句子进行适当的脚注,因为它已被指令这样做 —— 给定一堆链接和段落,为用户编写一个简洁的答案,并进行适当的引用。所有这些工作协同在一起的魔法效果,就是我们创建 Perplexity 的原因。
当我写我的第一篇论文时,和我一起工作的资深同行告诉我这是件严肃的事: 那就是你论文中写的每个句子都应该有论据支持,无论是引用来自另一份同行评审的论文,或者你自己论文中的实验结果。你在论文中说的任何其他内容更像是一个观点。这是一个非常简单的方式,但在它深刻地迫使你,只说正确的话。
我们采纳了这个原则,并问自己,如何让聊天机器人更准确,让它只返送在互联网上能找到来源的答案,并且要有多个来源。这样一来,实际上是出于需求而不是「哦,让我们试试这个想法」。
Lex Fridman:Perplexity 的起源故事是什么?
Aravind Srinivas:最开始,我们只想用大型语言模型(LLMs)构建一些很酷的产品,当时还不知道价值在哪里,是在模型中,还是在产品中?
但有一件事很清楚,这些生成模型已经从实验室里的研究项目,转而变成走向用户的应用程序。GitHub Copilot 被很多人使用,我自己也在用,我看到周围的很多人都在用,Andrej Karpathy 也在用,人们愿意为它付费。
这是一个不同于以往任何时候的时刻,以前的 AI 公司只是在收集大量数据,但那只是更大局的一小部分。但这是第一次,AI 本身就是核心。
Lex Fridman: 所以对你来说,Copilot 是一个灵感来源。
Aravind Srinivas: 是的,GitHub Copilot。你可以称它为一个花哨的自动完成工具,没毛病。 我希望我创办的公司具有一个属性,那就是它必须是 AI 闭环的。
这是我从 Larry Page 那里学到的一点:你要瞄准一个问题,一旦它作为目标被攻克,你就能从 AI 的进步中受益,产品会变得更好。
由于产品变得更好,更多的人会使用它,这样就帮助你收集更多数据,使 AI 变得更好。AI 变得更好,产品也随之变得更好。这就创造了一个良性循环。
大多数公司很难拥有这种属性,这就是为什么他们都在努力找出他们可以在哪里使用 AI,在哪里应该能够使用 AI。
有两个产品我觉得真正做到了这一点。一个是谷歌搜索,任何在 AI、语义理解、自然语言处理方面的改进都会提高产品,带来更多的数据,从而使产品变得更好,等等。
另一个是自动驾驶汽车,更多的人驾驶就会有更多的数据,这使模型变得更好,视觉系统变得更好,行为复刻变得更好。
Lex Fridman: 你说的是特斯拉的自动驾驶方法。
Aravind Srinivas: 无论是 Waymo 还是特斯拉,都没关系。
Lex Fridman: 所有进行明确数据收集的东西。
Aravind Srinivas: 对。我一直希望我的创业公司也是这种性质的,但它并不是设计为直接进行用户搜索的。
最初面对我们的第一位投资人 Elad Gil 提出的第一个想法是,「嘿,我们想颠覆谷歌,但我不知道怎么做。我只是一直在想,如果人们不再在搜索栏中输入内容,而是通过眼镜直接问他们看到的东西?」我一直喜欢 Google Glass 的版本,它非常酷。
他只是说,「集中精力,你不能在没有大量资金和人力的情况下来做这件事。找到一个细分领域,做一些东西,然后你可以朝着更宏伟的愿景努力。」这是非常好的建议。
当我们开始创业时,所有人都有很多问题。我们都是新手,以前从未做过产品,从未创立过公司。当然,我们已经完成了很多很酷的工程问题,但 从零开始始终是考验,有很多麻烦。
我们雇佣的第一名员工来问关于健康保险的事。很正常的需求,但我没在意过,我就想,「为什么要健康保险?如果这家公司倒闭了,谁还管?」我的其他两位联合创始人都结婚了,所以他们有配偶买的保险,但这个家伙需要的保险,我甚至一无所知。
买哪个公司的?什么是共同保险,免赔额?这些我都不懂。你去谷歌查,保险是一个广告支出的大类。即使你问了,谷歌也没有动机给你清晰的答案,他们希望你点击所有这些链接并自己阅读,因为所有这些保险公司都在竞标以获得你的注意。
我们集成了一个 Slack 机器人,这个机器人会询问 GPT 3.5 并回答问题。听起来这就解决了,但实际上我们并不知道它所说的是否正确,事实上,它说错了一些信息。
我们当时想,「好吧,我们该如何解决这个问题?」我们想起了我们的学术背景。我和 Dennis 都是学者,Dennis 是我的联合创始人。
我们想,「行吧,我们在同行评审的论文时,防止自己说胡话的一个方法是什么?」
我们总是确保我们写的每一句话都有引用。那么,如果我们要求聊天机器人也这样做呢?然后我们意识到,这实际上就是维基百科的运作方式。
在维基百科中,如果你随意进行编辑,人们期望你是有一个来源的,而且不仅是随随便便一个来源,他们希望你确保来源有可靠的。有许多标准来判断什么算是可靠的,什么不是。所以 Dennis 认为这是一个值得尝试的方向。
这不仅是一个可以通过更智能模型解决的问题,还有许多其他事情要在搜索层面和来源层面上做,并确保答案的格式和呈现方式对用户来说是合理的。这就是为什么这个产品存在的原因。
Lex Fridman:我有些问题要问,但首先,放宽视野。本质上,它是关于搜索的。你说有一个搜索的构件,然后一个通过 LLM 讲故事的构件和引用构件,但它首先是关于搜索的。你认为 Perplexity 是一个搜索引擎吗?
Aravind Srinivas: 我认为 Perplexity 是一个知识发现引擎,不是搜索引擎。当然,我们称它为答案引擎,但这里的一切都很重要。当你得到答案,旅程并没有结束, 在我看来,你得到答案后旅程才开始。
你会看到底部出现的相关问题,为什么?因为也许答案不够好,或者答案足够好,但你可能想要深入挖掘并提出更多问题。
这就是为什么我们在搜索栏里写,「知识从这里开始」, 因为知识没有尽头,你只能扩展和成长。这就是 David Deutsch 的书《无限开始》的整个概念。你总是在寻求新知识。我将这看作是一种发现过程。
Lex Fridman:如果长远来看,你认为搜索的未来是什么样的?也许我们还可以问一个更大的问题,互联网的未来是什么样的?也许甚至是浏览器的未来,我们如何与互联网互动?
Aravind Srinivas:如果你看得更远点,甚至 在互联网之前,知识一直在不断传播。这是一个比搜索更大的事。
搜索是一种方法。互联网是快速传播知识的一种方式,最开始按主题组织,然后有Yahoo 分类,然后是更多的超链接。Google 也开始通过知识图谱等做即时问答。我认为即使在 2010 年,Google 流量的三分之一,当时是每天 30 亿次查询,都是来自 Google 知识图谱的即时答案,基本上来自 Freebase 和 Wikidata 的东西,都是。
所以很明显,至少 30 到 40% 的搜索流量只是答案的一部分。其余的,你也可以说是像我们现在正在服务的,更深度的答案。
但是另一个真实的情况是,随着更深层次的答案,更深入的研究力量,你能够问出以前不能问的问题。比如,你能问「AWS 是否在 Netflix 上」这样的问题吗?这将让你问一种新的问题,一种新的知识传播。所以清楚地解释搜索和答案引擎之间的区别很难。
我相信我们正朝着的方向既不是搜索也不是答案引擎,而是发现,知识发现的方向发展。这是更大的使命,可以通过聊天机器人,答案机器人,语音等使用形式来满足,但比这更重要的是指导人们发现事物。我认为这就是我们在 Perplexity 上想要做的,满足人类的基本好奇心。
Lex Fridman:所以这是人类物种的集体智慧,总是在寻求更多的知识,你正在给它工具以更快的速度达到。
Aravind Srinivas:没错。
Lex Fridman:你认为人类物种的知识量会随着时间的推移而迅速增加吗?
Aravind Srinivas:我希望如此。 更重要的是,如果我们能够改变每个人,让他们比以前更追求真理——仅仅因为他们有能力,仅仅因为他们有工具,我认为这将带来更多的知识。实际上,更多的人会对事实核查和发现事物感兴趣,而不是仅仅依赖其他人,和他们道听途说来的消息,因为那些总是可能被政治化,或有意识形态的影响。
所以我认为这种进展会非常好,我希望这是我们可以一起建设的互联网。比如通过我们正在进行的 Pages 项目,让人们不费多少力气就能写文章。这个项目的愿景在于,你在 Perplexity 上的浏览会话和问询不仅对你自己有用。
黄仁勋在他的演讲中说过,「我在别人面前给一个人反馈,不是因为我想压低或提升任何人,而是因为我们都可以从彼此的经验中学习」。
为什么只有你能从你的错误中学习?其他人也可以从别人的错误中学习,或者另一个人也可以从别人的成功中学习。
所以这就是其中的一部分。为什么你不能分享自己在 Perplexity 上的一个 Q&A 会话,和你从中学到的东西,然后传播到世界其他地方?我想要更多这样的事情发生。
完整播客地址:https://lexfridman.com/aravind-srinivas/
文 | Selina