报道
编辑:英智
谷歌研究人员提出了一种创新的token拍卖模型,通过「竞拍」的方式,让智能体在文本生成过程中进行出价,确保最终输出能满足各方利益,实现最佳效果。这一机制优化了广告、内容创作等领域的协作。
当多个LLM智能体共同创作内容时,它们会如何协调彼此的「话语权」?
想象一下,在广告投放中,A航空公司和B度假村都希望吸引用户的目光,但单独宣传各自的服务可能不如联合推广来得有吸引力。
那么,如何让AI智能体像人类一样展开博弈,在竞争与合作之间找到最佳平衡?
谷歌研究人员提出了一种创新的「token拍卖模型」,让LLM在文本生成过程中通过「竞拍」来决定最终输出,确保每个智能体的利益最大化,同时生成最优质的内容。
这种机制不仅能优化广告创意,还能拓展至智能客服、内容创作等多个领域,重新定义AI协作。
以广告为例,当用户搜索「夏威夷度假」时,网页上可能会出现一个广告位。A航空公司和B度假村这两家广告商,都希望在这个位置展示自家的广告。
他们分别借助LLM生成广告内容,比如A公司的「乘坐A航空,飞向夏威夷」,B度假村的「在B度假村,享受夏威夷的美景」。
但如果能将两者的优势结合,形成联合广告「乘坐A航空抵达夏威夷,在B度假村享受梦幻一周的度假体验」无疑会更具吸引力,也能更好地满足用户夏威夷度假的需求。
假设有两个分别代表虚拟广告商A航空和B度假村的智能体,它们的任务是合作一则联合广告创意。
然而,这种合作并不容易实现。
每个LLM背后的广告商都有自己的偏好和利益诉求。广告商们都希望自家的产品或服务能在广告中被重点提及,并且突出展示那些他们认为更有吸引力的特点。
这就好比在一场团队比赛中,每个队员都想让自己负责的部分成为焦点。
这种情况下,如何协调多个LLM的输出,让它们共同生成一个既能满足各方利益,又能达到最佳效果的联合输出,成为了一个需要解决的问题。
Token「拍卖」模型
为了解决上述问题,研究人员提出了token拍卖模型。
该模型以token为单位,逐个进行拍卖。在每次拍卖中,每个LLM作为竞拍者,根据自身的能力和意愿对下一个token进行出价。模型的核心任务包括:
1. 扩展共享的token序列:决定下一个添加到文本中的token。
2. 确定每个竞拍者的支付费用:通过支付函数计算每个LLM需要支付的费用。
分布聚合函数在此过程中扮演裁判角色,综合考虑每个LLM提供的token分布和出价,生成新的聚合分布。支付函数则负责确定每个智能体的支付金额,激励其真实地表达自身偏好。
先来看看单个LLM是如何工作的。当模型接收到一段输入文本后,会根据自己所学的知识和模式,给出下一个可能出现的token的概率分布。
例如,输入「机制设计为」,模型可能会输出 [(大型,0.8), (生成式,0.2)],这意味着下一个token是「大型」的概率为80%,是「生成式」的概率为20%。
基于这种概率分布,LLM可以自动生成文本,从一个初始的提示文本开始,不断根据概率分布选择下一个token,直到生成一个完整的文本。
token拍卖模型在此基础上进行了拓展,它以token为单位,逐个进行拍卖。
在这个「拍卖会」上,每个LLM都是一个「竞拍者」,它们根据自己的能力和意愿出价。
同时,token拍卖模型承担着两个关键任务:一是扩展共享的token序列,也就是决定下一个添加到文本中的token;二是确定每个「竞拍者」需要支付的「费用」。这两个任务分别由分布聚合函数和支付函数来完成。
Token拍卖模型架构
分布聚合函数就像是一个裁判,它综合考虑每个LLM给出的token分布和它们的出价,然后给出一个新的聚合后的token分布。
假设有三个LLM智能体,当前共享的token序列是「机制设计为」,智能体1的LLM给出的分布是 [(大型,0.8),(生成式,0.2)],出价为1;智能体2的分布是 [(大型,1.0)],出价为2;智能体3的分布是 [(生成式,1.0)],出价为2。
那么,分布聚合函数可能会根据出价加权平均的方式,得到一个新的聚合分布 [(大型,0.56),(生成式,0.44)] 。
设计空间缩减
在Token拍卖模型的设计中,研究人员强调了以下两个理想属性:
支付单调性:如果一个LLM提高了出价,那么在最终的联合输出中,其偏好应得到更好的体现。
一致聚合:不同LLM的分布应以合理、一致的方式进行聚合。
通过严谨的数学推导,研究人员发现,这两个属性等同于要求分布聚合函数具有单调性。这一发现缩小了分布聚合函数的设计空间,使得模型设计和分析更加简洁。
支付函数负责确定每个智能体需要支付的费用。支付单调性意味着如果一个智能体提高了出价,那么它在最终的联合输出中应该得到更好的待遇,也就是聚合后的分布应该朝着它更偏好的方向变化。
一致聚合则要求不同的LLM在参与拍卖时,它们的分布能够以一种合理、一致的方式进行聚合。
「第二价格」支付机制
在拍卖理论中,「第二价格」支付方式被证明能够提供良好的激励效果。
在传统的单物品拍卖中,「第二价格」支付是指把物品卖给出价最高的竞拍者,但让他支付第二高的出价。
在token拍卖模型中,研究人员也借鉴了这一理念。他们证明了(在一些合理的假设条件下),任何单调的分布聚合函数都可以采用类似「第二价格」的支付方式。
这种支付方式的好处在于,它可以促使智能体更真实地出价,因为即使他们提高出价赢得了竞拍,也不需要支付过高的费用,从而避免了智能体为了获得更好的结果而盲目抬高出价的情况。
最优聚合策略
为了设计最优的分布聚合函数,研究人员从先进的LLM训练方法中汲取灵感,构建了聚合损失函数。
该函数为每个输出分布关联一个总损失值,目标是通过调整分布聚合函数,使总损失最小化。
研究人员提出了两种有效的分布聚合函数:
线性分布聚合函数:输出分布为出价加权平均值。
对数线性分布聚合函数:在对数空间中执行加权平均操作。
这两种聚合函数在不同的场景下都有着良好的表现,为实际应用提供了更多的选择。
实验结果
为了验证token拍卖模型的有效性,研究人员进行了一系列实验。
他们选择了现有的LLM,并通过提示调整(prompt tuning)的方式,让模型扮演不同的广告商角色。
在前面提到的A航空公司和B度假村的例子中,研究人员展示了在不同的出价相对权重(λ)下,线性聚合规则和对数线性聚合规则生成的广告内容。
随着λ值的变化,生成的广告内容呈现出有趣的变化。
当λ=1时,广告主要提及A航空公司;随着λ逐渐减小,广告开始同时提及A航空公司和B度假村。当λ=0时,广告则主要宣传B度假村。
实验结果显示,随着出价权重的变化,生成的广告内容能够合理地体现各方的利益诉求,实现了不同广告商之间的有效协作。
此外,研究人员还展示了更多不同提示,包括竞争广告商场景下的实验结果,进一步证明了token拍卖模型的灵活性和有效性,为多个LLM的协作提供了方案。
LLM的机制设计研究为多个LLM的协同工作带来了启发。
Token拍卖模型的提出,解决了多模型协作中的关键问题,还为后续的研究和应用奠定了基础。
从实际应用的角度来看,这种机制在广告、内容创作、智能客服等领域都有着广阔的应用前景。
例如,在广告领域,它可以让不同品牌的广告更巧妙地融合,提高广告的吸引力和效果;在内容创作方面,多个智能体可以通过这种机制共同创作出更丰富、多元的作品。
参考资料:https://research.google/blog/mechanism-design-for-large-language-models/