【头部财经】用户使用语言对于大型语言模型(LLM)的费用具有重要影响,这可能导致英语使用者和其他语言使用者之间出现人工智能鸿沟。最近的一项研究发现,由于服务器成本衡量和计费方式的差异,英语输入和输出的费用明显低于其他语言。例如,根据该研究,简体中文的费用大约是英语的两倍,西班牙语则是英语的 1.5 倍,而掸语则高达英语的 15 倍。
这份研究表明,使用非英语语言的用户在使用大型语言模型时需要承担更高的成本。推特用户 Dylan Patel(@dlan522p)分享了一项牛津大学的研究,发现处理一句缅甸语句子所需的词元(tokens)数量远远超过相同句子的英语版本。具体而言,一句缅甸语句子需要 198 个词元,而相同句子的英语版本只需要 17 个词元。词元代表了用户访问大型语言模型所需的计算力成本,从而导致缅甸语的处理成本比英语高出 11 倍。
原因在于词元化模型导致非英语语言的使用和训练成本更高。相比英语,像中文这样的语言具有不同且更复杂的结构,包括语法和字符数量等方面。这导致这些语言需要更多的词元化处理。举例来说,根据 OpenAI 的 GPT3 分词器,英文中的短语“your affection"只需两个词元,而简体中文中则需要八个词元。尽管中文文本只有四个字符,而英文有十四个字符。