【头部财经】近日,小米AI lab的研究者们进行了一项实验,测试了10个大语言模型在中国小学数学题上的表现。实验结果显示,OpenAI的GPT-4模型可以较好地解答中文小学数学题,但和人类相比还有差距;而国产大模型在实验中的表现相对较差。
首先,这项实验的数据集来自于开源的小学练习册和考卷,共包含1700道小学数学题。每道题都标注了年级、推理步数和最大有效数字位数等难度信息。实验中,研究者们选取了零监督设置,以最原始的方式评价大模型的表现。
在实验结果方面,GPT-4模型在所有年级的题目中都能拿到60分以上的成绩,而ChatGPT只能达到小学四年级及格的水平。国产大模型中,只有ChatGLM2与Ziya-LLaMA-13B能达到小学二年级及格的水平,其他模型在一年级的问题中表现也不尽如人意。
此外,实验还考察了不同模型在不同推理步骤和数据位数问题上的表现。结果显示,当推理步数较多或数字位数较大时,国产大模型表现下滑明显。为了检测大模型的鲁棒性,研究者还尝试在问题中增加干扰条件。实验结果表明,GPT-4具有较强的抗干扰能力,而其他大模型在抗干扰上表现不佳。
总体来看,虽然GPT-4在实验中表现出相对较好的性能,但与人类相比仍有差距。同时,国产大模型在解决小学数学问题上的表现不尽如人意。这表明在人工智能领域,我们还需要进一步加强国产大模型的研究,以提高其性能和竞争力。
对于这一实验结果,有专家表示,虽然人工智能在自然语言处理、图像识别等领域已经取得了很大进展,但在解决数学问题等逻辑推理方面仍存在挑战。此外,由于中文语言本身的复杂性,以及国内人工智能领域发展相对滞后等原因,导致国产大模型在这次实验中表现不佳。
也有专家指出,这一实验结果提醒我们,人工智能技术的发展需要更多的投入和时间。在鼓励创新的同时,也需要加强基础研究、培养优秀人才,以提高我国在人工智能领域的整体竞争力。
总之,这项实验为我们提供了一个全新的视角,展示了人工智能在不同领域的应用和挑战。未来,随着技术的不断发展和研究的深入,我们期待人工智能能够更好地服务于人类社会。