辰汐の小站

AI

2024年的常用大模型及大模型测评报告


2023年,大环境波诡云谲,科技圈浪潮依然奔涌不停。

大模型打开AI新世界,Vision Pro引领空间计算,智能电车超越油车,拼多多“新王”已立,智能手机狂卷创新,新硬件层出不穷,鸿蒙系统加速壮大,AI芯片驱动万物……2023年,科技产业发生了太多重大事件。

当未来的人类回望历史,或许会将2023年称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中,而且进步的速度一日千里,从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。

随着ChatGPT的公布,全球主要的科技企业都开始加快AI大模型的研发,为这个崭新的领域带来无限的可能,接下来,我们将盘点在过去的一年里,创新性、应用领域、AI性能均排名前列的十个AI大模型,让大家可以轻松了解目前AI大模型最前沿的实力。(以下排名不分先后,以首字母(拼音)顺序进行排列)。

1.ChatGPT:AI大模型「开山祖师」

ChatGPT被誉为AI大模型的始祖,由OpenAI开发并在2022年11月首次对外公布,作为首个现象级AI模型,ChatGPT如今已经迭代到了4.0版本,拥有远超ChatGPT 3.5的处理能力,而且支持插件加载、实时网络连接等多个功能。

目前,人们已经为ChatGPT 4.0设计了成千上万个不同功能的插件,从编程到画画,从写诗到编曲,ChatGPT可以说样样精通。当然,能够实现这些功能,主要还是因为ChatGPT本身就是一个多模态AI模型,可以识别并分析多种数据。

ChatGPT也是目前多数人可以接触到的最强AI模型。

Claude的名字大家或许比较陌生,不过背后的团队却大有来头,创始人Dario Amodei为前OpenAI副总裁,带领部分员工创办了Anthropic,经过一系列的改进与升级,如今的Claude被认为是仅次于ChatGPT的AI模型,并且更擅长处理长语言文本。

Claude在近期经过升级后,最大可支持200k的文字输入,远超ChatGPT 4.0 Turbo的128K,不过,相对于ChatGPT活跃的用户生态,Claude的使用人数和应用范围都相对小很多。

但是,在前段时间的OpenAI内部动乱期间,Claude还是成为许多企业的备用选择。因为Claude的团队核心成员大多来自OpenAI,所以某种程度上可以视为ChatGPT的弱化版,虽然综合性能上不如ChatGPT强大,但是在长文本阅读、回答等方面有一定的优势。

从发布时间来看,Gemini无疑是AI模型领域的“萌新”,但是从官方描述来看,其实力之强恐怕只有ChatGPT可以与其扳手腕。Gemini是谷歌AI实验室的作品,同时也是一个多模态模型,可以同时处理文字、音频、图像等多种数据,使得Gemini拥有出色的多任务处理能力。

不过,Gemini发布没多久就闹出了笑话,在回答中称自己是百度开发的文心一言(中文语境下)或OpenAI开发的ChatGPT(英文语境下),虽然后续谷歌对Gemini进行了紧急维护,封堵了漏洞,但是依然引发了网友的热烈讨论。

目前Gemini还处在测试阶段,谷歌的这个多模态大模型能否超越ChatGPT仍然是个未知数,但是至少从体验来看,Gemini综合了谷歌旗下不少AI模型的优点,在实际使用中或许能够给你带来惊喜。

华为云的盘古AI大模型虽然在普通人中知名度不高,但是在行业中的商业化道路却是走得最远、最广的,盘古AI大模型包括了NLP大模型、CV大模型、科学计算大模型等多个AI大模型在内的合集,使其可以被应用到科学研究、教育、交通、工业等多个行业中。

为了更好的发挥AI大模型性能,华为结合自身的产业及产品优势,让盘古AI大模型进入到矿山、政务、金融、气象等多个领域中,并且已经落地部署了多种应用。此外,盘古AI大模型还是首个训练参数超千亿的中文大模型,整体实力名列前茅且在工业领域的应用已然领先。

LLaMA 2是由互联网巨头Meta开发的AI模型,作为一个开源的AI模型,LLaMA 2能够提供参数量从7B到65B的不同AI模型,为不同需求的用户提供服务。得益于LLaMA 2出色的效率,即使在参数量较低的情况下,其依然能够表现出不错的性能,使得其在小型及移动设备上的本地化部署更有优势。

相较于LLaMA,LLaMA 2在多语言处理方面有所增强,同时强化了自然对话能力和长文本理解能力,生成的内容连贯性更强,降低了出现错误内容的几率,结合开源特性,使其可以得到快速的应用和普及。

在多项测试中,LLaMA 2的实际成绩都在开源模型中名列前茅,使其成为最受欢迎的开源AI模型之一,虽然LLaMA 2距离ChatGPT等头部AI模型还有不小距离,但是它仍然是AI爱好者及中小企业的不错选择。

通义是由阿里推出的中文AI大模型系列,同时也是小雷熟悉的模型之一,目前通义旗下有通义千问、通义万相、通义灵码等多个AI模型入口,可以帮助解决许多问题,比如通义千问就是一个自然对话AI模型,并且提供基于文字的多种用途功能。

通义千问作为阿里的中文AI大模型,在商务信息等数据的查询上更有优势,准确率也更高。目前,通义2.0已经升级为拥有千亿参数量的AI模型,在语言理解、问题判断等方面都有更好的表现,接下来,阿里打算让其接入钉钉等旗下App,为用户提供实时的在线AI支持,甚至支持AI下单等多样化功能,

基于阿里的产品生态矩阵,通义大模型已经在多个App中落地并为用户提供服务,可以说是国产大模型中与用户关系最紧密的一个,从钉钉到淘宝你都能看到通义大模型的身影,感兴趣的朋友不妨去试试淘宝的淘宝问问功能,会有不少惊喜。

文心一言是由百度推出的新一代知识增强大语言模型,得益于百度在AI技术领域的长期投入和搜索引擎市场的领导地位,文心一言是国内进步速度最快的AI大模型,在各类写作、文案创意、问答、咨询、代码等方面都有出色的表现,而且能够提供更契合中文语境的内容。

目前,文心一言网页端的一言百宝箱中提供丰富的应用场景和prompt模板,基本覆盖国内网友的日常需求,还有丰富的插件商城,包括PPT助手,长文档摘要问答,学术检索助手、思维导图等拓展大模型的能力。

不得不说,文心一言在对用户的需求探知上做得很不错,提供了许多有意思的功能,目前文心一言已经免费开放,是基于文心3.5版本,如果想体验更强大的文心大模型4.0版本,则需要开通会员,不过就小雷的体验来说,性价比还是很高的。

讯飞星火,看名字就知道是谁的产品,讯飞作为国内头部人工智能企业,在语音合成识别、多语种、认知智能等方面具有显著优势,在涉足AI模型领域后也将自己的优势发挥得淋漓尽致,在语音对话、翻译、文案撰写等方面的表现非常不错,而且基于星火大模型,讯飞也在整合旗下的多款硬件产品,让用户可以随身携带和使用星火大模型。

目前,讯飞星火的参数量级已经突破千亿,并且在测试中领先于ChatGPT,不过依然落后于ChatGPT 4.0,按照讯飞的计划,星火AI大模型将在2024年上半年达到ChatGPT 4.0的水平。

此外,讯飞星火还推出了内容大师等客户端及App,帮助用户建立更直接、方便的使用方案,辅佐用户更好的管理内容发布、创作、审核等工作,在AI的帮助下,我们的工作效率正在得到显著提升。

子曰是有道推出的教育大模型,这是有道针对教育场景所研发的垂直品类大模型,也是首批获得国家相关认证的大模型之一。网易有道此前推出了大模型翻译、作文指导、语法精讲、虚拟人口语教练、AIBox、等六大创新应用,并已经落地到有道词典、有道词典笔、有道学习机等多种软硬件产品中。

子曰是少见的针对性垂直大模型,相对于通用类大模型,在教育领域的应用表现尤为突出。这款模型结合了先进的自然语言处理技术,特别适用于教育环境,能够提供个性化学习体验和增强教学效果。

通过将教育大模型与软硬件产品的结合,子曰大模型的应用场景得到了广泛的拓展,其用户体验在很多方面超越了通用大模型。与通用大模型相比,子曰在教育领域能够为学习者提供个性化的学习体验,帮助获得更高效的学习成果。随着在线教育日益受到重视,子曰大模型的发展前景非常广阔。

智谱AI虽然名气没有通义、文心、星火等大厂模型大,但是背后的团队却是最早进入AI模型领域的力量之一。智谱AI早在2020年就发布了自研的GLM-10B百亿参数模型,2023年研发了双语千亿级超大规模预训练模型GLM-130B,并且在今年10月发布了第三代基座大模型ChatGLM3,国内首推代码交互能力,支持图像处理、数学计算、数据分析等多个场景,并支持昇腾、海光DCU等10余种国产硬件适配。

作为国内最早开源的AI模型之一,智谱AI对国内的AI模型发展贡献了很多力量,目前也依然出于领先地位,相对于其它AI模型,智谱AI在效率、国产适配等方面都有这出色的表现,加上开源生态,使其成为国内不少企业的合作对象。

在过去的一年里,AI大模型的发展和应用达到了新的高度,它们不仅在技术上取得了显著进步,还在多个领域中展现出了广泛的应用潜力。

从ChatGPT的多功能性到Claude的长文本处理,再到Falcon的开源特性和华为盘古的商业应用,每个模型都以其独特的方式为AI的进步和普及做出了贡献。无论是谷歌的Gemini、阿里的通义,还是百度的文心一言、讯飞星火和智谱AI,这些AI大模型都在不断推动技术界限,提高人工智能的效能和可达性。

2023年的AI发展标志着一个新时代的开始。这些AI大模型不仅代表了技术的前沿,也预示着未来的发展方向。随着这些模型继续进化和扩展其应用范围,我们可以期待AI在更多领域中发挥关键作用,为我们带来更多的创新和便利。


2024年大模型测评报告

大模型混战究竟谁才是实力选手?清华对国内外 14 个 LLM 做了最全面的综合能力测评,其中 GPT-4、Cluade 3 是当之无愧的王牌,而在国内 GLM-4、文心 4.0 已然闯入了第一梯队。

在 2023 年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。

尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。我们认为,好的评测方法应当具备开放性、动态性、科学性和权威性。

为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。

最近,2024 年 3 月版《SuperBench 大模型综合能力评测报告》正式发布。

评测共包含了 14 个海内外具有代表性的模型。其中,对于闭源模型,选取 API 和网页两种调用模式中得分较高的一种进行评测。

根据评测结果,可以得出以下几个主要结论:

● 整体来说,GPT-4 系列模型和 Claude-3 等国外模型在多个能力上依然处于领先地位国内头部大模型 GLM-4 和文心一言 4.0 表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小

● 国外大模型中,GPT-4 系列模型表现稳定,Claude-3 也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。

● 国内大模型中,GLM-4 和文心一言 4.0 在本次评测中表现最好,为国内头部模型;通义千问 2.1、Abab6、moonshot 网页版以及 qwen1.5-72b-chat 紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。

大模型能力迁移 & SuperBench

自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下 5 个阶段:

2018 年-2021 年:语义评测阶段

早期的语言模型主要关注自然语言的理解任务(e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5 等。

2021 年-2023 年:代码评测阶段

随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX 等。

2022 年-2023 年:对齐评测阶段

随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM 等。

2023 年-2024 年:智能体评测阶段

基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen 等。

2023 年-future:安全评测阶段

随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来「AI 可持续发展」的关键问题。

因此,为了全面地评估大模型的各项能力,SuperBench 评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类28 个子类

PART 1 语义评测

ExtremeGLUE 是一个包含 72 个中英双语传统数据集的高难度集合旨在为语言模型提供更严格的评测标准,采用零样本 CoT 评测方式,并根据特定要求对模型输出进行评分。

首先,使用超过 20 种语言模型进行初步测试,包括了 GPT-4、Claude、Vicuna、WizardLM 和 ChatGLM 等。

然后,基于所有模型的综合表现,决定每个分类中挑选出难度最大的 10%~20% 数据,将它们组合为「高难度传统数据集」。

评测方法 & 流程

● 评测方式:收集了 72 个中英双语传统数据集,提取其中高难度的题目组成 4 个维度的评测数据集,采取零样本 CoT 评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值

● 评测流程:根据不同题目的形式和要求,对于模型的零样本 CoT 生成的结果进行评分。

整体表现:

在语义理解能力评测中,各模型形成了三个梯队,70 分档为第一梯队,包括 Claude-3、GLM-4、文心一言 4.0 以及 GPT-4 系列模型。

其中,Claude-3 得分为 76.7,位居第一;国内模型 GLM-4 和文心一言 4.0 则超过 GPT-4 系列模型位居第二和第三位,但是和 Claude-3 有 3 分差距。

分类表现:

● 知识-常识:Claude-3 以 79.8 分领跑,国内模型 GLM-4 表现亮眼,超过 GPT-4 网页版位居第二;文心一言 4.0 表现不佳,距离榜首 Claude-3 有 12.7 分差距。

● 知识-科学:Claude-3 依然领先,并且是唯一一个 80 分以上模型;文心一言 4.0、GPT-4 系列模型以及 GLM-4 模型均在 75 分以上,为第一梯队模型。

● 数学:Claude-3 和文心一言 4.0 并列第一,得 65.5 分,GLM-4 领先 GPT-4 系列模型位列第三,其他模型得分在 55 分附近较为集中,当前大模型在数学能力上仍有较大提升空间。

● 阅读理解:各分数段分布相对较为平均,文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。

PART 2 代码评测

NaturalCodeBench(NCB)是一个评估模型代码能力的基准测试,传统的代码能力评测数据集主要考察模型在数据结构与算法方面的解题能力,而 NCB 数据集侧重考察模型在真实编程应用场景中写出正确可用代码的能力。

所有问题都从用户在线上服务中的提问筛选得来,问题的风格和格式更加多样,涵盖数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等七个领域的问题,可以简单分为算法类和功能需求类两类。

题目包含 java 和 python 两类编程语言,以及中文、英文两种问题语言。每个问题都对应 10 个人类撰写矫正的测试样例,9 个用于测试生成代码的功能正确性,剩下 1 个用于代码对齐。

评测方法 & 流程

● 评测方式:运行模型生成的函数,将输出结果与准备好的测例结果进行比对进行打分。将输出结果与准备好的测例结果进行比对进行打分,最终计算生成代码的一次通过率 pass@1。

● 评测流程:给定问题、单元测试代码、以及测例,模型首先根据问题生成目标函数;运行生成的目标函数,以测例中的输入作为参数得到函数运行输出,与测例中的标准输出进行比对,输出匹配得分,输出不匹配或函数运行错误均不得分。

整体表现:

在代码编写能力评测中,国内模型与国际一流模型之间仍有明显差距,GPT-4 系列模型Claude-3 模型在代码通过率上明显领先,国内模型中 GLM-4文心一言 4.0 与讯飞星火 3.5 表现突出,综合得分达到 40 分以上。

然而,即使是表现最好的模型在代码的一次通过率上仍只有 50% 左右,代码生成任务对目前的大模型来说仍是一大挑战。

分类表现:

在 Python、Java、中文、英文四个维度的数据集中 GPT-4 系列模型包揽头名,体现出强大而全面的代码能力,除 Claude-3 外其余模型差距明显。

● 英文代码指令:GPT-4 Turbo 比 Claude-3 在 Python 和 Java 问题上分别高出 6.8 分和 1.5 分,比 GLM-4 在 Python 和 Java 问题上分别高出 14.2 分和 5.1 分,国内模型与国际模型在英文代码指令上差距比较明显。

● 中文代码指令:GPT-4 Turbo 比 Claude-3 在 Python 上高出 3.9 分,在 Java 上低 2.3 分,差距不大。GPT-4 Turbo 比 GLM-4 在 Python 和 Java 问题上分别高出 5.4 分和 2.8 分,国内模型在中文编码能力上与国际一流模型仍存在一定差距。

PART 3 对齐评测

AlignBench 旨在全面评测大模型在中文领域与人类意图的对齐度,通过模型打分评测回答质量,衡量模型的指令遵循和有用性。

它包括 8 个维度,如基本任务和专业能力,使用真实高难度问题,并有高质量参考答案。优秀表现要求模型具有全面能力、指令理解和生成有帮助的答案。

「中文推理」维度重点考察了大模型在中文为基础的数学计算、逻辑推理方面的表现。这一部分主要由从真实用户提问中获取并撰写标准答案,涉及多个细粒度领域的评估:

● 数学计算上,囊括了初等数学、高等数学和日常计算等方面的计算和证明。

● 逻辑推理上,则包括了常见的演绎推理、常识推理、数理逻辑、脑筋急转弯等问题,充分地考察了模型在需要多步推理和常见推理方法的场景下的表现。

「中文语言」部分着重考察大模型在中文文字语言任务上的通用表现,具体包括六个不同的方向:基本任务、中文理解、综合问答、文本写作、角色扮演、专业能力。

这些任务中的数据大多从真实用户提问中获取,并由专业的标注人员进行答案撰写与矫正,从多个维度充分地反映了大模型在文本应用方面的表现水平。具体来说:

● 基本任务考察了在常规 NLP 任务场景下,模型泛化到用户指令的能力;

● 中文理解上,着重强调了模型对于中华民族传统文化和汉字结构渊源的理解;

● 综合问答则关注模型回答一般性开放问题时的表现;

● 文本写作则揭示了模型在文字工作者工作中的表现水平;

● 角色扮演是一类新兴的任务,考察模型在用户指令下服从用户人设要求进行对话的能力;

● 专业能力则研究了大模型在专业知识领域的掌握程度和可靠性。

评测方法 & 流程

● 评测方式:通过强模型(如 GPT-4)打分评测回答质量,衡量模型的指令遵循能力和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项,且不同任务类型下打分维度不完全相同,并基于此给出综合得分作为回答的最终分数。

● 评测流程:模型根据问题生成答案、GPT-4 根据生成的答案和测试集提供的参考答案进行详细的分析、评测和打分。

整体表现:

在人类对齐能力评测中,GPT-4 网页版占据榜首,文心一言 4.0 和 GPT-4 Turbo 同分(7.74)紧随其后,国内模型中 GLM-4 同样表现优异,超越 Claude-3,位列第四,通义千问 2.1 略低于 Claude-3,排名第六,同为第一梯队大模型。

分类表现:

中文推理整体分数明显低于中文语言,当下大模型推理能力整体有待加强:

● 中文推理:GPT-4 系列模型表现最好,略高于国内模型文心一言 4.0,并且和其他模型拉开明显差距。

● 中文语言:国内模型包揽了前四名,分别是 KimiChat 网页版(8.05 分)、通义千问 2.1(7.99 分)、GLM-4(7.98 分)、文心一言 4.0(7.91 分),超过 GPT-4 系列模型和 Claude-3 等国际一流模型。

各分类细拆分析:

中文推理:

● 数学计算:GPT-4 系列模型包揽前两名,国内模型文心一言 4.0通义千问 2.1 分数超过 Claude-3,但与 GPT-4 系列模型仍有一定差距。

● 逻辑推理:7 分以上为第一梯队,由国内模型文心一言 4.0 领跑,同在第一梯队的还有 GPT-4 系列模型Claude-3GLM-4 和 Abab6

中文语言:

● 基本任务:GLM-4 拿下榜首,通义千问 2.1Claude-3 和 GPT-4 网页版占据二到四位,国内其他大模型中文心一言 4.0 和 KimiChat 网页版也表现较好,超过了 GPT-4 Turbo

● 中文理解:国内模型整体表现较好,包揽了前四名,文心一言 4.0 领先优势明显,领先第二名 GLM-4 0.41 分;国外模型中,表现尚可,排在第五位,但 GPT-4 系列模型表现较差,排在中下游,并且和第一名分差超过 1 分。

● 综合问答:各大模型均表现较好,超过 8 分的模型达到了 6 家,GPT-4 网页版和 KimiChat 网页版拿下最高分,GLM-4 和 Claude-3 分数相同,与榜首分数接近,并列第三。

● 文本写作:KimiChat 网页版表现最好,同时也是唯一一个 8 分以上的模型,GPT-4 Turbo 和分列二、三位。

● 角色扮演:国内模型 Abab6通义千问 2.1 和 KimiChat 网页版包揽前三名,且均在 8 分以上,超过 GPT-4 系列模型和 Claude-3 等国际一流模型。

● 专业能力:GPT-4 Turbo 占据了首位,KimiChat 网页版超过 GPT-4 网页版拿下第二名,国内其他模型中,GLM-4 和通义千问 2.1 同样表现不俗,并列排名第四。

PART 4 智能体评测

AgentBench 是一个评估语言模型在操作系统、游戏和网页等多种实际环境中作为智能体性能的综合基准测试工具包。

代码环境:该部分关注 LLMs 在协助人类与计计算机代码接口互动方面的潜在应用。LLMs 以其出色的编码能力和推理能力,有望成为强大的智能代理,协助人们更有效地与计算机界面进行互动。为了评估 LLMs 在这方面的表现,我们引入了三个代表性的环境,这些环境侧重于编码和推理能力。这些环境提供了实际的任务和挑战,测试 LLMs 在处理各种计算机界面和代码相关任务时的能力。

游戏环境:游戏环境是 AgentBench 的一部分,旨在评估 LLMs 在游戏场景中的表现。在游戏中,通常需要智能体具备强大的策略设计、遵循指令和推理能力。与编码环境不同,游戏环境中的任务不要求对编码具备专业知识,但更需要对常识和世界知识的综合把握。这些任务挑战 LLMs 在常识推理和策略制定方面的能力。

网络环境:网络环境是人们与现实世界互动的主要界面,因此在复杂的网络环境中评估智能体的行为对其发展至关重要。在这里,我们使用两个现有的网络浏览数据集,对 LLMs 进行实际评估。这些环境旨在挑战 LLMs 在网络界面操作和信息检索方面的能力。

评测方法 & 流程

●  评测方式:模型和预先设定好的环境进行多轮交互以完成各个特定的任务,情景猜谜子类会使用 GPT-3.5-Turbo 对最终答案进行评分,其余子类的评分方式根据确定的规则对模型完成任务的情况进行打分。

●  评测流程:模型与模拟环境进行交互,之后对模型给出的结果采用规则评分或 GPT-3.5-Turbo 评分。

●  打分规则:由于不同子任务的分数分布不同,直接按平均分计算总分受极值的影响较为严重,因此需要对各子任务的分数进行归一化处理。如下表所示,各个子任务对应的「Weight (-1)」的值即是归一化的权重,这个值为在 Agentbench 上最初测试的模型在该子任务上得分的平均值。计算总分时将各个子任务的分数除以 Weight (-1) 后求平均值即可。根据该计算方式,具有平均能力的模型最终得到的总分应为 1。

SR:成功率

#Avg.Turn:解决单一问题所需的平均交互回合数

#Dev、#Test:开发集和测试集单个模型的预期总交互轮数

Weight⁻¹:各单项分在计算总分的时候的权重的倒数

整体表现:

在作为智能体能力评测中,国内模型整体明显落后于国际一流模型。其中,Claude-3 和 GPT-4 系列模型占据了前三甲,GLM-4 在国内模型中表现最好,但与榜首的 Claude-3 仍有较大差距。

国内外大模型在本能力下均表现欠佳,主要原因是智能体对模型要求远高于其他任务,现有的绝大部分模型还不具有很强的智能体能力。

分类表现:

除网上购物被国内模型 GLM-4 拿到头名外,其他分类下,榜首均被 Claude-3 和 GPT-4 系列模型占据,体现出相对强大的作为智能体能力,国内模型仍需不断提升。

● 具身智能(Alfworld)前三甲均被 Claude-3 和 GPT-4 系列模型包揽,和国内模型差距最大。

● 在数据库(DB)和知识图谱(KG)两个维度下,国内模型 GLM-4 均进入 top3,但是与前两名仍有一定差距。

PART 5 安全评测

SafetyBench 是首个全面的通过单选题的方式评估大型语言模型安全性的测试基准。包含攻击冒犯、偏见歧视、身体健康、心理健康、违法活动、伦理道德、隐私财产等。

评测方法 & 流程

● 评测方式:每个维度收集上千个多项选择题,通过模型的选择测试对各个安全维度的理解和掌握能力进行考察。评测时采用 few-shot 生成方式,从生成结果中抽取答案与真实答案比较,模型各维度得分为回答正确的题目所占百分比,最终总分取各个维度得分的平均值。针对拒答现象,将分别计算拒答分数和非拒答分数,前者将拒答题目视为回答错误,后者将拒答题目排除出题库。

 评测流程:从模型针对指定问题 few-shot 的生成结果中提取答案,与真实答案比较。

整体表现:

在安全能力评测中,国内模型文心一言 4.0 表现亮眼,力压国际一流模型 GPT-4 系列模型和 Claude-3 拿下最高分(89.1 分),在国内其他模型中,GLM-4 和 Claude-3 同分,并列第四。

分类表现:

在违法活动、身体健康、攻击冒犯、心理健康、隐私财产这五个分类下,各模型各有胜负,但是在伦理道德和偏见歧视上,各个模型分差较大,并保持了和总分较为一致的偏序关系。

● 伦理道德:文心一言 4.0 力压 Claude-3 位列第一,国内大模型 GLM-4 同样表现亮眼,超过 GPT-4 Turbo 位列前三甲。

● 偏见歧视:文心一言 4.0 继续排名榜首,领先 GPT-4 系列模型,GLM-4 紧随其后,同为第一梯队模型。


参考资料:

相关论文:

Liu, Xiao, et al. “AlignBench: Benchmarking Chinese Alignment of Large Language Models.” arXiv preprint arXiv:2311.18743 (2023).Ke, Pei, et al. “CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation.” arXiv preprint arXiv:2311.18702 (2023).Liu, Xiao, et al. “Agentbench: Evaluating llms as agents.” arXiv preprint arXiv:2308.03688 (2023).Bai, Yushi, et al. “LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding.” arXiv preprint arXiv:2308.14508 (2023).Zhang, Zhexin, et al. “Safetybench: Evaluating the safety of large language models with multiple choice questions.” arXiv preprint arXiv:2309.07045 (2023).Qin, Yujia, et al. “Toolllm: Facilitating large language models to master 16000+ real-world apis.” arXiv preprint arXiv:2307.16789 (2023).

暂无评论

发表评论

日历

2024 年 10 月
1234567
891011121314
15161718192021
22232425262728
2930  
wpChatIcon
辰汐の小站