-
kaiyun.com多维度探索模子材干范畴与利用潜能本次评测-ky体育app登录平台在线
发布日期:2026-02-05 15:20 点击次数:108
大模子最新综测效力kaiyun.com,今天极新出炉!
2024 年 12 月 19 日,智源商讨院发布并解读国表里 100 余个开源和买卖闭源的话语、视觉话语、文生图、文生视频、语音话语大模子轮廓及专项评测效力。
论断包括:
2024 年下半年大模子发展更聚焦轮廓材干援救与践诺利用。多模态模子发展速即,涌现了不少新的厂商与新模子,话语模子发展相对放缓。
模子开源生态中,除了合手续强硬开源的海表里机构,还出现了新的开源孝顺者。
话语模子主不雅评测重心覆按模子中语材干,效力骄气字节向上 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二。
文生视频模子方面,国产玩家开端民众。
K12 学科试验,大模子仍与海淀学生平均水平存在差距;多量存在"文强理弱"的偏科情况。
……

相较于本年 5 月的模子材干全标的评估,本次智源评测膨胀、丰富、细化了任务搞定材干内涵,新增了数据处理、高等编程和器具调用的关连材过问任务;初次加多了面向真确金融量化交游场景的利用材干评估,测量大模子的收益优化和性能优化等材干;初次探索基于模子诡辩的对比评估步地,对模子的逻辑推理、不雅点相接、话语抒发等中枢材干进行深入分析。
具体细节,通盘来看。
多种模态评测轮廓榜单,遮蔽文本、语音、图片、视频相接与生成
评测效力指出,话语模子,针对一般中语场景的灵通式问答大约生成任务,模子材干已趋于弥漫领会,然而复杂场景任务的发达,国内头部话语模子仍然与海外一活水平存在显贵差距。
话语模子主不雅评测重心覆按模子中语材干,效力骄气字节向上 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴 Qwen-Max-0919排行第五。
在话语模子客不雅评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest位列第一、第二,阿里巴巴 Qwen-max-0919、字节向上 Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排行前五。

视觉话语多模态模子,诚然开源模子架构趋同(话语塔 + 视觉塔),但发达不一,其中较好的开源模子在图文理罢职务上正在减轻与头部闭源模子的材干差距,而长尾视觉知识与笔墨识别以及复杂图文数据分析材干仍有援救空间。
评测效力骄气,OpenAI GPT-4o-2024-11-20与字节向上 Doubao-Pro-Vision-32k-241028先后开端于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随自后。

文生图多模态模子,本年上半年参评的模子多量无法生成正确的中语笔墨,但这次参评的头部模子还是具备中语笔墨生成材干,但举座多量存在复杂场景东说念主物变形的情况,针对知识或知识性推理任务,小于 3 的数目关系任务发达存所援救,大于 3 的数目关系依然无法处理,波及中国文化和古诗词相接的场景关于模子而言是不小的挑战。
评测效力骄气,腾讯 Hunyuan Image位列第一,字节向上 Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL · E 3、快手可图次之。
文生视频多模态模子,画质进一步援救,动态性更强,镜头话语更丰富,专场更畅达,但多量存在大幅度动作变形,无法相接物理法例,物体隐匿、深入、穿模的情况。
评测效力骄气,快手可灵 1.5(高品性)、字节向上即梦 P2.0 pro、爱诗科技 PixVerse V3、Minimax 海螺 AI、Pika 1.5位列前五。

语音话语模子,获利于文本大模子的进步,材干援救广泛,遮蔽面更全,但在具体任务上与民众模子还存在一定差距,举座而言,性能好、通用材干强的开源语音话语模子偏少。
专项评测效力骄气,阿里巴巴 Qwen2-Audio位居第一,香港中语大学 & 微软 WavLLM、清华大学 & 字节向上 Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均插足前五。

四大专项评测榜单,多维度探索模子材干范畴与利用潜能
本次评测,智源商讨院再次聚首与海淀区西宾训练学校新编了 K12 全学段、多学科试卷,进一步覆按大模子与东说念主类学生的材干相反,其中,谜底不惟独的主不雅题依然由海淀西宾亲身评卷。
获利于多模态材干的带动发展,模子本次 K12 学科试验轮廓得分相较于半年前援救了 12.86%,然而仍与海淀学生平均水平存在差距;在英语和历史文科试题的发达上,已有模子特出了东说念主类考生的对等分;模子多量存在"文强理弱"的偏科情况。

FlagEval 大模子角斗场,是智源商讨院本年 9 月推出的面向用户灵通的模子对战评测工作,以响应用户对模子的偏好。
当今,FlagEval 遮蔽国表里约 50 款大模子,救助话语问答、多模态图文相接、文生图、文生视频四大任务的自界说在线或离线盲测。
这次评测,共有 29 个话语模子、16 个图文问答多模态模子、7 个文生图模子、14 个文生视频模子参评。评测发现,用户对模子的响当令辰有更高条款,对模子输出的内容倾向于更结构化、尺度化的体式。

行动模子对战评测工作 FlagEval 大模子角斗场的延展,本年 10 月智源商讨院推出了模子诡辩平台 FlagEval Debate,对模子的逻辑推理、不雅点相接以及话语抒发等中枢材干进行深入评估,以甄别话语模子的材干相反。
本次评测发现,大模子多量衰退诡辩框架意志,不具备对辩题以举座逻辑进行轮廓陈说;大模子在诡辩中依然存在"幻觉问题",论据经不起辩论;大模子更擅长反驳,各个模子发达杰出的诡辩维度趋同,在不同的辩题中,模子发达差距显贵。
FlagEval Debate 评测效力标明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

这次评测,智源商讨院探索了基于践诺利用场景的全新关键,通过评测模子的量化代码竣事材干,探索模子在金融量化交游领域的潜在利用材干和买卖价值。
评测发现,大模子还是具备生成有回撤收益的计谋代码的材干,能开拓量化交游典型场景里的代码;在知识问答方面,模子举座相反较小,举座分数偏高,但在践诺代码生成任务上,模子相反较大,举座材干偏弱;头部模子材干已接近低级量化交游员的水平。金融量化交游评测效力骄气,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。

智源评测体系 FlagEval 再迭代,遮蔽民众 800+ 开闭源模子
本次评测依托智源商讨院自 2023 年 6 月上线的大模子评测平台 FlagEval,历程数次迭代,当今已遮蔽民众 800 多个开闭源模子,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。
在评测关键与器具上,智源商讨院聚首寰球 10 余家高校和机构配合共建,探索基于 AI 的辅助评测模子 FlagJudge 和生动全面的多模态评测框架 FlagEvalMM,并构建面向大模子新材干的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多话语跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频相接评测 MLVU 等,其中与北京大学共建的 HalluDial 是当今民众领域最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个修起。
为回避数据集涌现风险以及数据集弥漫度问题,本次评测吸纳了近期发布的数据集并合手续动态更新评测数据,替换了 98% 的题目,并援救了题谋划难度。

智源商讨院副院长兼总工程师林咏华在评测发布会上默示,FlagEval 评测体系一直谨守科学、泰斗、平允、灵通的准则,通过技能关键平台合手续改进,打造丈量模子材干的标尺,为大模子技能生态发展提供细察。2025 年,FlagEval 评测体系的发展将进一步探索动态评测与多任务材干评估体系,以评测为标尺感知大模子的发展趋势。
* 本文系量子位获授权刊载,不雅点仅为作家统共。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 技能和家具新动态
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~
