0次浏览 发布时间:2025-04-07 07:28:00
IT之家 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至IT之家发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
招商局置地:1-6月合同销售总额近161亿元
2025-07-26 21:09:00国创高新:拟2.25亿元收购宁波国沛100%股权
2025-07-25 21:21:00微软酝酿Win11新功能Copilot Discover,AI为你定制专属资讯流
2025-07-25 12:11:00文科股份:拟进行债权重组以减少应收款项风险
2025-07-23 20:07:00无人机如何“飞”入西藏低空经济时代
2025-07-23 15:48:00新加坡宣布首批“证券市场发展计划”资产管理公司
2025-07-21 13:04:00谷城县供电公司加强“小临散抢”作业现场管控
2025-07-14 14:55:00元隆雅图2025上半年最高预亏1000万 员工涉伪造合同影响首季销售收入2935万
2025-07-14 09:55:00【视频】“决胜收官‘十四五’聚焦聚力打好‘八场硬仗‘”咸阳市广播电视台2025年大型全媒体行动今日启动!
2025-03-25 23:17:03本周陕西上演“气温过山车” 强降温+吹风即将来袭!
2025-03-26 12:35:12强化风险源头治理 高质量推进法治鞍钢建设
2025-03-25 23:20:19突然!知名品牌 多地闭店!
2025-03-26 12:38:00向农民学习种田 到美院进修文创 樱花小院主理人有个“五年计划”
2025-03-25 23:24:03济南这一片区征收!
2025-03-26 12:42:04OPPO Find X8 Ultra参数全曝光 Find X8现谷底价遭疯抢
2025-03-25 23:27:11轻微刑事案件最快一天审结,上栗县人民检察院成立专业团队高效办理轻罪案件
2025-03-26 12:45:03中海油物装采购中心党委委员、副总经理赵怀岗被查
2025-07-28 17:33:003周岁以下每孩每年3600元!育儿补贴政策来了
2025-07-28 17:15:00西峡县军马河镇:荣誉送到家门口 文明新风润心田
2025-07-28 16:41:00(游泳世锦赛)游泳——女子4X100米自由泳接力决赛赛况(3)
2025-07-28 14:50:00韩国邀请朝鲜?朝方:做白日梦
2025-07-28 14:31:00美国与欧盟达成贸易协议
2025-07-28 10:20:00外交部:对柬泰冲突造成民众伤亡深感痛心,希望双方尽快停火止战
2025-07-28 06:39:00云南这些地方仍有强降雨,需加强防范次生灾害
2025-07-27 21:32:00