0次浏览 发布时间:2025-04-07 07:28:00
IT之家 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至IT之家发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
娱乐公司SRM一度涨超300%,孙宇晨旗下波场拟“借壳上市”
2025-06-16 22:58:00实控人家族频频减持!金龙羽业绩连降,固态电芯订单“画饼”待验证
2025-06-14 09:04:00万科A:公司已完成所有A股库存股的出售
2025-06-12 21:24:00今日14:00,上海2025年高考“小三门”成绩可查!上观新闻APP推出查分渠道
2025-06-10 12:39:00ST路通因公章管理内控存缺陷、信披不及时遭警示!董事会席位“争夺战”引关注
2025-06-08 17:12:00央媒观豫丨藏着20项免费服务的“司机之家”服务“到家了
2025-06-06 09:23:00精益检修锻造“温暖引擎”——甘肃电投金昌发电公司1号机组B级检修纪实
2025-06-05 15:12:00特朗普政府正式要求国会停止资助公共广播公司
2025-06-04 16:41:00【视频】“决胜收官‘十四五’聚焦聚力打好‘八场硬仗‘”咸阳市广播电视台2025年大型全媒体行动今日启动!
2025-03-25 23:17:03本周陕西上演“气温过山车” 强降温+吹风即将来袭!
2025-03-26 12:35:12强化风险源头治理 高质量推进法治鞍钢建设
2025-03-25 23:20:19突然!知名品牌 多地闭店!
2025-03-26 12:38:00向农民学习种田 到美院进修文创 樱花小院主理人有个“五年计划”
2025-03-25 23:24:03济南这一片区征收!
2025-03-26 12:42:04OPPO Find X8 Ultra参数全曝光 Find X8现谷底价遭疯抢
2025-03-25 23:27:11轻微刑事案件最快一天审结,上栗县人民检察院成立专业团队高效办理轻罪案件
2025-03-26 12:45:03娱乐公司SRM一度涨超300%,孙宇晨旗下波场拟“借壳上市”
2025-06-16 22:58:00中国人民银行将在香港发行300亿元6个月期央行票据
2025-06-16 18:10:00专挑“马大哈”下手 公安破获5起“拉车门”盗窃案
2025-06-16 17:50:00首批专业曝光!赣州即将迎来一所新大学
2025-06-16 17:25:00东皋沂评 |山东民营经济:高质量发展正当时
2025-06-16 17:11:00走,耍水!凤冈万佛峡谷溪降游园启动
2025-06-16 15:27:00卢东亮当选山西省省长
2025-06-16 15:16:00车型首次破百 今年新能源汽车下乡有哪些新变化?
2025-06-16 14:13:00