0次浏览 发布时间:2025-04-07 07:28:00
IT之家 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至IT之家发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
突发!一无人机概念股爆雷,实控人被取保候审
2025-09-14 16:18:00国网邵阳供电公司 深化“村网共建”织密乡村振兴电力保障网
2025-09-10 17:02:00太突然!知名巨头宣布:大规模裁员
2025-09-10 16:29:00凌志软件:上半年净利润同比增长1002%
2025-08-28 16:24:00江苏国泰将回归主业,紧急撤回“炒股”计划
2025-08-25 15:13:00福耀玻璃半年净利增37%,捐百亿办学不耽误给股东发23亿红包
2025-08-21 10:15:00良品铺子“一女嫁二夫”案新进展:诉讼额微升、控制权仍有生变可能
2025-08-13 22:23:00V观财报|集智股份信披不及时被警示
2025-08-13 18:59:00【视频】“决胜收官‘十四五’聚焦聚力打好‘八场硬仗‘”咸阳市广播电视台2025年大型全媒体行动今日启动!
2025-03-25 23:17:03本周陕西上演“气温过山车” 强降温+吹风即将来袭!
2025-03-26 12:35:12强化风险源头治理 高质量推进法治鞍钢建设
2025-03-25 23:20:19突然!知名品牌 多地闭店!
2025-03-26 12:38:00向农民学习种田 到美院进修文创 樱花小院主理人有个“五年计划”
2025-03-25 23:24:03济南这一片区征收!
2025-03-26 12:42:04OPPO Find X8 Ultra参数全曝光 Find X8现谷底价遭疯抢
2025-03-25 23:27:11轻微刑事案件最快一天审结,上栗县人民检察院成立专业团队高效办理轻罪案件
2025-03-26 12:45:03“万里穿针”耀太空——中国空间交会对接技术演进纪实
2025-09-15 17:38:00特朗普:“我认为会有一次大幅降息”
2025-09-15 12:59:00让“富硒好物”香飘世界——竹山县探索特色农产品高质量发展新路径
2025-09-15 11:44:00福州滨海新城案例向全球推介
2025-09-15 09:42:00突发!一无人机概念股爆雷,实控人被取保候审
2025-09-14 16:18:00越减越重 这些“健康食品”你可能吃错了
2025-09-14 16:05:00山城沸腾夜!“渝超”揭幕战点燃全民绿茵激情
2025-09-14 12:24:00很多人可能不知道!螃蟹这4个部位最好别吃!
2025-09-14 10:36:00