0次浏览 发布时间:2025-04-07 07:28:00
IT之家 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至IT之家发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
外贸人的五一|时培玉:从“按部就班”到“快速响应”,主动求变才能化危为机
2025-05-01 08:03:00中方已停止接收波音客机?就波音公司飞回拟交付飞机,商务部回应来了
2025-04-29 12:03:00祝贺!曲港公司党建课题荣获2024年度河北省国有企业党建课题研究成果二等奖
2025-04-28 17:38:00鲍珊菊、郭裕芳家门口夺金,鲍珊菊变身“洛阳文旅大使”
2025-04-27 11:49:00国网石泉县供电公司:情暖乡间路 照亮暮年心
2025-04-27 11:12:00永清环保2024年营收利润双增,2025年战略布局再提速
2025-04-26 21:52:002024年盈利5000万元,泰嘉股份拟10派1元
2025-04-26 17:02:00电影市场“含金量”持续上升 多家影视公司一季报业绩明显增长
2025-04-26 07:04:00【视频】“决胜收官‘十四五’聚焦聚力打好‘八场硬仗‘”咸阳市广播电视台2025年大型全媒体行动今日启动!
2025-03-25 23:17:03本周陕西上演“气温过山车” 强降温+吹风即将来袭!
2025-03-26 12:35:12强化风险源头治理 高质量推进法治鞍钢建设
2025-03-25 23:20:19突然!知名品牌 多地闭店!
2025-03-26 12:38:00向农民学习种田 到美院进修文创 樱花小院主理人有个“五年计划”
2025-03-25 23:24:03济南这一片区征收!
2025-03-26 12:42:04OPPO Find X8 Ultra参数全曝光 Find X8现谷底价遭疯抢
2025-03-25 23:27:11轻微刑事案件最快一天审结,上栗县人民检察院成立专业团队高效办理轻罪案件
2025-03-26 12:45:03张兴海荣获“全国劳动模范”荣誉称号
2025-05-01 19:07:00视频|金凤区阅海夜色民谣季首演燃爆春夜
2025-05-01 17:17:00太原旅游公交专线2(火车站⇌太原北齐壁画博物馆)开通
2025-05-01 17:07:00【视频】2025年4月30日《屏南新闻》
2025-05-01 16:45:00五一出行必看丨高速免费通行有技巧 自驾出发前先了解
2025-05-01 16:20:00创六项世界纪录 昌九高铁扬子洲赣江公铁大桥钢梁吊装完成
2025-05-01 16:19:00“遂银之夜”燃动山水诗韵 金融助力“活力遂宁”再谱新章
2025-05-01 16:11:00打造复合型乡村理想社区 “我在蓬溪有个院”主题推介活动举行
2025-05-01 15:55:00