各处沟厕多位美女嘘嘘,中文字幕电影乱码1,色婷婷五月综合丁香中文字幕

圖片來(lái)源：視覺(jué)中國(guó)

藍(lán)鯨新聞4月9日訊（記者朱俊熹）開(kāi)源霸主Meta近來(lái)陷入了尷尬的境地。當(dāng)?shù)貢r(shí)間4月5日，Meta發(fā)布了全新的Llama 4系列模型。但很快便因?yàn)閷?shí)測(cè)效果不及預(yù)期，而遭遇“刷榜”爭(zhēng)議。

Meta此次率先推出了Llama 4系列中的Scout（偵察者）、Maverick（獨(dú)行俠）兩款模型，并預(yù)覽了仍在訓(xùn)練中的Behemoth（巨獸）模型。據(jù)其介紹，Llama 4 Maverick在LM Arena評(píng)測(cè)榜中位居第二，超越了ChatGPT-4o、DeepSeek-V3等領(lǐng)先模型，僅次于谷歌的Gemini 2.5 pro。

圖片來(lái)源：Meta

但引起注意的是，Meta在公告的注腳處提到，該項(xiàng)測(cè)試使用的是針對(duì)對(duì)話優(yōu)化版的Llama 4 Maverick模型。4月8日，LM Arena平臺(tái)在社交媒體X上回應(yīng)稱，“Meta對(duì)我們政策的理解與我們對(duì)模型提供商的預(yù)期不符。Meta本應(yīng)更明確地說(shuō)明‘Llama-4-Maverick-03-26-Experimental’是一個(gè)針對(duì)人類偏好優(yōu)化的定制模型?！盠M Arena表示，將會(huì)添加Maverick的公開(kāi)版本，并會(huì)對(duì)排行榜政策進(jìn)行更新，以強(qiáng)化公平、可重復(fù)評(píng)估性。

LM Arena模型基準(zhǔn)測(cè)試平臺(tái)由加州大學(xué)伯克利分校SkyLab的研究人員創(chuàng)建。有別于其他評(píng)測(cè)集，它采用的是眾包的投票方式。在該平臺(tái)上，用戶可以向兩個(gè)匿名的AI對(duì)話助手提出任何問(wèn)題，投票選出認(rèn)為更優(yōu)的答案，以此評(píng)選得到最佳的大模型。

在關(guān)于Llama 4的回應(yīng)中，LM Arena提到，初步分析顯示，風(fēng)格和模型回應(yīng)的語(yǔ)氣是影響排名的重要因素，正在進(jìn)行更深入的分析，表情符號(hào)的使用或許也會(huì)產(chǎn)生影響。一位國(guó)內(nèi)大廠大模型從業(yè)者告訴藍(lán)鯨新聞，用戶在評(píng)測(cè)時(shí)，會(huì)偏向于選擇回答更長(zhǎng)的、活潑的、會(huì)夸人的模型。

根據(jù)LM Arena公布的評(píng)選過(guò)程不難發(fā)現(xiàn)，Llama 4 Maverick實(shí)驗(yàn)版在回答時(shí)，篇幅要顯著長(zhǎng)于其他模型，語(yǔ)氣更貼近真人對(duì)話，還會(huì)積極使用表情符號(hào)。但有使用者發(fā)現(xiàn)，當(dāng)詢問(wèn)同樣的問(wèn)題時(shí)，用于LM Arena測(cè)試的實(shí)驗(yàn)版和部署在其他平臺(tái)上的版本所生成的回復(fù)風(fēng)格存在較大出入。

圖片來(lái)源：Llama 4 Maverick實(shí)驗(yàn)版生成的回復(fù)

北京理工大學(xué)研究語(yǔ)言模型評(píng)測(cè)與推理方向的博士生袁沛文對(duì)藍(lán)鯨新聞表示，通過(guò)LM Arena所采用的眾包形式，盡管大眾的提問(wèn)足夠有泛化性，是模型訓(xùn)練時(shí)不可知的，但依然存在“刷榜”風(fēng)險(xiǎn)。LM Arena平臺(tái)主打盲測(cè)，但可以借助各種隱蔽的方式實(shí)現(xiàn)去匿名化，例如直接詢問(wèn)它是哪個(gè)模型、通過(guò)一些后門特征來(lái)判別模型，或通過(guò)水印技術(shù)檢測(cè)出自家模型。在去匿名化之后，大模型廠商就可以通過(guò)海量IP來(lái)為自己的模型刷票。

除了眾包投票外，業(yè)內(nèi)也會(huì)采用其他的大模型評(píng)測(cè)方式，但當(dāng)下都難以做到完全的客觀、全面。據(jù)袁沛文介紹，最為廣泛采用的評(píng)測(cè)形式是大模型Benchmark（基準(zhǔn)測(cè)試），即人類專家圍繞某項(xiàng)任務(wù)來(lái)出題，讓模型進(jìn)行回答，看是否與人類期望相同。由于模型從互聯(lián)網(wǎng)平臺(tái)上獲取訓(xùn)練語(yǔ)料，難免會(huì)摻雜一些基準(zhǔn)測(cè)試。負(fù)責(zé)任的開(kāi)發(fā)者會(huì)主動(dòng)從訓(xùn)練集中過(guò)濾這部分測(cè)試集，也有人可能會(huì)采取相反的做法，甚至可能在后訓(xùn)練階段讓模型在一些主流基準(zhǔn)測(cè)試上做強(qiáng)化，使其測(cè)試表現(xiàn)明顯虛高，“就像訓(xùn)練時(shí)背過(guò)了題目和答案”。

此前Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主楊立昆還參與發(fā)起了一項(xiàng)評(píng)測(cè)榜單LiveBench，被稱作“最難作弊”的榜單。LiveBench主打提供具有挑戰(zhàn)性、無(wú)污染的基準(zhǔn)測(cè)試，每月對(duì)問(wèn)題進(jìn)行更新。袁沛文指出，雖然這能避免模型提前背題，但一個(gè)問(wèn)題在于是否總能收集到足夠多的數(shù)據(jù)實(shí)現(xiàn)更新。實(shí)際上，LiveBench的更新頻率也越來(lái)越慢，除本月的更新外，上一次更新還要追溯到五個(gè)月前。此外，一些垂類評(píng)測(cè)領(lǐng)域也無(wú)法被覆蓋，難以知道模型在具體業(yè)務(wù)場(chǎng)景上的能力表現(xiàn)。

“不難發(fā)現(xiàn)，現(xiàn)有的范式都沒(méi)法從根本上同時(shí)滿足兩個(gè)評(píng)測(cè)領(lǐng)域的核心愿景：一是可信，沒(méi)有辦法刷榜；二是可擴(kuò)展，任何評(píng)測(cè)需求、能力、場(chǎng)景都能被滿足。”袁沛文表示。

面對(duì)“刷榜”質(zhì)疑風(fēng)波，Meta副總裁兼GenAI負(fù)責(zé)人Ahmad Al-Dahle在社交媒體上否認(rèn)了在測(cè)試集上進(jìn)行模型訓(xùn)練的說(shuō)法，“我們絕不會(huì)這么做”。據(jù)其說(shuō)法，用戶感知到的質(zhì)量差異是由于穩(wěn)定性還沒(méi)有完全調(diào)整到位。

拋開(kāi)備受爭(zhēng)議的LM Arena測(cè)試，Meta公布的結(jié)果顯示，Llama 4 Maverick在部分基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型，但不及更為領(lǐng)先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未發(fā)布的Llama 4 Behemoth會(huì)在以 STEM 為重點(diǎn)的基準(zhǔn)測(cè)試上對(duì)標(biāo)這些頂尖模型。此外，目前Meta公布的模型中還沒(méi)有類似OpenAI o1、DeepSeek-R1的推理模型。

自DeepSeek年初引發(fā)海內(nèi)外熱議以來(lái)，對(duì)此前在開(kāi)源領(lǐng)域占據(jù)領(lǐng)先的Meta同樣造成巨大沖擊。據(jù)媒體此前報(bào)道，Meta為此組建了多個(gè)專門的研究小組，對(duì)DeepSeek進(jìn)行分析并希望借此改進(jìn)Llama模型。

Meta表示，全新的Llama 4模型是其首批使用MoE（混合專家）架構(gòu)的模型。DeepSeek-V3、阿里Qwen2.5-Max等模型也是基于MoE架構(gòu)，在處理單個(gè)token時(shí)只激活模型中的部分參數(shù)，以實(shí)現(xiàn)更高的計(jì)算效率。

硅谷科技媒體The Information引述知情人士說(shuō)法稱，在過(guò)去一年多的時(shí)間里，Meta的研究人員一直在激烈地爭(zhēng)論，究竟要將Llama 4變成MoE模型還是延續(xù)一直采用的Dense模型。對(duì)Meta來(lái)說(shuō)，做出改變技術(shù)方案的決定并不容易。

AI財(cái)評(píng)

**財(cái)經(jīng)視角點(diǎn)評(píng)：Meta Llama 4“刷榜”爭(zhēng)議背后的戰(zhàn)略焦慮與行業(yè)博弈** Meta發(fā)布Llama 4系列模型卻陷入“刷榜”爭(zhēng)議，暴露其在開(kāi)源大模型領(lǐng)域的競(jìng)爭(zhēng)壓力。盡管官方否認(rèn)刻意優(yōu)化測(cè)試數(shù)據(jù)，但LM Arena的質(zhì)疑反映了行業(yè)對(duì)評(píng)測(cè)透明性的高度敏感。當(dāng)前大模型評(píng)測(cè)體系（眾包投票、基準(zhǔn)測(cè)試等）均存在漏洞，廠商可能通過(guò)“背題”或風(fēng)格優(yōu)化虛高排名，削弱了可信度。從技術(shù)看，Meta轉(zhuǎn)向MoE架構(gòu)（如DeepSeek-V3）是應(yīng)對(duì)效率瓶頸的必然選擇，但內(nèi)部技術(shù)路線的分歧（MoE vs. Dense）可能拖累迭代速度。而Llama 4對(duì)標(biāo)GPT-4.5、Claude 3.7的“巨獸”模型尚未發(fā)布，顯示其與頭部閉源廠商仍存差距。 **核心洞察**：Meta需平衡開(kāi)源生態(tài)影響力與商業(yè)競(jìng)爭(zhēng)力。若評(píng)測(cè)公信力受損，可能動(dòng)搖開(kāi)發(fā)者信心，影響其通過(guò)開(kāi)源構(gòu)建行業(yè)標(biāo)準(zhǔn)的戰(zhàn)略。未來(lái)，大模型競(jìng)爭(zhēng)將更依賴真實(shí)場(chǎng)景落地能力，而非榜單排名。

国产AV一区二区三区无码野战,欧美日韩国产成人高清视频,成人三级视频在线观看不卡,成人中文乱幕日产无线码

開(kāi)源巨頭Meta陷“刷榜”爭(zhēng)議，Llama 4暴露大模型評(píng)測(cè)機(jī)制隱憂

藍(lán)鯨新聞

国产AV一区二区三区无码野战,欧美日韩国产成人高清视频,成人三级视频在线观看不卡,成人中文乱幕日产无线码

開(kāi)源巨頭Meta陷“刷榜”爭(zhēng)議，Llama 4暴露大模型評(píng)測(cè)機(jī)制隱憂

藍(lán)鯨新聞

開(kāi)源巨頭Meta陷“刷榜”爭(zhēng)議，Llama 4暴露大模型評(píng)測(cè)機(jī)制隱憂