
就在OpenAI發(fā)布GPT-5.1,大談“情商”之際,埃隆·馬斯克(Elon Musk)也帶著他的xAI,火速加入了這場(chǎng)“AI體驗(yàn)”之戰(zhàn)。
(相關(guān)資料圖)
就在剛剛,xAI宣布推出Grok 4.1,這是對(duì)現(xiàn)有Grok 4模型的重大升級(jí),并已在grok.com、X平臺(tái)以及iOS和Android應(yīng)用向所有用戶全面開(kāi)放。。官方宣稱,新版本在創(chuàng)意表達(dá)、情感互動(dòng)和協(xié)同交流方面表現(xiàn)尤為突出,并且出現(xiàn)幻覺(jué)的概率僅為此前模型的三分之一。
更引人注目的是,在一個(gè)公開(kāi)的“盲測(cè)”競(jìng)技場(chǎng)(LMArena)上,Grok 4.1的“思考模式”版本已悄然登頂總榜第一,甚至其“非推理”的快速模式,都擊敗了所有對(duì)手的“完整推理”模式。
這場(chǎng)突如其來(lái)的“榜首易主”,無(wú)疑為日趨白熱化的AI競(jìng)賽,又增添了濃重的火藥味。
Grok 4.1升級(jí)了什么?
xAI本次發(fā)布了兩個(gè)Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。這兩個(gè)模型均可免費(fèi)使用,但付費(fèi)用戶面臨的限制更少。
官方表示,新版本能更細(xì)致地理解隱含意圖,與之對(duì)話引人入勝,也更能保持人設(shè)的一致性。
為了優(yōu)化模型的風(fēng)格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作為“獎(jiǎng)勵(lì)模型”,在大規(guī)模環(huán)境中自主評(píng)估并迭代模型的回答。
在11月1日至14日的“靜默上線”期間,xAI在真實(shí)流量上進(jìn)行了盲測(cè)式的成對(duì)比較評(píng)估,結(jié)果顯示,在64.78%的情況下,用戶更偏好Grok 4.1。
“盲測(cè)”登頂,Grok 4.1到底有多強(qiáng)?
Grok 4.1在盲測(cè)的人類偏好評(píng)估中樹(shù)立了新的行業(yè)標(biāo)準(zhǔn)。
LMArena是一個(gè)開(kāi)源工具,用戶可以通過(guò)并排、盲測(cè)的方式,比較不同大語(yǔ)言模型的表現(xiàn)。在這個(gè)競(jìng)爭(zhēng)最激烈的“斗獸場(chǎng)”里,Grok 4.1取得了驚人的成績(jī):
· Grok 4.1的“思考模式”(代號(hào):quasarflux)以1483 Elo的成績(jī)位列總榜第一,領(lǐng)先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代號(hào):tensor)無(wú)需使用“思考詞元”(thinking tokens),可立即生成回答,并以1465 Elo的成績(jī)排名第二。
· 更夸張的是,Grok 4.1的“非推理”模式表現(xiàn),超過(guò)了所有其他模型在“完整推理模式”下的公開(kāi)排行榜成績(jī)。
與之相比, Grok 4此前在該榜單上的綜合排名僅為第33位。
“情商”與“文采”,一個(gè)都不能少
除了通用能力,xAI還強(qiáng)調(diào)了新模型在“軟實(shí)力”上的提升。
· 情緒智能(Emotional Intelligence)為評(píng)估模型在個(gè)性與人際互動(dòng)方面的進(jìn)展,xAI對(duì)Grok 4.1進(jìn)行了EQ-Bench3測(cè)試。這是一項(xiàng)由LLM作為裁判的測(cè)試,用于評(píng)估模型在主動(dòng)情緒智能、理解力、洞察力、共情能力和人際技能方面的表現(xiàn)。
· 創(chuàng)意寫(xiě)作能力(Creative Writing)xAI同樣測(cè)量了Grok 4.1在Creative Writing v3基準(zhǔn)測(cè)試中的表現(xiàn)。在該測(cè)試中,模型需要根據(jù)32個(gè)不同的寫(xiě)作提示,在3次迭代中生成回答。
更少的“幻覺(jué)”
快速響應(yīng)模型在配備搜索工具后,雖然能迅速給出答案,但更容易出現(xiàn)事實(shí)性錯(cuò)誤。
在Grok 4.1的后訓(xùn)練階段,xAI重點(diǎn)降低了模型在信息查詢類提示中的事實(shí)性“幻覺(jué)”。
根據(jù)xAI的說(shuō)法,Grok 4.1出現(xiàn)幻覺(jué)的概率是此前模型的三分之一,這使其成為xAI迄今為止的最佳版本之一。
為了驗(yàn)證這一點(diǎn),xAI不僅在真實(shí)的生產(chǎn)流量中進(jìn)行了評(píng)估,還使用了FActScore——一個(gè)包含500道關(guān)于人物傳記問(wèn)題的公開(kāi)基準(zhǔn)測(cè)試。
挑戰(zhàn)與未來(lái):真正的對(duì)手還在路上
盡管Grok 4.1的“盲測(cè)”成績(jī)斐然,但AI的王座之爭(zhēng)遠(yuǎn)未結(jié)束。
目前,我們尚不清楚它與GPT-5.1相比的真實(shí)表現(xiàn)。
更重要的是,谷歌(Google)正在準(zhǔn)備發(fā)布Gemini 3.0,這可能會(huì)成為迄今為止最強(qiáng)大的模型。
Grok 4.1的發(fā)布,無(wú)疑是馬斯克在AI競(jìng)賽中投下的一枚重要棋子。但在這場(chǎng)“神仙打架”的牌局中,誰(shuí)能笑到最后,還遠(yuǎn)未可知。(易句)
(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對(duì))
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 www.hngelin.com All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
備案號(hào):京ICP備2022016840號(hào)-15
磐安县| 元氏县| 佛冈县| 清水河县| 孟州市| 海原县| 澳门| 盱眙县| 安仁县| 莲花县| 峡江县| 吉林市| 固镇县| 拜城县| 阳谷县| 牡丹江市| 阿克| 海门市| 江山市| 卢湾区| 嫩江县| 斗六市| 清流县| 玉门市| 郓城县| 博客| 建宁县| 怀集县| 金平| 金塔县| 文安县| 沈阳市| 中宁县| 临泽县| 鸡东县| 章丘市| 娱乐| 东港市| 若羌县| 无棣县| 民县|