投中網 | 陶輝東 · 2026-01-19 17:46
一個大模型“跑分”工具最先賺的盆滿缽滿。
近日,美國AI初創公司LMArena宣布完成A輪融資,融資額為1.5億美元,投后估值達17億美元(約120億人民幣)。該輪融資由Felicis Ventures和加州大學伯克利分校旗下的投資基金UC Investments領投,A16Z、光速創投、The House Fund、LDVP、Kleiner Perkins等美國知名VC跟投。
這筆融資之所以有意思,主要有三點:
首先是LMArena的估值躥升非常快。它的上一輪融資是2025年5月份的種子輪,由A16Z領投,當時估值是6億美元。也就是說,估值在七個月內翻了三倍,快速晉升獨角獸。
其次是LMArena團隊規模極小。根據PitchBook等數據平臺截至2026年初的記錄,該公司員工總數僅有29人,相當于每個人估值四個億。
最后,LMArena的產品看起來沒啥技術含量,很多人都覺得“我上我也行”。嚴格來說,LMArena并不是一家AI公司,它只是一個給大模型打分、做排名的網站,可以理解為大模型版的安兔兔。
在各家大模型卷生卷死的時候,沒想到是一個大模型“跑分”工具最先賺的盆滿缽滿。
無心插柳而來的獨角獸
LMArena能成為獨角獸,其實是無心插柳的結果。
LMArena起源于一個開源學術組織LMSYS Org,該組織由一些來自加州大學伯克利分校、加州大學圣地亞哥分校、卡內基梅隆大學等名校的學生、教授發起,核心使命是通過開發開源模型、系統和數據集,使大模型的使用和評估變得平民化。
值得一提的是,LMSYS Org的華人含量非常高,伯克利的博士Lianmin Zheng、UCSD 的助理教授Hao Zhang、伯克利的研究員Wei-Lin Chiang等人都是核心成員。
2023年3月,LMSYS Org發布了一款名為Vicuna的開源模型,性能可媲美ChatGPT。但是,他們發現當時市面上并沒有可靠的測試方法,可以真正區分出模型的好壞。于是,研究團隊在2023年4月推出了一個名為Chatbot Arena的開放測試平臺。沒想到,這個平臺在AI圈內越來越火。2024年9月,Chatbot Arena平臺正式更名為LMArena,目前已是全球大模型最權威的大模型評測平臺之一。
LMArena的核心理念非常簡單,就是“匿名對戰”四個字。
進入LMArena的網站之后,系統會要求你任意輸入一段提示詞,隨后系統會隨機挑選兩個AI模型生成對這段提示詞的輸出。用戶在不知道模型身份的情況下,對比兩個輸出的質量,選擇哪個模型勝出。勝出的模型加分,敗北的模型減分。經過數十萬、上百萬次這樣的對戰之后,就能得出每一個模型的最終得分。
這一打分機制雖然簡單,卻用非常直接的方式,解決了大模型評測的核心痛點。
傳統的大模型評測方式一般是“刷題”,比如MMLU(大規模多任務語言理解)、GSM8K(小學數學)和 HumanEval(代碼生成)。然而,隨著大模型的發展,這些評測正面臨三大致命挑戰:飽和、污染與脫節。
首先是飽和。隨著大模型的“刷題”能力越來越強,已經逼近人類上限,這類測試的區分度越來越小。如果大家都是90分甚至95分以上,考試就沒有了意義。
再來說說污染。由于測試的考題通常在互聯網上公開,大模型也就可以預先進行針對性的訓練,使得測試結果被污染。
最難以解決的問題是脫節。考題與用戶的真實使用場景是不一樣的,會做題的大模型不一定能解決真實問題,“高分低能”的情況在大模型中同樣存在。
而LMArena則通過收集真實的人類偏好,把大模型的評價方式從“考場考試”改成“競技場決斗”,一舉解決了上述這三大問題。
現在,LMArena的排名已經被AI行業廣泛接受為最權威的“人類偏好”風向標,已經有400多個大模型被LMArena打分和排名,每月有數百萬個獨立用戶參與評測。無論是OpenAI、谷歌還是國內的各大AI公司,每次發布新模型都會送去LMArena打個榜,一旦拿到高分,一定會在發布會上大吹特吹一番。
“打分”工具商業化,會被大廠“包養”嗎?
2025年初,LMArena正式注冊為公司,開始從學術項目轉向商業化發展。
一說到“跑分”,很容易讓人聯想到國內曾經大行其道的安卓跑分工具。這類工具通常有用戶、知名度和流量,但很難找到商業化變現的方式。最后的結局往往是被大廠“包養”,漸漸失去公信力,最后被用戶拋棄。LMArena是否也會面臨這樣的問題?
答案當然是肯定的,LM Arena雖然尚未直接接受AI大廠的投資,但包括A16Z在內的VC機構重金投資了很多AI公司,間接的利益相關性也不容忽視。
LM Arena在公信力上遭受的最大質疑,當屬2024年初在AI圈內鬧得沸沸揚揚的Meta“作弊”事件。
2025年4月,Cohere、斯坦福大學、麻省理工學院等多家AI公司、高校的研究人員聯合發表了一篇文章,指責LM Arena幫助部分AI公司操縱排名。
文章指出,Meta在發布Llama 4之前,私底下在LM Arena的平臺上測試了27個模型變體,但最終只公開了表現最好的一個模型的得分,以達到在排行榜上名列前茅的目的。另外,文章還認為,LM Arena偏向性的增加了包括Meta、OpenAI和谷歌在內的大廠的模型的“對戰”次數,使這些公司的模型排名獲得了不公平的優勢。
對于這些指責,LM Arena回應是“一些說法與事實不符”,并表示公布預發布模型的分數本身就是毫無意義的。
為了維持透明度,LM Arena會開源部分代碼,并定期發布對戰數據集供研究者分析。但公正性的爭議恐怕會一直伴隨LM Arena的商業化。
要做AI時代的產品“認證官”
那么,如果不以犧牲公正性為代價,LM Arena還有哪些更好的商業化手段呢?
2025年9月,LMArena正式推出第一個商業化產品AI Evaluations。AI Evaluations主要面向開發AI大模型的企業或研究機構,為它們提供模型評估服務。AI Evaluations在2025年12月的ARR(年度經常性收入,最近一個月收入乘以12)已達到了3000萬美元。
考慮到AI Evaluations上線不到四個月,這樣的成績還算不錯。但它顯然還不足以撐起17億美元的估值。投資AI Evaluations的一眾硅谷VC,還看到了AI Evaluations的哪些潛力?
在領投LMArena的種子輪融資后,A16Z曾發文解釋自己的投資邏輯,其核心觀點大致有三條:
首先,A16Z認為LMArena的打分已經在“事實上”成為了評價AI大模型性能的標準,是AI產業發展的“關鍵基礎設施”。
第二,LMArena打造了一個簡單而成功的飛輪機制:用更多模型吸引更多用戶,從而產生更多的偏好數據,進而吸引更多模型加入。顯然,這個飛輪一旦形成就是難以復制的壁壘。
第三,A16Z認為中立、持續的評測,未來將是AI大模型監管的剛需。
A16Z預測了LMArena未來幾種可能的業務場景,其中最重要的一個就是為受監管行業提供合規性支持,比如醫院或其它關鍵基礎設施。對于這些行業來說,AI的可靠性不是依賴AI公司的承諾,而必須通過透明、持續的評測來保證。A16Z暢想,“LMArena認證”未來將成為AI產品的“綠色認證”。LMArena平臺上的用戶評測次數,未來將不是數百萬次,而是數十億次。
2025年初,LMArena推出了Inclusion Arena產品,直接通過API和SDK的方式將測試嵌入到真實的AI應用中,以收集生產環境中的反饋數據。截至2025年7月,該產品已收集了超過50萬次的真實對戰記錄。其價值不僅在于極大地增強了排行榜的參考價值,還事實上構建起了一個“AI的持續集成/持續部署管道”。
A16Z承認LMArena面臨“在商業壓力下保持中立性”的巨大挑戰,但是,能夠讓AI變得“可靠、可預測且值得信賴”的公司,未來將創造出最大的價值。