2025年歲末,英偉達(NVIDIA)宣佈以200億美元收購AI晶片新銳Groq,這場創紀錄的收購案如同一場深冬地震,徹底打破了矽片世界的寧靜。 此前,Groq憑藉比傳統GPU快10倍以上的推理速度被稱為“地表最强推理晶片”,而英偉達的此番出手,被業內視為算力範式轉型的分水嶺。
它向全球釋放了一個明確訊號:AI晶片的戰爭策源地正從“訓練”向“推理”劇烈遷移。 當大模型走出實驗室,進入萬千應用場景,推理成本和速度將直接决定AI產業的生死。 在2025年的宏觀視野下,這場“變天”不僅標誌著行業邏輯的重構,更預示著推理算力已成為大國博弈與科技競速的下一個制高點。
回望2025年,算力需求已從單純的“參數競賽”轉向“應用落地”,這種變化直接引發了國產AI晶片企業在資本市場的集體“突圍”。 即便在中美科技博弈的冷峻背景下,國產晶片力量依然展現出驚人的韌性。
繼地平線、黑芝麻於2024年登入港股後,2025年迎來了真正的“上市大年”:摩爾線程、沐曦科技正式登入A股科創板,天數智芯、壁仞科技也紛紛登入港股。 資本的持續加注與數個萬卡級國產算力集羣的規模化交付,標誌著中國晶片產業正從“補比特者”向“覈心力量”躍遷。 站在歲末觀察,AI晶片江湖已由最初的渾沌狀態,清晰地演化為“通用GPU派”與“推理派”兩大陣營。
這一派系依然是全球算力體系的“底座”,致力於在雲端構建超大規模的計算資源池,是所有巨量參數模型誕生的”搖籃”。 國際市場上,英偉達憑藉Blackwell架構(B200)及其深度集成的NVLink高速互聯科技,構建了近乎壟斷的硬體效能壁壘; 但其真正的“殺手鐧”在於經營二十餘年的CUDA生態,這種軟硬一體的深度綁定,使得全球數百萬開發者早已習慣於英偉達的底層邏輯,形成了極高的遷移成本。
作為挑戰者,AMD正通過開源ROCm生態與MI300系列的性價比優勢,在高性能計算與特定雲廠商的定制需求中艱難尋找裂縫,試圖打破“一超”格局。
視角轉回國內,摩爾線程、壁仞科技、沐曦科技等企業作為此路線的堅定踐行者,在2025年完成了從“效能跑分”到“萬卡集羣實測”的關鍵跨越。 他們不僅致力於在底層架構上實現對主流軟件生態的無縫相容,更在分散式運算效率、全功能GPU架構的普適性上投入重金。
對於國產大模型開發者而言,這一派系的存在具有極高的戰畧意義:他們通過大算力、高通用性的優勢,在重重封鎖下為國產算力的反覆運算保留了珍貴的種子,解决了從0到1的“算力有無”問題。 他們更像是算力荒時代的“開山斧”,專注於在雲端攻克超大規模參數量下的平行計算難題,為後續全行業、全場景的應用爆發夯實了最沉穩、最厚實的數位化底座。
科技上,摩爾線程選擇了較為激進的“全功能GPU”方向,基於其自主研發的MUSA統一架構,在一張顯卡上同時實現AI訓練與推理、圖形渲染、視頻處理等多場景能力。 基於MUSA統一體系,摩爾線程新一代全功能GPU架構“花港”在計算密度、能效、精度支持、互聯能力及圖形科技等方面實現全面突破。
壁仞科技和沐曦股份則聚焦通用GPU,針對雲端算力市場。 壁仞科技定位“高端通用GPU”,憑藉Chiplet異構集成科技,推出效能對標英偉達H100的BR100晶片,成為國產GPU“科技天花板”的代表企業。
沐曦科技以自主研發的GPU IP為覈心,突破了“高性能計算+AI訓練”雙場景相容難題,其MXMACA軟件棧相容CUDA生態,可直接遷移英偉達GPU上的應用程序,解决了“生態遷移成本高”的行業痛點,有望迅速“消化”一部分英偉達留下的國內市場。
作為國內首家實現訓練與推理通用GPU量產企業,天數智芯秉持長期主義,歷經多代產品反覆運算,實現通用GPU從“跟跑”到“並跑”的跨越,其通用GPU產品全面相容TensorFlow、PyTorch、PaddlePaddle等國內外主流AI框架及各類深度學習加速庫,通過標準化介面將應用遷移時間降低50%以上。
當前,國內通用GPU市場正迎來“需求爆發+國產替代”雙重紅利。 2024年市場規模達1546億元,預計2029年將增至7153億元,國產廠商市場占比預計將超過50%。 隨著全維度競爭力的不斷增強,國內通用GPU企業有望在千億替代市場中進一步擴大份額,推動國產通用GPU產業從追隨者向引領者的轉變。
當大模型進入大規模商用階段,行業焦點正迅速從“如何訓練”轉向“如何落地”,由此催生了異軍突起的“推理派”。
不同於訓練端對“暴力計算”的癡迷,推理側更強調組織成本下的處理效能、確定性時延以及極致的能效比。 在這個賽道上,穀歌的TPU、亞馬遜的Inferentia均在通過自研架構尋求效率最優解。 這種市場轉向的背後,是AI產業從“實驗室投入”向“商業化產出”轉型的必然結果。
推理晶片之所以被寄予厚望,覈心邏輯在於其直接决定了AI應用的“Token經濟學”。 隨著長文字處理、實时語音對話以及多模態生成需求的爆發,算力消耗已不再是一次性的研發投入,而是伴隨每一次用戶互動的持續運營成本。 通用GPU雖然强大,但在執行單一推理任務時往往存在計算資源浪費和高昂的功耗代價。 相比之下,專門針對推理負載優化的晶片通過精簡邏輯控制、優化顯存頻寬與算力配比,能够提供數倍於通用架構的性價比。 這意味著,只有讓推理成本下降到企業和個人“用得起”的區間,AI的普惠化才具備現實基礎。
在這股能效比競賽中,中國本土晶片力量展現出了敏銳的市場洞察力與極强的場景滲透力。 華為升騰系列、寒武紀以及雲天勵飛等國產領軍廠商,正通過架構創新在這一差异化賽道上加速突圍。 不同於單純追求通用性能指標的傳統思路,這些企業更傾向於在“算力、功耗、成本”的黃金三角中尋找最優平衡點,從而在推理效能的“長板”上構築起深厚的技術壁壘。 這種立足於本土超大規模應用場景的深度適配,正加速推動國產晶片從單純的硬體交付轉向全棧式的能效服務,為未來萬億級的推理市場預留了極具韌性的增長空間。
與英偉達基於通用集成積體電路設計的GPU有所不同,華為升騰系列晶片屬於專用集成集成電路架構的NPU,專為處理AI神經網路計算任務設計。 從2019年開始,華為已經發佈多款升騰910系列晶片,包括910B、910C多款產品,該系列是基於華為自研的達文西架構,以集羣化、規模化彌補單晶片效能不足,專為雲端AI訓練和推理使用。
作為“國產AI晶片第一股”,寒武紀的覈心優勢在於“全棧科技佈局”與“規模化落地能力”,是現時唯一實現“雲邊端一體”的國產GPU企業,科技上採用“軟硬體協同+訓推融合”架構,自主研發智能處理器指令集與微架構,覈心技術壁壘高,一舉成為國產晶片領域的“現象級企業”。
雲天勵飛聚焦AI推理賽道,致力於打造“中國版TPU”。 其自主研發的GPNPU基於“算力積木”架構,兼顧通用性與高效率,能够在國產工藝下實現算力單元的靈活擴展,滿足多樣化場景需求。 公司“深界”“深穹”“深擎”等晶片現時已在智算中心、具身智慧等領域應用,為各行業客戶打造標杆級AI應用提供國產强力支持。
在AI科技從實驗室走向規模化落地的行程中,推理環節正成為决定體驗與成本的覈心競爭——專門為推理優化的晶片,已然成為科技行業的新風口。
訓練時代,英偉達是當之無愧的王者,也是標準製定者。 在訓練賽道上追趕,我們不得不面對先進制程受限和CUDA生態高牆的現實,差距是客觀存在的,然而推理賽道將呈現的是另一番景象。 在推理時代,“所有人都站在同一條新的起跑線上。誰能在成本、效率和系統能力上建立優勢,誰就有機會。”雲天勵飛董事長兼CEO陳寧說。
成本,是橫亘在AI規模化面前最現實的一座山。展望2026年,AI芯片產業將不再迷信單一的絕對性能,而是全面進入專業化、精細化的全新紀元。最顯著的趨勢是"訓推分離"的徹底化:過去用昂貴的訓練芯片承擔簡單推理任務的"資源錯配"模式將被終結,專門針對推理優化的芯片將成為市場的主流選擇。
同時,PD分離(Prefill與Decode分離)等前沿架構的規模化落地,將針對大模型生成過程中不同階段的負載特性進行「精細化手術」。這種技術演進不僅提升了算力的吞吐上限,更極大降低了AI應用的邊際成本。
在這個大博弈時代,算力不僅是技術的競爭,更是主權的象徵。當推理規模化的序幕拉開,以雲天勵飛為代表的國產推理晶片領軍力量,正以自主可控的底層技術,為中國AI產業構築起一個算得穩、用得起、行得遠的「新底座」。這不僅是企業間的勝負,更是中國在智算時代掌握數字主權、驅動千行百業實現質變的關鍵支點。
推理芯片的賽道,比拼的正是這種賦予AI以「現實感」的能力。在此,中國企業首次與全球競爭者站在了相近的起跑線上。這場競賽的終局,或許不是誕生一個替代英偉達的單一巨頭,而是成長起一批能在政務、金融、工業等「糧食產區」深耕,提供穩定、可靠、划算算力服務的新力量。