黃仁勛的話應驗了。
2026 年 4 月 24 日,DeepSeek V4 正式發(fā)布,參數規(guī)模達 1.6 萬億,支持 100 萬 token 超長上下文。
比技術突破更引人注目的是,DeepSeek V4 首次與華為昇騰芯片完成深度適配。這意味著,至少在推理端,中國最頂尖的大模型,正在擺脫對英偉達芯片的依賴。
消息傳出當天,港股芯片板塊集體拉升,英偉達股價則應聲下跌。
除了 DeepSeek,中國還有智譜、MiniMax、月之暗面等幾家 AI 企業(yè)一同涌現。
而在三年前的 2023 年,中國 AI 產業(yè)還完全是另外一幅景象。
彼時,美國開始對中國實施英偉達 H800、A800 等高端 AI 芯片禁售,所有人都在焦慮、都在追問,中國能不能做出自己的大模型?
但是黃仁勛看得明白,后來他在多個場合表達過一個觀點:“中國將借此機會培養(yǎng)本土企業(yè)家,自己研制芯片?!?/p>
他說的,可能正是上述還在萌芽的四顆種子。
這場大逆襲中,2025 年春節(jié) DeepSeek 逆襲是個不可,中國 AI 就開始發(fā)生改變。梁文鋒入選《時代》“全球最具影響力 100 人”和《自然》“年度十大科學人物”。硅谷開始認真研究 DeepSeek 的技術報告,討論"V3/R1 時刻”對行業(yè)的沖擊。
|? 逆流而生 ?|
2023 年初,楊植麟正在卡內基梅隆大學從事研究工作。作為 Transformer-XL 和 XLNet 論文的第一作者,他對大模型技術有深刻的理解。ChatGPT 的出現,讓他意識到一個技術范式轉變的窗口可能正在打開。
就在同一時期,梁文鋒在杭州管理著幻方量化。這家他一手創(chuàng)建的量化私募剛剛突破了百億管理規(guī)模。作為幻方的創(chuàng)始人,他在那時開始思考:幻方積累的技術能力和算力資源,是否可以在 AI 領域做些更大的探索?
在北京,閆俊杰正在推進 MiniMax 的技術研發(fā)。他的公司已經成立一年半,技術方向仍在探索中,面臨路線選擇的考驗。
而清華大學的唐杰教授正在審閱 GLM-4 的測試報告。作為“悟道”大模型的負責人,他比任何人都清楚中國在基礎模型上的位置,盡管慢人一步,但可以追趕。
2023 年,這四個人的命運,在 ChatGPT 引發(fā)的海嘯中悄然交匯。
2022 年 11 月 30 日,OpenAI 創(chuàng)始人 Sam Altman 只在推特上發(fā)了一條簡短的公告:“我們正式推出 ChatGPT 了!”
這甚至算不上一次合格的產品發(fā)布。但僅僅 5 天后,ChatGPT 的用戶數就突破 100 萬;兩個月后,月活用戶突破 1 億。
英偉達 CEO 黃仁勛將這一刻比作"iPhone 時刻”。
ChatGPT 的成功并非偶然。它建立在 OpenAI 多年技術積累的基礎上。從 GPT-1 到 GPT-3.5,從 InstructGPT 到 RLHF(基于人類反饋的強化學習),每一步都在為這一刻鋪墊。但真正讓全世界驚喜的是,它能寫代碼、寫詩、寫論文,能理解上下文,能“涌現”出意料之外的能力。
2023 年 3 月 14 日,OpenAI 發(fā)布 GPT-4。這一次,沒有“研究預覽”的謙辭,沒有小心翼翼的措辭。而一份長達 98 頁的技術報告,和一個傲人的事實:GPT-4 在模擬律師考試中進入了前 10%,在 SAT、GRE 等標準化考試中接近人類頂尖水平。
微軟隨即宣布將 GPT-4 接入 Office 全家桶。Windows 11 開始內置 AI 助手。比爾·蓋茨說:“這是我一生中見過的最具顛覆性的技術演示。”
而在北京,一場發(fā)布會正在醞釀。
2023 年 3 月 16 日,百度創(chuàng)始人李彥宏站在臺上,發(fā)布“文心一言”。語氣里帶著一絲緊張,“大家的期望值,是我們對標 ChatGPT、對標 GPT-4,這個門檻有點高?!?/p>
發(fā)布會采用了預錄制演示而非實時問答。彈幕里有人說:“這像極了畢業(yè)答辯的自己?!卑l(fā)布會期間,百度港股收盤下跌 6.36%,盤中最大跌幅約 10%,市值蒸發(fā)數百億。
但真正讓市場擔憂的不是技術差距,而是時間窗口。
如果說技術差距還可以用時間和投入來彌補,那么芯片限制則是一道更冰冷的枷鎖。2022 年 10 月,美國商務部發(fā)布針對中國的芯片出口管制規(guī)則,禁止向中國出口先進 AI 芯片。A100、H100 等高端 GPU 成為禁運品。2023 年 10 月 17 日,管制進一步升級,覆蓋了性能稍低的芯片型號。
這意味著中國 AI 公司無法獲得訓練大模型最核心的算力資源。
阿里巴巴、字節(jié)跳動、騰訊等互聯網公司選擇了最穩(wěn)妥的路,提前囤貨,盡可能多地鎖定芯片資源。
梁文鋒后來在一次罕見采訪中回憶那段日子:“我們很早就意識到算力會成為問題。所以幻方的策略是,在管制之前儲備大量芯片?!被梅搅炕奈灮鸲査懔号鋫淞?1 萬張 A100。但對于那些沒有提前布局的公司來說,芯片短缺成了懸在頭頂的達摩克利斯之劍。
2023 年的中國互聯網彌漫著一種奇特的情緒,既興奮又焦慮。
焦慮催生了狂熱。投資人開始瘋狂尋找“中國版 OpenAI",任何帶有“大模型”"AGI""AI"標簽的項目都能拿到融資。2023 年,中國 AI 領域融資額創(chuàng)下歷史新高,超過 2000 億元人民幣。
而在這場浪潮的中心,四位創(chuàng)始人做出了各自的決斷,但都沒有回避技術探索。
|? 踐行技術信仰 ?|
2023 年初,楊植麟正在思考人生中最重要的一個決定。在一次內部討論中,他表達了這樣的判斷:“如果這真的是 AGI 的起點,那真正的窗口期可能只有一個月?!?/p>
對于一個需要數年研發(fā)周期的大模型項目來說,一個月能做什么?
楊植麟看到的不是技術本身,而是一種結構性的機會。他做出了一個讓所有人震驚的決定,放棄循環(huán)智能的一半股份,ALL IN AGI。2023 年 3 月,月之暗面(Moonshot AI)正式成立。
為什么叫“月之暗面”?這來自 Pink Floyd 的專輯《The Dark Side of the Moon》。楊植麟在清華讀書時曾組建 Splay 樂隊,擔任鼓手和詞曲作者,音樂一直是他激情的一部分。但更深層的含義是:當所有人都在追逐光明(OpenAI)時,他選擇探索那些被忽視的角落。
楊植麟選擇了“長文本”作為突破口。當時 GPT-4 的上下文窗口只有 8K tokens(約 6000 字),而他認為長上下文是一個被低估的方向。2023 年 10 月,月之暗面發(fā)布 Kimi Chat,支持 20 萬漢字的超長上下文。
投資人問他:“為什么是這個方向?”他回答:“因為所有人都覺得不可能?!?/p>
同年 7 月,DeepSeek 悄然成立。這家新公司的注冊時間比月之暗面晚了三個月,但背后的資金和技術儲備卻遠超大多數競爭對手。
梁文鋒的策略是用幻方量化產生的收益,支持 DeepSeek 的研發(fā)運營。但真正的創(chuàng)新不在商業(yè)模式,而在技術路線。
當行業(yè)都在追求更大參數、更多算力時,梁文鋒提出了一個反直覺的問題:“為什么訓練 GPT-4 需要 1 億美元?為什么我們不能把成本降低到十分之一?”
他要求團隊:不拼算力,拼算法效率。用更少的芯片、更低的成本,做出更強的模型。
2023 年年中,MiniMax 也經歷了一次關鍵的技術路線選擇。公司成立已經一年半,技術方向卻始終沒有找到北。是繼續(xù)做 Transformer 的 Scaling(規(guī)?;??還是探索新的架構?每個選擇都可能導向完全不同的未來。
閆俊杰的創(chuàng)業(yè)念頭,始于一個樸素的愿望。2021 年春節(jié),他回到河南商丘老家。外公已經八十多歲了,一直想寫一本回憶錄,記錄自己的人生故事,卻苦于不會打字。“要是有個機器能幫我寫就好了,”外公說。
這個樸素的愿望成為閆俊杰 ALL IN AI 的起點。但現在,他需要做出更關鍵的決定。在一次管理層會議上,他宣布:“我們把 80% 的算力押在 MoE 架構上?!?/p>
MoE(Mixture of Experts,混合專家系統(tǒng))在當時并不是主流路線。GPT-4 用的是 Dense Transformer,Google 的 Switch Transformer 雖然驗證了 MoE 的可行性,但效果并不穩(wěn)定。
一位投資人后來回憶閆俊杰當時的決策時說:“把 80% 的算力押在一個非主流路線上,這幾乎等于賭博?!?/p>
后來的事情證明了這次押注的正確性。但在那之前,閆俊杰經歷了三四次幾乎讓公司崩潰的失敗。
2023 年 10 月,智譜 AI 完成了一筆超過 25 億元的融資。投資方名單星光熠熠:阿里、騰訊、美團、螞蟻……幾乎涵蓋了中國最有影響力的互聯網公司。
這是唐杰第一次公開走到聚光燈下。
作為清華大學計算機系的教授、IEEE/ACM/AAAI 三大學術會士,他此前一直保持低調。智譜 AI 的前身是清華大學知識工程實驗室(KEG),他在這里工作了多年,研究知識圖譜和社會網絡分析。
但 ChatGPT 改變了一切?!凹夹g頂天,市場立地”,唐杰一直記在心里。KEG 多年的積累,包括科研人員的知識圖譜、AMiner 科技情報平臺,以及自研的 GLM 預訓練架構。這些成果如果只停留在論文里,那永遠只是論文。
2023 年,他決定邁出可能是最穩(wěn)妥的一步:把清華多年的積累產業(yè)化,借助資本的力量加速追趕。他賭的是,中國獨特的語料和場景優(yōu)勢,可以彌合與 OpenAI 的技術差距。
四個人的四種選擇,都關系著中國 AI 產業(yè)的命運。
|? 正面競爭 ?|
2023 年,中國 GDP 增速放緩至 5% 左右,互聯網行業(yè)裁員潮此起彼伏。AI 大模型賽道成為少數幾個“確定性”增長的故事。而在這個故事里,中美科技競爭是不能忽視的不確定因素。
梁文鋒曾在一次非正式場合說過一句話,被廣泛傳播:“我們不需要復制 OpenAI,我們需要證明,在資源受限的情況下,算法創(chuàng)新同樣可以改變游戲規(guī)則?!?/p>
這句話既是對技術路線的注解,也是對時代命題的回答。
現在,DeepSeek V4 用極致的技術創(chuàng)新,給出了答案。美國硅谷的開發(fā)者們也在調用 Kimi、MiniMax、智譜的大模型,中國算力也實現了出海。
當我們回望 2023 年,看到的不應該只是四位創(chuàng)始人的成功和身價,而是在那個人人焦慮、人人期待的時代,有四個人選擇了相信。
梁文鋒、楊植麟、閆俊杰、唐杰他們不再像上一代企業(yè)家那樣“模仿 + 微創(chuàng)新”,而是在原創(chuàng)性技術上與世界最強者正面競爭。他們相信技術可以改變世界。他們也相信那些看似瘋狂的賭注,最終會得到時間的獎賞。
英偉達 CEO 黃仁勛在播客中說過一句話,被全球媒體反復引用:“如果中國的 AI 模型跑在華為芯片上,這對美國是‘可怕’的結果。”
這句話已經應驗,但我們也要看到 Anthropic 正悄然崛起。其產品 Claude 正在證明一條可落地的商業(yè)化技術路徑。2026 年,Anthropic 的估值將達到 3800 億美元,成為 OpenAI 最有力的競爭者,也是我們新的對手。
黃仁勛的話應驗了。
2026 年 4 月 24 日,DeepSeek V4 正式發(fā)布,參數規(guī)模達 1.6 萬億,支持 100 萬 token 超長上下文。
比技術突破更引人注目的是,DeepSeek V4 首次與華為昇騰芯片完成深度適配。這意味著,至少在推理端,中國最頂尖的大模型,正在擺脫對英偉達芯片的依賴。
消息傳出當天,港股芯片板塊集體拉升,英偉達股價則應聲下跌。
除了 DeepSeek,中國還有智譜、MiniMax、月之暗面等幾家 AI 企業(yè)一同涌現。
而在三年前的 2023 年,中國 AI 產業(yè)還完全是另外一幅景象。
彼時,美國開始對中國實施英偉達 H800、A800 等高端 AI 芯片禁售,所有人都在焦慮、都在追問,中國能不能做出自己的大模型?
但是黃仁勛看得明白,后來他在多個場合表達過一個觀點:“中國將借此機會培養(yǎng)本土企業(yè)家,自己研制芯片。”
他說的,可能正是上述還在萌芽的四顆種子。
這場大逆襲中,2025 年春節(jié) DeepSeek 逆襲是個不可,中國 AI 就開始發(fā)生改變。梁文鋒入選《時代》“全球最具影響力 100 人”和《自然》“年度十大科學人物”。硅谷開始認真研究 DeepSeek 的技術報告,討論"V3/R1 時刻”對行業(yè)的沖擊。
| 逆流而生 |
2023 年初,楊植麟正在卡內基梅隆大學從事研究工作。作為 Transformer-XL 和 XLNet 論文的第一作者,他對大模型技術有深刻的理解。ChatGPT 的出現,讓他意識到一個技術范式轉變的窗口可能正在打開。
就在同一時期,梁文鋒在杭州管理著幻方量化。這家他一手創(chuàng)建的量化私募剛剛突破了百億管理規(guī)模。作為幻方的創(chuàng)始人,他在那時開始思考:幻方積累的技術能力和算力資源,是否可以在 AI 領域做些更大的探索?
在北京,閆俊杰正在推進 MiniMax 的技術研發(fā)。他的公司已經成立一年半,技術方向仍在探索中,面臨路線選擇的考驗。
而清華大學的唐杰教授正在審閱 GLM-4 的測試報告。作為“悟道”大模型的負責人,他比任何人都清楚中國在基礎模型上的位置,盡管慢人一步,但可以追趕。
2023 年,這四個人的命運,在 ChatGPT 引發(fā)的海嘯中悄然交匯。
2022 年 11 月 30 日,OpenAI 創(chuàng)始人 Sam Altman 只在推特上發(fā)了一條簡短的公告:“我們正式推出 ChatGPT 了!”
這甚至算不上一次合格的產品發(fā)布。但僅僅 5 天后,ChatGPT 的用戶數就突破 100 萬;兩個月后,月活用戶突破 1 億。
英偉達 CEO 黃仁勛將這一刻比作"iPhone 時刻”。
ChatGPT 的成功并非偶然。它建立在 OpenAI 多年技術積累的基礎上。從 GPT-1 到 GPT-3.5,從 InstructGPT 到 RLHF(基于人類反饋的強化學習),每一步都在為這一刻鋪墊。但真正讓全世界驚喜的是,它能寫代碼、寫詩、寫論文,能理解上下文,能“涌現”出意料之外的能力。
2023 年 3 月 14 日,OpenAI 發(fā)布 GPT-4。這一次,沒有“研究預覽”的謙辭,沒有小心翼翼的措辭。而一份長達 98 頁的技術報告,和一個傲人的事實:GPT-4 在模擬律師考試中進入了前 10%,在 SAT、GRE 等標準化考試中接近人類頂尖水平。
微軟隨即宣布將 GPT-4 接入 Office 全家桶。Windows 11 開始內置 AI 助手。比爾·蓋茨說:“這是我一生中見過的最具顛覆性的技術演示。”
而在北京,一場發(fā)布會正在醞釀。
2023 年 3 月 16 日,百度創(chuàng)始人李彥宏站在臺上,發(fā)布“文心一言”。語氣里帶著一絲緊張,“大家的期望值,是我們對標 ChatGPT、對標 GPT-4,這個門檻有點高。”
發(fā)布會采用了預錄制演示而非實時問答。彈幕里有人說:“這像極了畢業(yè)答辯的自己?!卑l(fā)布會期間,百度港股收盤下跌 6.36%,盤中最大跌幅約 10%,市值蒸發(fā)數百億。
但真正讓市場擔憂的不是技術差距,而是時間窗口。
如果說技術差距還可以用時間和投入來彌補,那么芯片限制則是一道更冰冷的枷鎖。2022 年 10 月,美國商務部發(fā)布針對中國的芯片出口管制規(guī)則,禁止向中國出口先進 AI 芯片。A100、H100 等高端 GPU 成為禁運品。2023 年 10 月 17 日,管制進一步升級,覆蓋了性能稍低的芯片型號。
這意味著中國 AI 公司無法獲得訓練大模型最核心的算力資源。
阿里巴巴、字節(jié)跳動、騰訊等互聯網公司選擇了最穩(wěn)妥的路,提前囤貨,盡可能多地鎖定芯片資源。
梁文鋒后來在一次罕見采訪中回憶那段日子:“我們很早就意識到算力會成為問題。所以幻方的策略是,在管制之前儲備大量芯片?!被梅搅炕奈灮鸲査懔号鋫淞?1 萬張 A100。但對于那些沒有提前布局的公司來說,芯片短缺成了懸在頭頂的達摩克利斯之劍。
2023 年的中國互聯網彌漫著一種奇特的情緒,既興奮又焦慮。
焦慮催生了狂熱。投資人開始瘋狂尋找“中國版 OpenAI",任何帶有“大模型”"AGI""AI"標簽的項目都能拿到融資。2023 年,中國 AI 領域融資額創(chuàng)下歷史新高,超過 2000 億元人民幣。
而在這場浪潮的中心,四位創(chuàng)始人做出了各自的決斷,但都沒有回避技術探索。
| 踐行技術信仰 |
2023 年初,楊植麟正在思考人生中最重要的一個決定。在一次內部討論中,他表達了這樣的判斷:“如果這真的是 AGI 的起點,那真正的窗口期可能只有一個月?!?/p>
對于一個需要數年研發(fā)周期的大模型項目來說,一個月能做什么?
楊植麟看到的不是技術本身,而是一種結構性的機會。他做出了一個讓所有人震驚的決定,放棄循環(huán)智能的一半股份,ALL IN AGI。2023 年 3 月,月之暗面(Moonshot AI)正式成立。
為什么叫“月之暗面”?這來自 Pink Floyd 的專輯《The Dark Side of the Moon》。楊植麟在清華讀書時曾組建 Splay 樂隊,擔任鼓手和詞曲作者,音樂一直是他激情的一部分。但更深層的含義是:當所有人都在追逐光明(OpenAI)時,他選擇探索那些被忽視的角落。
楊植麟選擇了“長文本”作為突破口。當時 GPT-4 的上下文窗口只有 8K tokens(約 6000 字),而他認為長上下文是一個被低估的方向。2023 年 10 月,月之暗面發(fā)布 Kimi Chat,支持 20 萬漢字的超長上下文。
投資人問他:“為什么是這個方向?”他回答:“因為所有人都覺得不可能。”
同年 7 月,DeepSeek 悄然成立。這家新公司的注冊時間比月之暗面晚了三個月,但背后的資金和技術儲備卻遠超大多數競爭對手。
梁文鋒的策略是用幻方量化產生的收益,支持 DeepSeek 的研發(fā)運營。但真正的創(chuàng)新不在商業(yè)模式,而在技術路線。
當行業(yè)都在追求更大參數、更多算力時,梁文鋒提出了一個反直覺的問題:“為什么訓練 GPT-4 需要 1 億美元?為什么我們不能把成本降低到十分之一?”
他要求團隊:不拼算力,拼算法效率。用更少的芯片、更低的成本,做出更強的模型。
2023 年年中,MiniMax 也經歷了一次關鍵的技術路線選擇。公司成立已經一年半,技術方向卻始終沒有找到北。是繼續(xù)做 Transformer 的 Scaling(規(guī)?;窟€是探索新的架構?每個選擇都可能導向完全不同的未來。
閆俊杰的創(chuàng)業(yè)念頭,始于一個樸素的愿望。2021 年春節(jié),他回到河南商丘老家。外公已經八十多歲了,一直想寫一本回憶錄,記錄自己的人生故事,卻苦于不會打字?!耙怯袀€機器能幫我寫就好了,”外公說。
這個樸素的愿望成為閆俊杰 ALL IN AI 的起點。但現在,他需要做出更關鍵的決定。在一次管理層會議上,他宣布:“我們把 80% 的算力押在 MoE 架構上?!?/p>
MoE(Mixture of Experts,混合專家系統(tǒng))在當時并不是主流路線。GPT-4 用的是 Dense Transformer,Google 的 Switch Transformer 雖然驗證了 MoE 的可行性,但效果并不穩(wěn)定。
一位投資人后來回憶閆俊杰當時的決策時說:“把 80% 的算力押在一個非主流路線上,這幾乎等于賭博?!?/p>
后來的事情證明了這次押注的正確性。但在那之前,閆俊杰經歷了三四次幾乎讓公司崩潰的失敗。
2023 年 10 月,智譜 AI 完成了一筆超過 25 億元的融資。投資方名單星光熠熠:阿里、騰訊、美團、螞蟻……幾乎涵蓋了中國最有影響力的互聯網公司。
這是唐杰第一次公開走到聚光燈下。
作為清華大學計算機系的教授、IEEE/ACM/AAAI 三大學術會士,他此前一直保持低調。智譜 AI 的前身是清華大學知識工程實驗室(KEG),他在這里工作了多年,研究知識圖譜和社會網絡分析。
但 ChatGPT 改變了一切?!凹夹g頂天,市場立地”,唐杰一直記在心里。KEG 多年的積累,包括科研人員的知識圖譜、AMiner 科技情報平臺,以及自研的 GLM 預訓練架構。這些成果如果只停留在論文里,那永遠只是論文。
2023 年,他決定邁出可能是最穩(wěn)妥的一步:把清華多年的積累產業(yè)化,借助資本的力量加速追趕。他賭的是,中國獨特的語料和場景優(yōu)勢,可以彌合與 OpenAI 的技術差距。
四個人的四種選擇,都關系著中國 AI 產業(yè)的命運。
| 正面競爭 |
2023 年,中國 GDP 增速放緩至 5% 左右,互聯網行業(yè)裁員潮此起彼伏。AI 大模型賽道成為少數幾個“確定性”增長的故事。而在這個故事里,中美科技競爭是不能忽視的不確定因素。
梁文鋒曾在一次非正式場合說過一句話,被廣泛傳播:“我們不需要復制 OpenAI,我們需要證明,在資源受限的情況下,算法創(chuàng)新同樣可以改變游戲規(guī)則?!?/p>
這句話既是對技術路線的注解,也是對時代命題的回答。
現在,DeepSeek V4 用極致的技術創(chuàng)新,給出了答案。美國硅谷的開發(fā)者們也在調用 Kimi、MiniMax、智譜的大模型,中國算力也實現了出海。
當我們回望 2023 年,看到的不應該只是四位創(chuàng)始人的成功和身價,而是在那個人人焦慮、人人期待的時代,有四個人選擇了相信。
梁文鋒、楊植麟、閆俊杰、唐杰他們不再像上一代企業(yè)家那樣“模仿 + 微創(chuàng)新”,而是在原創(chuàng)性技術上與世界最強者正面競爭。他們相信技術可以改變世界。他們也相信那些看似瘋狂的賭注,最終會得到時間的獎賞。
英偉達 CEO 黃仁勛在播客中說過一句話,被全球媒體反復引用:“如果中國的 AI 模型跑在華為芯片上,這對美國是‘可怕’的結果?!?/p>
這句話已經應驗,但我們也要看到 Anthropic 正悄然崛起。其產品 Claude 正在證明一條可落地的商業(yè)化技術路徑。2026 年,Anthropic 的估值將達到 3800 億美元,成為 OpenAI 最有力的競爭者,也是我們新的對手。
答案,從來不只是終點,是下一個故事的起點。AGI 的覺醒年,從來不只是某一項技術的突破,而是無數人選擇相信的那一刻。
特別聲明:本文為合作媒體授權 DoNews 專欄轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表 DoNews 專欄的立場,轉載請聯系原作者及原出處獲取授權。(有任何疑問都請聯系idonews@donews.com)