五一假期前一天,DeepSeek 突然扔出來一份視覺多模態(tài)技術(shù)報告。
點開之前,我心里大概是有個預(yù)期的,無非就是具體能看到多遠(yuǎn)、看得多清楚。
畢竟過去一年,多模態(tài)模型基本都在往這個方向卷。OpenAI 講 thinking with images,讓模型在推理過程中裁剪、放大、旋轉(zhuǎn)圖片;Gemini、Claude 也都在想辦法讓模型處理更高分辨率、更復(fù)雜的視覺輸入。
大家的共同假設(shè)是,只要模型看得更細(xì),視覺推理自然就會更強(qiáng)。
但 DeepSeek 這份報告看下來,你會發(fā)現(xiàn),他們完全走上了另一條路。
DeepSeek 沒有把重點放在“讓模型看到更多像素”上,他們把注意力放在了一個更底層的問題上。
就算模型已經(jīng)看清楚了,但是它在推理過程中,你怎么能保證模型和你指的是同一個東西?
其實這是多模態(tài)推理里最容易被忽略的死穴。
人類看圖時,可以用手指去標(biāo)記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型哪知道你說的這個是哪個?
模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面復(fù)雜起來,語言指代就會漂移,推理也會跟著崩。
于是 DeepSeek 就說了,那就給模型一根“手指”不就完了?
它把點和邊界框變成模型思考時的基本單位,讓模型能夠一邊用這根賽博手指指著對象,一邊進(jìn)行推理。
01
從連續(xù)視覺到離散符號
DeepSeek 在這份技術(shù)報告里,提出了一個很有意思的問題。他們認(rèn)為,多模態(tài)模型真正難的地方,不是看見圖像,而是在連續(xù)推理過程中穩(wěn)定地指向同一個視覺對象。
就比如你跟你的朋友說“菜市場里,張老太太的那個攤位賣的菜最新鮮”。但是菜市場里老頭老太太多了去了,哪個是張老太太?
但如果你直接用手指著說“就是那個”,你朋友就會馬上明白。
DeepSeek 將這個問題命名為“引用鴻溝”(Reference Gap)。
過去一年,幾乎所有前沿多模態(tài)模型都在解決“感知鴻溝”(Perception Gap) 這個問題。
假如說有一張照片放在你面前,如果照片太模糊、分辨率太低,你可能看不清楚里面的小字或者遠(yuǎn)處的細(xì)節(jié)。AI 也一樣,如果輸入的圖像質(zhì)量不夠、處理方式不對,它就會“看不清”,這就是感知鴻溝。
GPT、Claude、Gemini 這些模型不斷提高分辨率,引入高分辨率裁剪、動態(tài)分塊、多尺度處理,目的就是讓模型能看到更多細(xì)節(jié)。
這個方向當(dāng)然有價值,但 DeepSeek 在報告里指出,就算模型看得再清楚,在復(fù)雜的空間推理任務(wù)上,仍然會出現(xiàn)邏輯崩潰。
問題出在自然語言本身。
照片里有十幾只狗,你說“左邊那只狗”,那模型就沒辦法理解你說的具體是哪只。
還有更絕的,如果你讓模型數(shù)一下照片里狗的數(shù)量,那么模型在推理過程中很容易就搞不清楚自己已經(jīng)數(shù)過哪些、還有哪些沒數(shù)。
報告中還提到了迷宮導(dǎo)航這樣極端的情況,純語言根本無法準(zhǔn)確描述不規(guī)則形狀的路徑和復(fù)雜的拓?fù)潢P(guān)系。
語言作為一種指代工具,在連續(xù)的視覺空間里天生就是模糊的。它擅長抽象概念和因果關(guān)系,但在空間定位和拓?fù)潢P(guān)系上,語言的表達(dá)能力存在根本性的局限。
可 DeepSeek 本身就是個通用的語言模型,那應(yīng)該怎樣解決呢?
于是就有了文章開頭提到的這根“手指”。
他們提出的核心概念是“視覺基元”(Visual Primitives),具體來說就是把邊界框(bounding boxes)和點(points)這兩種計算機(jī)視覺里最基礎(chǔ)的空間標(biāo)記,提升為“思維的最小單位”。
以前的多模態(tài)模型雖然也能畫框標(biāo)注物體,但只是在最后給你看個結(jié)果,證明“我找到了”。就像考試時,你只交答案,不寫解題過程。
也有一些研究讓 AI 在思考過程中畫框,但目的只是為了“看得更準(zhǔn)”,框框只是個輔助工具。就好比你做數(shù)學(xué)題時用草稿紙,草稿紙只是幫你算得更清楚,不是解題思路的一部分。
DeepSeek 要做的完全不同。
他們把這些空間標(biāo)記直接嵌入到模型的推理過程中,讓它們成為推理的有機(jī)組成部分。模型在思考的時候,不只是用語言描述“我看到了一只狗”,還同時輸出“我看到了一只狗,它在這里:[[x1,y1,x2,y2]]"。
這個機(jī)制被 DeepSeek 稱為“邊推理邊指向”(point while it reasons)。
模型的每一步思考都錨定在圖像的具體坐標(biāo)上。
技術(shù)報告里就給了這樣一個例子:模型從起點出發(fā),一路探索、回溯、再嘗試,最后輸出了一串完整的坐標(biāo)路徑,每個坐標(biāo)都對應(yīng)迷宮里走過的一個點。
這樣一來,模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什么、指什么。每個視覺對象都有了明確的空間錨點,推理過程變得可追蹤、可驗證。
這條技術(shù)路線和 OpenAI 的方向形成了有趣的對比。
OpenAI 在 o3 和 o4-mini 的官方介紹里明確提到了"thinking with images"的概念,即模型可以把圖像納入推理鏈,并通過裁剪、放大、旋轉(zhuǎn)等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分,模型可以在推理過程中生成新的圖像、修改圖像、對圖像進(jìn)行操作。
OpenAI 的路線強(qiáng)調(diào)的是通用能力,視覺、代碼、搜索、文件、工具調(diào)用一起協(xié)作。模型擁有一個強(qiáng)大的“視覺工作臺”,可以靈活地處理各種視覺任務(wù)。
DeepSeek 的路線則更“符號化”一點。它讓坐標(biāo)進(jìn)入思維鏈。模型在推理文本里顯式寫出邊界框和點的坐標(biāo),把視覺對象變成推理時可復(fù)用的錨點。
這就導(dǎo)致,OpenAI 的視覺推理發(fā)生在內(nèi)部,用戶只能看到最終答案和必要解釋,中間的視覺處理過程是黑箱。DeepSeek 則故意把中間視覺錨點顯式化,讓推理過程完全透明。
DeepSeek 這樣做,好處是推理過程更容易被訓(xùn)練、檢查和打分。這也讓它更容易設(shè)計格式、質(zhì)量和任務(wù)級獎勵。尤其在迷宮、路徑追蹤這類任務(wù)中,可以對路徑合法性、軌跡覆蓋度等給出更細(xì)的反饋。
模型不只是學(xué)會輸出正確答案,更是學(xué)會了用視覺基元進(jìn)行推理的方法。
02
效率才是核心
DeepSeek 這份報告里有一個很容易被忽略但極其重要的細(xì)節(jié),他們的模型在處理圖像時,用的 token 數(shù)量遠(yuǎn)遠(yuǎn)少于其他前沿模型。
報告里有一張對比圖,展示了不同模型處理一張 800×800 分辨率圖像時消耗的 token 數(shù)量。
Gemini-3-Flash 約 1100 個,Claude-Sonnet-4.6 約 870 個,GPT-5.4 約 740 個,Qwen3-VL 約 660 個,DeepSeek 約 361 個,并在 KV 緩存里只保留約 90 個條目。
這個差距不是一點點。DeepSeek 用的 token 數(shù)量只有 Gemini 的 3 分之 1,KV 緩存條目更是只有 10 分之 1 左右。
這種極致的效率是怎么實現(xiàn)的?
DeepSeek 用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA)的機(jī)制。
你可以這樣理解,假如說你給朋友看一張全家福,你不會說“從左數(shù)第 237 個像素開始有一塊紅色區(qū)域……",你會直接說“左邊是我媽,右邊是我爸”。
DeepSeek-ViT 先把圖像壓成更少的視覺 token,CSA 再把這些視覺 token 在 KV 緩存中的表示進(jìn)一步壓縮。
這個機(jī)制在 DeepSeek-V4-Flash 模型上就使用過,現(xiàn)在被應(yīng)用到了視覺多模態(tài)之中。
具體的壓縮流程是這樣的。一張 756×756 的圖像,包含 571536 個像素。這些像素首先經(jīng)過 ViT 處理,以 14×14 的 patch size 切分,生成 2916 個 patch token。然后進(jìn)行 3×3 的空間壓縮,把每 9 個相鄰的 token 沿著通道維度壓縮成 1 個,變成 324 個視覺 token。
這 324 個 token 進(jìn)入大語言模型進(jìn)行預(yù)填充。最后,CSA 機(jī)制會把這些視覺 token 在 KV 緩存里再壓縮 4 倍,最終只保留 81 個條目。
從 571536 個像素到 81 個 KV 緩存條目,整個壓縮比達(dá)到了 7056 倍。
一般 AI 大廠都是在用暴力方法去堆計算資源,而 DeepSeek 則是在信息論層面去做取舍,只留下最直觀易懂的信息。
其最直接的結(jié)果,就是推理速度變快了許多。
圖像 token 數(shù)量直接影響模型的推理延遲。在自回歸生成過程中,每生成一個新 token,模型都需要對之前所有 token 的 KV 緩存進(jìn)行注意力計算。如果圖像占用了 1000 個 token,那么每次生成都要對這 1000 個 token 做注意力。如果只占用 90 個,計算量就大幅減少。
對于需要實時響應(yīng)的應(yīng)用場景,比如機(jī)器人視覺、自動駕駛、實時視頻分析,推理速度的提升起到了決定性作用。
然后它內(nèi)存占用得也少。
KV 緩存是大模型推理的內(nèi)存瓶頸。特別是在處理長上下文或批量推理的時候,KV 緩存會占用大量顯存。DeepSeek 把視覺 token 的 KV 緩存壓縮到 90 個條目,意味著可以在同樣的硬件上處理更多圖像,或者處理更長的多輪對話。
這對于實際部署非常重要。很多公司的多模態(tài)模型在實驗室里表現(xiàn)很好,但一到實際部署就遇到成本問題。每張圖片消耗的 token 越多,推理成本就越高,可支持的并發(fā)用戶就越少。DeepSeek 的效率優(yōu)勢在規(guī)?;渴饡r會被放大。
同時也變相提高了模型的上下文容量。
如果一張圖片要占用 1000 個 token,那么在一個 128k 的上下文窗口里,只能放 100 多張圖片。如果只占用 300 個 token,就可以放 400 多張。這對于需要處理多圖對話、長視頻分析、大量文檔理解的場景至關(guān)重要。
DeepSeek 的模型可以在一個對話里處理更多圖像,可以對比分析幾十張甚至上百張圖片,可以追蹤視頻里的長期變化。
最關(guān)鍵的是訓(xùn)練成本。
雖然報告主要講推理效率,但這種壓縮機(jī)制在訓(xùn)練階段同樣有效。更少的視覺 token 意味著更小的計算圖,更快的訓(xùn)練速度,更低的硬件要求。
DeepSeek 一直以“用更少資源做出更好效果”著稱。從 R1 的強(qiáng)化學(xué)習(xí)訓(xùn)練,到 V4 的 MoE 架構(gòu),再到現(xiàn)在的視覺多模態(tài),這種效率優(yōu)先的哲學(xué)貫穿始終。
但這里有一個關(guān)鍵問題。壓縮會不會損失信息?
DeepSeek 并沒有否認(rèn)壓縮會帶來信息損失。它的主張是,在這組空間推理和計數(shù)任務(wù)上,壓縮后的表征仍然足夠有效。
每一步壓縮都在保留對推理最重要的信息,丟棄冗余和噪聲。
其實前面提到的 DeepSeek 的視覺基元機(jī)制,它本身也是一種信息壓縮。一個邊界框用 4 個數(shù)字就能精確定位一個物體,一個點用 2 個數(shù)字就能標(biāo)記一個位置。這些離散符號攜帶的信息密度遠(yuǎn)高于原始像素。
從實驗結(jié)果看,這種壓縮沒有損害性能,反而在某些任務(wù)上帶來了提升。
這說明對于很多視覺推理任務(wù),瓶頸不在于看得不夠清楚,而在于沒有找到合適的表征方式。
這種效率優(yōu)勢還證明了多模態(tài)智能不一定需要更大的模型、更多的算力、更高的成本。
從 DeepSeek 時刻誕生至今,這家公司一直有一條暗線,“真正的智能不在于算力,而在于對問題本質(zhì)的理解”。
當(dāng)你真正理解了視覺推理需要什么,你就不需要那么多 token。當(dāng)你找到了合適的表征方式,你就不需要那么大的模型。
從這個角度看,DeepSeek 的極致效率不是目的,而是副產(chǎn)品。真正的目的是找到視覺推理的正確范式。效率只是證明了這個范式是對的。
03
未竟之事
DeepSeek 在報告的局限性部分,坦誠地列出了當(dāng)前方法存在的幾個問題。這些問題不是技術(shù)細(xì)節(jié)上的小瑕疵,而是指向了視覺推理的下一個階段。
第一個問題是觸發(fā)詞依賴。
報告里明確說,當(dāng)前的“用視覺基元思考”能力需要顯式的觸發(fā)詞(explicit trigger words)才能激活。也就是說,模型還不能自然、自主地決定“什么時候該畫框、打點”。
它意味著模型還沒有真正學(xué)會判斷什么時候需要使用視覺基元,什么時候用語言就夠了。
理想的情況是,模型應(yīng)該能根據(jù)任務(wù)的性質(zhì)自主決策。但當(dāng)用戶問“數(shù)一數(shù)圖里有幾只狗”的時候,模型應(yīng)該自動切換到視覺基元模式,用邊界框來輔助計數(shù)。
從技術(shù)上說,這需要在模型里建立一個元認(rèn)知層。這個元認(rèn)知層可以評估當(dāng)前任務(wù)的復(fù)雜度,判斷純語言推理是否足夠,決定是否需要調(diào)用視覺基元。
DeepSeek 目前還沒有實現(xiàn)這個元認(rèn)知層,但他們已經(jīng)明確了方向。未來的版本可能會讓模型學(xué)會自主決定推理策略,而不是依賴外部觸發(fā)。
第二個問題是分辨率限制。
報告提到,受輸入分辨率限制,模型在細(xì)粒度場景下的表現(xiàn)還不夠好,輸出的視覺基元有時不夠精確。
這個問題和 DeepSeek 的效率優(yōu)先策略有關(guān)。為了控制 token 數(shù)量,他們限制了視覺 token 的范圍在 81 到 384 之間。對于超出這個范圍的圖像,會進(jìn)行縮放處理。
這種設(shè)計在大部分場景下是合理的,但在一些需要極高精度的任務(wù)上就會遇到瓶頸。比如醫(yī)療影像分析需要識別微小的病灶,工業(yè)質(zhì)檢需要發(fā)現(xiàn)細(xì)微的瑕疵,這些場景對分辨率的要求很高。
DeepSeek 在報告里提到,這個問題可以通過整合現(xiàn)有的高分辨率方法來解決。也就是說,他們的視覺基元框架和傳統(tǒng)的高分辨率裁剪方法不是對立的,而是互補(bǔ)的。
我覺得 DeepSeek 可以出個混合方案。
具體就是對于大部分常規(guī)任務(wù),使用壓縮的視覺表征和視覺基元推理,保持高效率。對于需要細(xì)粒度分析的局部區(qū)域,動態(tài)調(diào)用高分辨率裁剪,提取更詳細(xì)的視覺信息。這樣既保持了整體效率,又滿足了局部精度需求。
這種混合方案的關(guān)鍵是讓模型學(xué)會判斷哪些區(qū)域需要高分辨率處理。于是這就又回到了剛才元認(rèn)知的問題上。
第三個問題是跨場景泛化。
報告提到,用點作為視覺基元來解決復(fù)雜拓?fù)渫评韱栴}仍然很難,模型的跨場景泛化能力有限。
這個問題在迷宮導(dǎo)航和路徑追蹤任務(wù)上表現(xiàn)得比較明顯。雖然 DeepSeek 在自己構(gòu)建的測試集上達(dá)到了 66.9% 和 56.7% 的準(zhǔn)確率,超過了其他模型,但這個數(shù)字本身還不夠。
更重要的是,這些任務(wù)都是在合成數(shù)據(jù)上訓(xùn)練和測試的。迷宮是用算法生成的,路徑追蹤的曲線也是程序化繪制的。當(dāng)模型遇到真實世界里的拓?fù)渫评韱栴}時,比如在真實地圖上規(guī)劃路徑,在復(fù)雜管線圖里追蹤連接關(guān)系,表現(xiàn)可能會下降。
DeepSeek 的方法是通過大規(guī)模、高多樣性的數(shù)據(jù)來提升泛化能力。他們爬取了 97984 個數(shù)據(jù)源,經(jīng)過嚴(yán)格過濾后保留了 31701 個,最終得到超過 4000 萬個樣本。在迷宮和路徑追蹤任務(wù)上,他們也設(shè)計了多種拓?fù)浣Y(jié)構(gòu)、視覺風(fēng)格、難度等級,試圖覆蓋盡可能多的變化。
然而數(shù)據(jù)多樣性只是泛化能力的一部分。模型是否真正理解了拓?fù)渫评淼谋举|(zhì)?還是說它只是記住了訓(xùn)練數(shù)據(jù)里的模式而已?
另外,DeepSeek 的視覺基元是一套新的表征系統(tǒng),需要專門的數(shù)據(jù)格式、訓(xùn)練流程、評估方法。這和現(xiàn)有的多模態(tài)生態(tài)不完全兼容。
大部分多模態(tài)數(shù)據(jù)集和評測基準(zhǔn)都是基于傳統(tǒng)的“圖像 + 文本”范式設(shè)計的,沒有考慮視覺基元。如果要在這些基準(zhǔn)上評測 DeepSeek 的模型,要么需要關(guān)閉視覺基元功能,要么需要重新設(shè)計評測方法。
其他研究者如果想復(fù)現(xiàn)或改進(jìn)這個工作,需要重新構(gòu)建整個數(shù)據(jù)和訓(xùn)練流程,門檻比較高。
DeepSeek 能在報告中談及這些問題,說明他們對自己的工作有清醒的認(rèn)識。
這可能比給出完美答案更有價值。因為真正推動社會進(jìn)步的,往往不是答案,而是問題。
特別聲明:本文為合作媒體授權(quán) DoNews 專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表 DoNews 專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)