日韩在线视频2025,日本一区二区三区四区精品

DoNews > 專欄 > DeepSeek給AI裝了根賽博手指，于是它能看見了

DeepSeek給AI裝了根賽博手指，于是它能看見了

字母榜 2026-05-06 11:10:31

5184

分享到

五一假期前一天，DeepSeek 突然扔出來一份視覺多模態(tài)技術(shù)報告。

點開之前，我心里大概是有個預(yù)期的，無非就是具體能看到多遠(yuǎn)、看得多清楚。

畢竟過去一年，多模態(tài)模型基本都在往這個方向卷。OpenAI 講 thinking with images，讓模型在推理過程中裁剪、放大、旋轉(zhuǎn)圖片；Gemini、Claude 也都在想辦法讓模型處理更高分辨率、更復(fù)雜的視覺輸入。

大家的共同假設(shè)是，只要模型看得更細(xì)，視覺推理自然就會更強(qiáng)。

但 DeepSeek 這份報告看下來，你會發(fā)現(xiàn)，他們完全走上了另一條路。

DeepSeek 沒有把重點放在“讓模型看到更多像素”上，他們把注意力放在了一個更底層的問題上。

就算模型已經(jīng)看清楚了，但是它在推理過程中，你怎么能保證模型和你指的是同一個東西？

其實這是多模態(tài)推理里最容易被忽略的死穴。

人類看圖時，可以用手指去標(biāo)記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型哪知道你說的這個是哪個？

模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面復(fù)雜起來，語言指代就會漂移，推理也會跟著崩。

于是 DeepSeek 就說了，那就給模型一根“手指”不就完了？

它把點和邊界框變成模型思考時的基本單位，讓模型能夠一邊用這根賽博手指指著對象，一邊進(jìn)行推理。

從連續(xù)視覺到離散符號

DeepSeek 在這份技術(shù)報告里，提出了一個很有意思的問題。他們認(rèn)為，多模態(tài)模型真正難的地方，不是看見圖像，而是在連續(xù)推理過程中穩(wěn)定地指向同一個視覺對象。

就比如你跟你的朋友說“菜市場里，張老太太的那個攤位賣的菜最新鮮”。但是菜市場里老頭老太太多了去了，哪個是張老太太？

但如果你直接用手指著說“就是那個”，你朋友就會馬上明白。

DeepSeek 將這個問題命名為“引用鴻溝”(Reference Gap)。

過去一年，幾乎所有前沿多模態(tài)模型都在解決“感知鴻溝”(Perception Gap) 這個問題。

假如說有一張照片放在你面前，如果照片太模糊、分辨率太低，你可能看不清楚里面的小字或者遠(yuǎn)處的細(xì)節(jié)。AI 也一樣，如果輸入的圖像質(zhì)量不夠、處理方式不對，它就會“看不清”，這就是感知鴻溝。

GPT、Claude、Gemini 這些模型不斷提高分辨率，引入高分辨率裁剪、動態(tài)分塊、多尺度處理，目的就是讓模型能看到更多細(xì)節(jié)。

這個方向當(dāng)然有價值，但 DeepSeek 在報告里指出，就算模型看得再清楚，在復(fù)雜的空間推理任務(wù)上，仍然會出現(xiàn)邏輯崩潰。

問題出在自然語言本身。

照片里有十幾只狗，你說“左邊那只狗”，那模型就沒辦法理解你說的具體是哪只。

還有更絕的，如果你讓模型數(shù)一下照片里狗的數(shù)量，那么模型在推理過程中很容易就搞不清楚自己已經(jīng)數(shù)過哪些、還有哪些沒數(shù)。

報告中還提到了迷宮導(dǎo)航這樣極端的情況，純語言根本無法準(zhǔn)確描述不規(guī)則形狀的路徑和復(fù)雜的拓?fù)潢P(guān)系。

語言作為一種指代工具，在連續(xù)的視覺空間里天生就是模糊的。它擅長抽象概念和因果關(guān)系，但在空間定位和拓?fù)潢P(guān)系上，語言的表達(dá)能力存在根本性的局限。

可 DeepSeek 本身就是個通用的語言模型，那應(yīng)該怎樣解決呢？

于是就有了文章開頭提到的這根“手指”。

他們提出的核心概念是“視覺基元”(Visual Primitives)，具體來說就是把邊界框（bounding boxes）和點（points）這兩種計算機(jī)視覺里最基礎(chǔ)的空間標(biāo)記，提升為“思維的最小單位”。

以前的多模態(tài)模型雖然也能畫框標(biāo)注物體，但只是在最后給你看個結(jié)果，證明“我找到了”。就像考試時，你只交答案，不寫解題過程。

也有一些研究讓 AI 在思考過程中畫框，但目的只是為了“看得更準(zhǔn)”，框框只是個輔助工具。就好比你做數(shù)學(xué)題時用草稿紙，草稿紙只是幫你算得更清楚，不是解題思路的一部分。

DeepSeek 要做的完全不同。

他們把這些空間標(biāo)記直接嵌入到模型的推理過程中，讓它們成為推理的有機(jī)組成部分。模型在思考的時候，不只是用語言描述“我看到了一只狗”，還同時輸出“我看到了一只狗，它在這里：[[x1,y1,x2,y2]]"。

這個機(jī)制被 DeepSeek 稱為“邊推理邊指向”(point while it reasons)。

模型的每一步思考都錨定在圖像的具體坐標(biāo)上。

技術(shù)報告里就給了這樣一個例子：模型從起點出發(fā)，一路探索、回溯、再嘗試，最后輸出了一串完整的坐標(biāo)路徑，每個坐標(biāo)都對應(yīng)迷宮里走過的一個點。

這樣一來，模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什么、指什么。每個視覺對象都有了明確的空間錨點，推理過程變得可追蹤、可驗證。

這條技術(shù)路線和 OpenAI 的方向形成了有趣的對比。

OpenAI 在 o3 和 o4-mini 的官方介紹里明確提到了"thinking with images"的概念，即模型可以把圖像納入推理鏈，并通過裁剪、放大、旋轉(zhuǎn)等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分，模型可以在推理過程中生成新的圖像、修改圖像、對圖像進(jìn)行操作。

OpenAI 的路線強(qiáng)調(diào)的是通用能力，視覺、代碼、搜索、文件、工具調(diào)用一起協(xié)作。模型擁有一個強(qiáng)大的“視覺工作臺”，可以靈活地處理各種視覺任務(wù)。

DeepSeek 的路線則更“符號化”一點。它讓坐標(biāo)進(jìn)入思維鏈。模型在推理文本里顯式寫出邊界框和點的坐標(biāo)，把視覺對象變成推理時可復(fù)用的錨點。

這就導(dǎo)致，OpenAI 的視覺推理發(fā)生在內(nèi)部，用戶只能看到最終答案和必要解釋，中間的視覺處理過程是黑箱。DeepSeek 則故意把中間視覺錨點顯式化，讓推理過程完全透明。

DeepSeek 這樣做，好處是推理過程更容易被訓(xùn)練、檢查和打分。這也讓它更容易設(shè)計格式、質(zhì)量和任務(wù)級獎勵。尤其在迷宮、路徑追蹤這類任務(wù)中，可以對路徑合法性、軌跡覆蓋度等給出更細(xì)的反饋。

模型不只是學(xué)會輸出正確答案，更是學(xué)會了用視覺基元進(jìn)行推理的方法。

效率才是核心

DeepSeek 這份報告里有一個很容易被忽略但極其重要的細(xì)節(jié)，他們的模型在處理圖像時，用的 token 數(shù)量遠(yuǎn)遠(yuǎn)少于其他前沿模型。

報告里有一張對比圖，展示了不同模型處理一張 800×800 分辨率圖像時消耗的 token 數(shù)量。

Gemini-3-Flash 約 1100 個，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個，Qwen3-VL 約 660 個，DeepSeek 約 361 個，并在 KV 緩存里只保留約 90 個條目。

這個差距不是一點點。DeepSeek 用的 token 數(shù)量只有 Gemini 的 3 分之 1，KV 緩存條目更是只有 10 分之 1 左右。

這種極致的效率是怎么實現(xiàn)的？

DeepSeek 用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA）的機(jī)制。

你可以這樣理解，假如說你給朋友看一張全家福，你不會說“從左數(shù)第 237 個像素開始有一塊紅色區(qū)域……"，你會直接說“左邊是我媽，右邊是我爸”。

DeepSeek-ViT 先把圖像壓成更少的視覺 token，CSA 再把這些視覺 token 在 KV 緩存中的表示進(jìn)一步壓縮。

這個機(jī)制在 DeepSeek-V4-Flash 模型上就使用過，現(xiàn)在被應(yīng)用到了視覺多模態(tài)之中。

具體的壓縮流程是這樣的。一張 756×756 的圖像，包含 571536 個像素。這些像素首先經(jīng)過 ViT 處理，以 14×14 的 patch size 切分，生成 2916 個 patch token。然后進(jìn)行 3×3 的空間壓縮，把每 9 個相鄰的 token 沿著通道維度壓縮成 1 個，變成 324 個視覺 token。

這 324 個 token 進(jìn)入大語言模型進(jìn)行預(yù)填充。最后，CSA 機(jī)制會把這些視覺 token 在 KV 緩存里再壓縮 4 倍，最終只保留 81 個條目。

從 571536 個像素到 81 個 KV 緩存條目，整個壓縮比達(dá)到了 7056 倍。

一般 AI 大廠都是在用暴力方法去堆計算資源，而 DeepSeek 則是在信息論層面去做取舍，只留下最直觀易懂的信息。

其最直接的結(jié)果，就是推理速度變快了許多。

圖像 token 數(shù)量直接影響模型的推理延遲。在自回歸生成過程中，每生成一個新 token，模型都需要對之前所有 token 的 KV 緩存進(jìn)行注意力計算。如果圖像占用了 1000 個 token，那么每次生成都要對這 1000 個 token 做注意力。如果只占用 90 個，計算量就大幅減少。

對于需要實時響應(yīng)的應(yīng)用場景，比如機(jī)器人視覺、自動駕駛、實時視頻分析，推理速度的提升起到了決定性作用。

然后它內(nèi)存占用得也少。

KV 緩存是大模型推理的內(nèi)存瓶頸。特別是在處理長上下文或批量推理的時候，KV 緩存會占用大量顯存。DeepSeek 把視覺 token 的 KV 緩存壓縮到 90 個條目，意味著可以在同樣的硬件上處理更多圖像，或者處理更長的多輪對話。

這對于實際部署非常重要。很多公司的多模態(tài)模型在實驗室里表現(xiàn)很好，但一到實際部署就遇到成本問題。每張圖片消耗的 token 越多，推理成本就越高，可支持的并發(fā)用戶就越少。DeepSeek 的效率優(yōu)勢在規(guī)?；渴饡r會被放大。

同時也變相提高了模型的上下文容量。

如果一張圖片要占用 1000 個 token，那么在一個 128k 的上下文窗口里，只能放 100 多張圖片。如果只占用 300 個 token，就可以放 400 多張。這對于需要處理多圖對話、長視頻分析、大量文檔理解的場景至關(guān)重要。

DeepSeek 的模型可以在一個對話里處理更多圖像，可以對比分析幾十張甚至上百張圖片，可以追蹤視頻里的長期變化。

最關(guān)鍵的是訓(xùn)練成本。

雖然報告主要講推理效率，但這種壓縮機(jī)制在訓(xùn)練階段同樣有效。更少的視覺 token 意味著更小的計算圖，更快的訓(xùn)練速度，更低的硬件要求。

DeepSeek 一直以“用更少資源做出更好效果”著稱。從 R1 的強(qiáng)化學(xué)習(xí)訓(xùn)練，到 V4 的 MoE 架構(gòu)，再到現(xiàn)在的視覺多模態(tài)，這種效率優(yōu)先的哲學(xué)貫穿始終。

但這里有一個關(guān)鍵問題。壓縮會不會損失信息？

DeepSeek 并沒有否認(rèn)壓縮會帶來信息損失。它的主張是，在這組空間推理和計數(shù)任務(wù)上，壓縮后的表征仍然足夠有效。

每一步壓縮都在保留對推理最重要的信息，丟棄冗余和噪聲。

其實前面提到的 DeepSeek 的視覺基元機(jī)制，它本身也是一種信息壓縮。一個邊界框用 4 個數(shù)字就能精確定位一個物體，一個點用 2 個數(shù)字就能標(biāo)記一個位置。這些離散符號攜帶的信息密度遠(yuǎn)高于原始像素。

從實驗結(jié)果看，這種壓縮沒有損害性能，反而在某些任務(wù)上帶來了提升。

這說明對于很多視覺推理任務(wù)，瓶頸不在于看得不夠清楚，而在于沒有找到合適的表征方式。

這種效率優(yōu)勢還證明了多模態(tài)智能不一定需要更大的模型、更多的算力、更高的成本。

從 DeepSeek 時刻誕生至今，這家公司一直有一條暗線，“真正的智能不在于算力，而在于對問題本質(zhì)的理解”。

當(dāng)你真正理解了視覺推理需要什么，你就不需要那么多 token。當(dāng)你找到了合適的表征方式，你就不需要那么大的模型。

從這個角度看，DeepSeek 的極致效率不是目的，而是副產(chǎn)品。真正的目的是找到視覺推理的正確范式。效率只是證明了這個范式是對的。

未竟之事

DeepSeek 在報告的局限性部分，坦誠地列出了當(dāng)前方法存在的幾個問題。這些問題不是技術(shù)細(xì)節(jié)上的小瑕疵，而是指向了視覺推理的下一個階段。

第一個問題是觸發(fā)詞依賴。

報告里明確說，當(dāng)前的“用視覺基元思考”能力需要顯式的觸發(fā)詞（explicit trigger words）才能激活。也就是說，模型還不能自然、自主地決定“什么時候該畫框、打點”。

它意味著模型還沒有真正學(xué)會判斷什么時候需要使用視覺基元，什么時候用語言就夠了。

理想的情況是，模型應(yīng)該能根據(jù)任務(wù)的性質(zhì)自主決策。但當(dāng)用戶問“數(shù)一數(shù)圖里有幾只狗”的時候，模型應(yīng)該自動切換到視覺基元模式，用邊界框來輔助計數(shù)。

從技術(shù)上說，這需要在模型里建立一個元認(rèn)知層。這個元認(rèn)知層可以評估當(dāng)前任務(wù)的復(fù)雜度，判斷純語言推理是否足夠，決定是否需要調(diào)用視覺基元。

DeepSeek 目前還沒有實現(xiàn)這個元認(rèn)知層，但他們已經(jīng)明確了方向。未來的版本可能會讓模型學(xué)會自主決定推理策略，而不是依賴外部觸發(fā)。

第二個問題是分辨率限制。

報告提到，受輸入分辨率限制，模型在細(xì)粒度場景下的表現(xiàn)還不夠好，輸出的視覺基元有時不夠精確。

這個問題和 DeepSeek 的效率優(yōu)先策略有關(guān)。為了控制 token 數(shù)量，他們限制了視覺 token 的范圍在 81 到 384 之間。對于超出這個范圍的圖像，會進(jìn)行縮放處理。

這種設(shè)計在大部分場景下是合理的，但在一些需要極高精度的任務(wù)上就會遇到瓶頸。比如醫(yī)療影像分析需要識別微小的病灶，工業(yè)質(zhì)檢需要發(fā)現(xiàn)細(xì)微的瑕疵，這些場景對分辨率的要求很高。

DeepSeek 在報告里提到，這個問題可以通過整合現(xiàn)有的高分辨率方法來解決。也就是說，他們的視覺基元框架和傳統(tǒng)的高分辨率裁剪方法不是對立的，而是互補(bǔ)的。

我覺得 DeepSeek 可以出個混合方案。

具體就是對于大部分常規(guī)任務(wù)，使用壓縮的視覺表征和視覺基元推理，保持高效率。對于需要細(xì)粒度分析的局部區(qū)域，動態(tài)調(diào)用高分辨率裁剪，提取更詳細(xì)的視覺信息。這樣既保持了整體效率，又滿足了局部精度需求。

這種混合方案的關(guān)鍵是讓模型學(xué)會判斷哪些區(qū)域需要高分辨率處理。于是這就又回到了剛才元認(rèn)知的問題上。

第三個問題是跨場景泛化。

報告提到，用點作為視覺基元來解決復(fù)雜拓?fù)渫评韱栴}仍然很難，模型的跨場景泛化能力有限。

這個問題在迷宮導(dǎo)航和路徑追蹤任務(wù)上表現(xiàn)得比較明顯。雖然 DeepSeek 在自己構(gòu)建的測試集上達(dá)到了 66.9% 和 56.7% 的準(zhǔn)確率，超過了其他模型，但這個數(shù)字本身還不夠。

更重要的是，這些任務(wù)都是在合成數(shù)據(jù)上訓(xùn)練和測試的。迷宮是用算法生成的，路徑追蹤的曲線也是程序化繪制的。當(dāng)模型遇到真實世界里的拓?fù)渫评韱栴}時，比如在真實地圖上規(guī)劃路徑，在復(fù)雜管線圖里追蹤連接關(guān)系，表現(xiàn)可能會下降。

DeepSeek 的方法是通過大規(guī)模、高多樣性的數(shù)據(jù)來提升泛化能力。他們爬取了 97984 個數(shù)據(jù)源，經(jīng)過嚴(yán)格過濾后保留了 31701 個，最終得到超過 4000 萬個樣本。在迷宮和路徑追蹤任務(wù)上，他們也設(shè)計了多種拓?fù)浣Y(jié)構(gòu)、視覺風(fēng)格、難度等級，試圖覆蓋盡可能多的變化。

然而數(shù)據(jù)多樣性只是泛化能力的一部分。模型是否真正理解了拓?fù)渫评淼谋举|(zhì)？還是說它只是記住了訓(xùn)練數(shù)據(jù)里的模式而已？

另外，DeepSeek 的視覺基元是一套新的表征系統(tǒng)，需要專門的數(shù)據(jù)格式、訓(xùn)練流程、評估方法。這和現(xiàn)有的多模態(tài)生態(tài)不完全兼容。

大部分多模態(tài)數(shù)據(jù)集和評測基準(zhǔn)都是基于傳統(tǒng)的“圖像 + 文本”范式設(shè)計的，沒有考慮視覺基元。如果要在這些基準(zhǔn)上評測 DeepSeek 的模型，要么需要關(guān)閉視覺基元功能，要么需要重新設(shè)計評測方法。

其他研究者如果想復(fù)現(xiàn)或改進(jìn)這個工作，需要重新構(gòu)建整個數(shù)據(jù)和訓(xùn)練流程，門檻比較高。

DeepSeek 能在報告中談及這些問題，說明他們對自己的工作有清醒的認(rèn)識。

這可能比給出完美答案更有價值。因為真正推動社會進(jìn)步的，往往不是答案，而是問題。

特別聲明：本文為合作媒體授權(quán) DoNews 專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表 DoNews 專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)