當前位置：前瞻產業研究院 ? 經濟學人 ? 觀察家專欄

DeepSeek-OCR：大模型技術，正站在一個新的十字路口

分享到：

硅基星芒 ? 2025-10-22 17:54:55 　來源：硅基星芒　E9925G1

（圖片來源：攝圖網）

作者|加西亞來源|硅基星芒

想象一下，在這個AI技術如潮水般涌來的時代，我們忽然發現，一張簡單的圖像，竟然能以驚人的效率承載海量文字信息。這已不是“想象”，而是剛剛發生的現實。

本周，DeepSeek開源了一個名為“DeepSeek-OCR”的模型，它首次提出了“上下文光學壓縮”（Context Optical Compression）的概念，技術細節和背后的論文也隨之公開。

雖然市場上的討論還不多，但這或許是AI演進史上一個悄然卻深刻的轉折點——它讓我們開始質疑：圖像，是否才是信息處理的真正王者？

一

圖像的隱秘力量：為什么圖像可能勝過文本

回想一下，我們日常處理的文檔、報告、書籍，往往被分解成無數的文本標記（tokens），這些標記像磚塊一樣堆砌成模型的“理解墻”。

但DeepSeek-OCR卻另辟蹊徑：它將文字視為圖像來處理，通過視覺編碼，將整頁內容壓縮成少量“視覺標記”，然后再解碼還原為文字、表格甚至圖表。

結果呢？效率提升了十倍之多，準確率高達97%。

這不僅僅是技術優化，而試圖證明：圖像不是信息的奴隸，而是它的高效載體。

拿一篇千字文章來說，傳統方法可能需要上千個標記來處理，而DeepSeek只需約100個視覺標記，就能以97%的保真度還原一切。這意味著，模型可以輕松應對超長文檔，而不必為計算資源發愁。

二

架構與工作原理

DeepSeek-OCR的系統設計像一部精密的機器，分成兩個模塊：強大的DeepEncoder負責捕捉頁面信息，輕量級的文本生成器則像一位翻譯家，將視覺標記轉化為可讀輸出。

編碼器融合了SAM的局部分析能力和CLIP的全局理解，再通過一個16倍壓縮器，將初始的4096個標記精簡到僅256個。這正是效率的核心秘密。

更聰明的是，它能根據文檔復雜度自動調整：簡單的PPT只需64個標記，書籍報告約100個，而密集的報紙最多800個。

相比之下，它超越了GOT-OCR 2.0（需要256個標記）和MinerU 2.0（每頁6000+標記），標記量減少了90%。解碼器采用混合專家（MoE）架構，擁有約30億參數（激活時約57億），能快速生成文本、Markdown或結構化數據。

在實際測試中，一臺A100顯卡，每天能處理超過20萬頁文檔；如果擴展到20臺八卡服務器，日處理量可達3300萬頁。這已不是實驗室玩具，而是工業級利器。

三

一個深刻的悖論：圖像為何更“節約”？

這里藏著一個有趣的悖論：圖像明明包含更多原始數據，為什么在模型中反而能用更少標記表達？答案在于信息密度。

文本標記雖表面簡潔，但在模型內部需展開成數千維度的向量；圖像標記則像連續的畫卷，能更緊湊地封裝信息。這就好比人類記憶：近期事件清晰如昨，遙遠往事漸趨模糊，卻不失本質。

DeepSeek-OCR證明了視覺標記的可行性，但純視覺基礎模型的訓練仍是謎題。傳統大模型靠“預測下一詞”這個清晰目標成功，而圖像文字的預測目標模糊不清——預測下一個圖像片段？評估太難；轉為文本，又回到了老路。

所以，目前它只是現有體系的增強，而非替代。我們正站在十字路口：前方是無限可能，卻需耐心等待突破。

如果這項技術成熟推廣，它將如漣漪般擴散影響：

首先，改變“標記經濟”：長文檔不再受上下文窗口限制，處理成本大幅降低。其次，提升信息提取：財務圖表、技術圖紙能直接轉為結構化數據，精準高效。最后，增強靈活性：在非理想硬件下仍穩定運行， democratize AI應用。

更妙的是，它還能改善聊天機器人的長對話記憶。通過“視覺衰減”：將舊對話轉為低分辨率圖像存儲，模擬人類記憶衰退，擴展上下文而不爆表標記。

四

結語

DeepSeek-OCR的探索意義，不止于十倍效率提升，更在于它重繪了文檔處理的邊界。它挑戰了上下文限制，優化了成本結構，革新了企業流程。

雖然純視覺訓練的曙光尚遙，但光學壓縮無疑是我們邁向未來的一個新選項。

問：為什么不能直接從文字圖像開始訓練基礎模型？

答：大模型成功靠“預測下一詞”的明確目標和易評估方式。對于文字圖像，預測下一個圖像片段評估困難、速度慢；轉為文本標記，又回到了傳統路徑。DeepSeek選擇在現有模型基礎上微調，解碼視覺表征，但未取代標記基礎。

問：與傳統OCR系統相比，速度表現如何？

答：處理一張3503×1668像素圖像，基礎文本提取需24秒，結構化Markdown需39秒，帶坐標框的完整解析需58秒。傳統OCR更快，但準確率同等時需數千標記——如MinerU 2.0每頁6000+，DeepSeek僅需800以內。

問：這項技術能否改善聊天機器人的長對話記憶？

答：是的。通過“視覺衰減”：舊對話轉為低分辨率圖像，模擬記憶衰退，擴展上下文而不增標記消耗。適用于長期記憶場景，但生產實現細節待詳述。

編者按：本文轉載自微信公眾號：硅基星芒，作者：加西亞

本文來源硅基星芒，內容僅代表作者本人觀點，不代表前瞻網的立場。本站只提供參考并不構成任何投資及應用建議。（若存在內容、版權或其它問題，請聯系：service@qianzhan.com）　品牌合作與廣告投放請聯系：0755-33015062 或 hezuo@qianzhan.com

p30 q1 我要投稿

標簽： DeepSeek-OCR 大模型技術圖像

品牌、內容合作請點這里：尋求合作 ››

產業規劃
園區規劃
產業招商
可行性研究
低空經濟
高端裝備
生物醫藥

前瞻經濟學人

專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。

前瞻產業研究院

中國產業咨詢領導者，專業提供產業規劃、產業申報、產業升級轉型、產業園區規劃、可行性報告等領域解決方案，掃一掃關注。

DeepSeek-OCR：大模型技術，正站在一個新的十字路口

前瞻經濟學人

前瞻產業研究院

相關閱讀RELEVANT

咨詢·服務

研究員周關注榜

決策精品報告

DeepSeek-OCR：大模型技術，正站在一個新的十字路口

前瞻經濟學人

前瞻產業研究院

相關閱讀RELEVANT

咨詢·服務

研究員周關注榜