繁中

DeepSeek-OCR:使長文檔「易於理解」的光學壓縮

在大型模特的世界裡, 上下文長度 總是一個限制。當文檔太長、圖表太複雜時,傳統語言模型往往「讀不完」。最近,來自 DeepSeek人工智慧 , DeepSeek-OCR,提出了一個顛覆性的想法:

「與其讓語言模型閱讀無盡的文本,不如將文本『視為』圖像,然後將其壓縮為視覺信號。"

1.什麼是DeepSeek-OCR?

DeepSeek-OCR,全名 DeepSeek-OCR:上下文光學壓縮,是DeepSeek AI發布的一項研究,其核心思想是:
長文本上下文的光學(視覺)壓縮使模型能夠用更少的符號理解更多。

簡單來說,它不僅僅是一個OCR(光學字符識別)模型,而是一個「視覺上下文壓縮框架".
它將原本冗長的文檔內容轉換為少量的 視覺代幣,然後允許語言模型(例如DeepSeek 3B-MoE)從該視覺信息中「恢復」文本和結構。

2.為什麼它很重要?

傳統的文本輸入法將導致大型型號的代幣消費迅速擴大:
掃描一頁文檔通常會花費數千個令牌,尤其是當文檔包含表格、公式、圖表和布局信息而語言模型根本無法適應它時。

DeepSeek-OCR的貢獻是:

  • 將整個頁面文檔壓縮為 不到原始代幣數量的1/10;
  • 同時保持 識別準確率超過97%;
  • 即使在20倍壓縮下,仍然保持60%左右的準確率;
  • 單個A100圖形卡即可處理 超過200,000頁文件 每日

這意味著:

過去需要數百個圖形處理器來訓練或處理的大型文檔現在可以在單個圖形卡上運行。

3.體系結構原則

DeepSeek-OCR的架構分為兩部分:

模塊功能技術亮點:
DeepEnCoder將圖像輸入編碼到視覺令牌中捕獲文本、布局、表格、圖表等空間結構
DeepSeek-3B-MoE-A570 M用於從視覺標記恢復或理解文本的混合專家模型提供語言解碼和推理能力

總體流程如下:

  1. 輸入複雜文檔(包括圖表、表格、公式)的頁面。
  2. DeepEncoder將其轉換為大約100個視覺代幣。
  3. 解碼器從這些視覺標記輸出文本或語義理解。

與傳統OCR相比,DeepSeek-OCR不僅識別文本,還保留布局 信息與空間邏輯,允許模型「理解」頁面結構,而不僅僅是「識別」文本。

4.性能和試驗

在已發表的論文和實驗中,DeepSeek-OCR的表現極具開創性:

指標性能
壓縮比10倍識別準確率97%
壓縮比ð20 x準確度60%
單圖形處理效率每天超過20萬頁
比較模型優於GOT-OCR 2.0(256個代幣/頁)和MinerU 2.0(6000個代幣/頁)

這使得它不僅是一種OCR模型,而且是一種「為大型模型節省上下文預算」的新範式。

5.應用場景

DeepSeek-OCR的潛在用途是巨大的:

  • 📚 科研教育:書籍、學術文獻、圖表的批量數位化。
  • 💼 企業文件處理:有效掃描和結構合同、報告和憑證。
  • 🔍 大模型前端預處理:作為LLM的「視覺壓縮入口」,它在有限的代幣下提供了更多上下文。
  • 🧩 訓練數據生成:為LLM/VLM大規模生產乾淨的資料庫和視覺數據。

6.利弊分析

優點:描述
🔹 高壓縮比代幣消費減少多達10-20倍
🔹 保留布局信息了解表格、圖表和布局結構
🔹 開源可複製GitHub + Hugging Face可以直接部署
🔹 低成本減少視頻內存和推理時間
限制描述
⚠️ Accuracy decreases when compression is too high當壓縮超過20倍時,識別質量顯著下降
⚠️ Support for complex handwriting/special fonts is unknown專注於列印和標準文檔
⚠️ Strong GPU inference capabilities are still required編碼器部分計算量很大
⚠️ International regulatory factorsDeepSeek AI在部分地區有使用限制

7.部署和使用

該項目完全開源,可在 GitHub 和 Hugging Face .
推薦環境:

Python 3.12.9 
PyTorch 2.6.0 
變形金剛4.46.3 
CUDA 11.8 
Flash-Attn 2.7.3

樣本代碼:

從變壓器導入AutoProcess、AutoModel ForSeq 2SeqLM
從PIL導入圖像

處理器= AutoProcess.from_pretrained(「deepseek-ai/DeepSeek-OCR」)
模型= AutoModel ForSeq2SeqLM.from_pretrained(「deepseek-ai/DeepSeek-OCR」,設備_地圖=「Auto」)

IMG = Image.open(「sample_page.png」)
輸入=處理器(images=IMG,Return_tensors=「pt」).to(「cuda」)
輸出=模型.生成(** 輸入)
文本=處理器.解碼(輸出0],skip_special_tokens=True)

印刷版(文本)

8.未來前景

DeepSeek-OCR展示了一個顯著的趨勢:

「閱讀」的未來不一定取決於文字。

當大型模型逐漸從「文本理解」擴展到「文檔理解」時,視覺信息壓縮將成為一種新的計算範式。
它不僅可以應用於OCR,還可以用於:

  • 文檔內存壓縮
  • 多模式上下文融合
  • 低帶寬遠程推理
  • 人工智慧教育/知識圖譜生成

在視覺和語言的交匯處,DeepSeek-OCR讓我們看到:
閱讀的極限不在於字數,而在於想像力。

📎參考:

Github:https://github.com/deepseek-ai/DeepSeek-OCR
管材:

返回頂端