該工具使用人工智慧技術自動識別和保留公式、圖表、目錄和注釋。支持多種語言和多種翻譯服務。提供命令行工具、圖形用戶界面和基於容器的部署。
目前,Github 3.3K Star仍在快速增長。
1.項目居間
PDFMathTranslate是一個開源項目,旨在從PDF文件中提取數學公式並將其翻譯成多種語言。特別適合科學論文、教科書和技術文件中的閱讀輔助工具。該項目結合了OCR(光學字符識別)、公式識別、語言翻譯等多個模塊,大大降低了數學材料跨語言閱讀的門檻。
2.核心功能模塊
-
PDF頁面截圖提取
- 使用
菲茨(PyMuPDF)將PDF轉換為圖像並逐頁提取; - 您可以選擇性地處理某個頁面或多個頁面,以適應不同的需求。
- 使用
-
公式區域檢測
- 使用YOLOv 7訓練模型定位配方所在區域;
- 支持批量測試,提高效率。
-
公式識別和轉換
- 使用MathPix或LaTeX-OCR將公式區域轉換為LaTeX表達;
- 確保高識別準確率並適應各種複雜數學公式。
-
多語種翻譯
- 基於OpenAI GPT-3.5或其他翻譯模型將公式及其上下文翻譯為指定語言;
- 支持中英翻譯,擴展性強。
-
結果輸出
- 支持將識別結果輸出到SON、TSB或集成到HTML頁面中;
- 視覺友好,適合後續閱讀和編輯。
3.項目亮點
- 高度自動化:基本實現從PDF到翻譯結果全過程的自動處理;
- 學科交叉融合:集成圖像處理、深度學習和自然語言處理;
- 實用性強:適合研究人員、學生、翻譯人員等不同用戶群體;
- 開源可擴展:您可以訪問自己的OCR模型和翻譯API,實現個性化定製。
4.用途簡要描述
git克隆https://github.com/Byaidu/PDFMathTranslate.git
CD PDFMathTranslate
pip安裝-r要求.文本
之後,通過配置參數運行主程式:
Python main.py--pdf_路徑sample.pdf --lang zh
你可以 config.yaml 調整文件中的識別範圍、翻譯語言和輸出格式等參數。
5.未來展望
- 支持更多語言和模型後台(例如DeepL、Claude);
- 添加Math語義解析;
- 提高公式識別的穩健性,支持手寫公式;
- 開發Web UI並提供視覺交互界面。
Github: https://github.com/Byaidu/PDFMathTranslate
輸油管: