繁中

基於深度文檔理解構建的開源RAG引擎

RAGFlow可以為各種規模的企業和個人提供簡化的RAG工作流程,並結合大語言模型(LLM),為各種複雜格式數據的用戶提供可靠的問題和答案以及有根據的引用。

RAGFFlow是infiniflow的一個優秀開源項目,其核心是一組 基於深度文檔理解的RAG引擎(檢索-增強代)。簡而言之,它可以幫助您導入多種複雜格式的文檔(PDF、Word、Excel、PPT、掃描圖像等)進入系統,智能地將其分割並編碼為載體,然後將其與大語言模型(LLM)一起用於問答,生成帶有引用的高質量答案。

項目主要內容

1.& amp; nbsp;深入的文檔理解

  • 使用自主開發的DeepDoc模型識別文檔結構-例如表格、標題和段落位置。
  • 自然語言推理級別的模板塊策略將生成的響應分為「結構化」塊,以使生成的響應更準確。

2.& amp; nbsp;全面的數據兼容性

  • 支持Word、PDF、PPT、Excel、Markdown、結構化表格、掃描圖像等流行文檔和格式。

3.& amp; nbsp;簡單且自動化的RAG工作流程

  • 文檔導入-自動塊+載體嵌入+載體檢索(使用ElasticSearch或Infinity)-與LLM對接以生成答案。
  • 支持多次召回、多輪重排序(嵌入/關鍵字/多次召回)的配置,並可通過UI交互查看和糾正塊,防止幻覺

4.& amp; nbsp;多模式代碼執行能力

  • 支持圖像識別(OCR)任務,將圖像內容轉換為文本,然後執行RAG。
  • 內置代碼執行器,可以在沙箱環境中運行Python/JS代碼,適合理解複雜文檔中的腳本片段

5.& amp; nbsp;被廣泛引用、可靠且可驗證

  • 當系統接口或API返回答案時,它會附加按塊提取的參考位置,使答案更可靠和可追溯。

系統結構和工作原理

  1. 文檔上傳和塊分析
    使用DeepDoc模型對文檔進行結構化解析,基於「塊模板」智能拆分並生成相應的嵌入載體。
  2. 向量索引存儲
    Elasticsearch使用默認值來存儲全文和載體;可選的「Infinity」用作後台引擎
  3. LLM准入
    前端通過API或Olama/LocalAI部署本地或雲LLM以完成生成式問答。
  4. 召回+重新排列+生成
    多重召回機制(嵌入+關鍵詞+短語匹配等)- Rerank-匹配LLM以生成答案並附加原始文檔的摘錄。
  5. 代理多模式
    支持圖像文本識別、多語言查詢,甚至生成代碼運行,擴展性強

丨ˇ Why is it worth paying attention?

  • 高級塊機制:與傳統的按字符長度拆分(例如LangChain)相比,RAGFlow更智能--它可以解決表/頭等語義邊界。
  • 企業功能:支持大量文檔、配置召回策略、視覺塊調整、代碼沙箱等,適合大規模場景。
  • 開源+許可友好:Apache-2.0,適合商業部署。

開始建議

  1. 快審:官方在線演示(demo.ragflow.io)git clone. docker-compose up -d默認依賴於x86、4核中央處理器、16 GB RAM、50 GB磁碟

🚧當前的挑戰

  • 根據用戶反饋,DeepDoc的塊在特定複雜文檔結構(例如法律文檔)中的表現稍差,可能需要手動微調或與其他工具(例如LangChain)組合。
  • 在企業部署過程中,安全漏洞已被多次報告(PDF ReDos、IDOR、XSS等),並需要注意及時修補

總結

RAGFlow是一個企業級解決方案,用於處理複雜文檔→矢量檢索+ LLM答案,一站式。它的優勢在於結構化分塊、可視化調優、OCR和代碼沙箱的集成等,但同時在部署安全性和適應極其複雜的文檔方面,仍需要引入合適的工具或優化參數。

Github:https://github.com/infiniflow/ragflow

輸油管:

返回頂端