Skip to content

🔍 RAG与检索

Retrieval Augmented Generation and Database solutions.

Data Parsers

firecrawl

专为AI设计的网页数据API,将网站转换为LLM可用的Markdown或结构化数据,是RAG应用的理想数据源。

  • Stars: ⭐️ 95.5k
  • Tags: 网页爬取 数据提取 LLM数据
  • 最后活动时间: 2026-03-20

MinerU

将PDF等复杂文档转换为LLM可用的Markdown/JSON格式,支持RAG和Agent工作流。

  • Stars: ⭐️ 56.7k
  • Tags: PDF解析 文档处理 RAG
  • 最后活动时间: 2026-03-19

Scrapling

自适应AI网页抓取框架,支持从简单请求到大规模爬取,内置MCP服务器支持AI代理智能数据提取。

  • Stars: ⭐️ 31.5k
  • Tags: 网页抓取 MCP 数据提取
  • 最后活动时间: 2026-03-19

crawlee

强大的Node.js网页爬取和浏览器自动化库,专为AI/LLM/RAG数据采集设计,支持多种格式下载。

  • Stars: ⭐️ 22.4k
  • Tags: Web Scraping Data Extraction RAG
  • 最后活动时间: 2026-03-20

cube

开源语义层工具,为AI应用和BI系统提供统一的数据语义定义,助力构建数据驱动的智能分析系统。

  • Stars: ⭐️ 19.7k
  • Tags: 语义层 数据分析 BI
  • 最后活动时间: 2026-03-20

crawlee-python

强大的Python网页爬取和浏览器自动化库,专为AI、LLM、RAG应用设计,支持多种数据提取工具。

  • Stars: ⭐️ 8.6k
  • Tags: 网页爬取 数据采集 RAG 自动化
  • 最后活动时间: 2026-03-20

kreuzberg

基于Rust核心的多语言文档智能框架,支持88+种格式提取文本和元数据,提供多语言SDK及多种接口。

  • Stars: ⭐️ 6.8k
  • Tags: 文档解析 RAG Rust 多语言SDK
  • 最后活动时间: 2026-03-20

cocoindex

高性能AI数据转换框架,支持增量处理和实时索引,专为RAG、知识图谱和语义搜索场景设计。

  • Stars: ⭐️ 6.6k
  • Tags: 数据处理 ETL 实时索引
  • 最后活动时间: 2026-03-19

unstract

基于LLM的非结构化数据提取平台,支持API部署与ETL管道,高效转换文档为结构化输出。

  • Stars: ⭐️ 6.5k
  • Tags: Data Extraction Document Processing LLM
  • 最后活动时间: 2026-03-19

trafilatura

强大的网页文本提取工具,支持从网页中提取干净文本和元数据,非常适合构建RAG数据管道和NLP语料库。

  • Stars: ⭐️ 5.5k
  • Tags: 网页抓取 文本提取 RAG NLP
  • 最后活动时间: 2025-09-12

towhee

神经网络数据处理框架,简化AI数据管道构建。支持图像、视频、文本的特征提取与向量嵌入。

  • Stars: ⭐️ 3.5k
  • Tags: Data Pipeline Vector Embedding Computer Vision
  • 最后活动时间: 2024-10-18

table-transformer

微软开源的深度学习模型,用于从PDF和图像中提取表格,包含PubTables-1M数据集。

  • Stars: ⭐️ 2.9k
  • Tags: 表格检测 文档理解 Microsoft
  • 最后活动时间: 2024-06-24

datachain

多模态数据分析与ETL工具,支持视频、音频、PDF和图像的版本管理与嵌入处理。

  • Stars: ⭐️ 2.7k
  • Tags: Multimodal ETL LLM
  • 最后活动时间: 2026-03-21

mcp-crawl4ai-rag

为AI代理和AI编程助手提供网页爬取与RAG检索能力的MCP工具,支持构建智能知识库。

  • Stars: ⭐️ 2.0k
  • Tags: RAG Web Crawling MCP AI Agents
  • 最后活动时间: 2025-07-25

docext

本地部署的无OCR非结构化数据提取工具,支持Markdown转换和基准测试,适用于RAG文档预处理场景。

  • Stars: ⭐️ 1.9k
  • Tags: Document Extraction OCR-Free On-Premise
  • 最后活动时间: 2026-03-17

contextgem

专注于文档信息提取的LLM框架,支持从合同、报告等文档中提取结构化数据,适用于企业级文档智能处理场景。

  • Stars: ⭐️ 1.8k
  • Tags: LLM 文档提取 合同分析
  • 最后活动时间: 2026-03-16

thepipe

基于视觉语言模型的文档数据提取工具,支持从PDF、网页等复杂文档中提取结构化数据,为RAG应用提供高质量数据预处理管道。

  • Stars: ⭐️ 1.5k
  • Tags: 文档提取 多模态 RAG
  • 最后活动时间: 2026-03-03

Understand-Anything

将任意代码库转换为交互式知识图谱,支持探索、搜索和问答,帮助开发者快速理解复杂代码结构。

  • Stars: ⭐️ 1.3k
  • Tags: Knowledge Graph Code Analysis Claude Code
  • 最后活动时间: 2026-03-20

spacy-layout

spaCy官方文档处理扩展,支持PDF、Word等格式的智能解析与布局分析,为RAG应用提供高质量预处理能力。

  • Stars: ⭐️ 871
  • Tags: NLP PDF处理 RAG 文档解析
  • 最后活动时间: 2025-03-08

docling-api

高效文档转换服务,支持PDF、Word、PPT等多种格式转Markdown,具备OCR、表格提取和批量处理能力,适用于RAG和大模型文档处理场景。

  • Stars: ⭐️ 759
  • Tags: Document Parsing OCR Markdown
  • 最后活动时间: 2025-03-04

llms-txt-hub

最大的AI就绪文档目录,实现llms.txt标准,帮助LLM更好地理解和检索文档内容。

  • Stars: ⭐️ 752
  • Tags: llms-txt documentation RAG
  • 最后活动时间: 2026-03-20

dataset-viewer

由AI Agent构建的现代化数据集查看器,支持从Hugging Face、S3、WebDAV等多种来源流式加载大文件,适合AI开发者快速预览和处理训练数据。

  • Stars: ⭐️ 629
  • Tags: Dataset Streaming Tauri
  • 最后活动时间: 2026-03-20

pdf-reader-mcp

生产级PDF处理MCP服务器,支持并行处理,速度提升5-10倍,测试覆盖率94%以上。

  • Stars: ⭐️ 568
  • Tags: MCP PDF Document Processing Parallel Processing
  • 最后活动时间: 2026-03-17

wdoc

强大的异构文档处理工具,支持多种文件格式和任意LLM提供商,提供高级RAG检索和智能摘要功能。

  • Stars: ⭐️ 511
  • Tags: RAG Document Processing LLM
  • 最后活动时间: 2026-03-08

RAG Frameworks

ragflow

领先的开源检索增强生成引擎,融合前沿RAG技术与Agent能力,支持深度文档理解和GraphRAG。

  • Stars: ⭐️ 75.6k
  • Tags: RAG Agent GraphRAG
  • 最后活动时间: 2026-03-20

pathway

高性能Python ETL框架,支持流处理、实时分析、LLM管道和RAG应用开发。

  • Stars: ⭐️ 61.5k
  • Tags: ETL RAG Stream Processing LLM
  • 最后活动时间: 2026-03-21

llm-app

开箱即用的RAG和AI管道云模板,支持多数据源实时同步,Docker友好,适合构建企业级实时数据检索应用。

  • Stars: ⭐️ 58.1k
  • Tags: RAG Real-time Enterprise
  • 最后活动时间: 2026-01-07

llama_index

领先的数据框架,专注于连接自定义数据与大语言模型,支持构建RAG应用和文档智能体,是开发LLM应用的核心工具。

  • Stars: ⭐️ 47.8k
  • Tags: RAG Agents LLM Framework
  • 最后活动时间: 2026-03-20

quivr

开箱即用的RAG框架,支持多种LLM和向量数据库,让开发者专注于产品而非底层实现。

  • Stars: ⭐️ 39.0k
  • Tags: RAG框架 LLM 向量数据库
  • 最后活动时间: 2025-07-09

Langchain-Chatchat

基于Langchain的本地知识库问答应用,支持ChatGLM、Qwen、Llama等多种大语言模型,提供完整的RAG和Agent功能。

  • Stars: ⭐️ 37.6k
  • Tags: RAG LangChain 知识库 ChatGLM
  • 最后活动时间: 2025-11-10

LightRAG

轻量高效的RAG框架,结合知识图谱实现快速准确的文档检索与问答,资源消耗低、响应速度快。

  • Stars: ⭐️ 29.7k
  • Tags: RAG 知识图谱 检索增强
  • 最后活动时间: 2026-03-20

FastGPT

基于大语言模型的知识库平台,提供数据处理、RAG检索和可视化AI工作流编排能力。

  • Stars: ⭐️ 27.4k
  • Tags: RAG Workflow LLM Agent
  • 最后活动时间: 2026-03-20

kotaemon

开源RAG工具,支持与文档进行智能对话,基于检索增强生成技术让用户轻松与文档内容交互。

  • Stars: ⭐️ 25.2k
  • Tags: RAG Document Chat Open Source
  • 最后活动时间: 2026-03-08

cognee

AI代理记忆知识引擎,6行代码即可集成知识图谱与向量数据库,支持Graph RAG和多种后端存储。

  • Stars: ⭐️ 14.4k
  • Tags: 知识图谱 Graph RAG AI代理记忆
  • 最后活动时间: 2026-03-20

memvid

轻量级AI智能体记忆层,用无服务器单文件方案替代复杂RAG管道,支持即时检索和长期记忆。

  • Stars: ⭐️ 13.5k
  • Tags: RAG AI记忆 无服务器
  • 最后活动时间: 2026-03-16

WeKnora

基于LLM的深度文档理解框架,采用RAG范式实现语义检索和上下文感知问答,支持多租户和多模型架构。

  • Stars: ⭐️ 13.5k
  • Tags: RAG Semantic Search Document Understanding
  • 最后活动时间: 2026-03-20

txtai

一体化AI框架,支持语义搜索、LLM编排和语言模型工作流,集成向量数据库和AI代理功能。

  • Stars: ⭐️ 9.5k
  • Tags: RAG 语义搜索 LLM 向量数据库
  • 最后活动时间: 2025-01-15

deep-searcher

开源深度研究工具,结合Agentic RAG技术在私有数据上实现智能推理与搜索,支持多种LLM和向量数据库。

  • Stars: ⭐️ 7.7k
  • Tags: RAG Agent Deep Research
  • 最后活动时间: 2025-11-19

azure-search-openai-demo

微软官方RAG模式示例应用,结合Azure AI Search和Azure OpenAI实现企业级智能问答。

  • Stars: ⭐️ 7.6k
  • Tags: RAG Azure Enterprise
  • 最后活动时间: 2026-03-18

airweave

开源AI智能体上下文检索层,支持多种数据连接器和语义搜索,轻松实现企业数据访问与检索。

  • Stars: ⭐️ 6.0k
  • Tags: RAG 语义搜索 数据连接器
  • 最后活动时间: 2026-03-20

UltraRAG

低代码MCP框架,用于构建复杂创新的RAG管道,支持多模态检索和多种LLM后端集成,简化RAG应用开发流程。

  • Stars: ⭐️ 5.5k
  • Tags: RAG MCP 低代码 多模态
  • 最后活动时间: 2026-03-20

AutoRAG

开源RAG评估与优化框架,采用AutoML风格自动化技术,提供完整的评估、基准测试和优化管道。

  • Stars: ⭐️ 4.6k
  • Tags: RAG Evaluation AutoML
  • 最后活动时间: 2026-03-10

ragapp

企业级Agentic RAG部署方案,基于LlamaIndex提供开箱即用的Docker容器化部署。

  • Stars: ⭐️ 4.4k
  • Tags: RAG LlamaIndex Enterprise
  • 最后活动时间: 2025-01-22

cognita

TrueFoundry开源的RAG框架,用于构建模块化、可生产的AI应用。

  • Stars: ⭐️ 4.3k
  • Tags: RAG LLM Framework Enterprise
  • 最后活动时间: 2026-03-13

local-deep-research

本地深度研究工具,SimpleQA基准95%准确率,支持arXiv、PubMed等10+数据源,全程本地加密。

  • Stars: ⭐️ 4.2k
  • Tags: Deep Research Local LLM RAG Self-hosted
  • 最后活动时间: 2026-03-20

chonkie

轻量级文档分块库,专为高效RAG管道设计,支持语义分块、相似度搜索等多种分割算法。

  • Stars: ⭐️ 3.9k
  • Tags: Chunking RAG Text-Splitter
  • 最后活动时间: 2026-03-18

nano-graphrag

简洁易读的GraphRAG实现,专为学习和二次开发设计,适合理解图增强检索技术的核心原理。

  • Stars: ⭐️ 3.7k
  • Tags: GraphRAG Knowledge Graph RAG
  • 最后活动时间: 2026-01-27

VideoRAG

KDD'2026论文项目,实现与视频内容的对话式交互,结合长视频理解与检索增强生成技术。

  • Stars: ⭐️ 2.8k
  • Tags: Video RAG Multi-Modal Long-Video
  • 最后活动时间: 2026-03-18

AmpliGraph

知识图谱表示学习Python库,提供图嵌入和关系学习算法,支持知识图谱补全等任务。

  • Stars: ⭐️ 2.2k
  • Tags: Knowledge Graph Graph Embeddings Representation Learning
  • 最后活动时间: 2024-11-22

agentset

开源RAG平台,内置引用、深度研究、支持22+文件格式、分区和MCP服务器等功能。

  • Stars: ⭐️ 1.9k
  • Tags: RAG AI Agents Embeddings
  • 最后活动时间: 2026-03-19

fastRAG

Intel Labs开源的高效RAG框架,支持ColBERT、知识图谱、多模态检索,显著提升问答和搜索性能。

  • Stars: ⭐️ 1.8k
  • Tags: RAG 信息检索 Intel
  • 最后活动时间: 2026-01-12

ck

本地优先的语义搜索与混合BM25工具,基于Rust构建,支持AI和人类使用的高效语义检索。

  • Stars: ⭐️ 1.5k
  • Tags: 语义搜索 Rust 本地优先
  • 最后活动时间: 2026-01-27

notebooklm-mcp

NotebookLM的MCP服务器,让AI代理直接从知识库获取带引用支撑的精准答案,实现零幻觉研究。

  • Stars: ⭐️ 1.5k
  • Tags: MCP NotebookLM RAG AI Agents
  • 最后活动时间: 2025-12-27

trustgraph

图原生上下文开发平台,提供知识存储、丰富和检索能力,支持语义检索和可移植上下文核心。

  • Stars: ⭐️ 1.4k
  • Tags: 知识图谱 语义检索 上下文平台
  • 最后活动时间: 2026-03-19

EmbedAnything

Rust构建的高性能嵌入和推理引擎,专为RAG应用设计,支持本地和云端部署,内存安全且生产就绪。

  • Stars: ⭐️ 1.2k
  • Tags: Rust Embeddings RAG
  • 最后活动时间: 2026-03-11

memsearch

Markdown优先的AI智能体记忆系统,支持语义搜索和渐进式信息展示,让AI助手拥有持久化记忆能力。

  • Stars: ⭐️ 951
  • Tags: Agent-Memory Semantic-Search RAG
  • 最后活动时间: 2026-03-20

rag-fusion

通过多查询生成和倒数排名融合技术显著提升RAG效果,内置NFCorpus/BEIR评估框架便于性能验证。

  • Stars: ⭐️ 908
  • Tags: RAG Vector Search Ranking Fusion
  • 最后活动时间: 2026-03-07

rag_api

基于FastAPI的RAG API服务,集成Langchain与PostgreSQL/pgvector,提供高效的向量检索与生成能力。

  • Stars: ⭐️ 781
  • Tags: RAG FastAPI Langchain pgvector
  • 最后活动时间: 2026-03-20

RAG-FiT

通过微调增强LLM在RAG任务中表现的框架,支持问答、语义搜索等信息检索场景。

  • Stars: ⭐️ 769
  • Tags: RAG Fine-tuning NLP
  • 最后活动时间: 2025-12-16

comunica

JavaScript知识图谱查询框架,支持SPARQL/GraphQL,具备MCP协议集成能力。

  • Stars: ⭐️ 548
  • Tags: Knowledge Graph SPARQL MCP
  • 最后活动时间: 2026-03-20

PageIndex

创新的无向量RAG文档索引方案,通过推理能力实现精准文档检索,摆脱对传统向量数据库的依赖。

  • Stars: ⭐️ 500
  • Tags: RAG 文档索引 推理检索
  • 最后活动时间: 2025-01-01

Vector Databases

meilisearch

闪电般快速的搜索引擎API,提供AI驱动的混合搜索能力,支持向量搜索、语义搜索和全文搜索的无缝集成。

  • Stars: ⭐️ 56.6k
  • Tags: 搜索引擎 向量搜索 混合搜索
  • 最后活动时间: 2026-03-20

milvus

高性能云原生向量数据库,专为海量向量检索设计,广泛应用于RAG和推荐系统。

  • Stars: ⭐️ 43.4k
  • Tags: 向量数据库 RAG 向量检索
  • 最后活动时间: 2026-03-20

qdrant

高性能向量数据库和搜索引擎,专为下一代AI应用设计,支持相似性搜索和混合搜索,是RAG应用的核心基础设施。

  • Stars: ⭐️ 29.7k
  • Tags: 向量数据库 相似性搜索 RAG AI基础设施
  • 最后活动时间: 2026-03-20

weaviate

云原生开源向量数据库,支持向量搜索与结构化过滤,广泛应用于语义搜索、推荐系统和RAG场景。

  • Stars: ⭐️ 15.8k
  • Tags: Vector Database Semantic Search RAG
  • 最后活动时间: 2026-03-20

oceanbase

高性能分布式数据库,支持事务、分析和AI工作负载,内置向量搜索能力,适用于RAG和AI应用场景。

  • Stars: ⭐️ 10.0k
  • Tags: Vector Database Distributed MySQL Compatible
  • 最后活动时间: 2026-03-21

databend

云原生数据仓库,内置向量搜索能力,支持分析、搜索、AI和Python沙盒,为AI Agent提供数据基础设施。

  • Stars: ⭐️ 9.2k
  • Tags: 向量数据库 数据仓库 Rust
  • 最后活动时间: 2026-03-20

deeplake

GPU原生、沙盒化的AI代理Postgres数据库,支持向量搜索和多模态数据管理,专为深度学习和大语言模型应用优化。

  • Stars: ⭐️ 9.0k
  • Tags: Vector Database Multi-modal AI Agents
  • 最后活动时间: 2026-02-16

vespa

高性能向量数据库和搜索引擎平台,支持大规模AI推理、RAG应用和实时推荐系统。

  • Stars: ⭐️ 6.8k
  • Tags: 向量数据库 搜索引擎 AI推理
  • 最后活动时间: 2026-03-20

RediSearch

Redis的强大查询与索引引擎,支持全文搜索、向量相似度搜索和聚合操作,是构建RAG系统和AI应用的理想向量数据库。

  • Stars: ⭐️ 6.1k
  • Tags: Vector Database Full-text Search Redis Module
  • 最后活动时间: 2026-03-20

bootcamp

Milvus官方实战教程,涵盖向量检索、RAG、多模态搜索等非结构化数据处理场景,配套完整实践案例。

  • Stars: ⭐️ 2.4k
  • Tags: RAG 向量数据库 Milvus 多模态
  • 最后活动时间: 2026-03-13

pixeltable

面向多模态AI工作负载的数据基础设施,集成特征存储、向量数据库和MLOps能力,简化数据处理流程。

  • Stars: ⭐️ 1.6k
  • Tags: 多模态 特征存储 向量数据库
  • 最后活动时间: 2026-03-20

arcadedb

多模型数据库,支持SQL、图查询和向量嵌入搜索,适合RAG应用的相似性搜索场景。

  • Stars: ⭐️ 752
  • Tags: Vector Database Multi-Model Graph Database
  • 最后活动时间: 2026-03-21