🔍 RAG与检索
Retrieval Augmented Generation and Database solutions.
Data Parsers
firecrawl
专为AI设计的网页数据API,将网站转换为LLM可用的Markdown或结构化数据,是RAG应用的理想数据源。
- Stars: ⭐️ 95.5k
- Tags:
网页爬取数据提取LLM数据 - 最后活动时间: 2026-03-20
MinerU
将PDF等复杂文档转换为LLM可用的Markdown/JSON格式,支持RAG和Agent工作流。
- Stars: ⭐️ 56.7k
- Tags:
PDF解析文档处理RAG - 最后活动时间: 2026-03-19
Scrapling
自适应AI网页抓取框架,支持从简单请求到大规模爬取,内置MCP服务器支持AI代理智能数据提取。
- Stars: ⭐️ 31.5k
- Tags:
网页抓取MCP数据提取 - 最后活动时间: 2026-03-19
crawlee
强大的Node.js网页爬取和浏览器自动化库,专为AI/LLM/RAG数据采集设计,支持多种格式下载。
- Stars: ⭐️ 22.4k
- Tags:
Web ScrapingData ExtractionRAG - 最后活动时间: 2026-03-20
cube
开源语义层工具,为AI应用和BI系统提供统一的数据语义定义,助力构建数据驱动的智能分析系统。
- Stars: ⭐️ 19.7k
- Tags:
语义层数据分析BI - 最后活动时间: 2026-03-20
crawlee-python
强大的Python网页爬取和浏览器自动化库,专为AI、LLM、RAG应用设计,支持多种数据提取工具。
- Stars: ⭐️ 8.6k
- Tags:
网页爬取数据采集RAG自动化 - 最后活动时间: 2026-03-20
kreuzberg
基于Rust核心的多语言文档智能框架,支持88+种格式提取文本和元数据,提供多语言SDK及多种接口。
- Stars: ⭐️ 6.8k
- Tags:
文档解析RAGRust多语言SDK - 最后活动时间: 2026-03-20
cocoindex
高性能AI数据转换框架,支持增量处理和实时索引,专为RAG、知识图谱和语义搜索场景设计。
- Stars: ⭐️ 6.6k
- Tags:
数据处理ETL实时索引 - 最后活动时间: 2026-03-19
unstract
基于LLM的非结构化数据提取平台,支持API部署与ETL管道,高效转换文档为结构化输出。
- Stars: ⭐️ 6.5k
- Tags:
Data ExtractionDocument ProcessingLLM - 最后活动时间: 2026-03-19
trafilatura
强大的网页文本提取工具,支持从网页中提取干净文本和元数据,非常适合构建RAG数据管道和NLP语料库。
- Stars: ⭐️ 5.5k
- Tags:
网页抓取文本提取RAGNLP - 最后活动时间: 2025-09-12
towhee
神经网络数据处理框架,简化AI数据管道构建。支持图像、视频、文本的特征提取与向量嵌入。
- Stars: ⭐️ 3.5k
- Tags:
Data PipelineVector EmbeddingComputer Vision - 最后活动时间: 2024-10-18
table-transformer
微软开源的深度学习模型,用于从PDF和图像中提取表格,包含PubTables-1M数据集。
- Stars: ⭐️ 2.9k
- Tags:
表格检测文档理解Microsoft - 最后活动时间: 2024-06-24
datachain
多模态数据分析与ETL工具,支持视频、音频、PDF和图像的版本管理与嵌入处理。
- Stars: ⭐️ 2.7k
- Tags:
MultimodalETLLLM - 最后活动时间: 2026-03-21
mcp-crawl4ai-rag
为AI代理和AI编程助手提供网页爬取与RAG检索能力的MCP工具,支持构建智能知识库。
- Stars: ⭐️ 2.0k
- Tags:
RAGWeb CrawlingMCPAI Agents - 最后活动时间: 2025-07-25
docext
本地部署的无OCR非结构化数据提取工具,支持Markdown转换和基准测试,适用于RAG文档预处理场景。
- Stars: ⭐️ 1.9k
- Tags:
Document ExtractionOCR-FreeOn-Premise - 最后活动时间: 2026-03-17
contextgem
专注于文档信息提取的LLM框架,支持从合同、报告等文档中提取结构化数据,适用于企业级文档智能处理场景。
- Stars: ⭐️ 1.8k
- Tags:
LLM文档提取合同分析 - 最后活动时间: 2026-03-16
thepipe
基于视觉语言模型的文档数据提取工具,支持从PDF、网页等复杂文档中提取结构化数据,为RAG应用提供高质量数据预处理管道。
- Stars: ⭐️ 1.5k
- Tags:
文档提取多模态RAG - 最后活动时间: 2026-03-03
Understand-Anything
将任意代码库转换为交互式知识图谱,支持探索、搜索和问答,帮助开发者快速理解复杂代码结构。
- Stars: ⭐️ 1.3k
- Tags:
Knowledge GraphCode AnalysisClaude Code - 最后活动时间: 2026-03-20
spacy-layout
spaCy官方文档处理扩展,支持PDF、Word等格式的智能解析与布局分析,为RAG应用提供高质量预处理能力。
- Stars: ⭐️ 871
- Tags:
NLPPDF处理RAG文档解析 - 最后活动时间: 2025-03-08
docling-api
高效文档转换服务,支持PDF、Word、PPT等多种格式转Markdown,具备OCR、表格提取和批量处理能力,适用于RAG和大模型文档处理场景。
- Stars: ⭐️ 759
- Tags:
Document ParsingOCRMarkdown - 最后活动时间: 2025-03-04
llms-txt-hub
最大的AI就绪文档目录,实现llms.txt标准,帮助LLM更好地理解和检索文档内容。
- Stars: ⭐️ 752
- Tags:
llms-txtdocumentationRAG - 最后活动时间: 2026-03-20
dataset-viewer
由AI Agent构建的现代化数据集查看器,支持从Hugging Face、S3、WebDAV等多种来源流式加载大文件,适合AI开发者快速预览和处理训练数据。
- Stars: ⭐️ 629
- Tags:
DatasetStreamingTauri - 最后活动时间: 2026-03-20
pdf-reader-mcp
生产级PDF处理MCP服务器,支持并行处理,速度提升5-10倍,测试覆盖率94%以上。
- Stars: ⭐️ 568
- Tags:
MCPPDFDocument ProcessingParallel Processing - 最后活动时间: 2026-03-17
wdoc
强大的异构文档处理工具,支持多种文件格式和任意LLM提供商,提供高级RAG检索和智能摘要功能。
- Stars: ⭐️ 511
- Tags:
RAGDocument ProcessingLLM - 最后活动时间: 2026-03-08
RAG Frameworks
ragflow
领先的开源检索增强生成引擎,融合前沿RAG技术与Agent能力,支持深度文档理解和GraphRAG。
- Stars: ⭐️ 75.6k
- Tags:
RAGAgentGraphRAG - 最后活动时间: 2026-03-20
pathway
高性能Python ETL框架,支持流处理、实时分析、LLM管道和RAG应用开发。
- Stars: ⭐️ 61.5k
- Tags:
ETLRAGStream ProcessingLLM - 最后活动时间: 2026-03-21
llm-app
开箱即用的RAG和AI管道云模板,支持多数据源实时同步,Docker友好,适合构建企业级实时数据检索应用。
- Stars: ⭐️ 58.1k
- Tags:
RAGReal-timeEnterprise - 最后活动时间: 2026-01-07
llama_index
领先的数据框架,专注于连接自定义数据与大语言模型,支持构建RAG应用和文档智能体,是开发LLM应用的核心工具。
- Stars: ⭐️ 47.8k
- Tags:
RAGAgentsLLMFramework - 最后活动时间: 2026-03-20
quivr
开箱即用的RAG框架,支持多种LLM和向量数据库,让开发者专注于产品而非底层实现。
- Stars: ⭐️ 39.0k
- Tags:
RAG框架LLM向量数据库 - 最后活动时间: 2025-07-09
Langchain-Chatchat
基于Langchain的本地知识库问答应用,支持ChatGLM、Qwen、Llama等多种大语言模型,提供完整的RAG和Agent功能。
- Stars: ⭐️ 37.6k
- Tags:
RAGLangChain知识库ChatGLM - 最后活动时间: 2025-11-10
LightRAG
轻量高效的RAG框架,结合知识图谱实现快速准确的文档检索与问答,资源消耗低、响应速度快。
- Stars: ⭐️ 29.7k
- Tags:
RAG知识图谱检索增强 - 最后活动时间: 2026-03-20
FastGPT
基于大语言模型的知识库平台,提供数据处理、RAG检索和可视化AI工作流编排能力。
- Stars: ⭐️ 27.4k
- Tags:
RAGWorkflowLLMAgent - 最后活动时间: 2026-03-20
kotaemon
开源RAG工具,支持与文档进行智能对话,基于检索增强生成技术让用户轻松与文档内容交互。
- Stars: ⭐️ 25.2k
- Tags:
RAGDocument ChatOpen Source - 最后活动时间: 2026-03-08
cognee
AI代理记忆知识引擎,6行代码即可集成知识图谱与向量数据库,支持Graph RAG和多种后端存储。
- Stars: ⭐️ 14.4k
- Tags:
知识图谱Graph RAGAI代理记忆 - 最后活动时间: 2026-03-20
memvid
轻量级AI智能体记忆层,用无服务器单文件方案替代复杂RAG管道,支持即时检索和长期记忆。
- Stars: ⭐️ 13.5k
- Tags:
RAGAI记忆无服务器 - 最后活动时间: 2026-03-16
WeKnora
基于LLM的深度文档理解框架,采用RAG范式实现语义检索和上下文感知问答,支持多租户和多模型架构。
- Stars: ⭐️ 13.5k
- Tags:
RAGSemantic SearchDocument Understanding - 最后活动时间: 2026-03-20
txtai
一体化AI框架,支持语义搜索、LLM编排和语言模型工作流,集成向量数据库和AI代理功能。
- Stars: ⭐️ 9.5k
- Tags:
RAG语义搜索LLM向量数据库 - 最后活动时间: 2025-01-15
deep-searcher
开源深度研究工具,结合Agentic RAG技术在私有数据上实现智能推理与搜索,支持多种LLM和向量数据库。
- Stars: ⭐️ 7.7k
- Tags:
RAGAgentDeep Research - 最后活动时间: 2025-11-19
azure-search-openai-demo
微软官方RAG模式示例应用,结合Azure AI Search和Azure OpenAI实现企业级智能问答。
- Stars: ⭐️ 7.6k
- Tags:
RAGAzureEnterprise - 最后活动时间: 2026-03-18
airweave
开源AI智能体上下文检索层,支持多种数据连接器和语义搜索,轻松实现企业数据访问与检索。
- Stars: ⭐️ 6.0k
- Tags:
RAG语义搜索数据连接器 - 最后活动时间: 2026-03-20
UltraRAG
低代码MCP框架,用于构建复杂创新的RAG管道,支持多模态检索和多种LLM后端集成,简化RAG应用开发流程。
- Stars: ⭐️ 5.5k
- Tags:
RAGMCP低代码多模态 - 最后活动时间: 2026-03-20
AutoRAG
开源RAG评估与优化框架,采用AutoML风格自动化技术,提供完整的评估、基准测试和优化管道。
- Stars: ⭐️ 4.6k
- Tags:
RAGEvaluationAutoML - 最后活动时间: 2026-03-10
ragapp
企业级Agentic RAG部署方案,基于LlamaIndex提供开箱即用的Docker容器化部署。
- Stars: ⭐️ 4.4k
- Tags:
RAGLlamaIndexEnterprise - 最后活动时间: 2025-01-22
cognita
TrueFoundry开源的RAG框架,用于构建模块化、可生产的AI应用。
- Stars: ⭐️ 4.3k
- Tags:
RAGLLMFrameworkEnterprise - 最后活动时间: 2026-03-13
local-deep-research
本地深度研究工具,SimpleQA基准95%准确率,支持arXiv、PubMed等10+数据源,全程本地加密。
- Stars: ⭐️ 4.2k
- Tags:
Deep ResearchLocal LLMRAGSelf-hosted - 最后活动时间: 2026-03-20
chonkie
轻量级文档分块库,专为高效RAG管道设计,支持语义分块、相似度搜索等多种分割算法。
- Stars: ⭐️ 3.9k
- Tags:
ChunkingRAGText-Splitter - 最后活动时间: 2026-03-18
nano-graphrag
简洁易读的GraphRAG实现,专为学习和二次开发设计,适合理解图增强检索技术的核心原理。
- Stars: ⭐️ 3.7k
- Tags:
GraphRAGKnowledge GraphRAG - 最后活动时间: 2026-01-27
VideoRAG
KDD'2026论文项目,实现与视频内容的对话式交互,结合长视频理解与检索增强生成技术。
- Stars: ⭐️ 2.8k
- Tags:
Video RAGMulti-ModalLong-Video - 最后活动时间: 2026-03-18
AmpliGraph
知识图谱表示学习Python库,提供图嵌入和关系学习算法,支持知识图谱补全等任务。
- Stars: ⭐️ 2.2k
- Tags:
Knowledge GraphGraph EmbeddingsRepresentation Learning - 最后活动时间: 2024-11-22
agentset
开源RAG平台,内置引用、深度研究、支持22+文件格式、分区和MCP服务器等功能。
- Stars: ⭐️ 1.9k
- Tags:
RAGAI AgentsEmbeddings - 最后活动时间: 2026-03-19
fastRAG
Intel Labs开源的高效RAG框架,支持ColBERT、知识图谱、多模态检索,显著提升问答和搜索性能。
- Stars: ⭐️ 1.8k
- Tags:
RAG信息检索Intel - 最后活动时间: 2026-01-12
ck
本地优先的语义搜索与混合BM25工具,基于Rust构建,支持AI和人类使用的高效语义检索。
- Stars: ⭐️ 1.5k
- Tags:
语义搜索Rust本地优先 - 最后活动时间: 2026-01-27
notebooklm-mcp
NotebookLM的MCP服务器,让AI代理直接从知识库获取带引用支撑的精准答案,实现零幻觉研究。
- Stars: ⭐️ 1.5k
- Tags:
MCPNotebookLMRAGAI Agents - 最后活动时间: 2025-12-27
trustgraph
图原生上下文开发平台,提供知识存储、丰富和检索能力,支持语义检索和可移植上下文核心。
- Stars: ⭐️ 1.4k
- Tags:
知识图谱语义检索上下文平台 - 最后活动时间: 2026-03-19
EmbedAnything
Rust构建的高性能嵌入和推理引擎,专为RAG应用设计,支持本地和云端部署,内存安全且生产就绪。
- Stars: ⭐️ 1.2k
- Tags:
RustEmbeddingsRAG - 最后活动时间: 2026-03-11
memsearch
Markdown优先的AI智能体记忆系统,支持语义搜索和渐进式信息展示,让AI助手拥有持久化记忆能力。
- Stars: ⭐️ 951
- Tags:
Agent-MemorySemantic-SearchRAG - 最后活动时间: 2026-03-20
rag-fusion
通过多查询生成和倒数排名融合技术显著提升RAG效果,内置NFCorpus/BEIR评估框架便于性能验证。
- Stars: ⭐️ 908
- Tags:
RAGVector SearchRanking Fusion - 最后活动时间: 2026-03-07
rag_api
基于FastAPI的RAG API服务,集成Langchain与PostgreSQL/pgvector,提供高效的向量检索与生成能力。
- Stars: ⭐️ 781
- Tags:
RAGFastAPILangchainpgvector - 最后活动时间: 2026-03-20
RAG-FiT
通过微调增强LLM在RAG任务中表现的框架,支持问答、语义搜索等信息检索场景。
- Stars: ⭐️ 769
- Tags:
RAGFine-tuningNLP - 最后活动时间: 2025-12-16
comunica
JavaScript知识图谱查询框架,支持SPARQL/GraphQL,具备MCP协议集成能力。
- Stars: ⭐️ 548
- Tags:
Knowledge GraphSPARQLMCP - 最后活动时间: 2026-03-20
PageIndex
创新的无向量RAG文档索引方案,通过推理能力实现精准文档检索,摆脱对传统向量数据库的依赖。
- Stars: ⭐️ 500
- Tags:
RAG文档索引推理检索 - 最后活动时间: 2025-01-01
Vector Databases
meilisearch
闪电般快速的搜索引擎API,提供AI驱动的混合搜索能力,支持向量搜索、语义搜索和全文搜索的无缝集成。
- Stars: ⭐️ 56.6k
- Tags:
搜索引擎向量搜索混合搜索 - 最后活动时间: 2026-03-20
milvus
高性能云原生向量数据库,专为海量向量检索设计,广泛应用于RAG和推荐系统。
- Stars: ⭐️ 43.4k
- Tags:
向量数据库RAG向量检索 - 最后活动时间: 2026-03-20
qdrant
高性能向量数据库和搜索引擎,专为下一代AI应用设计,支持相似性搜索和混合搜索,是RAG应用的核心基础设施。
- Stars: ⭐️ 29.7k
- Tags:
向量数据库相似性搜索RAGAI基础设施 - 最后活动时间: 2026-03-20
weaviate
云原生开源向量数据库,支持向量搜索与结构化过滤,广泛应用于语义搜索、推荐系统和RAG场景。
- Stars: ⭐️ 15.8k
- Tags:
Vector DatabaseSemantic SearchRAG - 最后活动时间: 2026-03-20
oceanbase
高性能分布式数据库,支持事务、分析和AI工作负载,内置向量搜索能力,适用于RAG和AI应用场景。
- Stars: ⭐️ 10.0k
- Tags:
Vector DatabaseDistributedMySQL Compatible - 最后活动时间: 2026-03-21
databend
云原生数据仓库,内置向量搜索能力,支持分析、搜索、AI和Python沙盒,为AI Agent提供数据基础设施。
- Stars: ⭐️ 9.2k
- Tags:
向量数据库数据仓库Rust - 最后活动时间: 2026-03-20
deeplake
GPU原生、沙盒化的AI代理Postgres数据库,支持向量搜索和多模态数据管理,专为深度学习和大语言模型应用优化。
- Stars: ⭐️ 9.0k
- Tags:
Vector DatabaseMulti-modalAI Agents - 最后活动时间: 2026-02-16
vespa
高性能向量数据库和搜索引擎平台,支持大规模AI推理、RAG应用和实时推荐系统。
- Stars: ⭐️ 6.8k
- Tags:
向量数据库搜索引擎AI推理 - 最后活动时间: 2026-03-20
RediSearch
Redis的强大查询与索引引擎,支持全文搜索、向量相似度搜索和聚合操作,是构建RAG系统和AI应用的理想向量数据库。
- Stars: ⭐️ 6.1k
- Tags:
Vector DatabaseFull-text SearchRedis Module - 最后活动时间: 2026-03-20
bootcamp
Milvus官方实战教程,涵盖向量检索、RAG、多模态搜索等非结构化数据处理场景,配套完整实践案例。
- Stars: ⭐️ 2.4k
- Tags:
RAG向量数据库Milvus多模态 - 最后活动时间: 2026-03-13
pixeltable
面向多模态AI工作负载的数据基础设施,集成特征存储、向量数据库和MLOps能力,简化数据处理流程。
- Stars: ⭐️ 1.6k
- Tags:
多模态特征存储向量数据库 - 最后活动时间: 2026-03-20
arcadedb
多模型数据库,支持SQL、图查询和向量嵌入搜索,适合RAG应用的相似性搜索场景。
- Stars: ⭐️ 752
- Tags:
Vector DatabaseMulti-ModelGraph Database - 最后活动时间: 2026-03-21
