🔍 RAG与检索
Retrieval Augmented Generation and Database solutions.
当前分类已收录 377 个相关项目。
Data Parsers
firecrawl
专为AI设计的网页数据API,将网站转换为LLM可用的Markdown或结构化数据,是RAG应用的理想数据源。
- Stars: ⭐️ 108.4k
- Tags:
网页爬取数据提取LLM数据 - 最后活动时间: 2026-04-13
markitdown
将文件和Office文档转换为Markdown的Python工具,支持PDF等多种格式,可集成到RAG和AI工作流中。
- Stars: ⭐️ 106.3k
- Tags:
MarkdownDocument ConversionRAG - 最后活动时间: 2026-03-30
PaddleOCR
强大的轻量级OCR工具包,支持100+语言,可将PDF和图像转换为结构化数据。
- Stars: ⭐️ 75.5k
- Tags:
OCR文档解析多语言 - 最后活动时间: 2026-04-06
crawl4ai
开源的LLM友好型网络爬虫和抓取工具,专为AI应用优化。
- Stars: ⭐️ 63.9k
- Tags:
爬虫数据采集LLM - 最后活动时间: 2026-04-11
MinerU
将PDF等复杂文档转换为LLM可用的Markdown/JSON格式,支持RAG和Agent工作流。
- Stars: ⭐️ 59.6k
- Tags:
PDF解析文档处理RAG - 最后活动时间: 2026-04-12
docling
为生成式AI准备的文档解析工具,支持PDF、DOCX、PPTX等多种格式转换为结构化数据。
- Stars: ⭐️ 57.7k
- Tags:
Document ParsingPDF ConverterGenAI Ready - 最后活动时间: 2026-04-13
EasySpider
可视化无代码网页爬虫工具,支持图形化设计和执行数据采集任务,适合AI训练数据收集和RAG数据准备。
- Stars: ⭐️ 43.8k
- Tags:
crawlerscraperdata-collectionvisualizationrpa - 最后活动时间: 2026-04-12
polars
极速 DataFrame 查询引擎,为 AI/ML 数据处理管道提供高性能数据操作能力。
- Stars: ⭐️ 38.1k
- Tags:
dataframedata-processingrustpython - 最后活动时间: 2026-04-13
Scrapling
自适应AI网页抓取框架,支持从简单请求到大规模爬取,内置MCP服务器支持AI代理智能数据提取。
- Stars: ⭐️ 36.6k
- Tags:
网页抓取MCP数据提取 - 最后活动时间: 2026-04-13
EasyOCR
开箱即用的OCR工具库,支持80+种语言和主流书写系统,包括中文、阿拉伯语、西里尔字母等。
- Stars: ⭐️ 29.3k
- Tags:
OCR多语言PyTorch - 最后活动时间: 2025-12-05
Scrapegraph-ai
基于AI的Python网页爬虫工具,结合LLM实现智能数据提取,支持RAG工作流和Markdown输出。
- Stars: ⭐️ 23.3k
- Tags:
AI爬虫数据提取RAGWeb Scraping - 最后活动时间: 2026-04-09
crawlee
强大的Node.js网页爬取和浏览器自动化库,专为AI/LLM/RAG数据采集设计,支持多种格式下载。
- Stars: ⭐️ 22.7k
- Tags:
Web ScrapingData ExtractionRAG - 最后活动时间: 2026-04-12
cube
开源语义层工具,为AI应用和BI系统提供统一的数据语义定义,助力构建数据驱动的智能分析系统。
- Stars: ⭐️ 19.8k
- Tags:
语义层数据分析BI - 最后活动时间: 2026-04-13
analysis-ik
IK中文分词器,集成Lucene IK分析器到Elasticsearch和OpenSearch,支持自定义词典,是构建中文搜索和RAG系统的必备工具。
- Stars: ⭐️ 17.4k
- Tags:
elasticsearchopensearchnlpchinese-segmentationanalyzer - 最后活动时间: 2026-04-08
olmocr
将PDF文档线性化处理的工具包,专为LLM数据集构建和模型训练设计,简化文档到训练数据的转换流程。
- Stars: ⭐️ 17.1k
- Tags:
PDFLLMDatasetData Processing - 最后活动时间: 2026-03-25
presto
分布式SQL查询引擎,专为大数据分析设计,可高效处理PB级数据查询,为AI/ML数据预处理提供强大支持。
- Stars: ⭐️ 16.7k
- Tags:
big-datasqlquery-enginedata-analyticslakehouse - 最后活动时间: 2026-04-11
opendataloader-pdf
面向AI应用的PDF解析工具,自动生成AI就绪数据,支持PDF无障碍访问与多格式转换。
- Stars: ⭐️ 16.4k
- Tags:
PDF解析RAG文档处理 - 最后活动时间: 2026-04-10
newspaper
Python新闻文章全文与元数据提取库,支持多语言新闻抓取,适用于RAG系统的数据预处理管道。
- Stars: ⭐️ 15.0k
- Tags:
news-extractionweb-scrapingnlprag - 最后活动时间: 2026-04-10
unstructured
开源ETL解决方案,将复杂文档转换为结构化数据,专为语言模型优化,支持PDF、Word等多种格式解析。
- Stars: ⭐️ 14.4k
- Tags:
Document ParsingETLLLMNLP - 最后活动时间: 2026-04-12
OpenRefine
强大的开源数据清洗工具,帮助处理杂乱数据并提升数据质量。
- Stars: ⭐️ 11.8k
- Tags:
data-cleaningdata-wranglingopen-sourcedata-qualityetl - 最后活动时间: 2026-04-10
datahub
面向数据和AI技术栈的元数据管理平台,提供数据发现、数据治理和数据目录功能,助力企业构建现代化的数据基础设施。
- Stars: ⭐️ 11.8k
- Tags:
data-catalogmetadatadata-governancedata-discovery - 最后活动时间: 2026-04-13
great_expectations
数据质量测试和验证框架,帮助ML团队确保数据管道的可靠性和一致性。
- Stars: ⭐️ 11.4k
- Tags:
data-qualitydata-testingmlopspipeline - 最后活动时间: 2026-04-13
PyMuPDF
高性能PDF文档处理库,支持数据提取、OCR识别、表格提取等功能,适用于RAG系统的文档解析场景。
- Stars: ⭐️ 9.4k
- Tags:
PDFOCRData Extraction - 最后活动时间: 2026-04-10
SeaTunnel
Apache基金会的高性能分布式数据集成工具,支持实时和批量数据处理。可处理多模态数据、嵌入向量及LLM相关数据管道,是构建AI数据基础设施的重要组件。
- Stars: ⭐️ 9.2k
- Tags:
Data IntegrationETLApacheReal-timeLLM Data - 最后活动时间: 2026-04-13
Dolphin
基于异构锚点提示的文档图像解析工具,ACL 2025论文官方实现。
- Stars: ⭐️ 8.9k
- Tags:
Document ParsingVLMOCR - 最后活动时间: 2026-03-25
crawlee-python
强大的Python网页爬取和浏览器自动化库,专为AI、LLM、RAG应用设计,支持多种数据提取工具。
- Stars: ⭐️ 8.8k
- Tags:
网页爬取数据采集RAG自动化 - 最后活动时间: 2026-04-09
datafusion
Apache DataFusion 是高性能的 SQL 查询引擎,专为大数据分析和 ML 数据管道设计,支持 DataFrame API 和 SQL 查询。
- Stars: ⭐️ 8.6k
- Tags:
query-enginedataframesqlbig-datarust - 最后活动时间: 2026-04-13
Understand-Anything
将任意代码库转换为交互式知识图谱,支持探索、搜索和问答,帮助开发者快速理解复杂代码结构。
- Stars: ⭐️ 8.2k
- Tags:
Knowledge GraphCode AnalysisClaude Code - 最后活动时间: 2026-04-13
dots.ocr
基于单一视觉语言模型的多语言文档版面解析工具,支持复杂文档结构识别。
- Stars: ⭐️ 8.2k
- Tags:
OCRDocument ParsingVision-Language Model - 最后活动时间: 2026-03-24
kreuzberg
基于Rust核心的多语言文档智能框架,支持88+种格式提取文本和元数据,提供多语言SDK及多种接口。
- Stars: ⭐️ 7.5k
- Tags:
文档解析RAGRust多语言SDK - 最后活动时间: 2026-04-13
youtube-transcript-api
Python API工具,用于获取YouTube视频的字幕和转录文本,无需API密钥即可使用。
- Stars: ⭐️ 7.3k
- Tags:
YouTubeTranscriptData-ExtractionPython - 最后活动时间: 2026-04-10
pdfminer.six
强大的PDF解析库,适用于RAG系统中的文档数据提取与处理。
- Stars: ⭐️ 6.9k
- Tags:
pdfparserdocument-processingpython - 最后活动时间: 2026-03-13
cocoindex
高性能AI数据转换框架,支持增量处理和实时索引,专为RAG、知识图谱和语义搜索场景设计。
- Stars: ⭐️ 6.9k
- Tags:
数据处理ETL实时索引 - 最后活动时间: 2026-04-13
omniparse
多功能数据解析工具,支持文档、多媒体格式解析,优化 GenAI 框架兼容性。
- Stars: ⭐️ 6.8k
- Tags:
数据解析OCRGenAI - 最后活动时间: 2025-12-12
MonkeyOCR
轻量级大模型文档解析工具,基于LMM实现高效准确的文档内容提取与结构化。
- Stars: ⭐️ 6.6k
- Tags:
OCRDocument ParsingLMM - 最后活动时间: 2026-04-01
unstract
基于LLM的非结构化数据提取平台,支持API部署与ETL管道,高效转换文档为结构化输出。
- Stars: ⭐️ 6.5k
- Tags:
Data ExtractionDocument ProcessingLLM - 最后活动时间: 2026-04-12
llm-scraper
利用LLM将任意网页转换为结构化数据,支持Playwright和Puppeteer浏览器自动化。
- Stars: ⭐️ 6.3k
- Tags:
ScraperLLMBrowserData - 最后活动时间: 2026-04-06
Parsr
将PDF、文档和图像转换为结构化数据的智能工具,支持OCR和NLP处理。
- Stars: ⭐️ 6.2k
- Tags:
documentocrnlppdfdata-extraction - 最后活动时间: 2026-03-20
pdf-craft
PDF智能转换工具,专注于扫描书籍PDF的处理与格式转换,集成OCR能力。
- Stars: ⭐️ 5.3k
- Tags:
pdfocrdocument-processingdeepseek-ocr - 最后活动时间: 2026-04-11
sparrow
基于ML和LLM的结构化数据提取工具,支持视觉语言模型进行文档解析与指令调用。
- Stars: ⭐️ 5.2k
- Tags:
数据提取Vision LLMRAG - 最后活动时间: 2026-04-12
grobid
基于机器学习的学术文献信息提取工具,可解析PDF论文并提取结构化元数据。
- Stars: ⭐️ 4.8k
- Tags:
Document ParsingML ExtractionAcademic - 最后活动时间: 2026-04-12
textract
强大的文档文本提取工具,支持PDF、Word、图片等多种格式,简化文档数据解析流程。
- Stars: ⭐️ 4.5k
- Tags:
text-extractiondocument-processingnlp - 最后活动时间: 2026-04-03
llama_cloud_services
LlamaIndex云端知识代理与管理平台,提供强大的文档解析能力,支持PDF、PPT等多种格式转换为结构化数据。
- Stars: ⭐️ 4.2k
- Tags:
Document ParsingKnowledge ManagementCloud - 最后活动时间: 2026-03-25
liteparse
快速、开源的文档解析器,支持PDF、OCR识别和文本提取,适用于RAG和文档处理场景。
- Stars: ⭐️ 4.2k
- Tags:
OCRPDF解析文档处理 - 最后活动时间: 2026-04-12
xarray
N维标签化数组与数据集Python库,为科学计算和机器学习提供强大的多维数据处理能力。
- Stars: ⭐️ 4.1k
- Tags:
numpypandasdasknetcdfpython - 最后活动时间: 2026-04-13
RapidFuzz
高性能模糊字符串匹配库,支持多种字符串相似度算法。适用于NLP数据预处理、实体解析和RAG检索增强场景。
- Stars: ⭐️ 3.8k
- Tags:
string-matchinglevenshteinfuzzy-searchnlp - 最后活动时间: 2026-04-13
JioNLP
准确、高效、易用的中文NLP预处理与解析工具包,支持时间解析、文本清洗等。
- Stars: ⭐️ 3.8k
- Tags:
NLPPreprocessingParser - 最后活动时间: 2025-11-27
tika
Apache Tika工具包,支持从上千种文件格式中检测和提取元数据与文本,适用于RAG数据预处理。
- Stars: ⭐️ 3.7k
- Tags:
content-extractionmetadatadocument-processingapachejava - 最后活动时间: 2026-04-10
qsv
超高速数据清洗工具包,支持CSV、Excel、Parquet等格式处理,适用于AI数据管道预处理。
- Stars: ⭐️ 3.6k
- Tags:
csvdata-engineeringdata-wranglingparquetai - 最后活动时间: 2026-04-12
arrow-rs
Apache Arrow官方Rust实现,提供高性能列式内存格式,是AI/ML数据处理和向量数据库的核心基础设施。
- Stars: ⭐️ 3.4k
- Tags:
arrowparquetdata-processingcolumnar-format - 最后活动时间: 2026-04-10
deepdoctection
强大的文档AI工具包,集成OCR、布局分析、表格识别等功能,支持多种深度学习框架。
- Stars: ⭐️ 3.2k
- Tags:
Document AIOCRTable Recognition - 最后活动时间: 2026-04-09
docarray
多模态数据的表示、传输、存储和搜索工具库,支持神经搜索。
- Stars: ⭐️ 3.1k
- Tags:
multimodalneural-searchsemantic-searchvector-database - 最后活动时间: 2026-03-27
text-extract-api
基于先进OCR和Ollama模型的文档提取API,支持PDF、Word、PPTX等格式,可匿名化文档并转换为结构化数据。
- Stars: ⭐️ 3.1k
- Tags:
OCRDocument ExtractionAPI - 最后活动时间: 2025-12-08
webdataset
面向深度学习的高性能Python I/O系统,支持大规模数据集处理,与PyTorch深度集成。
- Stars: ⭐️ 3.0k
- Tags:
deep-learningpytorchdata-loadingwebdataset-format - 最后活动时间: 2026-02-09
chunkr
将复杂文档转换为RAG/LLM可用数据的视觉基础设施工具。
- Stars: ⭐️ 2.9k
- Tags:
ragdocument-processingllmdata-pipeline - 最后活动时间: 2026-04-09
llm_aided_ocr
利用LLM增强Tesseract OCR输出,支持错误纠正、智能分块和Markdown格式化。
- Stars: ⭐️ 2.9k
- Tags:
OCRPDF处理LLM - 最后活动时间: 2026-03-22
vortex
一个可扩展的现代化列式文件格式,专为高效存储和处理多模态AI数据而设计,支持高级压缩和快速查询。
- Stars: ⭐️ 2.9k
- Tags:
columnarfile-formatmultimodalrustarrow - 最后活动时间: 2026-04-13
cppjieba
高性能中文分词库C++实现,支持多种分词模式,是中文NLP文本处理的基础工具。
- Stars: ⭐️ 2.8k
- Tags:
nlpchinese-segmentationtext-processingcppjieba - 最后活动时间: 2026-03-18
AnyCrawl
高性能Node.js爬虫框架,专为LLM应用优化的数据提取工具。支持将网站内容转换为LLM就绪格式,并提供SERP结构化数据提取能力。
- Stars: ⭐️ 2.8k
- Tags:
Web CrawlerLLM DataRAGSERP - 最后活动时间: 2026-04-07
datachain
多模态数据分析与ETL工具,支持视频、音频、PDF和图像的版本管理与嵌入处理。
- Stars: ⭐️ 2.7k
- Tags:
MultimodalETLLLM - 最后活动时间: 2026-04-13
meltano
声明式数据集成引擎,简化ML应用的数据管道构建与API集成。
- Stars: ⭐️ 2.5k
- Tags:
data-integrationeltdata-pipelinesdataopsopen-source - 最后活动时间: 2026-04-11
meltano
声明式数据集成引擎,简化ML应用的数据管道构建与API集成。
- Stars: ⭐️ 2.4k
- Tags:
data-integrationeltdata-pipelinesdataopsopen-source - 最后活动时间: 2026-04-08
spider
高性能Rust网络爬虫和抓取工具,支持无头浏览器,为AI应用提供数据采集能力。
- Stars: ⭐️ 2.4k
- Tags:
ai-agentcrawlerweb-scrapingspider - 最后活动时间: 2026-04-13
awesome-duckdb
DuckDB资源精选列表,适用于AI数据管道和分析型数据库场景。
- Stars: ⭐️ 2.4k
- Tags:
duckdbdatabasedata-analyticssql - 最后活动时间: 2026-04-11
splink
快速、准确且可扩展的概率数据链接工具,支持多种SQL后端,用于实体解析和去重。
- Stars: ⭐️ 2.1k
- Tags:
entity-resolutionrecord-linkagededuplicationdata-matching - 最后活动时间: 2026-04-09
docext
本地部署的无OCR非结构化数据提取工具,支持Markdown转换和基准测试,适用于RAG文档预处理场景。
- Stars: ⭐️ 2.0k
- Tags:
Document ExtractionOCR-FreeOn-Premise - 最后活动时间: 2026-03-17
onefilellm
将GitHub仓库、arXiv论文、YouTube字幕等多种来源内容抓取并整理为文本,便于LLM输入处理。
- Stars: ⭐️ 1.9k
- Tags:
llmarxivgithubpdfyoutube-transcript - 最后活动时间: 2026-02-08
contextgem
专注于文档信息提取的LLM框架,支持从合同、报告等文档中提取结构化数据,适用于企业级文档智能处理场景。
- Stars: ⭐️ 1.8k
- Tags:
LLM文档提取合同分析 - 最后活动时间: 2026-03-16
WaterCrawl
将网页内容转换为LLM就绪数据的爬虫工具,支持HTML转Markdown。
- Stars: ⭐️ 1.8k
- Tags:
crawlerscraperllmhtml2markdownweb-scraping - 最后活动时间: 2026-03-14
semtools
命令行语义搜索与文档解析工具,基于Rust开发,支持静态嵌入和高效语义检索。
- Stars: ⭐️ 1.8k
- Tags:
Semantic SearchCLIRust - 最后活动时间: 2026-03-11
markpdfdown
基于大模型视觉识别的高质量PDF转Markdown工具,支持复杂排版。
- Stars: ⭐️ 1.7k
- Tags:
pdfmarkdownllmpdf-converter - 最后活动时间: 2026-01-25
tika-python
Apache Tika的Python绑定,提供文本提取和内容解析功能。支持多种文档格式的文本和元数据提取。
- Stars: ⭐️ 1.7k
- Tags:
text-extractiondocument-parsingpython - 最后活动时间: 2026-03-28
DataProfiler
强大的数据剖析工具,可从数据集中提取模式、统计信息和实体,支持PII敏感数据检测和NLP实体识别。
- Stars: ⭐️ 1.6k
- Tags:
data-profilingnlpentity-extractionpii-detectionmachine-learning - 最后活动时间: 2026-04-07
pymupdf4llm
专为LLM优化的PDF解析库,基于PyMuPDF提供高效的文档提取能力。
- Stars: ⭐️ 1.5k
- Tags:
pdfparsingllmrag - 最后活动时间: 2026-04-10
thepipe
基于视觉语言模型的文档数据提取工具,支持从PDF、网页等复杂文档中提取结构化数据,为RAG应用提供高质量数据预处理管道。
- Stars: ⭐️ 1.5k
- Tags:
文档提取多模态RAG - 最后活动时间: 2026-03-25
docstrange
智能文档数据提取工具,支持多种格式转换和高级OCR,可将任意文档转为Markdown、JSON等结构化格式。
- Stars: ⭐️ 1.4k
- Tags:
Document ParsingOCRStructured Data - 最后活动时间: 2025-10-31
docling-serve
将Docling文档解析库封装为API服务,支持AI驱动的文档理解和结构化提取,适用于RAG应用场景。
- Stars: ⭐️ 1.4k
- Tags:
document-parsingragapi-servicedocling - 最后活动时间: 2026-04-10
odd-platform
开源数据发现与可观测性平台,帮助数据从业者管理数据血缘和质量。
- Stars: ⭐️ 1.4k
- Tags:
data-discoverydata-observabilitydata-lineage - 最后活动时间: 2026-04-03
quilt
AWS上的科学数据管理平台,帮助团队和AI系统高效发现、信任和复用版本化数据包。
- Stars: ⭐️ 1.4k
- Tags:
data-managementdata-versioningawsai-data - 最后活动时间: 2026-04-10
amphi-etl
Python驱动的可视化数据准备工具,支持结构化与非结构化数据ETL。
- Stars: ⭐️ 1.4k
- Tags:
etldata-pipelinesdata-preparation - 最后活动时间: 2026-04-13
deepwiki-mcp
MCP 服务器,用于获取 deepwiki.com 最新知识,支持 Cursor 等代码编辑器。
- Stars: ⭐️ 1.3k
- Tags:
mcpknowledge-basedocumentationrag - 最后活动时间: 2026-03-20
OpenOCR
开源OCR工具包,集成统一训练评估基准和商业级文档解析系统,支持场景文本检测与识别。
- Stars: ⭐️ 1.3k
- Tags:
OCR文档解析PyTorch - 最后活动时间: 2026-03-02
OpenContracts
人机协作的知识库构建平台,支持文档标注、版本控制、语义搜索和MCP协议。
- Stars: ⭐️ 1.3k
- Tags:
文档标注知识库MCP - 最后活动时间: 2026-04-13
botflow
用于数据管道工作的Python快速数据流编程框架,支持爬虫、机器学习和量化交易。
- Stars: ⭐️ 1.2k
- Tags:
data-pipelinemachine-learningpython - 最后活动时间: 2026-02-03
langchain-extract
基于LangChain的数据提取工具,简化结构化数据抽取流程。
- Stars: ⭐️ 1.2k
- Tags:
data-extractionlangchainllmfastapi - 最后活动时间: 2026-02-10
Oxen
专为机器学习数据集设计的快速版本控制系统,支持结构化和非结构化数据。
- Stars: ⭐️ 1.1k
- Tags:
data-version-controlmachine-learningdatasetsrust - 最后活动时间: 2026-04-13
pdf-document-layout-analysis
基于Docker的PDF文档布局分析服务,可识别文本、标题、图片、表格等元素,适用于RAG文档预处理。
- Stars: ⭐️ 1.1k
- Tags:
pdfdocument-analysislayout-analysisocr - 最后活动时间: 2026-04-02
kg-gen
从任意文本生成知识图谱的工具,发表于NeurIPS 2025。
- Stars: ⭐️ 1.1k
- Tags:
knowledge-graphllmnlp - 最后活动时间: 2026-03-24
ocrbase
基于 PaddleOCR-VL 的 PDF 文档处理工具,支持将 PDF 转换为 Markdown 或 JSON 格式,提供结构化数据提取能力,可自托管部署。
- Stars: ⭐️ 990
- Tags:
OCRPDF处理文档解析PaddleOCR - 最后活动时间: 2026-04-09
data-prep-kit
开源GenAI数据准备工具包,提供数据清洗、去重、预处理等完整流水线支持。
- Stars: ⭐️ 918
- Tags:
data-preparationllmdata-processingfinetuning - 最后活动时间: 2026-03-13
spacy-layout
spaCy官方文档处理扩展,支持PDF、Word等格式的智能解析与布局分析,为RAG应用提供高质量预处理能力。
- Stars: ⭐️ 881
- Tags:
NLPPDF处理RAG文档解析 - 最后活动时间: 2026-03-27
mdream
GitHub上最快的HTML转Markdown转换器,专为LLM优化并支持流式处理。
- Stars: ⭐️ 861
- Tags:
htmlmarkdownllmstreaming - 最后活动时间: 2026-04-06
img2table
基于OpenCV的表格识别与提取库,支持从PDF和图片中提取表格数据。
- Stars: ⭐️ 861
- Tags:
table-extractionocrdocument-ai - 最后活动时间: 2026-04-03
dataset-viewer
Hugging Face 数据集查看器的后端服务,提供公开 API 用于浏览和分析机器学习数据集。
- Stars: ⭐️ 856
- Tags:
HuggingFaceDatasetsAPI - 最后活动时间: 2026-04-08
ontogpt
基于 LLM 的本体知识抽取工具,支持命名实体识别和关系抽取等 NLP 任务。
- Stars: ⭐️ 851
- Tags:
OntologyNERLLM - 最后活动时间: 2026-04-07
deeptime
用于时间序列分析的Python库,支持降维、聚类和马尔可夫模型估计,适用于复杂系统动力学建模。
- Stars: ⭐️ 849
- Tags:
time-series-analysismarkov-modelclusteringmachine-learning - 最后活动时间: 2026-03-30
llama-scan
使用本地LLM转录PDF文档的工具,支持离线文档处理。
- Stars: ⭐️ 818
- Tags:
llmpdftranscriptionlocal-llm - 最后活动时间: 2026-01-27
llms-txt-hub
最大的AI就绪文档目录,实现llms.txt标准,帮助LLM更好地理解和检索文档内容。
- Stars: ⭐️ 791
- Tags:
llms-txtdocumentationRAG - 最后活动时间: 2026-04-13
markitdown
支持Java命令行和Python Web的双版本文档转Markdown工具,集成PaddleOCR实现智能文档解析。
- Stars: ⭐️ 786
- Tags:
document-converterocrmarkdownpaddleocr - 最后活动时间: 2026-03-23
text-dedup
一站式文本去重工具,支持多种去重算法,高效处理大规模文本数据。
- Stars: ⭐️ 750
- Tags:
deduplicationtext-processingdata-processing - 最后活动时间: 2026-03-09
datavines
下一代数据可观测性平台,支持元数据管理和数据质量监控,为AI/ML数据管道提供可靠的数据质量保障。
- Stars: ⭐️ 729
- Tags:
data-qualitydata-observabilitymetadatadata-engineering - 最后活动时间: 2026-04-13
datashare
自托管文档搜索引擎,支持命名实体识别(NER)和文本提取,适用于调查性新闻和数据挖掘场景。
- Stars: ⭐️ 726
- Tags:
named-entity-recognitiontext-extractionelasticsearchsearch-engine - 最后活动时间: 2026-04-10
Herbie
下载气象数值预测数据集的工具,支持HRRR、GFS等多种格式,适用于AI气象预测模型训练。
- Stars: ⭐️ 726
- Tags:
weatherdatasetmeteorologyxarray - 最后活动时间: 2026-04-10
PyMuPDF-Utilities
基于PyMuPDF的实用工具集,提供PDF文档处理、OCR文字识别、文本提取等功能示例。
- Stars: ⭐️ 713
- Tags:
pdfocrdocument-processingpythonpymupdf - 最后活动时间: 2026-01-08
kordoc
支持多种文档格式(HWP、HWPX、PDF、XLSX、DOCX)转换为Markdown的解析工具,提供CLI和MCP服务器接口,适合RAG应用场景。
- Stars: ⭐️ 710
- Tags:
document-parsermcppdfdocxmarkdown - 最后活动时间: 2026-04-11
dataset-viewer
由AI Agent构建的现代化数据集查看器,支持从Hugging Face、S3、WebDAV等多种来源流式加载大文件,适合AI开发者快速预览和处理训练数据。
- Stars: ⭐️ 664
- Tags:
DatasetStreamingTauri - 最后活动时间: 2026-03-28
dedoc
自动化文档解析库,支持提取内容、逻辑结构、表格和元信息,兼容多种文档格式。
- Stars: ⭐️ 657
- Tags:
文档解析表格识别OCR - 最后活动时间: 2026-04-07
kepler-mapper
灵活的Python Mapper算法实现,用于拓扑数据分析(TDA)。可将高维数据映射为可理解的图结构,帮助发现数据中的隐藏模式和形状。
- Stars: ⭐️ 650
- Tags:
topological-data-analysisdata-visualizationpythonmapper-algorithmtda - 最后活动时间: 2026-03-07
html-to-markdown
高性能HTML转Markdown转换器,支持OCR和文档智能处理,适用于RAG数据预处理。
- Stars: ⭐️ 644
- Tags:
html-convertermarkdowntext-extractionrag - 最后活动时间: 2026-04-12
pdf-reader-mcp
生产级PDF处理MCP服务器,支持并行处理,速度提升5-10倍,测试覆盖率94%以上。
- Stars: ⭐️ 639
- Tags:
MCPPDFDocument ProcessingParallel Processing - 最后活动时间: 2026-04-13
ade-python
用于智能文档提取的Python库,支持AI驱动的文档解析与信息抽取。
- Stars: ⭐️ 639
- Tags:
document-extractionai-agentspython-library - 最后活动时间: 2026-04-09
semchunk
轻量级Python文本语义分块库,优化RAG系统检索效果。
- Stars: ⭐️ 605
- Tags:
semantic-chunkingtext-processingrag - 最后活动时间: 2026-03-23
text-splitter
将文本按语义智能分块的 Rust/Python 库,支持按字符和 Token 计算长度,是 RAG 系统中文档预处理的关键组件。
- Stars: ⭐️ 584
- Tags:
text-splittingragchunkingnlprust - 最后活动时间: 2026-04-12
mineru-tianshu
企业级AI数据预处理平台,支持PDF/Office转Markdown、多模态信息提取,集成MCP协议AI助手。
- Stars: ⭐️ 577
- Tags:
document-parsingmcpmultimodalrag - 最后活动时间: 2026-04-13
docling-mcp
通过 MCP 协议让 Docling 文档解析工具具备智能体能力,实现文档处理的自动化。
- Stars: ⭐️ 565
- Tags:
mcpdocument-processingagentrag - 最后活动时间: 2026-04-07
r-polars
Polars 的 R 语言绑定,提供高性能 DataFrame 数据处理能力,广泛应用于机器学习和数据分析工作流。
- Stars: ⭐️ 562
- Tags:
polarsdataframedata-processingrrust - 最后活动时间: 2026-04-11
pdf_oxide
极速PDF处理库,支持文本提取、图片提取、Markdown转换等功能,比行业领先方案快5倍,非常适合RAG场景。
- Stars: ⭐️ 557
- Tags:
pdfpdf-parserpdf-to-markdownragtext-extraction - 最后活动时间: 2026-04-12
harvester
智能数据采集框架,支持从GitHub和网页源获取数据,集成Anthropic、DeepSeek、Gemini、OpenAI、Qwen等多种AI模型。
- Stars: ⭐️ 550
- Tags:
aidata-collectionweb-scrapingopenaianthropic - 最后活动时间: 2025-12-25
DeepSeek-OCR-Web
基于DeepSeek的开箱即用OCR文档解析Web工作室,支持智能文档识别与结构化提取。
- Stars: ⭐️ 545
- Tags:
OCRDocument ParsingDeepSeek - 最后活动时间: 2025-10-27
scrape-it-now
专为AI设计的网页爬虫工具,支持并行处理并输出高质量Markdown内容,适合用于AI训练数据采集。
- Stars: ⭐️ 540
- Tags:
aiscraperclimarkdown - 最后活动时间: 2025-11-03
wdoc
强大的异构文档处理工具,支持多种文件格式和任意LLM提供商,提供高级RAG检索和智能摘要功能。
- Stars: ⭐️ 514
- Tags:
RAGDocument ProcessingLLM - 最后活动时间: 2026-03-08
ragflow-upload
RagFlow文档批量上传与解析自动化工具,支持将文档自动上传至知识库并完成解析,显著提升RAG系统构建效率。
- Stars: ⭐️ 505
- Tags:
ragflowdocument-uploadknowledge-baseautomation - 最后活动时间: 2026-03-26
MinerU-Diffusion
基于扩散模型的文档OCR框架,采用块级并行扩散解码替代自回归解码,高效提取PDF文档数据。
- Stars: ⭐️ 502
- Tags:
diffusionocrdocument-analysispdf-parser - 最后活动时间: 2026-03-31
RAG Frameworks
ragflow
领先的开源检索增强生成引擎,融合前沿RAG技术与Agent能力,支持深度文档理解和GraphRAG。
- Stars: ⭐️ 77.9k
- Tags:
RAGAgentGraphRAG - 最后活动时间: 2026-04-13
pathway
高性能Python ETL框架,支持流处理、实时分析、LLM管道和RAG应用开发。
- Stars: ⭐️ 63.5k
- Tags:
ETLRAGStream ProcessingLLM - 最后活动时间: 2026-04-13
llm-app
开箱即用的RAG和AI管道云模板,支持多数据源实时同步,Docker友好,适合构建企业级实时数据检索应用。
- Stars: ⭐️ 60.0k
- Tags:
RAGReal-timeEnterprise - 最后活动时间: 2026-01-07
llama_index
领先的数据框架,专注于连接自定义数据与大语言模型,支持构建RAG应用和文档智能体,是开发LLM应用的核心工具。
- Stars: ⭐️ 48.5k
- Tags:
RAGAgentsLLMFramework - 最后活动时间: 2026-04-10
mempalace
高性能 AI 记忆系统,在基准测试中得分最高,支持 MCP 协议和 ChromaDB 向量存储。
- Stars: ⭐️ 41.5k
- Tags:
memoryllmmcpchromadbrag - 最后活动时间: 2026-04-11
Langchain-Chatchat
基于Langchain的本地知识库问答应用,支持ChatGLM、Qwen、Llama等多种大语言模型,提供完整的RAG和Agent功能。
- Stars: ⭐️ 37.8k
- Tags:
RAGLangChain知识库ChatGLM - 最后活动时间: 2025-11-10
LightRAG
轻量高效的RAG框架,结合知识图谱实现快速准确的文档检索与问答,资源消耗低、响应速度快。
- Stars: ⭐️ 33.1k
- Tags:
RAG知识图谱检索增强 - 最后活动时间: 2026-04-12
graphrag
微软开源的模块化图结构RAG系统,提升复杂知识检索与推理能力。
- Stars: ⭐️ 32.2k
- Tags:
RAGGraphRAGLLMGPT-4 - 最后活动时间: 2026-04-13
FastGPT
基于大语言模型的知识库平台,提供数据处理、RAG检索和可视化AI工作流编排能力。
- Stars: ⭐️ 27.7k
- Tags:
RAGWorkflowLLMAgent - 最后活动时间: 2026-04-13
GitNexus
零服务器代码智能引擎,在浏览器中运行的知识图谱创建器,内置Graph RAG智能体。
- Stars: ⭐️ 27.0k
- Tags:
knowledge-graphragcode-intelligencebrowser - 最后活动时间: 2026-04-13
RAG_Techniques
展示RAG系统各种高级技术的资源库,结合信息检索与生成模型提供精准响应。
- Stars: ⭐️ 26.7k
- Tags:
RAGLangChain教程 - 最后活动时间: 2026-04-11
kotaemon
开源RAG工具,支持与文档进行智能对话,基于检索增强生成技术让用户轻松与文档内容交互。
- Stars: ⭐️ 25.3k
- Tags:
RAGDocument ChatOpen Source - 最后活动时间: 2026-04-03
PageIndex
创新的无向量RAG文档索引方案,通过推理能力实现精准文档检索,摆脱对传统向量数据库的依赖。
- Stars: ⭐️ 25.1k
- Tags:
RAG文档索引推理检索 - 最后活动时间: 2026-04-10
graphify
将任意代码、文档或图像文件夹转换为可查询的知识图谱,支持Claude Code、Codex等多种AI编码助手的GraphRAG技能。
- Stars: ⭐️ 24.5k
- Tags:
graphragknowledge-graphclaude-codecodex - 最后活动时间: 2026-04-13
localGPT
在本地设备上使用GPT模型与文档对话,数据完全私有化,100%保护隐私。
- Stars: ⭐️ 22.2k
- Tags:
raglocal-llmdocument-qaprivacy - 最后活动时间: 2026-03-10
sentence-transformers
业界领先的文本嵌入框架,提供最先进的句子和文本向量表示,广泛应用于语义搜索、聚类和RAG系统。
- Stars: ⭐️ 18.5k
- Tags:
embeddingsnlptransformerssemantic-search - 最后活动时间: 2026-04-10
RAG-Anything
一站式RAG框架,支持多模态检索增强生成,简化RAG系统开发流程。
- Stars: ⭐️ 15.6k
- Tags:
ragretrieval-augmented-generationmulti-modalframework - 最后活动时间: 2026-04-07
cognee
AI代理记忆知识引擎,6行代码即可集成知识图谱与向量数据库,支持Graph RAG和多种后端存储。
- Stars: ⭐️ 15.2k
- Tags:
知识图谱Graph RAGAI代理记忆 - 最后活动时间: 2026-04-13
memvid
轻量级AI智能体记忆层,用无服务器单文件方案替代复杂RAG管道,支持即时检索和长期记忆。
- Stars: ⭐️ 14.9k
- Tags:
RAGAI记忆无服务器 - 最后活动时间: 2026-03-16
llmware
企业级RAG管道统一框架,专注于使用小型专业化模型构建检索增强生成系统。
- Stars: ⭐️ 14.9k
- Tags:
RAGEnterpriseLLM - 最后活动时间: 2026-03-26
WeKnora
基于LLM的深度文档理解框架,采用RAG范式实现语义检索和上下文感知问答,支持多租户和多模型架构。
- Stars: ⭐️ 13.8k
- Tags:
RAGSemantic SearchDocument Understanding - 最后活动时间: 2026-04-13
txtai
一体化AI框架,支持语义搜索、LLM编排和语言模型工作流,集成向量数据库和AI代理功能。
- Stars: ⭐️ 12.4k
- Tags:
RAG语义搜索LLM向量数据库 - 最后活动时间: 2026-04-08
FlagEmbedding
BAAI开源的嵌入模型与检索增强生成工具包,支持文本语义相似度计算和大模型检索增强。
- Stars: ⭐️ 11.5k
- Tags:
EmbeddingsRAGLLM - 最后活动时间: 2026-04-01
quickwit
云原生搜索引擎,专为可观测性设计,可作为RAG系统的检索后端,支持大规模日志和文档检索。
- Stars: ⭐️ 11.1k
- Tags:
search-enginecloud-nativedistributed-tracingtantivy - 最后活动时间: 2026-04-13
LEANN
高效隐私的本地RAG解决方案,支持97%存储压缩,可在个人设备上运行快速、准确的检索增强生成应用。
- Stars: ⭐️ 10.8k
- Tags:
RAGPrivacyLocal Storage - 最后活动时间: 2026-04-13
KAG
基于OpenSPG引擎的逻辑推理增强检索框架,专为专业领域知识库设计,有效解决传统RAG向量相似度计算的局限性。
- Stars: ⭐️ 8.7k
- Tags:
RAGKnowledge GraphReasoning - 最后活动时间: 2026-01-28
paper-qa
高精度 RAG 框架,专为科学文献问答设计,支持引用溯源。
- Stars: ⭐️ 8.4k
- Tags:
ragsciencesearchcitations - 最后活动时间: 2026-03-20
R2R
生产级AI检索系统,提供基于Agent的RAG框架和RESTful API接口。
- Stars: ⭐️ 7.8k
- Tags:
ragretrieval-augmented-generationlarge-language-modelsretrieval-systems - 最后活动时间: 2025-11-07
deep-searcher
开源深度研究工具,结合Agentic RAG技术在私有数据上实现智能推理与搜索,支持多种LLM和向量数据库。
- Stars: ⭐️ 7.7k
- Tags:
RAGAgentDeep Research - 最后活动时间: 2025-11-19
azure-search-openai-demo
微软官方RAG模式示例应用,结合Azure AI Search和Azure OpenAI实现企业级智能问答。
- Stars: ⭐️ 7.6k
- Tags:
RAGAzureEnterprise - 最后活动时间: 2026-04-10
pdfGPT
基于GPT的PDF文档对话工具,让用户能够与PDF内容进行智能问答交互。
- Stars: ⭐️ 7.2k
- Tags:
pdfgptragdocument-qachatbot - 最后活动时间: 2026-03-06
airweave
开源AI智能体上下文检索层,支持多种数据连接器和语义搜索,轻松实现企业数据访问与检索。
- Stars: ⭐️ 6.2k
- Tags:
RAG语义搜索数据连接器 - 最后活动时间: 2026-04-10
pgai
PostgreSQL AI扩展工具集,让开发者能够更轻松地构建RAG、语义搜索等AI应用。
- Stars: ⭐️ 5.8k
- Tags:
PostgreSQLRAGSemantic Search - 最后活动时间: 2026-02-11
UltraRAG
低代码MCP框架,用于构建复杂创新的RAG管道,支持多模态检索和多种LLM后端集成,简化RAG应用开发流程。
- Stars: ⭐️ 5.5k
- Tags:
RAGMCP低代码多模态 - 最后活动时间: 2026-04-13
AutoRAG
开源RAG评估与优化框架,采用AutoML风格自动化技术,提供完整的评估、基准测试和优化管道。
- Stars: ⭐️ 4.7k
- Tags:
RAGEvaluationAutoML - 最后活动时间: 2026-04-10
llm-graph-builder
基于LLM的Neo4j知识图谱构建工具,支持从非结构化数据自动生成图结构,助力GraphRAG应用开发。
- Stars: ⭐️ 4.6k
- Tags:
Knowledge GraphGraphRAGNeo4jLLM - 最后活动时间: 2026-04-07
cognita
TrueFoundry开源的RAG框架,用于构建模块化、可生产的AI应用。
- Stars: ⭐️ 4.4k
- Tags:
RAGLLMFrameworkEnterprise - 最后活动时间: 2026-03-13
local-deep-research
本地深度研究工具,SimpleQA基准95%准确率,支持arXiv、PubMed等10+数据源,全程本地加密。
- Stars: ⭐️ 4.3k
- Tags:
Deep ResearchLocal LLMRAGSelf-hosted - 最后活动时间: 2026-04-13
memory-lancedb-pro
增强版LanceDB记忆插件,支持混合检索(向量+BM25)、交叉编码器重排序和多范围隔离。
- Stars: ⭐️ 4.2k
- Tags:
LanceDBRAGHybrid Retrieval - 最后活动时间: 2026-04-12
chonkie
轻量级文档分块库,专为高效RAG管道设计,支持语义分块、相似度搜索等多种分割算法。
- Stars: ⭐️ 3.9k
- Tags:
ChunkingRAGText-Splitter - 最后活动时间: 2026-04-12
ColBERT
业界领先的神经搜索框架,支持高效文档检索与语义搜索,发表于SIGIR、NeurIPS等顶会。
- Stars: ⭐️ 3.8k
- Tags:
neural-searchinformation-retrievalbertsemantic-search - 最后活动时间: 2025-10-14
nano-graphrag
简洁易读的GraphRAG实现,专为学习和二次开发设计,适合理解图增强检索技术的核心原理。
- Stars: ⭐️ 3.8k
- Tags:
GraphRAGKnowledge GraphRAG - 最后活动时间: 2026-01-27
fast-graphrag
智能适配用户场景、数据和查询的 RAG 框架,提供高性能检索能力。
- Stars: ⭐️ 3.8k
- Tags:
raggraphragretrievalknowledge-graph - 最后活动时间: 2025-11-01
morphik-core
高精度文档搜索与存储引擎,支持多模态RAG应用开发,集成ColPali检索技术。
- Stars: ⭐️ 3.6k
- Tags:
ragdocument-searchmultimodaldatabase - 最后活动时间: 2026-04-02
FlashRAG
高效RAG研究Python工具包,WWW2025资源论文,支持检索增强生成全流程。
- Stars: ⭐️ 3.5k
- Tags:
RAGLLMRetrievalBenchmark - 最后活动时间: 2026-04-10
lucene
Apache Lucene是业界领先的开源全文搜索引擎库,为RAG系统和信息检索应用提供核心基础能力。
- Stars: ⭐️ 3.4k
- Tags:
search-engineinformation-retrievaljavafull-text-search - 最后活动时间: 2026-04-12
cohere-toolkit
Cohere官方推出的RAG应用构建工具包,提供预构建组件帮助开发者快速搭建和部署检索增强生成应用。
- Stars: ⭐️ 3.2k
- Tags:
ragcoherellmtoolkit - 最后活动时间: 2026-03-31
sentrysearch
基于Gemini Embedding 2或Qwen3-VL的视频语义搜索工具,支持对行车记录仪和特斯拉视频进行智能检索。
- Stars: ⭐️ 3.1k
- Tags:
semantic-searchvideogeminiqwen3-vlchromadb - 最后活动时间: 2026-04-12
ChatRTX
NVIDIA 开发的 RAG 聊天机器人参考项目,支持在 Windows 上使用 TensorRT-LLM 进行本地部署。
- Stars: ⭐️ 3.1k
- Tags:
ragtensorrtllmchatbotwindows - 最后活动时间: 2026-01-21
knowledge_graph
将任意文本转换为知识图谱,支持Graph Augmented Generation和基于知识图谱的问答系统。
- Stars: ⭐️ 3.1k
- Tags:
Knowledge GraphRAGText Processing - 最后活动时间: 2026-02-12
agentic-rag-for-dummies
基于LangGraph构建的模块化Agentic RAG系统,帮助开发者快速上手检索增强生成智能体。
- Stars: ⭐️ 3.0k
- Tags:
RAGAgentLangGraphQdrant - 最后活动时间: 2026-04-01
swirl-search
无需移动数据的AI搜索与RAG平台,支持100+应用联邦查询,分钟级部署,保障数据安全。
- Stars: ⭐️ 3.0k
- Tags:
ragfederated-searchai-searchretrieval-augmented-generation - 最后活动时间: 2026-04-12
NeMo-Retriever
NVIDIA开源的可扩展文档内容提取微服务,支持文本、表格、图表和图像提取,专为生成式AI应用设计。
- Stars: ⭐️ 2.9k
- Tags:
RAGNVIDIADocument Extraction - 最后活动时间: 2026-04-08
VideoRAG
KDD'2026论文项目,实现与视频内容的对话式交互,结合长视频理解与检索增强生成技术。
- Stars: ⭐️ 2.9k
- Tags:
Video RAGMulti-ModalLong-Video - 最后活动时间: 2026-03-18
autoflow
基于 Graph RAG 的对话式知识库工具,使用 TiDB Serverless 向量存储构建。支持知识图谱和智能问答。
- Stars: ⭐️ 2.8k
- Tags:
RAGGraphRAGVector DatabaseKnowledge Graph - 最后活动时间: 2026-04-05
memobase
面向AI聊天应用的用户画像长期记忆系统,支持RAG检索增强。
- Stars: ⭐️ 2.7k
- Tags:
ai-memorylong-term-memoryragllm-memoryuser-profile - 最后活动时间: 2026-01-11
trieve
一站式搜索、推荐、RAG和分析平台,提供完整的API服务。
- Stars: ⭐️ 2.6k
- Tags:
airagsearch-enginevector-searchembedding - 最后活动时间: 2026-01-25
colpali
ColVision系列模型训练与推理代码,支持ColPali、ColQwen2等视觉语言检索模型。
- Stars: ⭐️ 2.6k
- Tags:
vision-language-modelinformation-retrievalragcolpali - 最后活动时间: 2026-04-06
claude-supermemory
让 Claude Code 实时学习并更新知识库,实现持续成长的记忆系统。
- Stars: ⭐️ 2.5k
- Tags:
claude-codememoryragsupermemory - 最后活动时间: 2026-03-06
ddgs
元搜索库,聚合多源网络搜索结果,提供MCP服务器接口供AI代理调用。
- Stars: ⭐️ 2.4k
- Tags:
metasearchwebsearchmcpmcp-serversearch-api - 最后活动时间: 2026-04-11
code-graph-rag
面向单体代码库的终极RAG解决方案,结合知识图谱和AI技术实现多语言代码库的查询、理解与编辑。
- Stars: ⭐️ 2.3k
- Tags:
RAGKnowledge GraphCode AnalysisMCP - 最后活动时间: 2026-03-27
kernel-memory
面向用户和应用的内存解决方案,提供索引、语义搜索和RAG能力,支持团队协作。
- Stars: ⭐️ 2.1k
- Tags:
RAGMemorySemantic-SearchIndexing - 最后活动时间: 2025-12-18
beir
异构信息检索基准平台,支持15+数据集的零样本检索模型评估。
- Stars: ⭐️ 2.1k
- Tags:
information-retrievalbenchmarkragpassage-retrieval - 最后活动时间: 2025-10-16
graph-rag-agent
整合GraphRAG、LightRAG和Neo4j的知识图谱构建与搜索框架,结合DeepSearch实现私域RAG推理,并提供GraphRAG评估框架。
- Stars: ⭐️ 2.1k
- Tags:
GraphRAGKnowledge-GraphDeepSearchEvaluation - 最后活动时间: 2025-11-05
pyserini
用于可复现信息检索研究的Python工具包,支持稀疏和密集表示。
- Stars: ⭐️ 2.0k
- Tags:
information-retrievalsearchpython - 最后活动时间: 2026-04-12
trustgraph
图原生上下文开发平台,提供知识存储、丰富和检索能力,支持语义检索和可移植上下文核心。
- Stars: ⭐️ 2.0k
- Tags:
知识图谱语义检索上下文平台 - 最后活动时间: 2026-04-13
ai-knowledge-graph
AI驱动的知识图谱生成器,支持可视化展示与网络分析。
- Stars: ⭐️ 2.0k
- Tags:
knowledge-graphllmvisualizationnetworkx - 最后活动时间: 2025-12-28
agentset
开源RAG平台,内置引用、深度研究、支持22+文件格式、分区和MCP服务器等功能。
- Stars: ⭐️ 1.9k
- Tags:
RAGAI AgentsEmbeddings - 最后活动时间: 2026-03-21
obsidian-omnisearch
Obsidian智能搜索引擎,支持OCR文字识别和PDF索引,提供语义化搜索体验。
- Stars: ⭐️ 1.9k
- Tags:
SearchOCRPDFRAG - 最后活动时间: 2026-02-28
notebooklm-mcp
NotebookLM的MCP服务器,让AI代理直接从知识库获取带引用支撑的精准答案,实现零幻觉研究。
- Stars: ⭐️ 1.9k
- Tags:
MCPNotebookLMRAGAI Agents - 最后活动时间: 2025-12-27
MiniRAG
使用小型开源语言模型简化 RAG 系统的轻量级框架。
- Stars: ⭐️ 1.8k
- Tags:
ragsmall-language-modelslightweightopen-source - 最后活动时间: 2025-10-16
fully-local-pdf-chatbot
完全本地化的PDF文档对话实现,支持离线运行,保护数据隐私。
- Stars: ⭐️ 1.8k
- Tags:
ragpdflocal-llmdocument-chat - 最后活动时间: 2025-12-06
yt-fts
YouTube全文本搜索工具,结合LLM和RAG技术实现语义搜索,支持从命令行搜索整个YouTube视频内容。
- Stars: ⭐️ 1.8k
- Tags:
ragllmsemantic-searchchromadbcli - 最后活动时间: 2026-01-22
fastRAG
Intel Labs开源的高效RAG框架,支持ColBERT、知识图谱、多模态检索,显著提升问答和搜索性能。
- Stars: ⭐️ 1.8k
- Tags:
RAG信息检索Intel - 最后活动时间: 2026-01-12
contextplus
面向大规模工程项目的MCP服务器,结合RAG、Tree-sitter AST和谱聚类技术,将代码库转化为可搜索的层次化特征图谱,实现99%精度的语义智能检索。
- Stars: ⭐️ 1.8k
- Tags:
MCP ServerRAGCode Intelligence - 最后活动时间: 2026-04-06
llm-wiki-agent
自维护的个人知识库系统,支持 Claude Code、Codex、Gemini CLI,自动从源文件提取知识并构建互联 Wiki,无需 API 密钥。
- Stars: ⭐️ 1.7k
- Tags:
knowledge-baseragknowledge-graphclaude-codemarkdownwiki - 最后活动时间: 2026-04-13
RAGHub
社区驱动的 RAG 框架、项目和资源集合,探索检索增强生成生态系统。
- Stars: ⭐️ 1.7k
- Tags:
ragaillmretrieval-augmented-generation - 最后活动时间: 2026-01-15
edgequake
高性能GraphRAG框架,使用Rust编写,灵感源自LightRAG,专注于知识图谱检索。
- Stars: ⭐️ 1.7k
- Tags:
graphragragrustknowledge-graph - 最后活动时间: 2026-04-11
ragbits
GenAI应用快速开发构建块,提供文档搜索、评估、护栏、提示优化等完整工具链。
- Stars: ⭐️ 1.6k
- Tags:
ragagentsllmsvector-storesdocument-search - 最后活动时间: 2026-04-13
bm25s
高性能Python BM25词法搜索库,专为RAG系统提供快速检索能力。
- Stars: ⭐️ 1.6k
- Tags:
bm25lexical-searchinformation-retrievalrag - 最后活动时间: 2026-04-05
trench
开源分析基础设施,基于ClickHouse和Kafka构建,支持LLM RAG应用和产品分析仪表板。
- Stars: ⭐️ 1.6k
- Tags:
analyticsclickhousekafkaragllmdashboard - 最后活动时间: 2026-04-06
rerankers
轻量级统一的重排序API,支持所有常见的重排序和交叉编码器模型,简化RAG检索流程。
- Stars: ⭐️ 1.6k
- Tags:
rerankingcross-encoderRAG - 最后活动时间: 2025-12-20
lotus
AI驱动的数据处理框架,结合LLM和嵌入技术实现语义搜索与查询,性能提升高达1000倍,API简洁如Pandas。
- Stars: ⭐️ 1.6k
- Tags:
LLMData ProcessingSemantic SearchPandas - 最后活动时间: 2026-04-12
WikiChat
改进型RAG系统,通过语料库检索有效抑制大语言模型的幻觉问题。
- Stars: ⭐️ 1.6k
- Tags:
ragllmfactualitynlp - 最后活动时间: 2026-01-31
dsRAG
高性能非结构化数据检索引擎,专为大规模数据处理优化。
- Stars: ⭐️ 1.6k
- Tags:
ragretrievalunstructured-datasearch - 最后活动时间: 2025-11-10
AgenticRAG-Survey
探索基于AI智能体增强的检索增强生成(RAG)系统,涵盖多智能体协作与工作流模式研究。
- Stars: ⭐️ 1.6k
- Tags:
RAGAgentLLM多智能体 - 最后活动时间: 2025-10-20
ck
本地优先的语义搜索与混合BM25工具,基于Rust构建,支持AI和人类使用的高效语义检索。
- Stars: ⭐️ 1.6k
- Tags:
语义搜索Rust本地优先 - 最后活动时间: 2026-01-27
awesome-search
搜索引擎技术资源大全,涵盖排序、语义搜索、知识图谱、查询理解等核心主题。
- Stars: ⭐️ 1.5k
- Tags:
search-enginesemantic-searchlearning-to-ranknlp - 最后活动时间: 2026-04-05
elasticsearch-learning-to-rank
Elasticsearch学习排序插件,将机器学习应用于搜索相关性优化。
- Stars: ⭐️ 1.5k
- Tags:
elasticsearchlearning-to-ranksearch-relevancemachine-learning - 最后活动时间: 2026-02-19
sie
Superlinked开源推理引擎,专为嵌入向量、重排序和提取设计的生产级推理服务器与集群解决方案。
- Stars: ⭐️ 1.5k
- Tags:
embeddingsvector-searchinference-serverragsemantic-search - 最后活动时间: 2026-04-10
ragflow-plus
Ragflow的二次开发增强版本,优化了原版使其更加简洁实用,适合构建RAG检索增强生成应用。
- Stars: ⭐️ 1.3k
- Tags:
ragllmretrieval-augmented-generationknowledge-base - 最后活动时间: 2025-12-17
TrustRAG
专注于可靠输入和可信输出的RAG框架,支持深度研究和搜索场景。
- Stars: ⭐️ 1.3k
- Tags:
ragdeep-researchretrieval-augmented-generation - 最后活动时间: 2026-01-07
Search-o1
EMNLP 2025论文,将智能搜索增强与大推理模型结合,提升复杂问题求解能力。
- Stars: ⭐️ 1.2k
- Tags:
agentic-searchragreasoningsearch-enhanced - 最后活动时间: 2025-11-17
memsearch
Markdown优先的AI智能体记忆系统,支持语义搜索和渐进式信息展示,让AI助手拥有持久化记忆能力。
- Stars: ⭐️ 1.2k
- Tags:
Agent-MemorySemantic-SearchRAG - 最后活动时间: 2026-04-13
EmbedAnything
Rust构建的高性能嵌入和推理引擎,专为RAG应用设计,支持本地和云端部署,内存安全且生产就绪。
- Stars: ⭐️ 1.2k
- Tags:
RustEmbeddingsRAG - 最后活动时间: 2026-03-11
chat-with-your-data-solution-accelerator
Azure RAG解决方案加速器,集成Azure AI Search和Azure OpenAI,快速构建企业级ChatGPT问答系统。
- Stars: ⭐️ 1.2k
- Tags:
RAGAzureOpenAIEnterprise - 最后活动时间: 2026-04-13
raglite
轻量级Python RAG工具包,支持DuckDB和PostgreSQL,提供检索增强生成的完整解决方案。
- Stars: ⭐️ 1.1k
- Tags:
RAGVector SearchPostgreSQLDuckDB - 最后活动时间: 2026-03-17
GPT-RAG
企业级安全RAG模式实现,使用Azure认知搜索和Azure OpenAI构建可扩展的智能问答系统。
- Stars: ⭐️ 1.1k
- Tags:
RAGGPT-4AzureEnterprise - 最后活动时间: 2026-04-08
youtu-graphrag
ICLR 2026 论文项目,实现垂直统一的 GraphRAG 智能体,用于图检索增强的复杂推理任务。
- Stars: ⭐️ 1.1k
- Tags:
graphragagentllmgraph - 最后活动时间: 2026-02-26
ApeRAG
生产级 GraphRAG 框架,支持多模态索引、AI Agent 集成和 Kubernetes 弹性部署。
- Stars: ⭐️ 1.1k
- Tags:
graphragmcpknowledge-graphagentsrag - 最后活动时间: 2026-03-24
osgrep
开源语义搜索工具,专为AI Agent设计,基于ColBERT和嵌入技术实现智能检索。
- Stars: ⭐️ 1.1k
- Tags:
colbertembeddingssemantic-searchai-agent - 最后活动时间: 2026-01-17
SAG
SQL驱动的RAG引擎,查询时自动构建知识图谱,支持向量搜索和知识库管理。
- Stars: ⭐️ 1.1k
- Tags:
ragknowledge-graphgraphragllm - 最后活动时间: 2025-12-08
neo4j-graphrag-python
Neo4j官方推出的GraphRAG Python库,将知识图谱与RAG技术结合,提升AI检索增强生成的准确性和可解释性。
- Stars: ⭐️ 1.1k
- Tags:
GraphRAGNeo4jPython - 最后活动时间: 2026-04-10
anserini
基于Lucene的可复现信息检索工具包,为RAG系统和搜索引擎提供强大的检索能力支持。
- Stars: ⭐️ 1.1k
- Tags:
information-retrievallucenesearchrag - 最后活动时间: 2026-04-11
minima
本地部署的对话式RAG系统,支持可配置容器化部署,集成Ollama、Qdrant和LangChain等组件。
- Stars: ⭐️ 1.0k
- Tags:
RAGDockerOllamaLangChain - 最后活动时间: 2026-01-22
better-context
帮助开发者获取项目依赖库和技术的最新上下文信息,适用于AI辅助开发场景。
- Stars: ⭐️ 1.0k
- Tags:
contextdocumentationai-tools - 最后活动时间: 2026-04-12
semantica
构建语义层、上下文图和决策智能系统的框架,支持知识图谱和可解释性推理。
- Stars: ⭐️ 995
- Tags:
graphragknowledge-graphssemantic-layerai-agents - 最后活动时间: 2026-04-13
bilibili-rag
B站收藏夹智能RAG知识库工具,支持语音转写、向量检索和对话问答,让收藏内容不再吃灰。
- Stars: ⭐️ 992
- Tags:
ragllmvector-searchknowledge-basechroma - 最后活动时间: 2026-03-19
supavec
Carbon.ai的开源替代方案,支持任意数据源和规模构建强大的RAG应用。
- Stars: ⭐️ 970
- Tags:
ragainextjstypescript - 最后活动时间: 2025-12-28
FlashRank
超轻量快速的重排序库,支持LLM和交叉编码器的Listwise/Pairwise重排序,专为检索管道优化。
- Stars: ⭐️ 962
- Tags:
rerankingcross-encoderRAGsemantic-search - 最后活动时间: 2026-01-01
nocturne_memory
轻量级可回滚的可视化长期记忆服务器,专为MCP智能体设计,支持图结构化记忆,可替代传统向量RAG方案。
- Stars: ⭐️ 945
- Tags:
MemoryMCPRAG - 最后活动时间: 2026-04-11
VisRAG
基于视觉语言模型的无解析RAG框架,实现文档检索与理解的深度融合。
- Stars: ⭐️ 944
- Tags:
RAGVLMDocument Understanding - 最后活动时间: 2025-12-07
recipes
Weaviate官方示例代码库,提供RAG、向量检索和生成式AI集成的端到端教程notebook。
- Stars: ⭐️ 940
- Tags:
generative-airagvector-databasevector-search - 最后活动时间: 2026-04-06
itext2kg
创新的LLM驱动知识图谱构建框架,模拟自然界构建物质的方式生成知识图谱。
- Stars: ⭐️ 930
- Tags:
knowledge-graphllmstemporal-knowledge-graphrag - 最后活动时间: 2025-11-08
lat.md
基于Markdown的代码库知识图谱工具,为AI应用提供结构化的代码知识索引。
- Stars: ⭐️ 923
- Tags:
knowledge-graphmarkdowncodebaserag - 最后活动时间: 2026-04-02
rag-fusion
通过多查询生成和倒数排名融合技术显著提升RAG效果,内置NFCorpus/BEIR评估框架便于性能验证。
- Stars: ⭐️ 913
- Tags:
RAGVector SearchRanking Fusion - 最后活动时间: 2026-03-07
similarities
开箱即用的相似度计算与语义搜索工具包,支持亿级数据的文搜文、文搜图、图搜图功能。
- Stars: ⭐️ 900
- Tags:
semantic-searchimage-searchtext-matchingfaisssimilarity - 最后活动时间: 2026-03-05
layra
企业级智能系统解决方案,支持视觉RAG和多步骤Agent工作流编排,开箱即用。
- Stars: ⭐️ 899
- Tags:
Visual RAGAgent工作流编排 - 最后活动时间: 2025-10-14
Local_Pdf_Chat_RAG
纯Python实现的RAG框架,支持FAISS+BM25混合检索,兼容Ollama和SiliconFlow,适合新手学习RAG技术。
- Stars: ⭐️ 874
- Tags:
ragfaissbm25document-qa - 最后活动时间: 2026-03-18
Local-NotebookLM
本地版Google NotebookLM,支持多模型API,实现私有化知识库问答。
- Stars: ⭐️ 873
- Tags:
NotebookLMLocalRAG - 最后活动时间: 2026-03-27
text2vec
R语言文本向量化工具,支持主题建模、GloVe词嵌入和距离计算。
- Stars: ⭐️ 871
- Tags:
word-embeddingstopic-modelingvectorizationnlp - 最后活动时间: 2025-12-01
fastembed-rs
Rust语言实现的向量嵌入和重排序库,高性能支持RAG检索系统。
- Stars: ⭐️ 849
- Tags:
embeddingsrerankingRAGRust - 最后活动时间: 2026-04-10
typeagent-py
结构化RAG框架,支持数据摄取、索引构建和智能查询功能。
- Stars: ⭐️ 806
- Tags:
ragllmindexingquery - 最后活动时间: 2026-04-11
MODULAR-RAG-MCP-SERVER
模块化RAG系统,采用MCP服务器架构设计,支持通过Skill引导AI按规范步骤完成代码生成。
- Stars: ⭐️ 791
- Tags:
ragmcpmcp-serverretrieval-augmented-generation - 最后活动时间: 2026-03-10
rag_api
基于FastAPI的RAG API服务,集成Langchain与PostgreSQL/pgvector,提供高效的向量检索与生成能力。
- Stars: ⭐️ 786
- Tags:
RAGFastAPILangchainpgvector - 最后活动时间: 2026-03-20
pylate
后期交互模型的训练与检索库,专注于ColBERT等模型的语义检索能力。
- Stars: ⭐️ 783
- Tags:
colbertinformation-retrievallanguage-modelrag - 最后活动时间: 2026-03-06
RAG-FiT
通过微调增强LLM在RAG任务中表现的框架,支持问答、语义搜索等信息检索场景。
- Stars: ⭐️ 769
- Tags:
RAGFine-tuningNLP - 最后活动时间: 2025-12-16
semantic-search-nextjs-pinecone-langchain-chatgpt
基于 LangChain 和 Pinecone 构建的语义搜索应用,支持文本向量化存储和 GPT 智能检索,提供完整的 Next.js 前端界面。
- Stars: ⭐️ 764
- Tags:
langchainpineconesemantic-searchgptnextjs - 最后活动时间: 2026-02-26
context-portal
MCP 记忆库服务器,构建项目知识图谱,为 IDE 中的 AI 助手提供强大的 RAG 能力。
- Stars: ⭐️ 761
- Tags:
mcpragknowledge-graphmemory-bankcontext - 最后活动时间: 2026-01-27
Medical-Graph-RAG
ACL 2025论文,面向循证医学信息检索的图RAG系统。
- Stars: ⭐️ 761
- Tags:
graph-ragmedical-airetrieval-augmented-generationevidence-based - 最后活动时间: 2025-10-18
tevatron
SIGIR展示的统一文档检索工具包,支持跨规模、跨语言、跨模态的密集检索,适用于问答和RAG系统。
- Stars: ⭐️ 733
- Tags:
dense-retrievalinformation-retrievaldprpytorch - 最后活动时间: 2026-01-26
AutoSchemaKG
自动知识图谱构建框架,结合概念化实现模式自动生成和知识抽取。
- Stars: ⭐️ 723
- Tags:
knowledge-graphgraph-constructionrag - 最后活动时间: 2026-01-14
VRAG
阿里通义实验室开发的多模态检索增强生成框架,支持图文等多模态数据的RAG检索与生成。
- Stars: ⭐️ 711
- Tags:
ragmultimodalretrieval-augmented-generationalibaba - 最后活动时间: 2026-04-03
knowledge-graph-from-GPT
利用GPT组织和访问信息、生成问题的工具,目标是构建类似代理的研究助手。
- Stars: ⭐️ 693
- Tags:
knowledge-graphgptresearch-assistantinformation-management - 最后活动时间: 2025-10-21
swiftide
Rust实现的高性能RAG框架,支持流式索引、查询和智能体应用开发。
- Stars: ⭐️ 685
- Tags:
RAGRustIndexing - 最后活动时间: 2026-04-10
PdfGptIndexer
基于RAG的PDF文档索引与搜索工具,结合OpenAI API和FAISS向量检索,实现快速精准的文档信息检索。
- Stars: ⭐️ 677
- Tags:
ragpdffaissopenaisemantic-search - 最后活动时间: 2025-11-02
Rankify
全面的Python检索与重排序工具包,集成40+数据集、7+检索技术和24+重排序模型。
- Stars: ⭐️ 675
- Tags:
rerankingRAGinformation-retrievalLLM - 最后活动时间: 2026-03-07
RAGMeUp
通用RAG框架,支持在任何数据集上应用大语言模型的强大能力。
- Stars: ⭐️ 675
- Tags:
ragllmframeworkdata-processing - 最后活动时间: 2026-02-24
RAGLight
模块化RAG框架,支持多种LLM、嵌入模型和向量数据库,集成MCP工具连接外部数据源。
- Stars: ⭐️ 656
- Tags:
RAGMCPVector DatabaseModular - 最后活动时间: 2026-03-24
ViDoRAG
EMNLP 2025论文,通过动态迭代推理代理实现视觉文档的检索增强生成。
- Stars: ⭐️ 653
- Tags:
ragvisual-documentmultimodalreasoning-agentsemnlp - 最后活动时间: 2026-01-11
llm-search
基于LLM的本地文档查询工具,支持HyDE、重排序、MCP协议等高级RAG特性。
- Stars: ⭐️ 650
- Tags:
ragdocument-searchlangchainmcpreranking - 最后活动时间: 2026-01-17
rag-chatbot
本地多PDF文档对话机器人,支持Llama3、Mistral等模型,基于RAG技术实现文档问答。
- Stars: ⭐️ 646
- Tags:
ragchatbotllama-indexollama - 最后活动时间: 2025-10-23
graphbrain
一个融合语言、知识和认知的知识图谱工具,支持自然语言处理和文本挖掘,用于知识表示和推理。
- Stars: ⭐️ 638
- Tags:
knowledge-graphnlpcognitive-sciencetext-mining - 最后活动时间: 2026-04-07
hyperbase
语义超图基础工具包,支持知识图谱构建、自然语言理解和文本分析,适用于认知科学与计算社会科学研究。
- Stars: ⭐️ 638
- Tags:
knowledge-graphnlphypergraphsknowledge-representationtext-analysis - 最后活动时间: 2026-04-12
RAG_langchain
基于LangChain实现的RAG检索增强生成示例项目,适合学习参考。
- Stars: ⭐️ 634
- Tags:
raglangchainretrievalllm - 最后活动时间: 2026-03-22
magi-markdown
专为AI系统设计的下一代Markdown扩展,通过结构化元数据和嵌入式AI指令,在人类可读内容与LLM/Agent处理之间建立无缝桥梁。
- Stars: ⭐️ 618
- Tags:
aillmragmarkdownai-agents - 最后活动时间: 2026-04-11
Qmedia
面向内容创作者的AI内容搜索引擎,支持多模态RAG问答,可完全本地部署。
- Stars: ⭐️ 616
- Tags:
search-enginemultimodal-ragcontent-searchlocal-llm - 最后活动时间: 2026-04-09
embedJs
NodeJS RAG开发框架,简化LLM和嵌入向量的集成,支持多种向量数据库和LLM提供商。
- Stars: ⭐️ 606
- Tags:
RAGEmbeddingsNodeJS - 最后活动时间: 2025-11-17
SemanticMediaWiki
将MediaWiki转化为知识管理平台,提供语义查询和导出能力,适用于RAG系统的知识图谱构建。
- Stars: ⭐️ 601
- Tags:
knowledge-graphknowledge-managementsemantic-webrdfsparqlwiki - 最后活动时间: 2026-04-06
GraphRAG-SDK
基于知识图谱的RAG开发工具包,支持大规模构建快速准确的GenAI应用。
- Stars: ⭐️ 600
- Tags:
GraphRAGKnowledge GraphSDK - 最后活动时间: 2026-04-13
sycamore
LLM驱动的非结构化数据搜索与分析平台,支持语义搜索和信息检索。
- Stars: ⭐️ 595
- Tags:
LLMRAG语义搜索OpenSearch - 最后活动时间: 2026-04-10
rank_llm
专注于Listwise重排序的Python工具包,支持可复现的信息检索研究。
- Stars: ⭐️ 587
- Tags:
rerankinginformation-retrievalLLM - 最后活动时间: 2026-04-04
Hyper-Extract
使用LLM将非结构化文本转换为结构化知识图谱和超图的CLI工具,支持时空信息提取,一键完成知识抽取。
- Stars: ⭐️ 581
- Tags:
llmknowledge-graphinformation-extractionragcli - 最后活动时间: 2026-04-13
resin
基于向量数据库的语言模型搜索引擎,支持键值存储和信息检索。
- Stars: ⭐️ 575
- Tags:
language-modelvector-searchinformation-retrievalsearch-engine - 最后活动时间: 2026-03-01
AnglE
SOTA级句子嵌入训练与推理库,在STS和MTEB榜单领先。
- Stars: ⭐️ 567
- Tags:
EmbeddingsNLPSOTA - 最后活动时间: 2026-03-22
rag-skill
专注于本地知识库检索的技能模块,为RAG应用提供高效的知识检索能力支持。
- Stars: ⭐️ 563
- Tags:
ragknowledge-retrievallocal-search - 最后活动时间: 2026-02-01
llm-wiki-skill
基于 Karpathy llm-wiki 方法论构建的个人知识库 Skill,支持多平台,帮助用户高效管理和检索知识。
- Stars: ⭐️ 560
- Tags:
llmknowledge-baseragskill - 最后活动时间: 2026-04-11
ArXivChatGuru
基于LangChain和OpenAI的科研论文对话工具,支持与ArXiv论文进行智能问答交互。
- Stars: ⭐️ 558
- Tags:
raglangchainopenaiarxivvector-database - 最后活动时间: 2026-03-18
rag
NVIDIA官方RAG蓝图参考方案,提供基础检索增强生成管道的完整实现。
- Stars: ⭐️ 557
- Tags:
RAGNVIDIA NIMBlueprint - 最后活动时间: 2026-04-13
atlas
基于检索增强语言模型的少样本学习框架。
- Stars: ⭐️ 556
- Tags:
retrieval-augmentedfew-shot-learninglanguage-models - 最后活动时间: 2026-04-08
aisearch-openai-rag-audio
VoiceRAG模式实现,结合Azure AI Search和GPT-4o实时语音模型构建交互式语音AI体验。
- Stars: ⭐️ 554
- Tags:
VoiceRAGGPT-4oAudioRealtime - 最后活动时间: 2025-11-19
skald
自托管的上下文层平台,支持知识库管理和RAG应用构建。
- Stars: ⭐️ 552
- Tags:
ragknowledge-baseself-hostedcontext-layer - 最后活动时间: 2026-03-16
comunica
JavaScript知识图谱查询框架,支持SPARQL/GraphQL,具备MCP协议集成能力。
- Stars: ⭐️ 549
- Tags:
Knowledge GraphSPARQLMCP - 最后活动时间: 2026-04-09
cleora
高效可扩展的实体嵌入学习框架,适用于异构关系数据。
- Stars: ⭐️ 537
- Tags:
embeddingsentitygraphsmachine-learningml - 最后活动时间: 2026-04-02
marmot
数据目录和血缘可视化工具,帮助 AI Agent 发现、理解和管理企业数据资产。
- Stars: ⭐️ 537
- Tags:
mcpdata-catalogdata-lineagedata-governancemetadata - 最后活动时间: 2026-04-13
HiRAG
EMNLP'25论文实现:基于层次化知识的检索增强生成框架。
- Stars: ⭐️ 532
- Tags:
ragllmretrievalgraphrag - 最后活动时间: 2025-11-19
insights-lm-public
NotebookLM的开源替代方案,支持文档对话、音频摘要生成,基于Supabase和N8N构建。
- Stars: ⭐️ 517
- Tags:
ragnotebooklmsupabasesemantic-search - 最后活动时间: 2026-01-16
haiku.rag
一个基于LanceDB、Pydantic AI和Docling构建的智能RAG框架,支持MCP协议,提供高效的文档检索与问答能力。
- Stars: ⭐️ 510
- Tags:
raglancedbpydantic-aimcp-serverdocling - 最后活动时间: 2026-04-09
ollama_pdf_rag
一个全栈演示项目,展示如何构建本地RAG管道实现与PDF文档对话,基于Ollama和LangChain技术栈。
- Stars: ⭐️ 504
- Tags:
raglangchainollamapdfnextjs - 最后活动时间: 2026-04-10
superlinked
高性能AI搜索与推荐框架,支持结构化与非结构化数据的向量检索与RAG应用构建。
- Stars: ⭐️ 3
- Tags:
embeddingsvector-searchragsemantic-searchvector-database - 最后活动时间: 2026-04-02
Vector Databases
Supabase
开源的Postgres开发平台,内置pgvector向量数据库支持,为AI应用提供嵌入存储和检索能力。
- Stars: ⭐️ 100.8k
- Tags:
Vector DatabasePostgreSQLEmbeddings - 最后活动时间: 2026-04-13
elasticsearch
分布式RESTful搜索引擎,支持向量检索,广泛用于RAG系统和语义搜索场景。
- Stars: ⭐️ 76.5k
- Tags:
Search EngineVector SearchRAG - 最后活动时间: 2026-04-13
redis
高性能内存数据库,支持向量搜索和向量数据库功能,可用于AI应用的语义检索和RAG系统。
- Stars: ⭐️ 73.8k
- Tags:
Vector DatabaseCacheReal-time - 最后活动时间: 2026-04-13
meilisearch
闪电般快速的搜索引擎API,提供AI驱动的混合搜索能力,支持向量搜索、语义搜索和全文搜索的无缝集成。
- Stars: ⭐️ 57.1k
- Tags:
搜索引擎向量搜索混合搜索 - 最后活动时间: 2026-04-13
ClickHouse
高性能实时分析数据库,广泛用于AI/ML数据处理和大规模特征存储场景
- Stars: ⭐️ 46.9k
- Tags:
analyticsdatabasebig-dataolapsql - 最后活动时间: 2026-04-13
milvus
高性能云原生向量数据库,专为海量向量检索设计,广泛应用于RAG和推荐系统。
- Stars: ⭐️ 43.8k
- Tags:
向量数据库RAG向量检索 - 最后活动时间: 2026-04-13
faiss
Meta开源的高效向量相似度搜索与聚类库,支持大规模向量检索,是AI向量检索领域的行业标准工具。
- Stars: ⭐️ 39.6k
- Tags:
vector-searchsimilarity-searchembeddingsclustering - 最后活动时间: 2026-04-08
dragonfly
现代高性能内存数据库,兼容Redis和Memcached协议,支持向量搜索功能,适用于AI应用的向量检索场景。
- Stars: ⭐️ 30.3k
- Tags:
Vector DatabaseIn-MemoryRedis Compatible - 最后活动时间: 2026-04-13
qdrant
高性能向量数据库和搜索引擎,专为下一代AI应用设计,支持相似性搜索和混合搜索,是RAG应用的核心基础设施。
- Stars: ⭐️ 30.3k
- Tags:
向量数据库相似性搜索RAGAI基础设施 - 最后活动时间: 2026-04-13
chroma
专为AI应用设计的向量数据库,提供高效的数据存储和检索能力。
- Stars: ⭐️ 27.4k
- Tags:
vector-databaseaiembeddingsrag - 最后活动时间: 2026-04-11
typesense
开源的搜索引擎和向量数据库,支持语义搜索、向量检索和模糊匹配,是构建AI搜索体验的理想选择。
- Stars: ⭐️ 25.6k
- Tags:
search-enginevector-searchsemantic-searchfull-text-search - 最后活动时间: 2026-04-10
pgvector
PostgreSQL开源向量相似度搜索扩展,让Postgres支持向量存储与检索,是RAG应用的热门选择。
- Stars: ⭐️ 20.7k
- Tags:
postgresqlvector-searchsimilarity-searchembeddings - 最后活动时间: 2026-03-17
weaviate
云原生开源向量数据库,支持向量搜索与结构化过滤,广泛应用于语义搜索、推荐系统和RAG场景。
- Stars: ⭐️ 16.0k
- Tags:
Vector DatabaseSemantic SearchRAG - 最后活动时间: 2026-04-13
doris
Apache Doris 是一款高性能、易用的实时分析型数据库,支持海量数据极速查询,广泛应用于 OLAP 分析、实时数仓和 AI 数据处理场景。
- Stars: ⭐️ 15.2k
- Tags:
databaseolapreal-timeanalyticssql - 最后活动时间: 2026-04-13
tantivy
受Apache Lucene启发用Rust编写的全文搜索引擎库,可用于RAG系统中的文档检索场景。
- Stars: ⭐️ 14.9k
- Tags:
search-enginefull-text-searchrustinformation-retrieval - 最后活动时间: 2026-04-10
annoy
高效的近似最近邻搜索库,支持C++/Python,优化内存使用和磁盘读写。
- Stars: ⭐️ 14.2k
- Tags:
approximate-nearest-neighborsimilarity-searchlocality-sensitive-hashing - 最后活动时间: 2025-10-29
OpenSearch
开源分布式搜索引擎,支持向量相似度搜索,是构建RAG应用和AI检索系统的核心基础设施。
- Stars: ⭐️ 12.7k
- Tags:
search-enginevector-searchanalyticsdistributed - 最后活动时间: 2026-04-13
orama
轻量级全文搜索引擎与RAG管道,支持向量搜索和混合检索,可在浏览器、服务器或边缘网络运行。
- Stars: ⭐️ 10.3k
- Tags:
search-enginevector-databaseragfull-text-search - 最后活动时间: 2026-02-13
oceanbase
高性能分布式数据库,支持事务、分析和AI工作负载,内置向量搜索能力,适用于RAG和AI应用场景。
- Stars: ⭐️ 10.1k
- Tags:
Vector DatabaseDistributedMySQL Compatible - 最后活动时间: 2026-04-12
lancedb
开发者友好的开源嵌入式向量数据库,专为多模态AI检索设计,支持语义搜索与相似度匹配。
- Stars: ⭐️ 9.9k
- Tags:
vector-databasesemantic-searchmultimodalembeddingsrag - 最后活动时间: 2026-04-12
zvec
轻量级、超快速的进程内向量数据库,专为AI应用设计,支持RAG检索和Agent记忆存储。
- Stars: ⭐️ 9.3k
- Tags:
Vector DatabaseRAGANN Search - 最后活动时间: 2026-04-13
databend
云原生数据仓库,内置向量搜索能力,支持分析、搜索、AI和Python沙盒,为AI Agent提供数据基础设施。
- Stars: ⭐️ 9.2k
- Tags:
向量数据库数据仓库Rust - 最后活动时间: 2026-04-13
deeplake
GPU原生、沙盒化的AI代理Postgres数据库,支持向量搜索和多模态数据管理,专为深度学习和大语言模型应用优化。
- Stars: ⭐️ 9.1k
- Tags:
Vector DatabaseMulti-modalAI Agents - 最后活动时间: 2026-02-16
vespa
高性能向量数据库和搜索引擎平台,支持大规模AI推理、RAG应用和实时推荐系统。
- Stars: ⭐️ 6.9k
- Tags:
向量数据库搜索引擎AI推理 - 最后活动时间: 2026-04-13
lance
面向多模态AI的开源湖仓格式,支持100倍更快的随机访问、向量索引和数据版本控制,与Pandas、DuckDB、PyTorch无缝集成。
- Stars: ⭐️ 6.3k
- Tags:
Vector StorageMultimodal AIData Format - 最后活动时间: 2026-04-13
RediSearch
Redis的强大查询与索引引擎,支持全文搜索、向量相似度搜索和聚合操作,是构建RAG系统和AI应用的理想向量数据库。
- Stars: ⭐️ 6.1k
- Tags:
Vector DatabaseFull-text SearchRedis Module - 最后活动时间: 2026-04-08
marqo
面向电商的多模态搜索引擎,支持图像和文本的智能检索与发现。
- Stars: ⭐️ 5.0k
- Tags:
search-enginemulti-modalmachine-learningvector-search - 最后活动时间: 2026-04-10
SPTAG
微软开源的分布式近似最近邻搜索库,为大规模向量检索场景提供高质量的向量索引构建、搜索和分布式在线服务工具包。
- Stars: ⭐️ 5.0k
- Tags:
vector-searchapproximate-nearest-neighborannsimilarity-search - 最后活动时间: 2026-04-08
text2vec
中文文本向量表征工具,实现Word2Vec、Sentence-BERT、CoSENT等多种文本嵌入模型,开箱即用。
- Stars: ⭐️ 5.0k
- Tags:
embeddingssentence-bertnlptext-similarity - 最后活动时间: 2026-02-14
objectbox-java
高性能轻量级向量数据库,专为Android和JVM平台设计,支持设备端AI应用和向量检索。
- Stars: ⭐️ 4.6k
- Tags:
Vector DatabaseEmbeddedMobile - 最后活动时间: 2026-03-30
infinity
专为LLM应用设计的AI原生数据库,支持密集向量、稀疏向量、张量和全文的极速混合搜索。
- Stars: ⭐️ 4.5k
- Tags:
Vector DatabaseRAGHybrid Search - 最后活动时间: 2026-04-02
typedb
强类型知识图谱数据库,支持逻辑推理和多态查询,适用于构建智能知识系统。
- Stars: ⭐️ 4.3k
- Tags:
databaseknowledge-graphinferencereasoning - 最后活动时间: 2026-04-12
helix-db
用Rust从零构建的开源图向量数据库,专为AI和RAG应用设计。
- Stars: ⭐️ 4.1k
- Tags:
Vector DatabaseGraph DatabaseRAGRust - 最后活动时间: 2026-03-31
USearch
高性能向量搜索引擎,支持多语言绑定,适用于语义搜索和相似性检索。
- Stars: ⭐️ 4.0k
- Tags:
vector-searchsimilarity-searchnearest-neighborsemantic-search - 最后活动时间: 2026-04-12
OpenMemory
本地持久化记忆存储引擎,为LLM应用提供长期记忆与上下文检索能力。
- Stars: ⭐️ 3.9k
- Tags:
MemoryRAGVector DB - 最后活动时间: 2026-04-11
FalkorDB
基于GraphBLAS的超快图数据库,专为LLM知识图谱和GraphRAG场景优化。
- Stars: ⭐️ 3.9k
- Tags:
Graph DatabaseGraphRAGKnowledge GraphReal-time - 最后活动时间: 2026-04-13
memgraph
开源图数据库,专为动态分析环境优化,支持GraphRAG和AI智能体应用场景。
- Stars: ⭐️ 3.9k
- Tags:
graph-databasegraphragai-agentcypherstream-processing - 最后活动时间: 2026-04-13
RuVector
基于Rust构建的高性能实时自学习向量图神经网络数据库,支持低延迟推理和ONNX运行时。
- Stars: ⭐️ 3.8k
- Tags:
Vector DatabaseGNNRustGraph Neural Networks - 最后活动时间: 2026-04-13
nmslib
高效的非度量空间相似度搜索库,提供k-NN方法评估工具包,是向量检索的经典方案之一。
- Stars: ⭐️ 3.6k
- Tags:
knn-searchsimilarity-searchnearest-neighborvector-search - 最后活动时间: 2026-01-12
LakeSoul
云原生Lakehouse框架,支持AI和BI应用的实时数据摄入、并发更新和增量分析。
- Stars: ⭐️ 3.2k
- Tags:
lakehousedatalakepytorchsparkstreaming - 最后活动时间: 2026-04-08
delta-rs
Delta Lake 的原生 Rust 库,提供 Python 绑定。适用于 AI/ML 数据管道中的大规模数据存储与管理。
- Stars: ⭐️ 3.2k
- Tags:
delta-lakedata-engineeringrustpython - 最后活动时间: 2026-04-13
datasketch
高效的相似性搜索算法库,提供 MinHash、LSH、HNSW 等核心算法实现,广泛应用于 RAG 系统和向量检索场景。
- Stars: ⭐️ 2.9k
- Tags:
lshhnswminhashsimilarity-searchvector-search - 最后活动时间: 2026-03-30
clip-retrieval
轻松计算CLIP嵌入并构建多模态检索系统。
- Stars: ⭐️ 2.7k
- Tags:
aiclipdeep-learningmultimodalsemantic-search - 最后活动时间: 2026-03-28
hora
Rust编写的高效近似最近邻搜索库,支持HNSW算法与SIMD加速。
- Stars: ⭐️ 2.7k
- Tags:
approximate-nearest-neighborvector-searchrusthnswsimilarity-search - 最后活动时间: 2026-02-17
featurebase
基于位图的高性能分析数据库,专为ML应用优化,支持快速数据查询。
- Stars: ⭐️ 2.6k
- Tags:
databasebitmapanalyticsmachine-learningsql - 最后活动时间: 2026-04-13
nanoflann
轻量级C++11头文件KD树库,用于高维向量最近邻搜索,适用于RAG检索和点云处理场景。
- Stars: ⭐️ 2.6k
- Tags:
kd-treesnearest-neighborvector-searchpoint-clouds - 最后活动时间: 2025-12-26
seekdb
AI原生搜索数据库,统一向量、文本、结构化数据,支持混合搜索和库内AI工作流。
- Stars: ⭐️ 2.5k
- Tags:
vector-databaseai-searchhybrid-searchembeddings - 最后活动时间: 2026-04-11
bootcamp
Milvus官方实战教程,涵盖向量检索、RAG、多模态搜索等非结构化数据处理场景,配套完整实践案例。
- Stars: ⭐️ 2.4k
- Tags:
RAG向量数据库Milvus多模态 - 最后活动时间: 2026-03-13
vearch
分布式向量搜索数据库,专为AI原生应用设计。支持混合搜索、文档检索和RAG场景,适用于大规模向量检索需求。
- Stars: ⭐️ 2.3k
- Tags:
vector-databasevector-searchragembeddingsai-native - 最后活动时间: 2026-03-28
ArcticDB
高性能无服务器DataFrame数据库,专为Python数据科学生态系统构建。
- Stars: ⭐️ 2.2k
- Tags:
databasedataframepandasbig-data - 最后活动时间: 2026-04-13
duckdb-wasm
DuckDB的WebAssembly版本,可在浏览器中运行的高性能分析型数据库,适用于AI数据处理和RAG应用场景。
- Stars: ⭐️ 2.0k
- Tags:
databasewebassemblyanalyticssql - 最后活动时间: 2026-04-13
matrixone
AI 原生 HTAP 数据库,内置向量搜索功能,可作为智能体的数据与记忆骨干。
- Stars: ⭐️ 1.8k
- Tags:
Vector DatabaseAI-NativeHTAP - 最后活动时间: 2026-04-13
DiskANN
微软开源的高性能近似最近邻搜索库,基于图结构索引,支持大规模向量检索,适用于RAG场景。
- Stars: ⭐️ 1.7k
- Tags:
Vector SearchANNSimilarity Search - 最后活动时间: 2026-04-08
tugraph-db
高性能图数据库,支持知识图谱构建和图神经网络应用,适用于RAG系统中的图数据存储与检索。
- Stars: ⭐️ 1.7k
- Tags:
graph-databaseknowledge-graphcypher - 最后活动时间: 2026-03-31
jvector
先进的嵌入式向量搜索引擎,专为Java生态设计,支持ANN和KNN搜索。
- Stars: ⭐️ 1.7k
- Tags:
vector-searchannsimilarity-searchjava - 最后活动时间: 2026-04-10
vald
高性能分布式向量搜索引擎,支持近似最近邻搜索,适用于图像检索、相似度搜索等AI应用场景。
- Stars: ⭐️ 1.7k
- Tags:
vector-searchsimilarity-searchkubernetesdistributed - 最后活动时间: 2026-04-12
VectorChord
PostgreSQL向量搜索扩展,pgvecto.rs的继任者,提供可扩展、快速且磁盘友好的向量检索能力。
- Stars: ⭐️ 1.6k
- Tags:
vector-databasepostgresqlvector-searchrag - 最后活动时间: 2026-04-08
pixeltable
面向多模态AI工作负载的数据基础设施,集成特征存储、向量数据库和MLOps能力,简化数据处理流程。
- Stars: ⭐️ 1.6k
- Tags:
多模态特征存储向量数据库 - 最后活动时间: 2026-04-12
solr
Apache Solr开源搜索引擎,提供强大的全文检索、分面搜索和分布式搜索能力,广泛用于RAG系统和AI应用的检索基础设施。
- Stars: ⭐️ 1.6k
- Tags:
search-enginelucenenosqlinformation-retrieval - 最后活动时间: 2026-04-12
voyager
轻量级近似最近邻搜索库,支持Python和Java,易于部署和使用。
- Stars: ⭐️ 1.6k
- Tags:
nearest-neighbor-searchhnswvector-searchsimilarity-search - 最后活动时间: 2026-03-01
datalevin
简单快速的多功能Datalog数据库,支持向量存储和全文检索,AI原生设计。
- Stars: ⭐️ 1.4k
- Tags:
vector-databasedatalogembedded-databasefulltext-search - 最后活动时间: 2026-04-07
pymilvus
Milvus向量数据库的官方Python SDK,支持高效的向量相似度搜索和AI应用开发。
- Stars: ⭐️ 1.4k
- Tags:
vector-databasemilvuspython-sdksimilarity-search - 最后活动时间: 2026-04-09
mcp-server-qdrant
Qdrant官方MCP服务器实现,为Claude、Cursor等AI工具提供向量检索能力。
- Stars: ⭐️ 1.3k
- Tags:
mcpqdrantvector-searchsemantic-search - 最后活动时间: 2026-03-31
qdrant-client
Qdrant向量搜索引擎的Python客户端,用于AI应用中的向量存储与相似性检索。
- Stars: ⭐️ 1.3k
- Tags:
qdrantvector-databasevector-searchvector-search-engine - 最后活动时间: 2026-03-31
VectorDBBench
向量数据库性能基准测试工具,支持多种向量数据库的性能对比和成本效益分析。
- Stars: ⭐️ 1.1k
- Tags:
benchmarkvector-databasevector-searchperformance - 最后活动时间: 2026-04-09
atomspace
OpenCog超图数据库与图重写系统,用于知识表示与推理的AI基础设施。
- Stars: ⭐️ 963
- Tags:
Knowledge GraphGraph DatabaseReasoningAGI - 最后活动时间: 2026-02-10
autofaiss
自动创建最优Faiss KNN索引的工具,简化向量检索参数调优流程。
- Stars: ⭐️ 901
- Tags:
faissvector-searchindex-optimizationembeddings - 最后活动时间: 2025-11-04
vectordb
Epsilla高性能向量数据库管理系统,专为AI应用和RAG场景设计。
- Stars: ⭐️ 872
- Tags:
vector-databaseembeddingsragvector-search - 最后活动时间: 2025-11-29
endee
高性能向量数据库,单节点支持10亿向量,通过优化索引实现高效检索,适用于AI搜索场景。
- Stars: ⭐️ 863
- Tags:
Vector DatabaseHNSWANNAI Search - 最后活动时间: 2026-04-08
pg_vectorize
为任意 Postgres 数据库提供全文搜索和语义搜索能力的扩展工具。
- Stars: ⭐️ 829
- Tags:
postgresvector-databasesemantic-searchrag - 最后活动时间: 2026-04-06
reindexer
高性能嵌入式内存数据库,支持向量搜索、KNN搜索和全文检索,适用于AI应用中的相似度匹配场景。
- Stars: ⭐️ 802
- Tags:
vector-databasevector-searchknn-searchfulltext-search - 最后活动时间: 2026-04-13
arcadedb
多模型数据库,支持SQL、图查询和向量嵌入搜索,适合RAG应用的相似性搜索场景。
- Stars: ⭐️ 798
- Tags:
Vector DatabaseMulti-ModelGraph Database - 最后活动时间: 2026-04-13
graph-data-science
Neo4j图数据科学库,提供丰富的图算法用于知识图谱构建和图神经网络应用。
- Stars: ⭐️ 780
- Tags:
graph-algorithmsneo4jknowledge-graph - 最后活动时间: 2026-04-02
cuvs
NVIDIA 推出的 GPU 加速向量搜索与聚类库,专为大规模向量检索和相似性搜索优化。
- Stars: ⭐️ 733
- Tags:
Vector SearchGPUCUDA - 最后活动时间: 2026-04-13
nucliadb
专为RAG设计的AI搜索数据库,支持向量搜索和语义检索。
- Stars: ⭐️ 719
- Tags:
向量数据库RAG语义搜索 - 最后活动时间: 2026-04-13
automem
为AI助手提供持久化关系记忆的图向量内存服务,支持多种向量数据库。
- Stars: ⭐️ 706
- Tags:
ai-memorygraph-databasevector-databaseqdrant - 最后活动时间: 2026-04-13
KiteSQL
Rust嵌入式关系数据库,原生支持向量嵌入和WebAssembly。
- Stars: ⭐️ 694
- Tags:
databaseembeddingsrustsqlwasm - 最后活动时间: 2026-04-08
HyperNetX
Python超图分析与可视化库,支持知识图谱和复杂网络结构分析,适用于RAG系统中的关系建模。
- Stars: ⭐️ 689
- Tags:
hypergraphknowledge-graphpythonvisualization - 最后活动时间: 2026-04-02
mcp-server-elasticsearch
Elasticsearch MCP 服务器,支持向量数据库集成,为 AI 应用提供检索能力。
- Stars: ⭐️ 643
- Tags:
mcpelasticsearchvector-databasesearch - 最后活动时间: 2026-04-09
vectra
Node.js本地向量数据库,提供类似Pinecone的功能,基于本地文件存储,适合构建RAG应用和语义搜索系统。
- Stars: ⭐️ 599
- Tags:
vector-databaseembeddingsnodejsraglocal-storage - 最后活动时间: 2026-04-06
DBreeze
C# .NET嵌入式NoSQL数据库,支持向量搜索和语义搜索功能。
- Stars: ⭐️ 569
- Tags:
vector-databasenosqlsimilarity-searchc-sharp - 最后活动时间: 2026-04-03
NornicDB
低延迟图向量数据库,支持HNSW搜索、LLM重排序推理和GPU加速,兼容Neo4j Bolt/Cypher和Qdrant gRPC驱动。
- Stars: ⭐️ 557
- Tags:
vector-databasegraph-raghnswllmmcp-server - 最后活动时间: 2026-04-11
search
Go语言嵌入式向量搜索库,基于llama.cpp实现语义搜索和向量检索。
- Stars: ⭐️ 541
- Tags:
vector-searchsemantic-searchllamacppembeddings - 最后活动时间: 2026-03-06
未分类 (Others)
dolt
Dolt 是一个支持版本控制的 SQL 数据库,被誉为「数据界的 Git」。它非常适合 AI Agent 记忆存储和 AI 数据管理,提供完整的数据版本追踪能力。
- Stars: ⭐️ 22.1k
- Tags:
sql-databaseversion-controlai-databaseagent-memory - 最后活动时间: 2026-04-12
