Skip to content

☁️ 基础设施与部署

Hardware integration, cloud infra, and model serving.

Cloud & Hosting

kong

云原生API和AI网关,支持LLM请求路由、MCP协议和OpenAI代理,统一管理AI应用流量。

  • Stars: ⭐️ 43.0k
  • Tags: API Gateway AI Gateway LLM
  • 最后活动时间: 2026-03-10

1Panel

现代化Linux服务器运维面板,支持一键部署Ollama等AI应用,简化VPS管理流程。

  • Stars: ⭐️ 34.5k
  • Tags: Docker 服务器管理 Ollama
  • 最后活动时间: 2026-03-20

nacos

阿里巴巴开源的服务发现与配置管理平台,支持MCP注册和AI Agent注册,助力AI云原生应用构建。

  • Stars: ⭐️ 32.7k
  • Tags: 服务发现 MCP注册 AI云原生
  • 最后活动时间: 2026-03-20

sealos

基于Kubernetes的AI原生云操作系统,支持从云端IDE开发到生产部署的完整应用生命周期管理,非常适合构建和扩展现代AI应用。

  • Stars: ⭐️ 17.0k
  • Tags: Kubernetes Cloud OS AI Infrastructure
  • 最后活动时间: 2026-03-21

argo-workflows

Kubernetes原生工作流引擎,专为机器学习流水线和MLOps场景设计,支持DAG编排和GitOps自动化部署。

  • Stars: ⭐️ 16.5k
  • Tags: MLOps Kubernetes Workflow
  • 最后活动时间: 2026-03-20

daytona

专为AI智能体设计的安全沙箱基础设施,提供代码执行能力和隔离环境,保障AI生成代码的安全运行。

  • Stars: ⭐️ 15.0k
  • Tags: AI沙箱 代码执行 基础设施
  • 最后活动时间: 2025-01-15

self-hosted-ai-starter-kit

n8n打造的开源自托管AI入门套件,提供完整工具链,帮助快速搭建安全、自主可控的本地AI环境。

  • Stars: ⭐️ 14.4k
  • Tags: Self-hosted AI Agents Low-code
  • 最后活动时间: 2026-01-06

skypilot

统一AI基础设施管理平台,支持跨云GPU/TPU调度、成本优化和分布式训练推理。

  • Stars: ⭐️ 9.6k
  • Tags: GPU Management Cloud Infrastructure Distributed Training
  • 最后活动时间: 2026-03-20

OpenMetadata

统一元数据管理平台,支持数据发现与治理,内置MCP服务器可与AI助手无缝集成。

  • Stars: ⭐️ 9.0k
  • Tags: Metadata Data Governance MCP Server
  • 最后活动时间: 2026-03-20

feast

开源AI/ML特征存储平台,管理机器学习特征的生命周期,支持实时和批处理特征服务。

  • Stars: ⭐️ 6.8k
  • Tags: Feature Store MLOps Machine Learning
  • 最后活动时间: 2026-03-20

flower

友好的联邦学习框架,支持跨设备分布式 AI 模型训练,兼容 PyTorch、TensorFlow 等多种深度学习框架。

  • Stars: ⭐️ 6.7k
  • Tags: Federated Learning Distributed Training Privacy Framework
  • 最后活动时间: 2026-03-20

Agent Starter Pack

生产级 AI 智能体部署模板,几分钟内部署到 Google Cloud,内置 CI/CD、评估和可观测性。

  • Stars: ⭐️ 6.0k
  • Tags: AI Agents GCP CI/CD Observability
  • 最后活动时间: 2026-03-20

cube-studio

开源云原生一站式机器学习平台,支持 MLOps 全流程、大模型微调训练、多机推理部署及国产算力生态。

  • Stars: ⭐️ 4.9k
  • Tags: MLOps Kubernetes 大模型训练 分布式推理
  • 最后活动时间: 2026-02-06

pipelines

Kubernetes 原生的机器学习工作流编排平台,提供可视化界面和 SDK,大幅简化 MLOps 实践和 ML 流水线管理。

  • Stars: ⭐️ 4.1k
  • Tags: Kubeflow MLOps Kubernetes Pipeline
  • 最后活动时间: 2026-03-20

ChatGPT-Telegram-Workers

轻松部署Telegram ChatGPT机器人,支持Cloudflare Workers、Vercel和Docker多平台无服务器部署。

  • Stars: ⭐️ 3.8k
  • Tags: ChatGPT Telegram Serverless
  • 最后活动时间: 2026-02-15

polyaxon

MLOps平台,提供机器学习全生命周期的管理与编排工具,支持Kubernetes部署。

  • Stars: ⭐️ 3.7k
  • Tags: MLOps Kubernetes Machine-Learning
  • 最后活动时间: 2026-03-09

arena

Kubeflow命令行工具,简化Kubernetes上的机器学习任务管理,支持一键部署训练任务和模型服务。

  • Stars: ⭐️ 2.8k
  • Tags: Kubeflow Kubernetes 深度学习
  • 最后活动时间: 2024-01-15

harbor

一键部署完整LLM技术栈,集成数百个AI服务,支持Docker容器化本地自托管。

  • Stars: ⭐️ 2.5k
  • Tags: Docker LLM Self-hosted
  • 最后活动时间: 2026-03-20

amazon-bedrock-agentcore-samples

帮助开发者将AI智能体快速部署到生产环境,提供企业级扩展性、可靠性和安全性支持。

  • Stars: ⭐️ 2.5k
  • Tags: AI Agents Production Deployment AWS Bedrock
  • 最后活动时间: 2026-03-20

kubewall

单二进制 Kubernetes 仪表板,支持多集群管理与 AI 集成,为 Kubernetes 运维提供智能辅助。

  • Stars: ⭐️ 1.9k
  • Tags: Kubernetes AI Dashboard
  • 最后活动时间: 2026-03-20

Bytez

全球最大无服务器模型推理API平台,提供220,000+AI模型统一访问接口,一键调用主流大模型。

  • Stars: ⭐️ 1.6k
  • Tags: API平台 无服务器 模型推理
  • 最后活动时间: 2026-03-03

generative-ai-use-cases

AWS官方生成式AI业务用例实现方案,涵盖Claude、Llama等模型和RAG技术,帮助企业安全部署AI应用。

  • Stars: ⭐️ 1.3k
  • Tags: AWS Generative AI LLM RAG
  • 最后活动时间: 2026-03-20

nono

内核级AI智能体沙箱安全工具,提供能力隔离、安全密钥管理和不可变审计链,防范提示注入等安全威胁。

  • Stars: ⭐️ 1.2k
  • Tags: Agent Security Sandbox Zero-Trust
  • 最后活动时间: 2026-03-20

vertex-ai-samples

Google Cloud Vertex AI官方示例代码库,包含Jupyter notebooks和代码示例,全面演示机器学习和生成式AI工作流开发。

  • Stars: ⭐️ 673
  • Tags: vertex-ai gemini generative-ai mlops
  • 最后活动时间: 2026-03-20

worker-comfyui

将ComfyUI部署为RunPod无服务器API,支持SDXL和Stable Diffusion工作流的云端托管与弹性扩展。

  • Stars: ⭐️ 671
  • Tags: ComfyUI Serverless Stable Diffusion
  • 最后活动时间: 2026-03-20

ollama-helm

用于在Kubernetes集群中部署Ollama的Helm Chart,支持GPU资源配置和模型管理,适合生产环境。

  • Stars: ⭐️ 561
  • Tags: Helm Kubernetes LLM部署
  • 最后活动时间: 2026-03-20

agent-safehouse

为本地AI代理提供沙箱安全隔离环境,限制其仅能读写必要的文件和资源,保护系统安全。

  • Stars: ⭐️ 500
  • Tags: AI代理 沙箱安全 安全隔离
  • 最后活动时间: 2026-03-21

Hardware Acceleration

ColossalAI

大规模并行训练框架,让大模型训练更便宜、更快速。支持多种并行策略和异构训练,显著降低开发门槛。

  • Stars: ⭐️ 41.4k
  • Tags: Distributed Training LLM Deep Learning
  • 最后活动时间: 2026-03-16

TensorRT-LLM

NVIDIA官方LLM推理优化库,支持在GPU上高效运行大语言模型,包含先进的优化技术。

  • Stars: ⭐️ 13.2k
  • Tags: LLM Inference NVIDIA GPU
  • 最后活动时间: 2026-03-21

TensorRT

NVIDIA官方高性能深度学习推理SDK,专为GPU加速优化,支持模型部署与推理加速。

  • Stars: ⭐️ 12.8k
  • Tags: Deep Learning Inference GPU NVIDIA
  • 最后活动时间: 2026-03-09

arrayfire

通用GPU计算库,支持CUDA、OpenCL和CPU后端,为AI/ML工作负载提供高性能并行计算能力。

  • Stars: ⭐️ 4.9k
  • Tags: GPU CUDA OpenCL HPC
  • 最后活动时间: 2026-03-07

gpustack

高性能GPU推理工具,支持vLLM/SGLang等引擎优化,实现卓越的LLM推理吞吐量和资源利用率。

  • Stars: ⭐️ 4.7k
  • Tags: GPU Inference vLLM LLM Serving
  • 最后活动时间: 2026-03-20

optimum

Hugging Face官方硬件优化工具包,加速Transformers和Diffusers模型的推理与训练,支持ONNX、量化及多硬件后端。

  • Stars: ⭐️ 3.3k
  • Tags: 模型优化 推理加速 量化
  • 最后活动时间: 2026-03-13

lightseq

高性能序列处理与生成库,支持BERT、GPT、Transformer等模型的训练与推理加速,提供CUDA优化实现。

  • Stars: ⭐️ 3.3k
  • Tags: Sequence Processing CUDA Transformer
  • 最后活动时间: 2023-05-16

ao

PyTorch官方量化和稀疏性优化库,支持float8等现代数据类型,加速训练与推理。

  • Stars: ⭐️ 2.7k
  • Tags: 量化 稀疏性 PyTorch
  • 最后活动时间: 2026-03-20

cccl

NVIDIA官方CUDA核心计算库,为AI框架提供GPU加速的基础计算能力,是深度学习底层优化的基石。

  • Stars: ⭐️ 2.2k
  • Tags: CUDA GPU NVIDIA
  • 最后活动时间: 2026-03-21

dstack

开源GPU控制平面,支持在多云和本地环境运行AI开发、训练和推理任务,简化LLM和深度学习工作负载编排。

  • Stars: ⭐️ 2.1k
  • Tags: GPU ML Infrastructure Training Inference
  • 最后活动时间: 2026-03-20

hls4ml

将机器学习模型部署到 FPGA 的开源库,利用高级综合技术实现神经网络硬件加速,适用于低延迟推理场景。

  • Stars: ⭐️ 1.9k
  • Tags: FPGA HLS 硬件加速 边缘部署
  • 最后活动时间: 2026-03-20

scuda

GPU over IP 网络桥接工具,允许 CPU-only 机器远程挂载和使用远程 GPU 资源,支持 CUDA、cuDNN 等深度学习加速库。

  • Stars: ⭐️ 1.8k
  • Tags: GPU CUDA Networking MLOps
  • 最后活动时间: 2026-01-04

vllm-ascend

vLLM在华为昇腾NPU上的硬件适配插件,支持在Ascend硬件上高效运行大模型推理服务。

  • Stars: ⭐️ 1.8k
  • Tags: vLLM Ascend 硬件加速
  • 最后活动时间: 2026-03-20

NNPACK

多核CPU神经网络加速包,提供卷积、矩阵乘法等核心算子的高性能实现,支持SIMD和Winograd优化。

  • Stars: ⭐️ 1.7k
  • Tags: CPU Acceleration Neural Networks SIMD
  • 最后活动时间: 2024-06-11

tt-metal

Tenstorrent AI加速器底层编程框架,支持LLaMA、DeepSeek、Stable Diffusion等主流模型的硬件加速优化。

  • Stars: ⭐️ 1.4k
  • Tags: AI加速器 硬件优化 LLM
  • 最后活动时间: 2026-03-20

scikit-learn-intelex

Intel推出的Scikit-learn加速扩展,通过oneAPI无缝提升机器学习算法性能,支持CPU/GPU加速。

  • Stars: ⭐️ 1.3k
  • Tags: Scikit-learn GPU Acceleration Intel Performance
  • 最后活动时间: 2026-03-20

react-native-fast-tflite

高性能React Native TensorFlow Lite库,支持GPU加速,为移动端AI推理提供高效解决方案。

  • Stars: ⭐️ 1.1k
  • Tags: TensorFlow Lite React Native Mobile AI
  • 最后活动时间: 2026-03-19

FastFlowLM

专为AMD Ryzen AI NPU优化的本地LLM运行工具,类似Ollama但深度适配AMD硬件,充分发挥NPU加速能力。

  • Stars: ⭐️ 1.0k
  • Tags: AMD NPU 本地部署
  • 最后活动时间: 2026-03-20

DeepCache

CVPR 2024论文,无需训练的扩散模型加速方法,通过缓存机制显著提升Stable Diffusion推理速度且不牺牲生成质量。

  • Stars: ⭐️ 964
  • Tags: Efficient Inference Stable Diffusion Acceleration
  • 最后活动时间: 2024-06-27

auto-round

Intel开源的高精度LLM量化工具包,支持MXFP4、NVFP4、GGUF等多种格式,以精度优先设计最大限度减少量化损失。

  • Stars: ⭐️ 915
  • Tags: 量化 LLM Intel
  • 最后活动时间: 2026-03-20

kvcached

虚拟化弹性KV缓存系统,支持动态GPU共享与多租户LLM推理,显著提升GPU资源利用率。

  • Stars: ⭐️ 814
  • Tags: KV Cache GPU Sharing LLM Inference
  • 最后活动时间: 2026-03-17

deepcompressor

专为大型语言模型和扩散模型设计的压缩工具箱,支持量化、剪枝等技术,有效降低部署成本与资源消耗。

  • Stars: ⭐️ 762
  • Tags: Model Compression Quantization LLM
  • 最后活动时间: 2025-08-14

Model Serving

tensorflow

Google开源的端到端机器学习框架,支持构建和部署深度学习模型,广泛应用于CV、NLP、推荐系统等领域。

  • Stars: ⭐️ 194.3k
  • Tags: Deep Learning Machine Learning Neural Network
  • 最后活动时间: 2026-03-20

ollama

轻量级本地大模型运行工具,支持Llama、Qwen、DeepSeek等多种开源模型,一键部署即开即用。

  • Stars: ⭐️ 165.7k
  • Tags: LLM Local Deployment Model Inference
  • 最后活动时间: 2026-03-20

pytorch

开源深度学习框架,提供强大的GPU加速和动态计算图支持,广泛应用于神经网络研究和生产环境。

  • Stars: ⭐️ 98.4k
  • Tags: Deep Learning Neural Network GPU
  • 最后活动时间: 2026-03-20

vllm

高吞吐量LLM推理和服务引擎,采用PagedAttention技术优化显存利用率,广泛用于生产环境大模型部署。

  • Stars: ⭐️ 73.8k
  • Tags: LLM推理 模型服务 高性能
  • 最后活动时间: 2026-03-20

airflow

Apache旗下开源工作流编排平台,支持以代码方式定义、调度和监控数据管道与ML工作流,是MLOps领域的核心基础设施工具。

  • Stars: ⭐️ 44.7k
  • Tags: MLOps 工作流编排 数据管道
  • 最后活动时间: 2026-03-20

LocalAI

免费开源的OpenAI API替代方案,支持本地部署无需GPU,兼容OpenAI API接口。

  • Stars: ⭐️ 44.1k
  • Tags: LLM Self-hosted OpenAI API Local Inference
  • 最后活动时间: 2026-03-20

ray

AI计算引擎,提供分布式运行时和AI库加速机器学习工作负载,支持深度学习、强化学习和LLM推理等场景。

  • Stars: ⭐️ 41.8k
  • Tags: 分布式计算 机器学习 LLM
  • 最后活动时间: 2026-03-20

litellm

统一LLM API网关和SDK,支持100+大模型API标准化调用,提供成本追踪、负载均衡等企业级功能。

  • Stars: ⭐️ 39.8k
  • Tags: AI Gateway LLM Proxy OpenAI Compatible
  • 最后活动时间: 2026-03-21

one-api

强大的LLM API管理与分发平台,统一OpenAI、Claude、Gemini等主流模型接口,支持Key管理与二次分发。

  • Stars: ⭐️ 30.8k
  • Tags: API Gateway Multi-Model Key Management
  • 最后活动时间: 2026-01-09

mlflow

开源AI工程平台,支持调试、评估、监控和优化生产级AI应用,提供完整的机器学习生命周期管理。

  • Stars: ⭐️ 24.9k
  • Tags: MLOps LLMOps 模型管理
  • 最后活动时间: 2026-03-20

sglang

高性能的大语言模型和多模态模型服务框架,专注于推理优化和高效部署,提供卓越的服务性能。

  • Stars: ⭐️ 24.8k
  • Tags: Inference LLM CUDA Serving
  • 最后活动时间: 2026-03-20

serve

云原生AI应用构建框架,支持多模态应用的生产级部署与编排,集成Kubernetes和可观测性工具。

  • Stars: ⭐️ 21.9k
  • Tags: Kubernetes MLOps Cloud-Native
  • 最后活动时间: 2025-03-24

onnx

机器学习互操作的开放标准,支持PyTorch、TensorFlow等主流框架间的模型转换与跨平台部署,是AI生态的核心基础设施。

  • Stars: ⭐️ 20.5k
  • Tags: ONNX Interoperability Model Format
  • 最后活动时间: 2026-03-18

taipy

将数据和AI算法快速转化为生产级Web应用的Python框架,支持管道编排、数据可视化和场景分析。

  • Stars: ⭐️ 19.1k
  • Tags: Python MLOps Data Visualization Pipeline
  • 最后活动时间: 2026-03-19

web-llm

基于WebGPU的浏览器端LLM推理引擎,无需服务器即可在浏览器中运行大模型,实现完全客户端AI推理。

  • Stars: ⭐️ 17.6k
  • Tags: WebGPU 浏览器AI 本地推理
  • 最后活动时间: 2026-03-13

dagster

现代化数据资产编排平台,专为数据工程和机器学习工作流设计,支持数据管道的开发、部署与监控。

  • Stars: ⭐️ 15.1k
  • Tags: 数据编排 MLOps ETL
  • 最后活动时间: 2026-03-20

openfang

开源智能体操作系统,基于Rust构建,支持MCP协议,为AI智能体提供底层运行环境。

  • Stars: ⭐️ 15.1k
  • Tags: Agent OS MCP Rust
  • 最后活动时间: 2026-03-20

nano-vllm

轻量级vLLM实现,专注于大语言模型的高效推理,适合学习和轻量级部署场景。

  • Stars: ⭐️ 12.3k
  • Tags: LLM 推理引擎 PyTorch
  • 最后活动时间: 2025-11-03

OpenLLM

开源大语言模型运行平台,支持将主流模型部署为OpenAI兼容的API端点,提供云端部署和服务管理的一站式解决方案。

  • Stars: ⭐️ 12.2k
  • Tags: LLM Inference OpenAI-Compatible
  • 最后活动时间: 2026-03-16

bisheng

开源企业级LLM DevOps平台,提供GenAI工作流、RAG、Agent、模型管理与微调等全方位功能。

  • Stars: ⭐️ 11.2k
  • Tags: LLM平台 RAG Agent 工作流
  • 最后活动时间: 2026-03-20

tensorzero

开源工业级LLM应用技术栈,集成LLM网关、可观测性、优化和评估功能,为生产级AI应用提供完整基础设施。

  • Stars: ⭐️ 11.1k
  • Tags: LLMOps LLM-Gateway Observability
  • 最后活动时间: 2026-03-20

gateway

高性能AI网关,统一接入200+大语言模型和50+AI防护栏,提供单一API接口实现智能路由与安全管控。

  • Stars: ⭐️ 11.0k
  • Tags: AI-Gateway LLM Guardrails
  • 最后活动时间: 2026-03-14

text-generation-inference

HuggingFace官方推出的大语言模型生产级推理框架,支持BLOOM、Falcon等主流模型的高效部署,提供张量并行和流式输出等高级特性。

  • Stars: ⭐️ 10.8k
  • Tags: LLM Inference Deployment
  • 最后活动时间: 2026-01-08

kedro

生产级数据科学工具箱,采用软件工程最佳实践构建可复现、可维护的机器学习流水线。

  • Stars: ⭐️ 10.8k
  • Tags: MLOps 流水线 机器学习 Python
  • 最后活动时间: 2026-03-19

runanywhere-sdks

生产级本地 AI 运行工具包,支持 Android、iOS、Web 多平台部署,集成 LLM、多模态、语音 AI 等端侧推理能力。

  • Stars: ⭐️ 10.3k
  • Tags: On-Device AI Cross-Platform Edge AI
  • 最后活动时间: 2026-03-20

metaflow

Netflix开源的ML基础设施框架,支持分布式训练、LLM工作流和多云部署,提供完整的MLOps解决方案。

  • Stars: ⭐️ 10.0k
  • Tags: MLOps 分布式训练 LLM工作流
  • 最后活动时间: 2026-03-19

openvino

Intel开源的AI推理优化工具包,支持跨平台高性能部署计算机视觉、NLP和生成式AI模型。

  • Stars: ⭐️ 9.9k
  • Tags: 模型推理 优化部署 Intel
  • 最后活动时间: 2026-03-20

claude-relay-service

一站式AI API中转服务,支持Claude、OpenAI、Gemini等多平台统一接入,降低使用成本。

  • Stars: ⭐️ 9.9k
  • Tags: API Relay Multi-Model Claude
  • 最后活动时间: 2026-03-20

PySyft

隐私优先的机器学习框架,支持联邦学习和安全多方计算,让数据在不出服务器的情况下完成模型训练。

  • Stars: ⭐️ 9.9k
  • Tags: Federated Learning Privacy PyTorch
  • 最后活动时间: 2025-07-15

inference

一行代码替换GPT为任意大语言模型,支持云端、本地和多模态模型推理。

  • Stars: ⭐️ 9.1k
  • Tags: LLM推理 模型部署 OpenAI兼容
  • 最后活动时间: 2026-03-19

modelscope

阿里达摩院开源的模型即服务平台,提供丰富预训练模型库和Python SDK,覆盖CV、NLP、多模态等领域。

  • Stars: ⭐️ 8.8k
  • Tags: Model-as-a-Service Multi-modal Deep Learning
  • 最后活动时间: 2026-03-19

BentoML

一站式AI模型服务化平台,轻松构建推理API和LLM应用,支持生产级多模型管道部署。

  • Stars: ⭐️ 8.5k
  • Tags: 模型服务 MLOps LLM推理
  • 最后活动时间: 2026-03-16

lmdeploy

高效的大语言模型压缩、部署和服务化工具包,支持多种主流LLM的推理加速与量化部署。

  • Stars: ⭐️ 7.7k
  • Tags: LLM推理 模型部署 量化压缩
  • 最后活动时间: 2026-03-19

h2o-3

开源分布式机器学习平台,支持多种算法和AutoML自动建模功能,可扩展处理大规模数据。

  • Stars: ⭐️ 7.5k
  • Tags: 机器学习 AutoML 分布式计算
  • 最后活动时间: 2026-03-20

flyte

动态弹性的AI工作流编排平台,用于协调数据、模型和计算资源,支持Kubernetes原生部署和LLM工作流管理。

  • Stars: ⭐️ 6.9k
  • Tags: Orchestration MLOps Kubernetes
  • 最后活动时间: 2026-03-20

TensorFlow Serving

TensorFlow官方高性能模型服务系统,支持模型版本管理和多模型并行部署,专为生产环境设计。

  • Stars: ⭐️ 6.3k
  • Tags: TensorFlow 模型部署 生产环境
  • 最后活动时间: 2025-12-18

RWKV-Runner

仅8MB的RWKV模型管理启动工具,提供兼容OpenAI API接口,支持本地快速部署大模型。

  • Stars: ⭐️ 6.3k
  • Tags: RWKV LLM OpenAI-API 本地部署
  • 最后活动时间: 2026-03-20

greptimedb

开源可观测性数据库,统一存储指标、日志和追踪数据,支持AI/LLM监控场景。

  • Stars: ⭐️ 6.1k
  • Tags: Observability Database LLM Monitoring OpenTelemetry
  • 最后活动时间: 2026-03-21

gpt-load

支持多渠道的AI代理服务,具备智能密钥轮询功能,轻松管理OpenAI、Claude、Gemini等多个AI提供商。

  • Stars: ⭐️ 6.0k
  • Tags: AI代理 密钥管理 多渠道
  • 最后活动时间: 2026-03-18

plano

面向智能体应用的AI原生代理和数据平面,内置编排、安全、可观测性和智能LLM路由功能。

  • Stars: ⭐️ 6.0k
  • Tags: ai-gateway llm-routing proxy
  • 最后活动时间: 2026-03-20

deepreasoning

高性能LLM推理API,将DeepSeek R1思维链推理与Claude模型深度集成,基于Rust构建。

  • Stars: ⭐️ 5.4k
  • Tags: DeepSeek Claude 推理API 思维链
  • 最后活动时间: 2025-10-07

zenml

开源MLOps平台,用于构建可生产的机器学习管道和AI代理工作流,支持从实验到生产的全生命周期管理。

  • Stars: ⭐️ 5.3k
  • Tags: MLOps Pipeline LLMOps
  • 最后活动时间: 2026-03-20

helicone

开源LLM可观测性平台,一行代码即可实现AI应用的监控、评估和实验管理。

  • Stars: ⭐️ 5.3k
  • Tags: LLMOps Observability Monitoring OpenAI
  • 最后活动时间: 2026-03-19

kserve

CNCF旗下标准化AI模型推理平台,支持在Kubernetes上部署生成式和预测式AI模型,提供企业级模型服务解决方案。

  • Stars: ⭐️ 5.2k
  • Tags: Kubernetes Model-Serving LLM-Inference
  • 最后活动时间: 2026-03-20

lite.ai.toolkit

轻量级C++ AI推理工具箱,支持多种后端,内置100+模型包括目标检测、分割、Stable Diffusion等功能。

  • Stars: ⭐️ 4.4k
  • Tags: C++ ONNX TensorRT YOLO
  • 最后活动时间: 2026-03-19

CTranslate2

高效的Transformer模型推理引擎,支持量化优化和多平台加速,专为生产环境设计。

  • Stars: ⭐️ 4.4k
  • Tags: 推理引擎 量化 优化
  • 最后活动时间: 2026-02-04

logfire

专为生产环境 LLM 和智能体系统设计的可观测性平台,基于 OpenTelemetry 标准提供日志、指标和追踪功能。

  • Stars: ⭐️ 4.1k
  • Tags: Observability LLM OpenTelemetry Monitoring
  • 最后活动时间: 2026-03-20

PINTO_model_zoo

海量预训练模型库,支持TensorFlow、PyTorch、ONNX等主流框架格式互转,覆盖边缘部署全场景。

  • Stars: ⭐️ 4.1k
  • Tags: Model Conversion Edge Deployment ONNX
  • 最后活动时间: 2025-12-10

manifest

智能LLM路由方案,通过智能调度降低高达70%的API调用成本,支持可观测性监控。

  • Stars: ⭐️ 4.0k
  • Tags: LLM Router Cost Optimization Observability
  • 最后活动时间: 2026-03-20

lorax

多LoRA推理服务器,单GPU高效服务数千个微调模型,大幅降低部署成本。

  • Stars: ⭐️ 3.7k
  • Tags: LoRA LLM推理 模型服务
  • 最后活动时间: 2025-05-21

archestra

企业级AI平台,提供安全护栏、MCP注册中心、网关和编排器,适用于生产环境。

  • Stars: ⭐️ 3.5k
  • Tags: MCP Agent Enterprise Kubernetes
  • 最后活动时间: 2026-03-20

semantic-router

系统级智能路由器,支持云端、数据中心和边缘场景的混合模型路由,集成语义分类、PII检测和提示词防护功能。

  • Stars: ⭐️ 3.5k
  • Tags: LLM路由 AI网关 Kubernetes
  • 最后活动时间: 2026-03-20

FastVideo

统一的视频生成推理与后训练加速框架,支持扩散模型蒸馏和高效推理优化。

  • Stars: ⭐️ 3.2k
  • Tags: 视频生成 推理加速 扩散模型
  • 最后活动时间: 2026-03-20

neo

AI原生应用运行时引擎,支持多线程和持久化场景图,实现智能体实时内省与动态修改。

  • Stars: ⭐️ 3.2k
  • Tags: AI Runtime Agent Framework Multi-threaded
  • 最后活动时间: 2026-03-21

bifrost

高性能企业级AI网关,比LiteLLM快50倍,支持1000+模型、自适应负载均衡和护栏功能。

  • Stars: ⭐️ 3.1k
  • Tags: ai-gateway load-balancing guardrails
  • 最后活动时间: 2026-03-20

distributed-llama

分布式LLM推理框架,可将多台家用设备连接成集群加速大模型推理,设备越多推理越快。

  • Stars: ⭐️ 2.9k
  • Tags: 分布式推理 集群计算 LLM
  • 最后活动时间: 2026-02-10

spiceai

Rust 编写的便携式加速 SQL 查询、搜索和 LLM 推理引擎,为数据驱动的 AI 应用和智能体提供基础设施支持。

  • Stars: ⭐️ 2.8k
  • Tags: SQL LLM推理 数据联邦 Rust
  • 最后活动时间: 2026-03-20

lmnr

专为AI智能体打造的开源可观测性平台,提供全链路追踪、评估和监控能力,YC S24孵化项目。

  • Stars: ⭐️ 2.7k
  • Tags: 可观测性 LLMOps 监控
  • 最后活动时间: 2026-03-20

ramalama

基于容器技术的AI模型部署工具,简化本地服务和生产环境推理,支持llama.cpp、vLLM等多种引擎。

  • Stars: ⭐️ 2.7k
  • Tags: 容器化 模型部署 推理引擎
  • 最后活动时间: 2026-03-20

docker-agent

AI智能体构建与运行时平台,借助Docker容器化优势,让Agent的构建、测试和生产部署更加简单高效。

  • Stars: ⭐️ 2.6k
  • Tags: Docker Runtime Deployment
  • 最后活动时间: 2026-03-20

axonhub

开源AI网关,支持100+大语言模型,内置故障转移、负载均衡、成本控制和端到端追踪功能。

  • Stars: ⭐️ 2.5k
  • Tags: AI Gateway LLM 负载均衡
  • 最后活动时间: 2026-03-20

supergateway

MCP服务器协议转换工具,支持stdio与SSE双向转换,适用于AI网关场景。

  • Stars: ⭐️ 2.5k
  • Tags: MCP AI Gateway Protocol
  • 最后活动时间: 2025-10-09

hamilton

Apache项目,帮助定义可测试、模块化的数据流,支持ML/LLM工作流编排与血缘追踪。

  • Stars: ⭐️ 2.4k
  • Tags: Dataflow MLOps ETL
  • 最后活动时间: 2026-03-21

instill-core

全栈AI基础设施工具,提供数据、模型和流水线编排能力,支持低代码方式快速构建AI应用。

  • Stars: ⭐️ 2.3k
  • Tags: AI基础设施 流水线编排 低代码
  • 最后活动时间: 2026-03-19

openlit

OpenTelemetry原生AI工程平台,提供LLM可观测性、GPU监控、护栏和提示词管理等一站式解决方案。

  • Stars: ⭐️ 2.3k
  • Tags: LLM Observability OpenTelemetry AI Engineering
  • 最后活动时间: 2026-03-19

metamcp

一体化MCP聚合网关,集成编排、中间件和代理功能,支持Docker一键部署。

  • Stars: ⭐️ 2.1k
  • Tags: MCP Gateway Orchestration
  • 最后活动时间: 2026-02-08

nndeploy

简单易用且高性能的 AI 部署框架,支持 TensorRT、ONNXRuntime、OpenVINO 等多种推理后端和低代码工作流编排。

  • Stars: ⭐️ 1.8k
  • Tags: 部署框架 TensorRT 多后端 LLM
  • 最后活动时间: 2026-03-15

katib

Kubernetes上的自动化机器学习平台,支持超参数调优和神经架构搜索,适用于大规模ML部署。

  • Stars: ⭐️ 1.7k
  • Tags: AutoML Kubernetes MLOps
  • 最后活动时间: 2026-03-20

toolhive

企业级MCP服务器运行管理平台,专注于AI安全与基础设施部署,支持Kubernetes环境。

  • Stars: ⭐️ 1.7k
  • Tags: MCP AI Security Kubernetes
  • 最后活动时间: 2026-03-20

mlrun

开源MLOps平台,用于快速构建和管理ML应用全生命周期,支持自动化ML流水线、模型服务和CI/CD集成。

  • Stars: ⭐️ 1.7k
  • Tags: MLOps Kubernetes Model-Serving
  • 最后活动时间: 2026-03-20

langchain-serve

基于Jina和FastAPI的LangChain应用生产部署工具,支持AutoGPT、BabyAGI等自主代理和聊天机器人的云端快速部署。

  • Stars: ⭐️ 1.6k
  • Tags: LangChain Deployment Production
  • 最后活动时间: 2023-09-20

APIPark

云原生高性能AI网关平台,统一管理OpenAI、Claude、DeepSeek等主流大模型API,提供负载均衡和灾备功能。

  • Stars: ⭐️ 1.6k
  • Tags: AI Gateway LLM Gateway API Management
  • 最后活动时间: 2025-10-26

beta9

超快速无服务器GPU推理平台,专为AI/ML工作负载设计,支持自动扩缩容。

  • Stars: ⭐️ 1.6k
  • Tags: Serverless GPU LLM推理
  • 最后活动时间: 2026-03-20

mlreef

面向机器学习的协作工作平台,支持模型开发、版本控制和实验追踪,助力团队高效进行MLOps实践。

  • Stars: ⭐️ 1.5k
  • Tags: MLOps 协作平台 实验追踪
  • 最后活动时间: 2022-11-01

ai-gateway

基于Envoy Gateway构建的AI网关,统一管理生成式AI服务访问,支持多LLM提供商接入。

  • Stars: ⭐️ 1.4k
  • Tags: AI Gateway Envoy LLM
  • 最后活动时间: 2026-03-20

motorhead

Rust编写的高性能LLM记忆服务器,自动管理聊天记录摘要和持久化,解决LLM无状态问题,简化智能体和对话应用开发。

  • Stars: ⭐️ 1.4k
  • Tags: Memory Rust LLMOps
  • 最后活动时间: 2024-03-01

uni-api

统一管理多个LLM API提供商的网关服务,支持OpenAI、Claude、Gemini等后端,提供统一接口和负载均衡。

  • Stars: ⭐️ 1.2k
  • Tags: API网关 负载均衡 OpenAI兼容
  • 最后活动时间: 2026-03-13

langtrace

基于OpenTelemetry的LLM应用可观测性工具,提供实时追踪、评估和监控功能,支持LangChain、OpenAI等主流框架。

  • Stars: ⭐️ 1.2k
  • Tags: Observability OpenTelemetry LLMOps
  • 最后活动时间: 2025-11-17

BricksLLM

企业级 LLM API 网关,提供成本控制、速率限制和细粒度访问控制,支持 OpenAI、Anthropic、vLLM 等主流模型提供商。

  • Stars: ⭐️ 1.2k
  • Tags: API Gateway Rate Limiting Cost Control Self-hosted
  • 最后活动时间: 2025-01-05

kubetorch

在Kubernetes上分布式运行AI工作负载的Python工具,像PyTorch一样简单管理ML基础设施。支持训练、推理和数据处理的无缝部署。

  • Stars: ⭐️ 1.2k
  • Tags: Kubernetes PyTorch Distributed AI ML Infrastructure
  • 最后活动时间: 2026-03-13

xllm

高性能LLM推理引擎,针对多种AI加速器优化,支持DeepSeek、GLM、Qwen等主流大模型的高效部署。

  • Stars: ⭐️ 1.1k
  • Tags: Inference LLM Accelerator
  • 最后活动时间: 2026-03-20

9router

统一路由工具,连接Claude Code、Cursor、Copilot等AI编程工具到40+服务商和100+模型,简化多模型接入。

  • Stars: ⭐️ 1.1k
  • Tags: AI Router Code Assistant Multi-Model API Gateway
  • 最后活动时间: 2026-03-20

rtp-llm

阿里巴巴开源的高性能大语言模型推理引擎,专为多样化应用场景优化,提供卓越的推理性能。

  • Stars: ⭐️ 1.1k
  • Tags: LLM 推理引擎 阿里巴巴
  • 最后活动时间: 2026-03-20

llmgateway

统一管理多个LLM提供商API请求的网关,提供智能路由、速率限制、成本分析和安全防护功能。

  • Stars: ⭐️ 998
  • Tags: API网关 多提供商 企业级
  • 最后活动时间: 2026-03-20

openai-forward

高效的大语言模型API转发服务,支持OpenAI接口反向代理,具备速率限制和负载均衡能力。

  • Stars: ⭐️ 989
  • Tags: Reverse Proxy LLM Gateway Rate Limiting
  • 最后活动时间: 2025-03-15

bedrock-access-gateway

为Amazon Bedrock提供OpenAI兼容的RESTful API接口,便于开发者无缝迁移和集成AWS大模型服务。

  • Stars: ⭐️ 953
  • Tags: AWS Bedrock OpenAI Compatible API Gateway
  • 最后活动时间: 2026-03-13

MCP-Bridge

中间件服务,提供OpenAI兼容接口并支持调用MCP工具。

  • Stars: ⭐️ 921
  • Tags: MCP OpenAI 中间件
  • 最后活动时间: 2025-12-08

MCPJungle

自托管的MCP网关,为AI代理提供统一的MCP服务器管理和注册服务。

  • Stars: ⭐️ 916
  • Tags: MCP 网关 基础设施
  • 最后活动时间: 2026-03-13

sherpa

基于下一代Kaldi的语音识别服务器框架,支持多种端到端ASR模型,提供WebSocket实时接口。

  • Stars: ⭐️ 896
  • Tags: ASR 实时语音 模型部署
  • 最后活动时间: 2026-03-20

openinference

专为AI应用设计的OpenTelemetry可观测性工具,支持LangChain、LlamaIndex等主流框架的追踪与监控。

  • Stars: ⭐️ 891
  • Tags: Observability OpenTelemetry LLMOps
  • 最后活动时间: 2026-03-21

hyper-mcp

快速安全的MCP服务器,支持WebAssembly插件扩展,为AI应用提供灵活架构。

  • Stars: ⭐️ 871
  • Tags: MCP WebAssembly 插件化
  • 最后活动时间: 2026-03-20

llamafarm

一站式AI模型部署平台,支持本地或远程快速部署模型、Agent、RAG和数据库管道。

  • Stars: ⭐️ 825
  • Tags: 模型部署 MLOps RAG
  • 最后活动时间: 2026-03-20

coderunner

为AI代理设计的本地沙箱环境,支持安全隔离的代码执行和容器化运行,保障AI代码执行的安全性。

  • Stars: ⭐️ 807
  • Tags: Sandbox Claude Code MCP Containerization
  • 最后活动时间: 2026-03-15

headroom

LLM应用上下文优化层,通过智能压缩技术解决上下文窗口限制,支持OpenAI、Anthropic等多种提供商。

  • Stars: ⭐️ 751
  • Tags: Context Optimization Token Compression LLM Proxy
  • 最后活动时间: 2026-03-20

comfy-cli

ComfyUI官方命令行管理工具,简化Stable Diffusion工作流的安装、更新与环境配置。

  • Stars: ⭐️ 706
  • Tags: ComfyUI CLI Stable Diffusion
  • 最后活动时间: 2026-03-20

OpenTinker

RL-as-a-Service基础设施平台,专为基础模型提供强化学习服务能力。

  • Stars: ⭐️ 648
  • Tags: RL Infrastructure Foundation Models
  • 最后活动时间: 2026-03-18

vllm-mlx

专为 Apple Silicon 优化的推理服务器,支持 LLM 和多模态模型的连续批处理推理,原生 MLX 后端实现高达 400+ tok/s 性能。

  • Stars: ⭐️ 630
  • Tags: Apple Silicon MLX 推理服务 多模态
  • 最后活动时间: 2026-03-20

gateway-api-inference-extension

Kubernetes Gateway API的推理扩展,为AI模型推理提供标准化的流量管理和路由能力。

  • Stars: ⭐️ 616
  • Tags: Kubernetes Inference API Gateway
  • 最后活动时间: 2026-03-20

ollama_proxy_server

Ollama多实例代理服务器,提供API密钥安全管理、智能负载均衡和用户权限管理,适合团队协作部署。

  • Stars: ⭐️ 606
  • Tags: Ollama Proxy Load Balancer
  • 最后活动时间: 2026-03-20

Awesome-DiT-Inference

Diffusion Transformer推理优化论文与代码合集,涵盖采样加速、量化、并行计算等核心技术。

  • Stars: ⭐️ 526
  • Tags: DiT 推理优化 量化 Diffusion
  • 最后活动时间: 2026-03-19

rocketride-server

高性能AI流水线引擎,采用C++核心与50+可扩展节点,支持多模型提供商和向量数据库的LLM工作流构建。

  • Stars: ⭐️ 522
  • Tags: Pipeline Agent LLM C++
  • 最后活动时间: 2026-03-20

aikit

开源大模型微调、构建和部署的一站式工具,支持Docker和Kubernetes环境下的LLM服务化。

  • Stars: ⭐️ 512
  • Tags: LLM Deployment Docker
  • 最后活动时间: 2026-03-19

ClawRouter

面向AI智能体原生的LLM路由器,支持41+模型且路由延迟低于1ms,集成USDC微支付功能。

  • Stars: ⭐️ 500
  • Tags: LLM路由 AI Agents 微支付
  • 最后活动时间: 2026-03-20

未分类 (Others)

phoenix

开源AI可观测性平台,支持LLM应用追踪、实验评估和性能监控,帮助开发者调试和优化AI系统。

  • Stars: ⭐️ 8.9k
  • Tags: LLMOps Observability Evaluation
  • 最后活动时间: 2026-03-20