Skip to content

👁️ 多模态与音视频

Computer vision, image generation, audio, text-to-speech.

当前分类已收录 826 个相关项目。

Audio & Speech (TTS/STT)

Real-Time-Voice-Cloning

5秒实时语音克隆工具,可生成任意语音内容。

  • Stars: ⭐️ 59.6k
  • Tags: Voice Cloning TTS Real-time
  • 最后活动时间: 2026-03-09

GPT-SoVITS

少样本语音克隆TTS模型,仅需1分钟语音数据即可训练高质量语音合成模型。

  • Stars: ⭐️ 56.6k
  • Tags: TTS Voice Cloning Few-shot
  • 最后活动时间: 2026-02-09

whisper.cpp

OpenAI Whisper模型的C/C++高性能移植版本,支持本地CPU/GPU推理,适用于语音识别和语音转文字场景。

  • Stars: ⭐️ 48.6k
  • Tags: speech-recognition speech-to-text whisper inference
  • 最后活动时间: 2026-03-29

VibeVoice

开源的前沿语音AI项目,专注于语音识别与合成技术。

  • Stars: ⭐️ 39.2k
  • Tags: voice-ai speech-synthesis speech-recognition
  • 最后活动时间: 2026-04-10

ChatTTS

专为日常对话优化的生成式语音合成模型,支持中英双语,适合对话场景。

  • Stars: ⭐️ 39.1k
  • Tags: TTS Speech Dialogue
  • 最后活动时间: 2026-04-10

MockingBird

5秒内克隆任意声音并实时生成语音的AI语音合成工具,支持中文和多语言。

  • Stars: ⭐️ 36.9k
  • Tags: TTS Voice Cloning Deep Learning
  • 最后活动时间: 2026-03-03

fish-speech

开源SOTA级文本转语音项目,基于LLaMA和Transformer架构,支持高质量语音合成与克隆。

  • Stars: ⭐️ 29.3k
  • Tags: TTS 语音合成 Transformer
  • 最后活动时间: 2026-04-06

MiniCPM-o

达到Gemini 2.5 Flash级别的多模态大语言模型,支持视觉、语音和全双工多模态实时流媒体,可在手机端运行。

  • Stars: ⭐️ 24.4k
  • Tags: multimodal llm vision speech mobile
  • 最后活动时间: 2026-04-01

chatterbox

开源SoTA文本转语音模型,提供高质量语音合成能力。

  • Stars: ⭐️ 24.3k
  • Tags: TTS Speech Synthesis
  • 最后活动时间: 2026-03-26

audiocraft

Meta推出的深度学习音频处理与生成库,包含业界领先的EnCodec音频压缩器和MusicGen音乐生成模型,支持文本和旋律条件控制。

  • Stars: ⭐️ 23.2k
  • Tags: audio-generation music-generation deep-learning musicgen encodec
  • 最后活动时间: 2026-03-03

faster-whisper

基于CTranslate2的高效Whisper语音识别推理引擎,相比原版更快更省内存,支持量化压缩,适合生产部署。

  • Stars: ⭐️ 22.1k
  • Tags: speech-recognition whisper inference-optimization
  • 最后活动时间: 2025-11-19

whisperX

基于Whisper的自动语音识别工具,支持词级时间戳和说话人分离,提供快速准确的语音转文字能力。

  • Stars: ⭐️ 21.2k
  • Tags: ASR Speech-to-Text Whisper Diarization
  • 最后活动时间: 2026-04-04

CosyVoice

多语言大语音生成模型,提供推理、训练和部署全栈能力。

  • Stars: ⭐️ 20.5k
  • Tags: TTS Multi-lingual Voice Cloning
  • 最后活动时间: 2026-03-16

index-tts

工业级可控高效零样本文本转语音系统,支持跨语言语音合成。

  • Stars: ⭐️ 20.0k
  • Tags: TTS Zero-shot Industrial
  • 最后活动时间: 2026-03-16

Handy

免费开源的离线语音转文字应用,支持完全离线运行保护隐私,基于Tauri v2跨平台构建。

  • Stars: ⭐️ 19.8k
  • Tags: 语音识别 离线 无障碍
  • 最后活动时间: 2026-04-11

dia

单次推理生成超逼真对话的TTS模型,适合对话场景语音合成。

  • Stars: ⭐️ 19.2k
  • Tags: TTS Dialogue Realistic
  • 最后活动时间: 2025-11-19

buzz

基于OpenAI Whisper的离线音频转录与翻译工具,支持在本地电脑上运行,无需联网即可实现高质量的语音转文字。

  • Stars: ⭐️ 18.6k
  • Tags: whisper speech-to-text transcription offline-ai
  • 最后活动时间: 2026-04-12

pyvideotrans

AI驱动的视频翻译工具,支持跨语言翻译并自动生成配音与字幕,集成语音识别与合成技术。

  • Stars: ⭐️ 16.8k
  • Tags: video-translation speech-to-text text-to-speech subtitle
  • 最后活动时间: 2026-04-07

VideoLingo

Netflix级AI视频字幕处理工具,支持一键自动切割、翻译、对齐和配音,实现全自动视频本地化。

  • Stars: ⭐️ 16.7k
  • Tags: video-translation ai-translation dubbing voice-cloning subtitle
  • 最后活动时间: 2026-03-24

FunASR

阿里达摩院开源的端到端语音识别工具包,提供SOTA预训练模型。

  • Stars: ⭐️ 15.6k
  • Tags: speech-recognition asr pytorch pretrained-model vad
  • 最后活动时间: 2026-03-17

voicebox

开源语音合成工作室,支持语音克隆和文本转语音,提供可视化界面操作。

  • Stars: ⭐️ 15.6k
  • Tags: voice-ai voice-clone tts whisper
  • 最后活动时间: 2026-03-31

vosk-api

离线语音识别API,支持Android、iOS、树莓派和服务器,提供Python、Java、C#和Node.js多语言SDK。

  • Stars: ⭐️ 14.5k
  • Tags: Speech Recognition Offline Deep Learning
  • 最后活动时间: 2026-02-22

F5-TTS

基于流匹配的高质量文本转语音模型,生成流畅自然的语音。

  • Stars: ⭐️ 14.3k
  • Tags: TTS Flow Matching Research
  • 最后活动时间: 2026-04-04

VideoCaptioner

基于LLM的智能字幕助手,支持视频字幕生成、断句、校正和翻译全流程处理,提升视频内容创作效率。

  • Stars: ⭐️ 14.0k
  • Tags: 字幕生成 视频处理 LLM应用 翻译
  • 最后活动时间: 2026-03-29

KittenTTS

体积小于25MB的SOTA文本转语音模型,适合边缘设备部署。

  • Stars: ⭐️ 13.5k
  • Tags: text-to-speech tts lightweight edge-deployment
  • 最后活动时间: 2026-03-27

PaddleSpeech

易用语音工具包,涵盖ASR、TTS、语音翻译、声纹识别等全栈能力,获NAACL2022最佳Demo奖。

  • Stars: ⭐️ 12.6k
  • Tags: ASR TTS Speech Toolkit
  • 最后活动时间: 2026-04-11

VoxCPM

无分词器的文本转语音模型,支持上下文感知的语音生成和高保真声音克隆。

  • Stars: ⭐️ 11.9k
  • Tags: TTS 声音克隆 语音合成
  • 最后活动时间: 2026-04-13

sherpa-onnx

离线语音处理神器,支持语音识别、语音合成、说话人分离、语音增强等功能,覆盖嵌入式设备到服务器的全平台部署。

  • Stars: ⭐️ 11.5k
  • Tags: Speech-to-Text Text-to-Speech ONNX Embedded
  • 最后活动时间: 2026-04-13

speechbrain

基于PyTorch的开源语音处理工具包,涵盖语音识别、说话人识别、语音增强等多种任务。

  • Stars: ⭐️ 11.4k
  • Tags: Speech PyTorch ASR Speaker-Recognition
  • 最后活动时间: 2026-04-03

Qwen3-TTS

阿里云Qwen团队开源的文本转语音模型,支持稳定流式语音生成、自由语音设计和生动的语音克隆功能。

  • Stars: ⭐️ 10.6k
  • Tags: TTS Speech Synthesis Voice Cloning
  • 最后活动时间: 2026-03-17

edge-tts

无需Microsoft Edge或Windows即可使用Edge在线TTS服务的Python库,无需API密钥。

  • Stars: ⭐️ 10.6k
  • Tags: text-to-speech tts speech-synthesis
  • 最后活动时间: 2026-03-22

moshi

语音-文本基础模型和全双工口语对话框架,支持实时流式对话,采用Mimi编解码器实现高质量神经音频压缩。

  • Stars: ⭐️ 10.0k
  • Tags: Speech Dialogue Voice AI Real-time
  • 最后活动时间: 2026-03-04

KrillinAI

基于LLM的视频翻译配音工具,支持100种语言双向翻译和一键部署。

  • Stars: ⭐️ 9.8k
  • Tags: Video Translation TTS
  • 最后活动时间: 2026-02-08

espnet

端到端语音处理工具包,支持语音识别、合成、翻译和说话人分离等多种任务,基于PyTorch构建并提供丰富的预训练模型。

  • Stars: ⭐️ 9.8k
  • Tags: 语音识别 语音合成 PyTorch
  • 最后活动时间: 2026-04-08

Amphion

音频、音乐和语音生成工具包,支持TTS、语音转换、音乐生成等多种生成任务,助力可复现研究。

  • Stars: ⭐️ 9.8k
  • Tags: Audio Generation TTS Music Generation
  • 最后活动时间: 2026-03-25

pyannote-audio

说话人分离神经网络工具包,支持语音活动检测、说话人识别与嵌入。

  • Stars: ⭐️ 9.7k
  • Tags: speaker-diarization speech-processing pytorch
  • 最后活动时间: 2026-04-01

RealtimeSTT

高性能实时语音转文本库,支持高级语音活动检测、唤醒词激活和即时转录。

  • Stars: ⭐️ 9.7k
  • Tags: speech-to-text realtime voice-activity-detection transcription
  • 最后活动时间: 2026-03-14

so-vits-svc-fork

实时语音转换项目,支持歌声转换与变声功能。

  • Stars: ⭐️ 9.3k
  • Tags: voice-conversion speech-synthesis pytorch
  • 最后活动时间: 2026-04-13

ACE-Step-1.5

强大的本地音乐生成模型,性能超越多数商业替代品,支持Mac、AMD、Intel和CUDA设备。

  • Stars: ⭐️ 9.0k
  • Tags: music-generation text-to-music generative-ai local-inference
  • 最后活动时间: 2026-04-08

speech_recognition

Python语音识别模块,支持多种引擎和API,可在线或离线进行语音转文字。

  • Stars: ⭐️ 9.0k
  • Tags: speech-recognition speech-to-text python
  • 最后活动时间: 2026-04-07

silero-vad

企业级预训练语音活动检测器,轻量高效,支持ONNX运行时,适用于语音识别前端处理。

  • Stars: ⭐️ 8.8k
  • Tags: VAD Speech-Processing ONNX
  • 最后活动时间: 2026-03-26

Bert-VITS2

基于VITS2与多语言BERT的高质量语音合成项目,支持多语言文本转语音,生成自然流畅的语音效果。

  • Stars: ⭐️ 8.7k
  • Tags: TTS 语音合成 BERT
  • 最后活动时间: 2026-04-06

ASRT_SpeechRecognition

基于深度学习的中文语音识别系统,采用CNN和CTC架构实现语音转文字。

  • Stars: ⭐️ 8.4k
  • Tags: Speech Recognition Chinese Deep Learning
  • 最后活动时间: 2026-04-10

librosa

Python音频与音乐分析核心库,提供丰富的音频特征提取和信号处理功能,广泛应用于AI音频领域。

  • Stars: ⭐️ 8.3k
  • Tags: 音频分析 信号处理 Python库
  • 最后活动时间: 2026-03-24

higgs-audio

Boson AI开发的文本-音频基础模型,支持高质量音频生成与理解任务,在语音合成和多模态交互方面表现出色。

  • Stars: ⭐️ 8.0k
  • Tags: Audio Generation Foundation Model Multimodal
  • 最后活动时间: 2026-01-18

SenseVoice

多语言语音理解模型,支持语音识别、情感识别和音频事件分类等多种语音理解任务。

  • Stars: ⭐️ 8.0k
  • Tags: ASR Multilingual Speech Emotion-Recognition
  • 最后活动时间: 2025-12-30

moonshine

专为边缘设备设计的快速精准自动语音识别(ASR)模型,适合资源受限环境下的实时语音转文字应用。

  • Stars: ⭐️ 7.6k
  • Tags: ASR Speech Recognition Edge AI
  • 最后活动时间: 2026-04-08

ffsubsync

自动同步字幕与视频的工具,利用语音活动检测和FFT算法实现字幕时间轴的智能对齐。

  • Stars: ⭐️ 7.6k
  • Tags: Subtitle Speech Detection Video Processing
  • 最后活动时间: 2025-11-25

ChatTTS-ui

ChatTTS的本地Web界面,支持文字转语音和对外API接口调用。

  • Stars: ⭐️ 7.5k
  • Tags: chattts text-to-speech tts web-ui
  • 最后活动时间: 2025-12-05

mlx-audio

基于Apple MLX框架的语音处理库,支持TTS、STT和STS全流程语音能力,专为Apple Silicon优化。

  • Stars: ⭐️ 6.7k
  • Tags: TTS STT Apple Silicon MLX
  • 最后活动时间: 2026-04-07

voice-pro

功能强大的Gradio WebUI音频处理工具,集成Edge-TTS、F5-TTS语音合成与克隆、Whisper语音识别及翻译功能。

  • Stars: ⭐️ 6.6k
  • Tags: TTS Voice Cloning Whisper Gradio
  • 最后活动时间: 2025-12-05

wav2letter

Meta AI Research开源的端到端自动语音识别工具包。

  • Stars: ⭐️ 6.4k
  • Tags: speech-recognition asr deep-learning meta
  • 最后活动时间: 2026-01-12

espeak-ng

开源语音合成引擎,支持超过100种语言和口音的文本转语音系统。

  • Stars: ⭐️ 6.3k
  • Tags: text-to-speech speech-synthesis open-source
  • 最后活动时间: 2026-04-06

podcastfy

开源的NotebookLM播客功能替代方案,可将多种模态内容转换为引人入胜的多语言音频对话。

  • Stars: ⭐️ 6.2k
  • Tags: Podcast Generation Text-to-Speech GenAI
  • 最后活动时间: 2025-12-09

tts-vue

基于微软语音服务的桌面端TTS工具,支持文本转语音合成,使用Electron+Vue构建。

  • Stars: ⭐️ 6.1k
  • Tags: TTS Speech Synthesis Desktop
  • 最后活动时间: 2025-12-06

Orpheus-TTS

高质量文本转语音系统,致力于生成接近人类自然语感的语音输出。

  • Stars: ⭐️ 6.1k
  • Tags: TTS Speech Synthesis Real-time
  • 最后活动时间: 2025-12-05

pedalboard

Spotify开源的Python音频处理库,支持VST3插件和音频增强,适用于机器学习音频数据预处理。

  • Stars: ⭐️ 6.1k
  • Tags: audio-processing python machine-learning vst3
  • 最后活动时间: 2026-02-02

WhisperKit

专为Apple Silicon优化的端侧语音识别框架,支持iOS、macOS等平台。

  • Stars: ⭐️ 6.0k
  • Tags: speech-recognition whisper swift on-device apple-silicon
  • 最后活动时间: 2026-04-10

audiblez

从电子书生成有声书的工具,支持EPUB格式转换为音频。

  • Stars: ⭐️ 5.9k
  • Tags: audiobooks text-to-speech tts epub
  • 最后活动时间: 2026-02-27

silero-models

预训练文本转语音模型库,支持俄语、乌克兰语等10多种语言,可通过PyTorch Hub快速集成。

  • Stars: ⭐️ 5.9k
  • Tags: TTS 预训练模型 多语言
  • 最后活动时间: 2026-03-27

vibe

基于 Whisper 的本地语音转录工具,支持跨平台桌面使用,让你完全掌控自己的语音识别流程。

  • Stars: ⭐️ 5.7k
  • Tags: whisper transcribe audio rust desktop
  • 最后活动时间: 2026-03-13

mediabunny

纯TypeScript媒体处理工具包,支持在浏览器中直接读取、写入和转换音视频文件,适用于多模态AI应用的媒体预处理。

  • Stars: ⭐️ 5.6k
  • Tags: audio video webcodecs media-processing
  • 最后活动时间: 2026-04-10

seek-tune

Shazam歌曲识别算法的开源实现,通过音频指纹技术实现快速精准的音乐识别。

  • Stars: ⭐️ 5.6k
  • Tags: audio-fingerprinting audio-processing song-recognition shazam
  • 最后活动时间: 2025-11-19

whisper-diarization

基于OpenAI Whisper的自动语音识别与说话人分离工具,支持多说话人场景下的语音转文字和身份识别。

  • Stars: ⭐️ 5.5k
  • Tags: ASR Speaker Diarization Whisper
  • 最后活动时间: 2026-02-23

neutts

Neuphonic开发的设备端TTS模型,优化本地推理性能。

  • Stars: ⭐️ 5.1k
  • Tags: text-to-speech tts on-device edge-ai
  • 最后活动时间: 2026-03-23

wenet

生产级端到端语音识别工具包,支持Conformer和Transformer架构,专为工业部署优化。

  • Stars: ⭐️ 5.1k
  • Tags: ASR E2E Production Ready
  • 最后活动时间: 2026-03-31

basic-pitch

轻量级音频转MIDI工具,支持复音转录和音高弯曲检测,基于机器学习技术实现高精度音频分析。

  • Stars: ⭐️ 4.9k
  • Tags: audio machine-learning midi music pitch-detection
  • 最后活动时间: 2025-11-13

porcupine

基于深度学习的端上唤醒词检测引擎,支持自定义唤醒词。

  • Stars: ⭐️ 4.8k
  • Tags: wake-word-detection keyword-spotting voice-activation on-device
  • 最后活动时间: 2026-04-09

Kokoro-FastAPI

Kokoro-82M语音合成模型的FastAPI封装服务,支持CPU ONNX和GPU PyTorch推理,提供OpenAI兼容API。

  • Stars: ⭐️ 4.7k
  • Tags: TTS FastAPI ONNX Docker
  • 最后活动时间: 2026-01-04

speech-to-speech

基于开源模型构建的本地语音代理工具,支持语音识别、合成和翻译全流程。

  • Stars: ⭐️ 4.7k
  • Tags: 语音识别 语音合成 本地部署
  • 最后活动时间: 2026-04-13

WhisperSpeech

开源文本转语音系统,基于Whisper模型逆向构建。

  • Stars: ⭐️ 4.6k
  • Tags: text-to-speech speech-synthesis whisper
  • 最后活动时间: 2025-12-14

ultravox

开源实时语音多模态大模型,实现低延迟的语音到语音对话交互,适用于构建智能语音助手。

  • Stars: ⭐️ 4.4k
  • Tags: Multimodal LLM Real-time Voice Speech AI
  • 最后活动时间: 2025-12-12

pocketsphinx

轻量级语音识别引擎,适用于嵌入式设备和离线语音识别场景。

  • Stars: ⭐️ 4.3k
  • Tags: speech-recognition offline-speech lightweight-stt
  • 最后活动时间: 2026-04-06

abogen

将EPUB、PDF和文本转换为有声书的开源工具,支持同步字幕和多种TTS引擎。

  • Stars: ⭐️ 4.2k
  • Tags: TTS Audiobook Kokoro
  • 最后活动时间: 2026-03-06

WhisperLive

OpenAI Whisper的近实时实现,支持语音识别、翻译和听写功能。

  • Stars: ⭐️ 4.0k
  • Tags: 语音识别 Whisper 实时转录
  • 最后活动时间: 2026-03-17

RealtimeTTS

实时文本转语音库,支持多种TTS引擎,可实现低延迟的语音合成输出。

  • Stars: ⭐️ 3.9k
  • Tags: text-to-speech speech-synthesis realtime python
  • 最后活动时间: 2026-04-09

pocket-tts

可在CPU上运行的轻量级TTS系统,适合资源受限环境。

  • Stars: ⭐️ 3.8k
  • Tags: text-to-speech tts lightweight cpu-inference
  • 最后活动时间: 2026-04-08

SmartSub

跨平台AI字幕生成工具,支持批量处理视频音频生成字幕并翻译,集成多家AI服务。

  • Stars: ⭐️ 3.7k
  • Tags: 字幕生成 Whisper 翻译
  • 最后活动时间: 2026-03-17

aubio

音频与音乐分析库,提供音符检测、音高追踪、节拍检测和MFCC特征提取功能,广泛应用于音频机器学习和音乐信息检索领域。

  • Stars: ⭐️ 3.7k
  • Tags: audio music-analysis mfcc pitch-detection onset-detection
  • 最后活动时间: 2026-04-10

Qwen3-Omni

阿里云Qwen团队开发的全模态端到端大模型,支持文本、音频、图像、视频理解及实时语音生成。

  • Stars: ⭐️ 3.7k
  • Tags: Omni-Modal TTS Qwen
  • 最后活动时间: 2026-01-08

stable-audio-tools

用于条件音频生成的生成模型工具集,支持高质量音频合成与处理。

  • Stars: ⭐️ 3.7k
  • Tags: audio-generation generative-models diffusion-models
  • 最后活动时间: 2026-02-14

LuxTTS

高质量快速TTS语音克隆模型,推理速度可达150倍实时。

  • Stars: ⭐️ 3.6k
  • Tags: text-to-speech tts voice-cloning fast-inference
  • 最后活动时间: 2026-03-12

whisper_streaming

基于Whisper的实时流式语音转文本转录和翻译工具。

  • Stars: ⭐️ 3.6k
  • Tags: Whisper Speech-to-Text Streaming
  • 最后活动时间: 2025-11-12

essentia

专业的C++音频与音乐分析库,支持音乐信息检索、音频特征提取与合成,提供Python绑定接口。

  • Stars: ⭐️ 3.5k
  • Tags: audio-analysis music-information-retrieval dsp python
  • 最后活动时间: 2026-02-09

sam-audio

Meta官方音频分割模型SAM-Audio的推理代码和预训练权重,支持音频分割任务的完整示例和Jupyter笔记本。

  • Stars: ⭐️ 3.4k
  • Tags: audio-processing segment-anything meta-ai audio-model
  • 最后活动时间: 2026-01-05

audioFlux

音频与音乐分析特征提取库,支持深度学习和机器学习应用,涵盖频谱分析、MFCC、音高检测等功能。

  • Stars: ⭐️ 3.3k
  • Tags: Audio Analysis Machine Learning Signal Processing
  • 最后活动时间: 2026-03-06

SoulX-Podcast

Soul AI团队开发的高保真播客生成工具,支持从文本生成高质量音频内容。

  • Stars: ⭐️ 3.3k
  • Tags: podcast-generation text-to-speech audio-synthesis
  • 最后活动时间: 2025-12-11

Linly-Talker

数字人对话系统,融合大语言模型与视觉模型,集成语音识别、合成与说话人头像生成技术。

  • Stars: ⭐️ 3.2k
  • Tags: Digital Avatar Multimodal TTS
  • 最后活动时间: 2026-02-10

speaches

基于Whisper的语音转文字服务,支持Docker部署和OpenAI API兼容接口,提供高效的音频转录能力。

  • Stars: ⭐️ 3.2k
  • Tags: Whisper Speech-to-Text Docker Transcription
  • 最后活动时间: 2026-04-09

AsrTools

智能语音转文字工具,支持批量处理、无需GPU,可输出SRT/TXT格式,高效准确的音频转录解决方案。

  • Stars: ⭐️ 3.2k
  • Tags: speech-recognition asr voice-to-text transcription
  • 最后活动时间: 2025-11-25

Applio

简单易用的高质量语音转换工具,专注于性能优化和用户体验。

  • Stars: ⭐️ 3.2k
  • Tags: Voice Conversion RVC TTS
  • 最后活动时间: 2026-04-12

TTS-WebUI

集成多种TTS模型的统一WebUI,支持GPT-SoVITS、XTTS、Bark等20+语音合成引擎。

  • Stars: ⭐️ 3.1k
  • Tags: TTS Audio Generation Gradio
  • 最后活动时间: 2026-04-07

stemroller

基于深度学习的音源分离工具,可从任意歌曲中提取人声、鼓点、贝斯等独立音轨。

  • Stars: ⭐️ 3.1k
  • Tags: source-separation deep-learning audio-processing demucs
  • 最后活动时间: 2026-02-25

auto-subs

本地 AI 字幕生成工具,支持 DaVinci Resolve 集成和说话人分离。

  • Stars: ⭐️ 3.1k
  • Tags: subtitles whisper speech-to-text transcription davinci
  • 最后活动时间: 2026-04-12

OmniVoice

支持600多种语言的高质量语音克隆TTS系统,实现多语言语音合成与克隆功能。

  • Stars: ⭐️ 3.1k
  • Tags: tts voice-cloning speech-synthesis multilingual
  • 最后活动时间: 2026-04-11

willow

开源、本地自托管的智能语音助手,可作为 Amazon Echo/Google Home 的替代方案。支持 Whisper 语音识别,注重隐私保护。

  • Stars: ⭐️ 3.0k
  • Tags: voice-assistant speech-recognition whisper esp32 home-automation
  • 最后活动时间: 2026-02-13

Bark-Voice-Cloning

基于Bark的语音克隆项目,支持中文语音合成与声音克隆功能。

  • Stars: ⭐️ 3.0k
  • Tags: Voice Cloning TTS Bark Chinese Speech
  • 最后活动时间: 2025-12-19

delayed-streams-modeling

Kyutai开发的语音识别与合成模型框架,采用延迟流建模技术实现高质量语音转文本和文本转语音功能。

  • Stars: ⭐️ 2.9k
  • Tags: Speech-to-Text Text-to-Speech Kyutai
  • 最后活动时间: 2026-01-26

deepjazz

基于Keras和Theano的深度学习爵士乐生成项目。

  • Stars: ⭐️ 2.9k
  • Tags: deep-learning music-generation lstm jazz
  • 最后活动时间: 2026-03-19

3D-Speaker

阿里达摩院开源的说话人识别工具库,支持说话人验证、识别和分离任务,提供多种先进模型实现。

  • Stars: ⭐️ 2.9k
  • Tags: speaker-verification speaker-diarization speaker-recognition audio-processing
  • 最后活动时间: 2025-12-08

lingvo

Google开源的序列建模框架,专注于语音识别、机器翻译和NLP任务,支持大规模分布式训练。

  • Stars: ⭐️ 2.9k
  • Tags: Speech Recognition Machine Translation NLP
  • 最后活动时间: 2026-03-30

openai-fm

OpenAI Speech API 的官方演示项目,展示语音合成与识别能力的交互式示例。

  • Stars: ⭐️ 2.8k
  • Tags: openai speech-api tts demo
  • 最后活动时间: 2026-03-03

suno-api

Suno AI 音乐生成 API 封装,支持轻松集成到 GPTs 等 AI 智能体中。

  • Stars: ⭐️ 2.8k
  • Tags: music suno ai api typescript
  • 最后活动时间: 2026-03-06

supertonic

闪电般快速的设备端多语言TTS引擎,通过ONNX原生运行,支持跨平台离线语音合成。

  • Stars: ⭐️ 2.8k
  • Tags: TTS ONNX On-Device
  • 最后活动时间: 2026-01-22

jarvis

离线语音助手,注重隐私保护,基于Rust和Tauri构建。无需联网即可运行,适合注重隐私的用户。

  • Stars: ⭐️ 2.8k
  • Tags: voice-assistant rust offline privacy
  • 最后活动时间: 2026-02-18

Whisper-WebUI

基于Whisper模型的字幕生成Web界面,支持轻松将音频转换为字幕文本。

  • Stars: ⭐️ 2.7k
  • Tags: whisper speech-to-text gradio subtitle
  • 最后活动时间: 2025-12-29

LiveCaptions-Translator

基于Windows LiveCaptions的轻量级实时语音翻译工具,支持音频转文字和实时翻译。

  • Stars: ⭐️ 2.7k
  • Tags: speech-to-text audio-to-text real-time-translation livecaptions
  • 最后活动时间: 2026-03-15

NeuralAmpModelerPlugin

基于神经网络的吉他放大器建模插件,利用AI技术精准模拟真实放大器的音色特性。

  • Stars: ⭐️ 2.6k
  • Tags: Neural Network Audio Plugin
  • 最后活动时间: 2026-03-30

Scriberr

自托管的AI音频转录工具,支持本地部署以保护数据隐私,提供高质量的语音转文字服务。

  • Stars: ⭐️ 2.5k
  • Tags: Audio Transcription Self-hosted Privacy
  • 最后活动时间: 2026-03-22

neural-amp-modeler

神经网络吉他放大器模拟器,使用深度学习精确还原放大器音色。

  • Stars: ⭐️ 2.5k
  • Tags: neural-network audio-processing guitar-amp deep-learning
  • 最后活动时间: 2026-04-12

DDSP-SVC

基于DDSP的实时端到端歌声转换系统,支持高质量声音克隆。

  • Stars: ⭐️ 2.5k
  • Tags: Voice Conversion DDSP Real-time
  • 最后活动时间: 2026-02-22

pyttsx3

离线文本转语音合成库,支持多种语音引擎,无需网络连接即可运行。适用于语音助手、无障碍应用等场景。

  • Stars: ⭐️ 2.5k
  • Tags: text-to-speech tts python offline speech-synthesis
  • 最后活动时间: 2026-03-02

kokoro-onnx

基于Kokoro模型和ONNX Runtime的高效TTS推理实现。

  • Stars: ⭐️ 2.5k
  • Tags: kokoro onnxruntime tts text-to-speech
  • 最后活动时间: 2026-01-30

Qwen3-ASR

Qwen团队开源的语音识别模型,支持多语言语音/音乐/歌曲识别及时间戳预测。

  • Stars: ⭐️ 2.3k
  • Tags: ASR Speech-Recognition Qwen
  • 最后活动时间: 2026-01-30

alltalk_tts

基于Coqui TTS引擎的高级TTS系统,支持DeepSpeed加速、模型微调、低显存模式及JSON API调用。

  • Stars: ⭐️ 2.3k
  • Tags: tts coqui deepspeed text-to-speech voice-synthesis
  • 最后活动时间: 2026-01-09

AI-Video-Transcriber

开源AI视频转录与摘要工具,支持多语言视频和播客内容转录。跨平台支持,可处理YouTube、TikTok等平台视频。

  • Stars: ⭐️ 2.3k
  • Tags: transcribe ai video speech-to-text summarization
  • 最后活动时间: 2026-03-07

DiffRhythm

基于潜在扩散模型的端到端完整歌曲生成系统,实现快速高质量音乐创作。

  • Stars: ⭐️ 2.3k
  • Tags: song-generation latent-diffusion music-generation audio-synthesis
  • 最后活动时间: 2025-11-27

awesome-whisper

OpenAI Whisper语音识别模型精选资源列表,汇集工具、模型、教程和应用案例。

  • Stars: ⭐️ 2.3k
  • Tags: Whisper 语音识别 Speech-to-Text
  • 最后活动时间: 2026-03-17

stable-ts

基于Whisper的音频转录与强制对齐工具,提供稳定的语音识别能力。

  • Stars: ⭐️ 2.2k
  • Tags: whisper transcription forced-alignment speech-recognition
  • 最后活动时间: 2025-10-29

IMS-Toucan

支持7000多种语言的快速可控文本转语音工具包,基于深度学习和PyTorch构建。

  • Stars: ⭐️ 2.2k
  • Tags: text-to-speech speech-synthesis deep-learning pytorch
  • 最后活动时间: 2026-01-25

voice

React Native 语音识别库,支持 iOS 和 Android 平台,可在线离线使用。

  • Stars: ⭐️ 2.2k
  • Tags: speech-recognition voice-recognition react-native ios android
  • 最后活动时间: 2026-01-31

MMAudio

CVPR 2025接收的高质量视频到音频合成模型,通过多模态联合训练实现音视频同步生成,支持视频或文本生成音频。

  • Stars: ⭐️ 2.1k
  • Tags: Video-to-Audio Audio Synthesis Multimodal
  • 最后活动时间: 2026-02-23

magenta-js

浏览器端机器学习音乐与艺术生成库,支持实时音频创作和视觉艺术生成。

  • Stars: ⭐️ 2.1k
  • Tags: music-generation art-generation tensorflow-js
  • 最后活动时间: 2026-04-08

ten-vad

高性能、低延迟的轻量级语音活动检测器,适用于实时对话AI和语音识别场景。

  • Stars: ⭐️ 2.1k
  • Tags: VAD Speech Processing Real-time
  • 最后活动时间: 2026-02-02

epub_to_audiobook

EPUB电子书转有声书工具,支持Audiobookshelf,带WebUI界面。

  • Stars: ⭐️ 2.0k
  • Tags: audiobook tts epub openai
  • 最后活动时间: 2026-03-24

vad

基于ONNX Runtime的高精度浏览器端语音活动检测器,提供简洁API实现实时语音识别。

  • Stars: ⭐️ 1.9k
  • Tags: voice-activity-detection silero-vad onnxruntime web-audio
  • 最后活动时间: 2026-01-30

FireRedASR

开源工业级语音识别模型,支持普通话、方言和英语,在公开中文ASR基准上达到SOTA水平,同时具备出色的歌词识别能力。

  • Stars: ⭐️ 1.8k
  • Tags: ASR Speech Recognition LLM Multimodal
  • 最后活动时间: 2026-02-25

FluidAudio

基于CoreML的前沿音频模型库,支持TTS、STT、语音活动检测和说话人分离,专为iOS/macOS设计。

  • Stars: ⭐️ 1.8k
  • Tags: CoreML Speech AI iOS
  • 最后活动时间: 2026-04-12

SongRec

开源的Shazam客户端,使用音频指纹识别技术识别歌曲,支持Linux平台。

  • Stars: ⭐️ 1.8k
  • Tags: audio-fingerprinting shazam music-recognition rust
  • 最后活动时间: 2026-04-12

Montreal-Forced-Aligner

基于Kaldi的强制对齐命令行工具,用于语音音频与文本的精确对齐。

  • Stars: ⭐️ 1.8k
  • Tags: forced-alignment kaldi speech acoustic-model
  • 最后活动时间: 2026-03-31

RHVoice

免费开源的多语言语音合成引擎,支持俄语、英语、乌克兰语等多种语言,跨平台运行于Windows、Linux和Android。

  • Stars: ⭐️ 1.8k
  • Tags: TTS 语音合成 开源
  • 最后活动时间: 2026-04-12

descript-audio-codec

最先进音频编解码器,支持90倍压缩率,适用于高质量音频生成与传输。

  • Stars: ⭐️ 1.8k
  • Tags: audio-codec deep-learning audio-compression pytorch gan
  • 最后活动时间: 2026-01-26

RAVE

实时音频变分自编码器,可实现高质量音频生成与风格迁移,支持实时处理。

  • Stars: ⭐️ 1.7k
  • Tags: Audio Deep Learning Generative Model
  • 最后活动时间: 2026-03-07

awesome-python-scientific-audio

Python音频科学研究资源精选,涵盖音频分析、处理和机器学习相关工具包。

  • Stars: ⭐️ 1.7k
  • Tags: audio python speech-processing scientific-computing
  • 最后活动时间: 2026-01-19

bailing

类似GPT-4o的低延迟语音对话机器人,集成DeepSeek R1等大模型,响应时延低至800ms,支持打断和低配置设备运行。

  • Stars: ⭐️ 1.7k
  • Tags: 语音助手 TTS ASR DeepSeek
  • 最后活动时间: 2026-04-06

read-aloud

一款优秀的浏览器扩展,一键朗读网页内容,支持多种语音引擎和语言,提升无障碍访问体验。

  • Stars: ⭐️ 1.6k
  • Tags: text-to-speech browser-extension accessibility tts
  • 最后活动时间: 2026-03-04

madmom

Python音频与音乐信号处理库,支持音乐信息检索。

  • Stars: ⭐️ 1.6k
  • Tags: audio-analysis signal-processing music-information-retrieval
  • 最后活动时间: 2026-03-20

voxtral.c

纯C语言实现的Mistral Voxtral Realtime 4B语音转文字模型推理引擎,专注于高性能实时语音识别。

  • Stars: ⭐️ 1.6k
  • Tags: speech-to-text inference mistral c-language
  • 最后活动时间: 2026-02-15

uLipSync

基于MFCC的Unity口型同步插件,利用Job System和Burst Compiler实现高性能音频驱动的角色口型动画,支持VRM虚拟形象。

  • Stars: ⭐️ 1.6k
  • Tags: Lip-Sync Unity VRM Audio Processing
  • 最后活动时间: 2026-01-06

SongGeneration

LeVo高质量歌曲生成模型官方代码,采用多偏好对齐技术提升生成效果。

  • Stars: ⭐️ 1.6k
  • Tags: song-generation music-generation audio-synthesis deep-learning
  • 最后活动时间: 2026-03-12

BirdNET-Analyzer

基于深度学习的鸟类声音识别与分析工具,可用于科学音频数据处理和生态监测。

  • Stars: ⭐️ 1.5k
  • Tags: deep-learning audio-classification bioacoustics acoustic-monitoring
  • 最后活动时间: 2026-04-08

pianotrans

ByteDance 钢琴转录工具的简洁 GUI,支持踏板检测。

  • Stars: ⭐️ 1.5k
  • Tags: ai piano transcription audio
  • 最后活动时间: 2026-03-28

VibeVoice-ComfyUI

微软VibeVoice TTS模型的ComfyUI集成节点,支持高质量单/多说话人语音合成。

  • Stars: ⭐️ 1.5k
  • Tags: comfyui text-to-speech tts voice-cloning ai-audio
  • 最后活动时间: 2026-02-18

obs-localvocal

OBS Studio本地语音识别与字幕生成插件,基于Whisper AI实现实时语音转文字和翻译功能,支持离线运行。

  • Stars: ⭐️ 1.4k
  • Tags: 语音识别 Whisper OBS插件
  • 最后活动时间: 2026-04-09

parlor

本地实时多模态AI助手,支持语音和视觉对话。基于Gemma 4 E2B和Kokoro,完全在设备端运行。

  • Stars: ⭐️ 1.4k
  • Tags: multimodal voice-assistant local-llm on-device-ai text-to-speech
  • 最后活动时间: 2026-04-07

WhisperJAV

基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具,集成TEN-VAD和本地LLM,抗噪能力强。

  • Stars: ⭐️ 1.4k
  • Tags: ASR Whisper 字幕生成 语音识别
  • 最后活动时间: 2026-04-09

OuteTTS

OuteTTS 模型的推理接口,支持 GGUF 格式和 Transformers 框架。

  • Stars: ⭐️ 1.4k
  • Tags: text-to-speech llama gguf
  • 最后活动时间: 2026-03-23

SALMONN

字节跳动与清华联合开发的多模态大语言模型,支持音频、语音、音乐和视频理解,入选ICLR/ICML 2024。

  • Stars: ⭐️ 1.4k
  • Tags: 多模态 音频处理 视频理解
  • 最后活动时间: 2026-02-03

Speech-AI-Forge

一站式语音AI平台,集成ChatTTS、CosyVoice、Fish-Speech等多种模型,提供API服务器和Gradio WebUI界面。

  • Stars: ⭐️ 1.4k
  • Tags: TTS ASR 语音合成 WebUI
  • 最后活动时间: 2026-04-02

Step-Audio2

端到端多模态大语言模型,专为工业级音频理解与语音对话设计。

  • Stars: ⭐️ 1.4k
  • Tags: audio-llm multimodal speech-conversation
  • 最后活动时间: 2026-03-16

FireRedTTS2

面向多说话人对话生成的长文本流式 TTS 系统,支持高质量语音合成。

  • Stars: ⭐️ 1.4k
  • Tags: text-to-speech streaming-tts multi-speaker
  • 最后活动时间: 2025-10-26

ComfyUI-Qwen-TTS

Qwen3-TTS的ComfyUI插件实现,方便在ComfyUI中使用语音合成功能。

  • Stars: ⭐️ 1.4k
  • Tags: TTS ComfyUI Qwen
  • 最后活动时间: 2026-03-24

video-analyzer

结合LLM、计算机视觉和语音识别的视频分析工具,支持多模态内容理解。

  • Stars: ⭐️ 1.4k
  • Tags: 视频分析 ASR 多模态
  • 最后活动时间: 2026-03-20

SoniTranslate

视频同步翻译与自动配音工具,结合ASR、TTS和翻译技术实现跨语言视频内容转换。

  • Stars: ⭐️ 1.3k
  • Tags: 视频配音 翻译 TTS ASR
  • 最后活动时间: 2025-12-02

k2

可微分的FSA/FST算法库,与PyTorch兼容,专为语音识别等序列建模任务设计。

  • Stars: ⭐️ 1.3k
  • Tags: speech-recognition fst differentiable pytorch
  • 最后活动时间: 2026-03-09

dicio-android

开源Android离线语音助手,基于Vosk实现本地语音识别与唤醒词检测,支持多种技能扩展。

  • Stars: ⭐️ 1.3k
  • Tags: 语音助手 离线STT Android Vosk
  • 最后活动时间: 2026-02-25

ThinkSound

NeurIPS 2025论文实现,基于思维链推理的多模态音频生成框架,支持文本、视频等输入生成音频。

  • Stars: ⭐️ 1.3k
  • Tags: text-to-audio video-to-audio multimodal audio-generation pytorch
  • 最后活动时间: 2026-04-03

subgen

基于 OpenAI Whisper 模型的自动字幕生成工具,支持 Jellyfin、Plex、Emby 等媒体服务器集成。

  • Stars: ⭐️ 1.3k
  • Tags: whisper subtitle speech-to-text media-server
  • 最后活动时间: 2026-04-10

elevenlabs-mcp

ElevenLabs官方MCP服务器,为AI应用提供高质量的语音合成和语音克隆能力。

  • Stars: ⭐️ 1.3k
  • Tags: elevenlabs elevenlabs-api mcp tts voice-ai
  • 最后活动时间: 2026-03-20

Matcha-TTS

ICASSP 2024发表的快速文本转语音架构,采用条件流匹配技术实现高质量语音合成。

  • Stars: ⭐️ 1.3k
  • Tags: TTS 流匹配 语音合成
  • 最后活动时间: 2026-03-16

whisper-ctranslate2

基于CTranslate2的Whisper语音识别命令行工具,兼容OpenAI官方客户端,提供高效的语音转文字能力。

  • Stars: ⭐️ 1.3k
  • Tags: whisper speech-recognition speech-to-text ctranslate2 openai
  • 最后活动时间: 2026-02-14

unmute

让文本大语言模型具备听和说的能力,实现语音交互功能。为LLM添加语音输入输出接口,使其能够进行自然对话。

  • Stars: ⭐️ 1.3k
  • Tags: TTS STT Voice AI LLM
  • 最后活动时间: 2026-03-26

MOSS-TTSD

支持长上下文建模、多说话人合成和零样本语音克隆的语音对话生成模型。

  • Stars: ⭐️ 1.3k
  • Tags: text-to-speech speech-synthesis voice-cloning streaming
  • 最后活动时间: 2026-03-23

VieNeu-TTS

越南语实时文本转语音系统,支持即时语音克隆和端侧CPU实时推理,输出24kHz高质量音频。

  • Stars: ⭐️ 1.3k
  • Tags: TTS 语音克隆 端侧推理
  • 最后活动时间: 2026-04-07

VoiceprintRecognition-Pytorch

声纹识别工具库,支持EcapaTdnn、ResNetSE、CAM++等先进模型,适用于说话人识别和验证场景。

  • Stars: ⭐️ 1.3k
  • Tags: voiceprint-recognition speaker-recognition arcface pytorch
  • 最后活动时间: 2025-12-17

wespeaker

面向研究和生产的说话人验证、识别和分割工具包。

  • Stars: ⭐️ 1.3k
  • Tags: speaker-verification speaker-recognition speaker-diarization pytorch
  • 最后活动时间: 2026-04-10

transcribe-anything

多后端Whisper语音转文字工具,支持本地文件和URL输入,Mac ARM优化,完全私密免费。

  • Stars: ⭐️ 1.2k
  • Tags: whisper speech-to-text transcription audio
  • 最后活动时间: 2026-03-24

speech-trident

精选语音/音频大语言模型、表示学习和编解码模型资源合集。

  • Stars: ⭐️ 1.2k
  • Tags: speech-llm audio-models codec representation-learning
  • 最后活动时间: 2026-04-04

soprano

即时、超逼真的文本转语音系统,提供高质量语音合成能力。

  • Stars: ⭐️ 1.2k
  • Tags: text-to-speech realistic-voice tts
  • 最后活动时间: 2026-01-15

MOSS-TTS

开源语音和声音生成模型家族,支持高保真长语音、多说话人对话、声音克隆和实时流式TTS。

  • Stars: ⭐️ 1.2k
  • Tags: TTS Voice Cloning Multimodal
  • 最后活动时间: 2026-04-13

ekho

开源中文文本转语音引擎,支持粤语、藏语等多种中文方言。

  • Stars: ⭐️ 1.2k
  • Tags: chinese cantonese tts text-to-speech
  • 最后活动时间: 2026-04-08

GMTalker

由光明实验室打造的3D数字人系统,集成语音识别、语音合成、自然语言理解和嘴型动画驱动,支持多平台快速部署。

  • Stars: ⭐️ 1.2k
  • Tags: 3d-avatar digital-human speech-recognition text-to-speech lip-sync
  • 最后活动时间: 2026-01-08

Mousai

开源歌曲识别应用,类似Shazam,可在数秒内识别正在播放的歌曲。基于GNOME/GTK的Linux桌面应用。

  • Stars: ⭐️ 1.2k
  • Tags: music-recognition shazam-like audio-fingerprinting linux gnome
  • 最后活动时间: 2026-04-07

TalkingHead

一个JavaScript类库,用于实现3D虚拟形象的实时口型同步和语音驱动动画。支持文本转语音和全身3D头像的唇形同步。

  • Stars: ⭐️ 1.2k
  • Tags: 3d-avatar lip-sync talking-avatar text-to-speech animation
  • 最后活动时间: 2026-04-08

Chatterbox-TTS-Server

强大的TTS语音合成服务器,支持Web UI、OpenAI兼容API、声音克隆,可在NVIDIA/AMD/CPU上运行。

  • Stars: ⭐️ 1.2k
  • Tags: TTS 语音合成 声音克隆 API服务
  • 最后活动时间: 2026-04-02

lhotse

机器学习多模态数据处理工具集,专注于语音识别和音频数据处理。

  • Stars: ⭐️ 1.1k
  • Tags: audio speech-recognition pytorch deep-learning
  • 最后活动时间: 2026-04-06

nnAudio

基于PyTorch的音频处理库,使用1D卷积网络实现高效的频谱图转换。

  • Stars: ⭐️ 1.1k
  • Tags: audio-processing spectrogram pytorch neural-network
  • 最后活动时间: 2025-12-07

python-audio-separator

基于预训练模型的音频分离工具,支持从音乐中提取人声、伴奏等音轨,提供命令行和Python API两种使用方式。

  • Stars: ⭐️ 1.1k
  • Tags: audio-separation stem-separation music-processing deep-learning
  • 最后活动时间: 2026-03-26

dia2

支持实时流式对话音频生成的TTS模型,适合对话场景应用。

  • Stars: ⭐️ 1.1k
  • Tags: tts text-to-speech streaming conversational
  • 最后活动时间: 2025-11-29

conformer

INTERSPEECH 2020论文非官方实现,卷积增强的Transformer语音识别模型,结合CNN局部建模与Transformer全局建模优势。

  • Stars: ⭐️ 1.1k
  • Tags: conformer speech-recognition asr transformer
  • 最后活动时间: 2026-01-05

A-Hackers-AI-Voice-Assistant

基于 Python 和 PyTorch 构建的 AI 语音助手,适合开发者学习和定制。

  • Stars: ⭐️ 1.1k
  • Tags: voice-assistant pytorch speech-recognition python
  • 最后活动时间: 2025-12-15

SoundMind

音频语言模型推理框架,包含ALR数据集和基于规则的强化学习算法,赋予音频模型深度推理能力。

  • Stars: ⭐️ 1.1k
  • Tags: audio-language-model audio-reasoning reinforcement-learning dataset
  • 最后活动时间: 2025-11-26

aTrain

离线语音转录GUI工具,支持说话人分离,基于最新机器学习模型。

  • Stars: ⭐️ 1.1k
  • Tags: speech-recognition transcription speaker-diarization
  • 最后活动时间: 2026-04-09

AVA-AI-Voice-Agent-for-Asterisk

集成Asterisk/FreePBX的开源AI语音智能体,使用Audiosocket/RTP技术。

  • Stars: ⭐️ 1.1k
  • Tags: voice-agent asterisk freepbx voip
  • 最后活动时间: 2026-04-12

MusicRecognizer

开源Android音乐识别应用,集成AudD、ACRCloud和Shazam等多种识别服务,实现快速歌曲识别。

  • Stars: ⭐️ 1.1k
  • Tags: music-recognition shazam audd acrcloud android audio-fingerprinting
  • 最后活动时间: 2026-03-04

QuickPiperAudiobook

一键将多种格式文档转换为自然语音的有声书工具。

  • Stars: ⭐️ 1.0k
  • Tags: audiobooks tts piper
  • 最后活动时间: 2025-11-07

pykaldi

Kaldi语音识别工具包的Python封装,提供简洁的API接口。

  • Stars: ⭐️ 1.0k
  • Tags: kaldi speech-recognition python asr
  • 最后活动时间: 2025-11-30

ms-ra-forwarder

免费的在线文本转语音API服务,提供便捷的TTS接口。

  • Stars: ⭐️ 1.0k
  • Tags: text-to-speech tts tts-api
  • 最后活动时间: 2026-01-21

vosk-android-demo

基于Vosk库的Android离线语音识别演示应用,支持本地语音转文字,无需网络连接。

  • Stars: ⭐️ 1.0k
  • Tags: speech-recognition offline android vosk
  • 最后活动时间: 2025-12-08

SLAM-LLM

统一的多模态处理框架,支持语音、语言、音频和音乐处理的大语言模型集成。

  • Stars: ⭐️ 1.0k
  • Tags: audio-processing speech-processing multimodal-llm music-processing
  • 最后活动时间: 2026-01-15

birdnet-go

实时鸟类声音识别分析系统,支持树莓派等边缘设备部署。

  • Stars: ⭐️ 1.0k
  • Tags: birdnet audio-recognition wildlife edge-ai
  • 最后活动时间: 2026-04-12

Whisperboard

开源iOS语音转文字应用,让高质量语音转录在移动设备上触手可及。基于Whisper.cpp实现,支持离线转录。

  • Stars: ⭐️ 1.0k
  • Tags: iOS 语音转录 Whisper
  • 最后活动时间: 2025-12-18

Cognitive-Speech-TTS

微软认知服务TTS API的多语言示例代码,支持自定义神经语音。

  • Stars: ⭐️ 1.0k
  • Tags: azure-tts text-to-speech speech-sdk neural-voice
  • 最后活动时间: 2026-02-28

Fun-ASR

通义实验室推出的端到端语音识别大模型,支持说话人分离等功能。

  • Stars: ⭐️ 1.0k
  • Tags: ASR Speech Recognition Audio
  • 最后活动时间: 2026-02-25

GLM-TTS

可控情感表达的零样本TTS模型,支持多奖励强化学习优化。

  • Stars: ⭐️ 972
  • Tags: tts speech-synthesis zero-shot emotion
  • 最后活动时间: 2026-04-10

ace-step-ui

开源AI音乐生成专业UI界面,作为ACE-Step 1.5的前端,支持本地免费无限生成音乐。

  • Stars: ⭐️ 964
  • Tags: ai ai-music music-generation local-first open-source
  • 最后活动时间: 2026-03-02

kapre

Keras音频预处理库,提供可GPU加速的声谱图计算层。

  • Stars: ⭐️ 946
  • Tags: audio-processing keras spectrogram
  • 最后活动时间: 2025-10-26

Fun-Audio-Chat

大型音频语言模型,专为自然、低延迟的语音交互而设计,支持流畅的实时对话体验。

  • Stars: ⭐️ 926
  • Tags: audio-language-model voice-interaction speech-ai low-latency
  • 最后活动时间: 2026-02-27

my-translator

实时语音翻译工具,支持macOS和Windows,本地运行无需服务器,使用用户自己的API密钥实现语音转文字和文字转语音。

  • Stars: ⭐️ 909
  • Tags: speech-translation stt tts real-time tauri
  • 最后活动时间: 2026-04-10

whisper.net

基于Whisper模型的.NET语音识别库,支持跨平台语音转文字和翻译功能,简单易用。

  • Stars: ⭐️ 901
  • Tags: speech-recognition speech-to-text whisper dotnet
  • 最后活动时间: 2026-03-16

Step-Audio-EditX

30亿参数的LLM音频编辑模型,支持情感、风格编辑及零样本语音合成。

  • Stars: ⭐️ 899
  • Tags: audio-editing tts voice-cloning reinforcement-learning
  • 最后活动时间: 2026-04-09

parakeet-mlx

Nvidia Parakeet语音模型的Apple Silicon优化实现,基于MLX框架提供高效语音识别。

  • Stars: ⭐️ 891
  • Tags: parakeet mlx speech-recognition apple-silicon
  • 最后活动时间: 2026-02-21

inaSpeechSegmenter

基于CNN的音频分割工具包,可检测语音、音乐、噪声和说话人性别。

  • Stars: ⭐️ 882
  • Tags: audio-segmentation speech-detection gender-classification cnn
  • 最后活动时间: 2026-03-12

ccextractor

强大的字幕提取工具,支持从视频流中提取隐藏字幕,集成OCR技术识别图像字幕。

  • Stars: ⭐️ 881
  • Tags: 字幕提取 OCR 视频处理
  • 最后活动时间: 2026-04-12

Easy-Voice-Toolkit

用户友好的音频工具包,支持语音识别、转录、转换等多种功能,简化音频处理流程。

  • Stars: ⭐️ 878
  • Tags: 语音识别 TTS 音频处理
  • 最后活动时间: 2026-03-20

PPASR

基于PaddlePaddle的端到端中文语音识别项目,支持DeepSpeech2、Conformer等主流模型,提供完整教程。

  • Stars: ⭐️ 873
  • Tags: 中文ASR PaddlePaddle Conformer
  • 最后活动时间: 2025-12-17

MidiTok

为深度学习模型设计的MIDI/符号音乐标记器,支持音乐生成与信息检索任务。

  • Stars: ⭐️ 858
  • Tags: deep-learning midi music-generation tokenization
  • 最后活动时间: 2026-04-01

TangoFlux

基于Flow Matching的超快速文本转音频生成模型,ICLR 2026论文项目。

  • Stars: ⭐️ 847
  • Tags: text-to-audio flow-matching generative-ai audio-synthesis
  • 最后活动时间: 2026-01-28

faster-qwen3-tts

基于Qwen3-TTS的实时文本转语音工具,提供高效的语音合成能力。

  • Stars: ⭐️ 845
  • Tags: TTS Qwen3 Real-time
  • 最后活动时间: 2026-03-27

auditok

音频活动检测与分割工具,支持语音活动检测(VAD),是语音识别预处理的重要组件。

  • Stars: ⭐️ 844
  • Tags: audio vad voice-activity-detection audio-segmentation
  • 最后活动时间: 2026-04-09

voquill

开源的语音听写工具,WisprFlow的免费替代方案。支持本地AI语音转文字,基于Whisper技术构建。

  • Stars: ⭐️ 843
  • Tags: speech-to-text whisper local-ai dictation
  • 最后活动时间: 2026-04-12

local-talking-llm

完全离线运行的语音对话LLM应用,集成语音识别与语音合成功能,无需联网即可使用。

  • Stars: ⭐️ 838
  • Tags: speech-recognition speech-synthesis local-llm chatbot
  • 最后活动时间: 2026-04-04

TypeNo

一款免费开源、隐私优先的macOS语音输入应用,支持本地语音转文字功能。

  • Stars: ⭐️ 833
  • Tags: speech-to-text macos privacy voice-input swift
  • 最后活动时间: 2026-03-28

TTS-Audio-Suite

ComfyUI多引擎TTS集成节点,支持10+主流语音合成引擎,提供角色配音和时间轴功能。

  • Stars: ⭐️ 832
  • Tags: TTS ComfyUI Voice Cloning Audio Generation
  • 最后活动时间: 2026-04-12

TheWhisper

优化版Whisper模型,专为流式和端设备语音识别设计,支持多平台硬件加速。

  • Stars: ⭐️ 822
  • Tags: whisper speech-recognition streaming on-device-ai
  • 最后活动时间: 2026-03-01

essentia.js

基于WebAssembly的音乐/音频分析与处理JavaScript库,支持音频特征提取和音乐信息检索。

  • Stars: ⭐️ 819
  • Tags: audio-analysis webassembly music-information-retrieval
  • 最后活动时间: 2025-12-10

pdf-to-podcast

将PDF文档转换为AI生成的播客音频,基于NVIDIA NIM构建,支持随时随地收听文档内容。

  • Stars: ⭐️ 816
  • Tags: PDF TTS 播客 音频生成
  • 最后活动时间: 2026-01-30

sokuji

实时语音翻译工具,支持本地 AI 和多种云端服务商,提供 Chrome 扩展和桌面应用。

  • Stars: ⭐️ 816
  • Tags: Translation Speech-to-Speech Real-time
  • 最后活动时间: 2026-04-12

micro-wake-word

基于TensorFlow的唤醒词检测训练框架,支持合成样本生成,适用于微控制器部署。

  • Stars: ⭐️ 807
  • Tags: wake-word keyword-spotting tensorflow embedded-ai audio
  • 最后活动时间: 2025-12-21

whoBIRD

基于BirdNET的Android实时鸟类声音识别应用,支持全球6000+种鸟类的声音识别。

  • Stars: ⭐️ 805
  • Tags: audio-recognition birdnet android real-time
  • 最后活动时间: 2026-02-26

opensmile

慕尼黑开源大规模多媒体特征提取工具,广泛用于语音识别、情感计算等音频机器学习任务。

  • Stars: ⭐️ 795
  • Tags: audio feature-extraction speech-processing
  • 最后活动时间: 2026-01-26

GLM-ASR

开源鲁棒性语音识别模型,15亿参数,支持边缘设备部署。

  • Stars: ⭐️ 790
  • Tags: asr speech-recognition speech-to-text on-device
  • 最后活动时间: 2026-03-06

lobe-tts

高质量文本转语音与语音识别库,同时支持服务端和浏览器端,提供统一 API 接口。

  • Stars: ⭐️ 781
  • Tags: TTS STT Speech Recognition React
  • 最后活动时间: 2026-03-02

TTS-Voice-Wizard

强大的语音转换工具,支持语音识别、TTS和实时翻译,可集成VRChat虚拟形象显示,适合VTuber使用。

  • Stars: ⭐️ 779
  • Tags: TTS STT VRChat VTuber
  • 最后活动时间: 2026-04-05

BS-RoFormer

Band Split Roformer实现,ByteDance AI Labs的SOTA音乐源分离注意力网络。

  • Stars: ⭐️ 768
  • Tags: music-source-separation transformers attention pytorch
  • 最后活动时间: 2026-02-01

SongBloom

基于交错自回归草图与扩散细化的连贯歌曲生成模型。官方代码仓库,实现高质量AI音乐创作。

  • Stars: ⭐️ 767
  • Tags: song-generation diffusion-model autoregressive music-generation ai-music
  • 最后活动时间: 2025-12-04

voxtral-mini-realtime-rs

基于Rust和Burn ML框架实现的Mistral Voxtral Mini 4B实时语音识别模型,支持本地运行和浏览器WASM部署。

  • Stars: ⭐️ 762
  • Tags: speech-recognition rust mistral asr wasm realtime
  • 最后活动时间: 2026-04-02

PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的中文语音识别系统,支持DeepSpeech2模型,可在Windows、Linux及Jetson上运行。

  • Stars: ⭐️ 759
  • Tags: speech-recognition asr paddlepaddle deepspeech speech-to-text
  • 最后活动时间: 2025-12-17

Kokoros

基于Kokoro模型的Rust高性能TTS实现,提供极速、高质量的实时语音合成能力。

  • Stars: ⭐️ 751
  • Tags: TTS Rust 语音合成
  • 最后活动时间: 2026-03-11

offline-translator

基于Firefox翻译模型的Android离线翻译工具,支持设备端本地翻译,无需网络连接。

  • Stars: ⭐️ 746
  • Tags: translation android offline machine-translation
  • 最后活动时间: 2026-04-12

translate

实时手语翻译工具,利用计算机视觉技术实现无障碍沟通,支持Android、iOS和Web多平台。

  • Stars: ⭐️ 742
  • Tags: sign-language sign-language-recognition computer-vision translation
  • 最后活动时间: 2026-03-18

dla

音频深度学习综合工具库,涵盖语音识别、说话人验证、语音合成等多种音频处理任务。

  • Stars: ⭐️ 741
  • Tags: Deep Learning Speech Recognition TTS Voice Conversion
  • 最后活动时间: 2025-12-15

fish-diffusion

易于理解的 TTS/SVS/SVC 统一框架,基于扩散模型实现语音合成与转换。

  • Stars: ⭐️ 740
  • Tags: diffusion tts voice-conversion pytorch
  • 最后活动时间: 2026-04-06

sgmse

基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。

  • Stars: ⭐️ 736
  • Tags: Diffusion 语音增强 音频处理
  • 最后活动时间: 2026-02-01

audio-dataset

用于训练CLAP等音频-语言多模态模型的大规模音频数据集。

  • Stars: ⭐️ 733
  • Tags: audio dataset clap multimodal
  • 最后活动时间: 2026-01-08

voice-ai

端到端语音AI编排平台,支持构建实时对话语音智能体,集成STT、TTS、VAD和多通道能力。

  • Stars: ⭐️ 727
  • Tags: Voice AI STT/TTS Voice Agents Real-time Audio
  • 最后活动时间: 2026-04-11

MASR

流式与非流式自动语音识别框架,支持Conformer、Squeezeformer等模型,兼容在线和离线识别场景。

  • Stars: ⭐️ 722
  • Tags: asr speech-recognition conformer streaming
  • 最后活动时间: 2025-12-17

ttsfm

镜像OpenAI TTS服务的开源实现,提供兼容的文本转语音接口,支持多种语音选项。

  • Stars: ⭐️ 713
  • Tags: tts openai-api text-to-speech self-hosted
  • 最后活动时间: 2025-12-18

Thorsten-Voice

高质量德语 TTS 语音数据集,免费离线使用,无许可证限制。

  • Stars: ⭐️ 709
  • Tags: german-tts speech-dataset open-source
  • 最后活动时间: 2026-02-02

rhino

基于深度学习的端上语音意图识别引擎,用于语音助手和命令控制。

  • Stars: ⭐️ 698
  • Tags: speech-recognition nlu voice-assistant intent-recognition on-device
  • 最后活动时间: 2026-04-09

tts

Inworld TTS 语音合成引擎,提供高质量文本转语音服务。

  • Stars: ⭐️ 692
  • Tags: tts text-to-speech voice-synthesis
  • 最后活动时间: 2026-04-08

murmure

完全本地化、隐私优先的跨平台语音转文字工具,集成LLM后处理功能。

  • Stars: ⭐️ 679
  • Tags: Speech-to-Text Privacy Local AI
  • 最后活动时间: 2026-04-11

whisper-flow

基于OpenAI Whisper的实时音频转录框架,支持流式音频处理和增量转录输出。

  • Stars: ⭐️ 676
  • Tags: speech-to-text whisper real-time transcription
  • 最后活动时间: 2026-03-01

ComfyUI-Index-TTS

ComfyUI 的 IndexTTS 自定义节点,支持中英文文本转语音和声音克隆。

  • Stars: ⭐️ 665
  • Tags: comfyui index-tts voice-cloning
  • 最后活动时间: 2026-04-09

hume-evi-next-js-starter

Hume AI EVI(共情语音接口)的 Next.js 快速启动模板,帮助开发者快速构建具有情感智能的语音交互应用。

  • Stars: ⭐️ 662
  • Tags: hume-ai evi voice-interface nextjs empathic-ai
  • 最后活动时间: 2025-12-11

cheetah

基于深度学习的端上流式语音转文字引擎,支持实时转录。

  • Stars: ⭐️ 661
  • Tags: speech-recognition asr speech-to-text on-device streaming
  • 最后活动时间: 2026-04-10

LLaSA_training

基于LLaMA的语音合成模型,通过扩展训练与推理计算提升效果。

  • Stars: ⭐️ 659
  • Tags: text-to-speech llama llm speech-synthesis
  • 最后活动时间: 2026-01-21

ZerolanLiveRobot

集成LLM、ASR、TTS、OCR、CV等技术的AI虚拟主播,支持直播和Minecraft互动。

  • Stars: ⭐️ 658
  • Tags: ai-vtuber llm tts asr multimodal
  • 最后活动时间: 2026-04-11

openlrc

使用Whisper和LLM进行语音转录与翻译,自动生成LRC字幕文件。

  • Stars: ⭐️ 646
  • Tags: Whisper Transcription Subtitle
  • 最后活动时间: 2026-04-07

vui

1亿参数轻量级对话式 TTS 模型,支持呼吸声、笑声、多说话人对话、声音克隆和流式推理。

  • Stars: ⭐️ 646
  • Tags: lightweight-tts llama voice-cloning on-device
  • 最后活动时间: 2026-02-25

hear

undefined

  • Stars: ⭐️ 646
  • Tags: speech-recognition transcription macos cli
  • 最后活动时间: 2026-02-02

whisper_android

基于OpenAI Whisper的Android离线语音识别方案,使用TensorFlow Lite实现本地化部署,无需网络即可运行。

  • Stars: ⭐️ 644
  • Tags: 语音识别 Android 离线推理
  • 最后活动时间: 2026-03-18

UVR5-UI

基于Gradio的人声分离工具,支持多种模型将音频分离为人声和伴奏轨道。

  • Stars: ⭐️ 623
  • Tags: audio-separation vocal-remover gradio
  • 最后活动时间: 2025-10-18

voxtype

基于Whisper的Wayland语音转文字工具,支持按键说话和离线语音识别。

  • Stars: ⭐️ 619
  • Tags: speech-to-text whisper wayland rust offline
  • 最后活动时间: 2026-04-12

tts

基于Go语言开发的文本转语音(TTS)服务,提供语音合成能力。

  • Stars: ⭐️ 607
  • Tags: tts go speech-synthesis
  • 最后活动时间: 2026-02-04

Neutone SDK

用于音频插件开发的AI SDK,支持实时音频处理和VST插件开发,适用于音乐AI应用。

  • Stars: ⭐️ 601
  • Tags: audio deep-learning pytorch realtime-audio vst
  • 最后活动时间: 2025-12-05

WenetSpeech

超万小时大规模中文语音识别数据集,涵盖多种场景和说话人,适用于中文语音识别模型训练。

  • Stars: ⭐️ 597
  • Tags: speech-recognition chinese asr dataset
  • 最后活动时间: 2026-01-09

swift

基于Groq和Cartesia的快速语音助手,集成Whisper语音识别和Llama模型,实现低延迟语音交互。

  • Stars: ⭐️ 591
  • Tags: Voice Assistant Groq Whisper
  • 最后活动时间: 2025-12-04

AudioClassification-Pytorch

PyTorch音频分类工具,支持EcapaTdnn、PANNS、TDNN等多种模型,适用于环境声音识别和语音分类。

  • Stars: ⭐️ 591
  • Tags: audio-classification panns ecapa-tdnn sound-recognition
  • 最后活动时间: 2025-12-17

speech-swift

专为 Apple Silicon 设计的 AI 语音工具包,支持语音识别、语音合成、语音增强和说话人分离等功能。

  • Stars: ⭐️ 586
  • Tags: speech-recognition text-to-speech apple-silicon mlx coreml
  • 最后活动时间: 2026-04-12

expo-speech-recognition

React Native Expo 语音识别库,支持语音转文字功能,适用于移动端语音交互应用开发。

  • Stars: ⭐️ 584
  • Tags: speech-recognition speech-to-text react-native expo voice-recognition
  • 最后活动时间: 2026-03-20

BiBi-Keyboard

基于Kotlin的Android语音输入法键盘,集成LLM与ASR语音识别,支持智能语音输入。

  • Stars: ⭐️ 579
  • Tags: Android ASR Keyboard Speech-to-Text
  • 最后活动时间: 2026-03-22

aiavatarkit

快速构建 AI 驱动的对话虚拟形象工具包。

  • Stars: ⭐️ 579
  • Tags: ai-avatar chatgpt voicevox vrchat
  • 最后活动时间: 2026-04-13

chatterbox-tts-api

本地OpenAI兼容的文本转语音API,支持语音克隆,可无缝集成到各类AI应用中。

  • Stars: ⭐️ 576
  • Tags: TTS Voice Clone OpenAI API
  • 最后活动时间: 2025-12-23

AlphaAvatar

基于LiveKit的实时交互式全能虚拟化身平台,支持无缝集成各类开源虚拟角色组件,包括实时模型、视觉、语音、记忆和搜索功能。

  • Stars: ⭐️ 566
  • Tags: Avatar Real-time LiveKit
  • 最后活动时间: 2026-04-11

offmute

利用LLM实现会议转录和说话人分离的实验性工具,探索纯LLM进行音频处理的可行性。

  • Stars: ⭐️ 565
  • Tags: transcription diarization llm meeting
  • 最后活动时间: 2026-04-08

mlx-audio-swift

基于Apple Silicon的模块化Swift音频处理SDK,支持语音识别、语音合成和端到端语音处理。

  • Stars: ⭐️ 558
  • Tags: mlx speech-to-text text-to-speech swift apple-silicon
  • 最后活动时间: 2026-04-10

FlashLabs-Chroma

首个开源的实时端到端语音对话模型,支持个性化声音克隆。

  • Stars: ⭐️ 551
  • Tags: speech-to-speech voice-cloning real-time-audio
  • 最后活动时间: 2026-01-28

vocotype-cli

本地端侧隐私安全语音输入工具,支持语音实时转文字、MCP集成、AI文本优化及自定义词典功能。

  • Stars: ⭐️ 549
  • Tags: asr speech-to-text voice-input mcp funasr
  • 最后活动时间: 2026-04-10

SoulX-Singer

零样本歌唱语音合成项目,支持高质量歌声生成与推理。

  • Stars: ⭐️ 546
  • Tags: singing-voice-synthesis zero-shot audio-generation tts
  • 最后活动时间: 2026-04-12

Qwen3-Audiobook-Converter

基于Qwen3 TTS语音模型的有声书转换工具,支持PDF、EPUB、DOCX等多种格式转换为高质量有声书。

  • Stars: ⭐️ 540
  • Tags: tts audiobook qwen3 voice-synthesis document-converter
  • 最后活动时间: 2026-04-07

SenseVoice.cpp

FunASR SenseVoice语音识别模型的C/C++移植版本,提供高效的本地语音转文字能力。

  • Stars: ⭐️ 539
  • Tags: speech-recognition asr funasr cpp
  • 最后活动时间: 2025-12-19

spleeter-web

可自托管的Web应用,用于分离歌曲中的人声、伴奏、贝斯和鼓声。支持Spleeter、Demucs、BS-RoFormer等多种AI分离模型。

  • Stars: ⭐️ 537
  • Tags: source-separation vocal-remover spleeter demucs audio-processing
  • 最后活动时间: 2026-04-08

GigaAM

强大的语音识别基础模型,支持语音识别、情感识别等任务,采用自监督学习方法训练。

  • Stars: ⭐️ 536
  • Tags: speech-recognition foundation-models self-supervised-learning emotion-recognition
  • 最后活动时间: 2026-04-02

parrots

自动语音识别与语音合成引擎,支持中英语音识别和多角色语音合成,准确率高。

  • Stars: ⭐️ 526
  • Tags: asr tts speech-recognition speech-synthesis
  • 最后活动时间: 2025-11-11

MimikaStudio

macOS本地优先应用,集成MCP智能体支持、TTS语音合成与声音克隆功能。

  • Stars: ⭐️ 517
  • Tags: tts voice-cloning mcp qwen agent
  • 最后活动时间: 2026-04-01

e2-tts-pytorch

E2-TTS的PyTorch实现,一种简单高效的零样本文本转语音模型。

  • Stars: ⭐️ 516
  • Tags: text-to-speech deep-learning pytorch tts
  • 最后活动时间: 2025-12-20

easy-whisper-ui

Whisper 语音识别模型的易用图形界面,针对各类 GPU 进行优化。

  • Stars: ⭐️ 515
  • Tags: whisper speech-recognition transcription gpu
  • 最后活动时间: 2026-02-15

knn-vc

基于最近邻匹配的语音转换方法,无需训练即可实现任意说话人之间的声音转换。

  • Stars: ⭐️ 514
  • Tags: voice-conversion speech-synthesis knn pytorch
  • 最后活动时间: 2026-01-16

ComfyUI_IndexTTS

ComfyUI 的 IndexTTS 语音克隆节点,支持双人对话语音合成。

  • Stars: ⭐️ 514
  • Tags: tts voice-cloning comfyui speech-synthesis
  • 最后活动时间: 2025-11-07

CleanS2S

单文件实现的流式全双工语音交互智能体,支持高质量实时语音对话。

  • Stars: ⭐️ 513
  • Tags: speech-to-speech streaming gpt-4o
  • 最后活动时间: 2026-04-07

MiraTTS

高质量快速 TTS 语音合成仓库,提供高效的文本转语音解决方案。

  • Stars: ⭐️ 513
  • Tags: tts text-to-speech voice-synthesis
  • 最后活动时间: 2025-12-22

muspy

符号音乐生成工具包,支持音乐信息检索和机器学习驱动的音乐创作。

  • Stars: ⭐️ 509
  • Tags: Music Generation Symbolic Music Python
  • 最后活动时间: 2026-03-11

qwen-asr

基于C语言实现的Qwen3-ASR语音识别模型推理引擎,支持0.6B和1.7B参数量的转录模型,提供高效轻量的本地部署方案。

  • Stars: ⭐️ 509
  • Tags: asr speech-recognition qwen c-inference transcription
  • 最后活动时间: 2026-02-17

vosk-browser

浏览器端语音识别库,基于WebAssembly实现Vosk模型的本地运行。

  • Stars: ⭐️ 507
  • Tags: speech-recognition wasm browser vosk
  • 最后活动时间: 2025-12-07

subaligner

基于深度神经网络和Transformer的字幕自动同步、翻译与转录工具,支持多种字幕格式和语音活动检测。

  • Stars: ⭐️ 504
  • Tags: subtitle transcription transformers voice-activity-detection dnn
  • 最后活动时间: 2026-03-17

aspeak

Azure TTS API 的简洁命令行客户端,支持高质量语音合成。可快速将文本转换为自然流畅的语音输出。

  • Stars: ⭐️ 500
  • Tags: text-to-speech tts azure-cognitive-services cli
  • 最后活动时间: 2026-03-11

Image Generation

stable-diffusion-webui

最受欢迎的Stable Diffusion Web UI,提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。

  • Stars: ⭐️ 162.3k
  • Tags: stable-diffusion image-generation gradio ai-art
  • 最后活动时间: 2026-03-02

ComfyUI

最强大的模块化扩散模型GUI工具,基于节点的工作流界面,灵活构建复杂图像生成流程。

  • Stars: ⭐️ 108.6k
  • Tags: Stable-Diffusion GUI Image-Generation
  • 最后活动时间: 2026-04-13

tesseract

开源OCR引擎,使用LSTM神经网络进行光学字符识别,支持多种语言。

  • Stars: ⭐️ 73.5k
  • Tags: ocr machine-learning lstm tesseract
  • 最后活动时间: 2026-03-29

upscayl

免费开源的AI图像放大工具,基于ESRGAN模型实现高质量图像超分辨率重建,支持跨平台使用。

  • Stars: ⭐️ 44.6k
  • Tags: AI图像放大 ESRGAN 开源工具
  • 最后活动时间: 2026-03-27

diffusers

Hugging Face推出的扩散模型库,支持图像、视频和音频生成,是生成式AI领域的核心工具。

  • Stars: ⭐️ 33.3k
  • Tags: Diffusion PyTorch HuggingFace
  • 最后活动时间: 2026-04-13

insightface

业界领先的2D/3D人脸分析项目,支持人脸检测、识别、属性分析等任务。

  • Stars: ⭐️ 28.4k
  • Tags: face-recognition face-detection pytorch
  • 最后活动时间: 2026-03-29

facefusion

业界领先的人脸处理平台,支持换脸、对口型等多种AI面部操作功能。

  • Stars: ⭐️ 27.5k
  • Tags: 人脸处理 换脸 深度学习
  • 最后活动时间: 2026-04-08

generative-models

Stability AI官方生成模型库,包含Stable Diffusion等先进图像生成模型的实现。

  • Stars: ⭐️ 27.1k
  • Tags: stable-diffusion generative-models diffusion
  • 最后活动时间: 2025-12-16

InvokeAI

领先的Stable Diffusion创意引擎,提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。

  • Stars: ⭐️ 27.0k
  • Tags: Stable Diffusion 图像生成 AI艺术
  • 最后活动时间: 2026-04-12

DeepSeek-OCR

DeepSeek推出的光学字符识别(OCR)工具,支持上下文感知的文档压缩与识别。

  • Stars: ⭐️ 22.8k
  • Tags: ocr deepseek computer-vision document-processing
  • 最后活动时间: 2026-01-27

deepface

轻量级人脸分析库,支持年龄、性别、情绪等多属性识别。

  • Stars: ⭐️ 22.5k
  • Tags: face-recognition deep-learning face-analysis python
  • 最后活动时间: 2026-03-01

rembg

基于深度学习的图像背景移除工具,支持多种AI模型快速精准去除图片背景。

  • Stars: ⭐️ 22.5k
  • Tags: 背景移除 图像处理 计算机视觉
  • 最后活动时间: 2026-04-08

Awesome-Nano-Banana-images

基于Gemini-2.5-flash-image模型的图像生成示例集合,展示Nano Banana系列模型的创意生成能力,并开源Nano-consistent-150K数据集支持社区开发。

  • Stars: ⭐️ 22.1k
  • Tags: image-generation gemini multimodal generative-art
  • 最后活动时间: 2025-12-12

gaussian-splatting

3D Gaussian Splatting官方实现,突破性实时辐射场渲染技术,通过高斯点云实现高质量实时3D场景重建与渲染。

  • Stars: ⭐️ 21.4k
  • Tags: 3D重建 计算机视觉 神经渲染
  • 最后活动时间: 2025-10-17

surya

支持90+语言的OCR工具,提供版面分析、阅读顺序识别和表格识别功能。

  • Stars: ⭐️ 19.6k
  • Tags: ocr layout-analysis table-recognition multilingual
  • 最后活动时间: 2026-04-10

blender-mcp

MCP服务器,实现AI与Blender 3D建模软件的集成控制。

  • Stars: ⭐️ 19.3k
  • Tags: mcp blender 3d creative-tools
  • 最后活动时间: 2026-01-23

Qwen3-VL

阿里云Qwen团队开发的多模态大语言模型系列,支持图像理解与视觉语言任务。

  • Stars: ⭐️ 18.9k
  • Tags: Multimodal Vision-Language Qwen
  • 最后活动时间: 2026-01-30

sam2

Meta第二代图像分割模型,支持图像和视频的实时分割,性能显著提升。

  • Stars: ⭐️ 18.9k
  • Tags: segmentation video-segmentation computer-vision meta
  • 最后活动时间: 2026-04-07

CodeFormer

NeurIPS 2022论文,基于码本查找Transformer的盲人脸修复模型,效果优于现有方法。

  • Stars: ⭐️ 17.9k
  • Tags: Face Restoration Transformer Super Resolution CV
  • 最后活动时间: 2025-11-18

instant-ngp

NVIDIA开源的即时神经图形原语库,实现超快速NeRF三维重建与渲染。

  • Stars: ⭐️ 17.4k
  • Tags: nerf computer-vision 3d-reconstruction
  • 最后活动时间: 2026-02-02

Waifu2x-Extension-GUI

强大的AI图像视频超分辨率工具,集成多种AI模型,支持图片/视频放大与帧插值。

  • Stars: ⭐️ 16.4k
  • Tags: 超分辨率 图像放大 视频处理
  • 最后活动时间: 2026-04-02

engine

强大的Web图形运行时,支持WebGL、WebGPU、WebXR和3D高斯泼溅神经渲染技术。

  • Stars: ⭐️ 14.7k
  • Tags: 3d-gaussian-splatting webgl webgpu game-engine
  • 最后活动时间: 2026-04-13

ddddocr

通用验证码识别OCR工具,支持多种验证码类型的自动识别。

  • Stars: ⭐️ 13.9k
  • Tags: ocr captcha python
  • 最后活动时间: 2026-03-10

open_clip

OpenAI CLIP模型的开源实现,支持多模态对比学习和零样本分类任务。

  • Stars: ⭐️ 13.7k
  • Tags: clip multi-modal zero-shot pytorch
  • 最后活动时间: 2026-04-06

Hunyuan3D-2

腾讯混元推出的高分辨率3D资产生成大模型,支持文本/图像生成高质量3D模型。

  • Stars: ⭐️ 13.5k
  • Tags: 3D Generation Text-to-3D Tencent
  • 最后活动时间: 2025-10-28

vggt

CVPR 2025最佳论文奖获奖项目,视觉几何基础Transformer,在3D视觉理解与几何推理方面取得突破性进展。

  • Stars: ⭐️ 12.8k
  • Tags: computer-vision transformer 3d-reconstruction cvpr2025
  • 最后活动时间: 2026-03-03

Meshroom

基于节点的视觉编程工具箱,用于3D重建和摄影测量,支持计算机视觉工作流自动化。

  • Stars: ⭐️ 12.7k
  • Tags: Computer Vision 3D Reconstruction Photogrammetry
  • 最后活动时间: 2026-04-13

ImageToolbox

功能强大的Android图像处理应用,集成AI背景移除、OCR文字识别、图像放大等智能功能。

  • Stars: ⭐️ 12.5k
  • Tags: 图像处理 OCR 背景移除
  • 最后活动时间: 2026-04-12

DiffSynth-Studio

一站式扩散模型创作工作室,支持图像生成、视频合成等多种AI生成任务,轻松体验扩散模型的魔力。

  • Stars: ⭐️ 12.2k
  • Tags: 扩散模型 图像生成 视频合成
  • 最后活动时间: 2026-04-08

TRELLIS

CVPR 2025 Spotlight论文,基于结构化3D潜变量的可扩展多功能3D生成模型。

  • Stars: ⭐️ 12.2k
  • Tags: 3d-generation image-to-3d text-to-3d cvpr
  • 最后活动时间: 2025-11-05

colmap

经典的运动恢复结构与多视图立体视觉系统,用于3D重建与视觉计算研究。

  • Stars: ⭐️ 11.4k
  • Tags: structure-from-motion multi-view-stereo 3d-reconstruction computer-vision
  • 最后活动时间: 2026-04-10

denoising-diffusion-pytorch

去噪扩散概率模型的PyTorch实现,生成模型领域核心算法库。简洁易用的扩散模型训练框架。

  • Stars: ⭐️ 10.5k
  • Tags: diffusion-models generative-model pytorch
  • 最后活动时间: 2026-02-11

openFrameworks

跨平台创意编程工具包,支持图形、音频、计算机视觉等多媒体应用开发。

  • Stars: ⭐️ 10.4k
  • Tags: creative-coding computer-vision opencv cpp
  • 最后活动时间: 2026-04-07

easydiffusion

一键式AI艺术创作工具,无需技术背景即可在本地生成精美图像。提供简洁的浏览器界面,支持文本生成图像。

  • Stars: ⭐️ 10.3k
  • Tags: Stable Diffusion Image Generation GUI
  • 最后活动时间: 2026-04-01

krita-ai-diffusion

Krita图像编辑器的AI扩散插件,支持文生图、内补和外补功能。

  • Stars: ⭐️ 10.0k
  • Tags: stable-diffusion krita-plugin image-generation generative-ai
  • 最后活动时间: 2026-04-11

manga-image-translator

基于深度学习的漫画/图片文字翻译工具,集成OCR文字检测、机器翻译和图像修复功能,支持一键翻译各类图片内文字。

  • Stars: ⭐️ 9.7k
  • Tags: ocr machine-translation image-processing inpainting neural-network
  • 最后活动时间: 2026-03-29

sam3

Meta Segment Anything Model 3 (SAM 3) 的官方仓库,提供模型推理、微调代码及预训练权重下载,支持图像分割任务。

  • Stars: ⭐️ 8.9k
  • Tags: segment-anything image-segmentation computer-vision meta-ai sam
  • 最后活动时间: 2026-03-31

VAR

NeurIPS 2024最佳论文官方实现,提出视觉自回归建模方法,超越扩散模型的新一代图像生成范式。

  • Stars: ⭐️ 8.7k
  • Tags: Autoregressive Image Generation SOTA
  • 最后活动时间: 2025-11-10

chandra

强大的OCR模型,支持复杂表格、表单和手写内容的完整版面识别。

  • Stars: ⭐️ 8.6k
  • Tags: ocr document-processing handwriting-recognition
  • 最后活动时间: 2026-04-09

awesome-3D-gaussian-splatting

3D高斯泼溅技术资源精选,涵盖神经渲染、NeRF相关的前沿论文与实现,是3D视觉与AI交叉领域的热门方向。

  • Stars: ⭐️ 8.5k
  • Tags: 3d-gaussian-splatting nerf neural-rendering computer-vision
  • 最后活动时间: 2026-04-08

nnUNet

医学图像分割领域的顶级深度学习框架,自动配置网络架构和预处理流程,在多个医学分割挑战中取得SOTA成绩。

  • Stars: ⭐️ 8.3k
  • Tags: medical-imaging segmentation deep-learning
  • 最后活动时间: 2026-04-10

imaginAIry

Pythonic AI图像和视频生成工具,提供简洁的Python接口进行AI内容创作。

  • Stars: ⭐️ 8.1k
  • Tags: ai-image-generation ai-video python
  • 最后活动时间: 2026-02-24

ml-sharp

快速单目视图合成技术,可在不到一秒内生成高质量的新视角图像。

  • Stars: ⭐️ 8.1k
  • Tags: computer-vision view-synthesis monocular deep-learning
  • 最后活动时间: 2025-12-19

MONAI

医疗影像AI工具包,基于PyTorch提供高性能GPU加速的医学图像计算框架。

  • Stars: ⭐️ 8.1k
  • Tags: deep-learning healthcare-imaging medical-imaging pytorch
  • 最后活动时间: 2026-04-12

fast-stable-diffusion

优化的Stable Diffusion工具集,支持DreamBooth训练,提供Colab笔记本快速部署。

  • Stars: ⭐️ 7.9k
  • Tags: stable-diffusion image-generation dreambooth comfyui flux
  • 最后活动时间: 2025-11-29

sygil-webui

Stable Diffusion 网页界面,提供友好的AI图像生成用户体验,支持多种模型和插件扩展。

  • Stars: ⭐️ 7.9k
  • Tags: stable-diffusion webui image-generation ai-art
  • 最后活动时间: 2025-12-02

backgroundremover

基于AI的背景移除工具,支持图片和视频背景一键去除,提供简洁的命令行界面,免费开源。

  • Stars: ⭐️ 7.8k
  • Tags: AI Background Removal Image Processing Video Editing
  • 最后活动时间: 2026-03-21

face-alignment

基于PyTorch构建的2D和3D人脸对齐库,支持人脸检测与关键点定位,适用于人脸识别预处理。

  • Stars: ⭐️ 7.5k
  • Tags: face-alignment face-detection deep-learning pytorch
  • 最后活动时间: 2026-04-06

ccv

基于C语言的高性能计算机视觉库,提供现代化的CV功能实现,无外部依赖。

  • Stars: ⭐️ 7.2k
  • Tags: computer-vision c-library image-processing
  • 最后活动时间: 2026-04-12

civitai

AI 模型分享平台,汇集 Stable Diffusion 模型、文本反转等生成式 AI 资源。

  • Stars: ⭐️ 7.1k
  • Tags: stable-diffusion models image-generation ai
  • 最后活动时间: 2026-04-12

sdnext

全能型AI图像视频生成WebUI,支持Stable Diffusion、Flux等多种模型。集成图像生成、视频创作、字幕生成等功能。

  • Stars: ⭐️ 7.0k
  • Tags: Stable Diffusion Flux WebUI Video Generation
  • 最后活动时间: 2026-04-13

scikit-image

Python生态核心图像处理库,提供丰富的图像处理算法和科学计算工具。

  • Stars: ⭐️ 6.5k
  • Tags: computer-vision image-processing python scipy
  • 最后活动时间: 2026-04-10

sam-3d-objects

基于 Segment Anything Model (SAM) 的3D物体分割项目,将2D分割能力扩展到3D空间。

  • Stars: ⭐️ 6.4k
  • Tags: segment-anything 3d-segmentation computer-vision sam
  • 最后活动时间: 2026-03-12

VLM-R1

基于强化学习的视觉语言模型项目,将R1方法应用于多模态场景,实现视觉理解能力的突破性提升。

  • Stars: ⭐️ 5.9k
  • Tags: VLM Reinforcement Learning Multimodal DeepSeek-R1
  • 最后活动时间: 2026-03-12

Chinese-CLIP

中文版CLIP模型,实现跨模态图文检索与表示生成。

  • Stars: ⭐️ 5.9k
  • Tags: clip chinese multi-modal computer-vision image-text-retrieval
  • 最后活动时间: 2026-03-31

chaiNNer

基于节点的图像处理 GUI 工具,支持 AI 图像放大和处理任务的灵活编排。

  • Stars: ⭐️ 5.7k
  • Tags: image-processing ai-upscaling gui node-based
  • 最后活动时间: 2026-04-10

inpaint-web

基于WebGPU和WASM的免费开源图像修复与超分辨率工具,纯浏览器端运行。

  • Stars: ⭐️ 5.7k
  • Tags: inpainting image-upscaling webgpu super-resolution
  • 最后活动时间: 2025-12-23

BLIP

Salesforce BLIP模型,统一视觉-语言理解与生成的预训练框架。

  • Stars: ⭐️ 5.7k
  • Tags: vision-language image-captioning multimodal
  • 最后活动时间: 2026-03-03

MobileSAM

官方MobileSAM项目,将Segment Anything Model轻量化以适配移动端应用,实现高效的图像分割能力。

  • Stars: ⭐️ 5.7k
  • Tags: segment-anything image-segmentation mobile-ai computer-vision
  • 最后活动时间: 2025-12-19

mmf

Meta AI开发的模块化多模态视觉-语言研究框架,支持VQA、图像描述、对话等多种任务,提供预训练模型。

  • Stars: ⭐️ 5.6k
  • Tags: Multimodal Vision-Language VQA PyTorch
  • 最后活动时间: 2026-04-07

TRELLIS.2

用于3D内容生成的原生紧凑结构化潜变量模型,支持高质量3D资产生成与编辑。

  • Stars: ⭐️ 5.3k
  • Tags: 3d-generation latent-models image-generation deep-learning
  • 最后活动时间: 2026-01-10

opencv-python

OpenCV 的 Python 预编译包,提供强大的计算机视觉和图像处理能力,是 AI 视觉应用开发的基础库。

  • Stars: ⭐️ 5.2k
  • Tags: opencv computer-vision image-processing python
  • 最后活动时间: 2026-02-03

Sana

基于线性扩散Transformer的高效高分辨率图像合成模型,支持文本到图像生成。

  • Stars: ⭐️ 5.1k
  • Tags: 文生图 扩散模型 Transformer
  • 最后活动时间: 2026-04-13

trace.moe

基于向量数据库的动漫场景反向图片搜索引擎,通过截图快速追溯动漫来源。

  • Stars: ⭐️ 5.0k
  • Tags: anime image-search vector-database reverse-search
  • 最后活动时间: 2026-04-06

unet

U-Net图像分割网络的Keras实现。经典的编码器-解码器架构,广泛应用于医学图像分割和语义分割任务。

  • Stars: ⭐️ 4.9k
  • Tags: unet image-segmentation keras deep-learning
  • 最后活动时间: 2026-03-27

gsplat

CUDA加速的3D Gaussian Splatting光栅化库,支持高效神经渲染和3D重建。

  • Stars: ⭐️ 4.8k
  • Tags: gaussian-splatting cuda 3d-reconstruction neural-rendering
  • 最后活动时间: 2026-04-09

deep-person-reid

基于PyTorch的行人重识别深度学习库,支持跨域度量学习与重排序。

  • Stars: ⭐️ 4.8k
  • Tags: person-reid computer-vision metric-learning pytorch
  • 最后活动时间: 2026-01-09

Open-Generative-AI

开源AI图像生成与视频创作工作室,支持Flux、SDXL、Midjourney等20+模型,可自托管部署。

  • Stars: ⭐️ 4.6k
  • Tags: ai-image-generation ai-video-generation generative-ai flux-1 text-to-video
  • 最后活动时间: 2026-04-13

watermark-removal

基于深度学习的图像水印去除工具,使用图像修复技术自动移除水印。

  • Stars: ⭐️ 4.5k
  • Tags: image-inpainting deep-learning computer-vision
  • 最后活动时间: 2026-02-09

Open-Higgsfield-AI

开源免费的AI图像生成与电影工作室,支持Flux、SDXL等20+模型。可自托管部署,提供完整的图像与视频创作功能。

  • Stars: ⭐️ 4.4k
  • Tags: AI图像生成 视频创作 开源替代
  • 最后活动时间: 2026-04-11

star-vector

基于视觉语言模型的SVG生成基础模型,将矢量化转化为代码生成任务。

  • Stars: ⭐️ 4.4k
  • Tags: SVG VLM Code Generation
  • 最后活动时间: 2025-11-07

pollinations

开源生成式AI平台,提供友好的AI创作体验,支持多种生成模型。

  • Stars: ⭐️ 4.3k
  • Tags: Gen-AI Open Source Platform
  • 最后活动时间: 2026-04-13

flow_matching

基于PyTorch的流匹配算法库,支持连续与离散流匹配,提供文本与图像生成的实战示例。

  • Stars: ⭐️ 4.3k
  • Tags: pytorch flow-matching generative-ai
  • 最后活动时间: 2026-01-05

OmniGen

统一的图像生成模型,支持文生图、图像编辑等多种任务,无需额外组件即可完成复杂生成任务。

  • Stars: ⭐️ 4.3k
  • Tags: Image Generation Diffusion Multi-task
  • 最后活动时间: 2025-12-04

diffusion-models-class

Hugging Face扩散模型课程,深入讲解图像生成模型原理与实践。

  • Stars: ⭐️ 4.3k
  • Tags: diffusion-models image-generation huggingface generative-ai
  • 最后活动时间: 2026-04-02

HunyuanDiT

腾讯混元DiT扩散Transformer模型,支持多分辨率图像生成,具备精细中文语义理解。

  • Stars: ⭐️ 4.3k
  • Tags: Diffusion Text-to-Image 中文
  • 最后活动时间: 2025-11-27

supersplat

基于浏览器的3D高斯泼溅编辑器,支持编辑AI生成的3D场景重建结果。

  • Stars: ⭐️ 4.1k
  • Tags: gaussian-splatting 3d webgpu editor
  • 最后活动时间: 2026-04-11

ComfyUI_examples

ComfyUI工作流示例集合,展示Stable Diffusion图像生成的各种节点组合与技巧。

  • Stars: ⭐️ 4.1k
  • Tags: comfyui stable-diffusion image-generation workflow
  • 最后活动时间: 2025-11-26

OmniGen2

探索高级多模态生成的统一模型,支持多种生成任务的统一架构。

  • Stars: ⭐️ 4.0k
  • Tags: multimodal-generation image-generation unified-model
  • 最后活动时间: 2026-03-20

White-box-Cartoonization

CVPR2020论文实现,基于白盒卡通表示学习的图像卡通化转换工具。

  • Stars: ⭐️ 4.0k
  • Tags: cartoonization image-processing cvpr tensorflow
  • 最后活动时间: 2026-01-19

SwarmUI

模块化的Stable Diffusion Web界面,支持ComfyUI后端,提供高性能图像生成和强大的扩展能力。

  • Stars: ⭐️ 4.0k
  • Tags: stable-diffusion image-generation ai comfyui
  • 最后活动时间: 2026-04-13

brush

基于高斯溅射技术的通用3D重建工具,支持快速高质量场景重建。

  • Stars: ⭐️ 3.9k
  • Tags: gaussian-splatting 3d-reconstruction nerf
  • 最后活动时间: 2026-04-11

ComfyUI-3D-Pack

ComfyUI的3D处理扩展节点套件,支持3DGS、NeRF等前沿算法处理3D网格和纹理。

  • Stars: ⭐️ 3.7k
  • Tags: comfyui 3dgs nerf machine-learning 3d-processing
  • 最后活动时间: 2025-12-29

MagicQuill

CVPR'25论文官方实现,智能交互式图像编辑系统,支持基于MLLM的精准图像编辑。

  • Stars: ⭐️ 3.7k
  • Tags: image-editing mllm aigc gradio
  • 最后活动时间: 2025-12-03

gemini-watermark-remover

高性能纯浏览器端Gemini AI水印去除工具,使用数学精确的反向Alpha混合算法实现无损去水印。

  • Stars: ⭐️ 3.6k
  • Tags: watermark-removal gemini-ai image-processing javascript
  • 最后活动时间: 2026-04-10

sd-webui-roop

Stable Diffusion WebUI 的 Roop 换脸扩展插件。

  • Stars: ⭐️ 3.5k
  • Tags: stable-diffusion face-swap webui-plugin
  • 最后活动时间: 2026-03-13

Hunyuan3D-1

腾讯混元3D生成框架,统一支持文本到3D和图像到3D的生成能力。

  • Stars: ⭐️ 3.5k
  • Tags: 3d-generation text-to-3d image-to-3d generative-ai
  • 最后活动时间: 2025-11-19

ComfyUI-GGUF

为ComfyUI原生模型提供GGUF量化支持,降低显存占用并加速图像生成推理。

  • Stars: ⭐️ 3.5k
  • Tags: GGUF ComfyUI Quantization
  • 最后活动时间: 2026-01-12

photon

高性能的Rust/WebAssembly图像处理库,支持多种图像操作和滤镜效果,适用于Web端和AI图像处理管道。

  • Stars: ⭐️ 3.4k
  • Tags: image-processing webassembly rust computer-vision
  • 最后活动时间: 2026-02-28

waifu2x-ncnn-vulkan

基于ncnn的waifu2x图像超分辨率工具,利用Vulkan实现跨平台GPU加速,适用于动漫图像放大降噪。

  • Stars: ⭐️ 3.4k
  • Tags: Image Upscaling Vulkan Anime
  • 最后活动时间: 2026-04-02

Hunyuan3D-2.1

混元3D最新版本,从图像生成高保真3D资产,支持生产级PBR材质。

  • Stars: ⭐️ 3.3k
  • Tags: hunyuan3d image-to-3d text-to-3d texture-generation
  • 最后活动时间: 2025-10-17

UnityGaussianSplatting

在Unity中实现Gaussian Splatting可视化的实验性项目,支持3D高斯渲染技术的实时展示与交互。

  • Stars: ⭐️ 3.2k
  • Tags: gaussian-splatting unity 3d-reconstruction neural-rendering
  • 最后活动时间: 2025-10-17

IQA-PyTorch

基于PyTorch的图像质量评估工具箱,支持PSNR、SSIM、LPIPS、FID等多种评估指标,涵盖全参考和无参考图像质量评估方法。

  • Stars: ⭐️ 3.2k
  • Tags: image-quality-assessment pytorch deep-learning computer-vision
  • 最后活动时间: 2026-04-09

Skywork-R1V

Skywork AI开发的高级多模态模型系列,专注于视觉语言推理任务。

  • Stars: ⭐️ 3.2k
  • Tags: Multimodal VLM Vision-Language
  • 最后活动时间: 2025-12-15

2d-gaussian-splatting

SIGGRAPH'24论文实现,用于几何精确辐射场的高质量新视角合成与表面重建。

  • Stars: ⭐️ 3.1k
  • Tags: gaussian-splatting novel-view-synthesis 3d-reconstruction neural-rendering
  • 最后活动时间: 2025-11-24

nunif

waifu2x最新版本及2D视频转立体3D视频转换工具集。

  • Stars: ⭐️ 3.1k
  • Tags: waifu2x super-resolution stereo-3d video-processing
  • 最后活动时间: 2026-04-11

Marigold

CVPR 2024口头报告论文,将扩散模型图像生成器重新用于单目深度估计,支持零样本推理。

  • Stars: ⭐️ 3.1k
  • Tags: depth-estimation diffusion zero-shot
  • 最后活动时间: 2025-12-10

map-anything

通用前馈度量3D重建模型,支持深度估计、多视角立体视觉和机器人应用场景。

  • Stars: ⭐️ 3.1k
  • Tags: 3d-reconstruction depth-estimation image-to-3d robotics
  • 最后活动时间: 2026-03-23

awesome-virtual-try-on

虚拟试穿领域精选资源列表,汇集论文、代码、数据集,涵盖2D/3D试穿与多姿态引导技术。

  • Stars: ⭐️ 3.1k
  • Tags: 虚拟试穿 图像生成 计算机视觉
  • 最后活动时间: 2026-03-05

QualityScaler

基于AI的图像和视频超分辨率放大应用,支持降噪和压缩伪影消除,可运行于NVIDIA/AMD/Intel GPU。

  • Stars: ⭐️ 3.0k
  • Tags: Super Resolution Image Enhancement Video Upscaling
  • 最后活动时间: 2026-04-05

HunyuanImage-3.0

腾讯混元图像生成模型3.0版本,强大的原生多模态图像生成模型,支持高质量图像创作。

  • Stars: ⭐️ 3.0k
  • Tags: image-generation multimodal-model text-to-image diffusion-model
  • 最后活动时间: 2026-02-03

Pointcept

点云感知研究代码库,包含PTv3、Sonata等最新3D视觉研究成果。

  • Stars: ⭐️ 3.0k
  • Tags: point-cloud 3d-vision pytorch
  • 最后活动时间: 2026-04-07

splat

基于WebGL的3D高斯泼溅渲染查看器,支持加载和可视化3D高斯泼溅场景,适用于神经渲染和新型视图合成领域。

  • Stars: ⭐️ 2.9k
  • Tags: 3d-gaussian-splatting webgl viewer neural-rendering
  • 最后活动时间: 2025-11-16

jeelizFaceFilter

轻量级WebGL人脸检测与AR滤镜库,支持实时多人脸追踪和表情识别,可集成Three.js和Babylon.js。

  • Stars: ⭐️ 2.9k
  • Tags: face-detection augmented-reality webgl deep-learning
  • 最后活动时间: 2025-11-14

swift-coreml-diffusers

基于Core ML的Stable Diffusion Swift实现,支持在Apple设备上本地运行图像生成。

  • Stars: ⭐️ 2.9k
  • Tags: stable-diffusion coreml swift image-generation apple
  • 最后活动时间: 2026-04-10

ComfyUI-nunchaku

Nunchaku的ComfyUI插件,提供高效的扩散模型量化推理能力。

  • Stars: ⭐️ 2.8k
  • Tags: ComfyUI 扩散模型 量化
  • 最后活动时间: 2026-02-19

LichtFeld-Studio

3D高斯泼溅场景的完整解决方案,支持训练、编辑、自动化处理与导出。

  • Stars: ⭐️ 2.8k
  • Tags: gaussian-splatting 3d-reconstruction computer-vision cuda
  • 最后活动时间: 2026-04-12

sam-3d-body

SAM 3D人体模型推理代码,提供预训练模型和数据集,支持3D人体建模。

  • Stars: ⭐️ 2.8k
  • Tags: 3d-body-model segment-anything computer-vision
  • 最后活动时间: 2026-02-19

SimpleTuner

面向图像、视频和音频扩散模型的通用微调工具包,支持Stable Diffusion、Flux等主流模型的高效训练。

  • Stars: ⭐️ 2.8k
  • Tags: Diffusion Fine-tuning Stable Diffusion
  • 最后活动时间: 2026-04-10

a1111-sd-webui-tagcomplete

Stable Diffusion WebUI标签自动补全扩展,提供Booru风格的智能提示词补全功能。

  • Stars: ⭐️ 2.8k
  • Tags: stable-diffusion autocompletion prompt-engineering webui-extension
  • 最后活动时间: 2026-03-21

voxelmorph

基于无监督学习的医学图像配准框架,支持变形场估计与图像对齐。

  • Stars: ⭐️ 2.7k
  • Tags: image-registration medical-imaging unsupervised-learning deep-learning
  • 最后活动时间: 2026-02-14

GaussianSplats3D

基于Three.js的3D高斯泼溅渲染库,支持实时神经渲染和新视角合成。

  • Stars: ⭐️ 2.7k
  • Tags: 3d-gaussian-splatting neural-rendering threejs webgl
  • 最后活动时间: 2025-10-19

DeepSeek-OCR-2

DeepSeek推出的视觉因果流OCR模型,专注于文档理解和文字识别任务。

  • Stars: ⭐️ 2.7k
  • Tags: ocr deepseek visual-ai document-understanding
  • 最后活动时间: 2026-02-03

Stable-Diffusion

全面的Stable Diffusion学习资源库,涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。

  • Stars: ⭐️ 2.7k
  • Tags: Stable Diffusion LoRA ComfyUI Image Generation
  • 最后活动时间: 2026-04-09

xDiT

可扩展的Diffusion Transformers推理引擎,支持大规模并行计算,显著提升DiT模型推理性能。

  • Stars: ⭐️ 2.6k
  • Tags: Diffusion Inference Parallelism
  • 最后活动时间: 2026-04-09

k-diffusion

Karras等人扩散模型PyTorch实现,高质量图像生成库。

  • Stars: ⭐️ 2.6k
  • Tags: diffusion-models image-generation pytorch
  • 最后活动时间: 2026-02-12

stitching

Python图像拼接包,提供快速鲁棒的全景图像拼接功能。

  • Stars: ⭐️ 2.6k
  • Tags: image-stitching panorama computer-vision python
  • 最后活动时间: 2026-03-16

Restormer

高效Transformer模型,专用于高分辨率图像恢复任务,在去模糊、去雨、去噪等任务达到SOTA性能。

  • Stars: ⭐️ 2.5k
  • Tags: Transformer 图像恢复 CVPR2022
  • 最后活动时间: 2025-10-23

OmniSVG

首个端到端多模态SVG生成器,基于预训练视觉语言模型,可生成从图标到动漫角色的复杂SVG。

  • Stars: ⭐️ 2.5k
  • Tags: SVG Generation VLM NeurIPS 2025
  • 最后活动时间: 2026-03-01

conditional-flow-matching

条件流匹配库TorchCFM,用于生成模型训练。

  • Stars: ⭐️ 2.4k
  • Tags: flow-matching generative-models optimal-transport
  • 最后活动时间: 2025-11-11

bgslibrary

C++背景减除库,提供多种背景建模算法,支持Python、MATLAB和Java绑定。

  • Stars: ⭐️ 2.3k
  • Tags: background-subtraction computer-vision opencv
  • 最后活动时间: 2025-11-18

JiT

JiT 方法的 PyTorch 实现,用于高效图像生成任务。

  • Stars: ⭐️ 2.2k
  • Tags: image-generation pytorch generative-model
  • 最后活动时间: 2025-12-08

gpupixel

基于GPU的实时图像滤镜引擎,支持人脸检测、美颜、瘦脸等AI图像处理功能。

  • Stars: ⭐️ 2.2k
  • Tags: image-processing gpu face-detection filter
  • 最后活动时间: 2026-02-13

mediapipe-touchdesigner

GPU加速的MediaPipe TouchDesigner插件,用于实时计算机视觉和手势识别应用。

  • Stars: ⭐️ 2.2k
  • Tags: mediapipe touchdesigner computer-vision gpu
  • 最后活动时间: 2025-11-18

Step1X-Edit

SOTA级开源图像编辑模型,性能媲美GPT-4o和Gemini 2 Flash等闭源模型。

  • Stars: ⭐️ 2.2k
  • Tags: image-editing multimodal visual-reasoning open-source
  • 最后活动时间: 2025-12-29

Awesome-Image-Inpainting

图像修复与视频修复领域的精选论文和资源合集,涵盖人脸补全、图像修复等前沿研究方向。

  • Stars: ⭐️ 2.2k
  • Tags: image-inpainting video-inpainting computer-vision deep-learning
  • 最后活动时间: 2026-02-09

local-dream

在Android设备上运行Stable Diffusion,支持骁龙NPU加速及CPU/GPU推理。

  • Stars: ⭐️ 2.1k
  • Tags: stable-diffusion android npu image-generation
  • 最后活动时间: 2026-03-27

cellpose

通用细胞分割算法,支持人机交互标注,广泛应用于生物医学图像分析领域。

  • Stars: ⭐️ 2.1k
  • Tags: cell-segmentation bioimage deep-learning
  • 最后活动时间: 2026-04-09

flux2

FLUX.2图像生成模型的官方推理仓库。

  • Stars: ⭐️ 2.1k
  • Tags: flux image-generation diffusion-model inference
  • 最后活动时间: 2026-03-12

gowall

多功能图像处理工具,支持VLM视觉语言模型OCR识别、对抗网络图像超分辨率放大、色彩提取与主题转换等功能。

  • Stars: ⭐️ 2.1k
  • Tags: image-processing ocr upscale color-palette cli
  • 最后活动时间: 2026-04-09

MambaVision

CVPR 2025论文,混合Mamba-Transformer视觉骨干网络,支持图像分类、检测和分割。

  • Stars: ⭐️ 2.1k
  • Tags: mamba vision-transformer image-classification object-detection
  • 最后活动时间: 2026-03-11

DreamOmni2

多模态指令驱动的图像编辑与生成统一模型,支持基于自然语言指令的图像处理任务。

  • Stars: ⭐️ 2.1k
  • Tags: 图像编辑 图像生成 多模态
  • 最后活动时间: 2026-04-11

3dgrut

高斯粒子的光线追踪与混合光栅化渲染技术,用于3D场景重建。

  • Stars: ⭐️ 2.1k
  • Tags: gaussian-splatting ray-tracing 3d-reconstruction computer-vision
  • 最后活动时间: 2026-04-13

ICEdit

高效图像编辑工具,仅需单个LoRA即可实现高质量图像编辑。

  • Stars: ⭐️ 2.1k
  • Tags: image-editing lora diffusion
  • 最后活动时间: 2025-12-19

spark

基于THREE.js的高级3D高斯泼溅渲染器,支持神经辐射场风格的实时3D重建与渲染。

  • Stars: ⭐️ 2.1k
  • Tags: 3d-gaussian-splatting nerf threejs webgl
  • 最后活动时间: 2026-04-12

ViTPose

NeurIPS 2022论文,基于Vision Transformer的人体姿态估计模型。

  • Stars: ⭐️ 2.0k
  • Tags: pose-estimation vision-transformer self-supervised pytorch
  • 最后活动时间: 2025-12-25

ml-hypersim

用于室内场景理解的光真实感合成数据集,提供高质量的3D场景渲染数据。

  • Stars: ⭐️ 2.0k
  • Tags: dataset synthetic-data indoor-scene computer-vision
  • 最后活动时间: 2026-01-09

mflux

基于Apple MLX框架的原生生成图像模型实现,针对Apple Silicon优化。

  • Stars: ⭐️ 2.0k
  • Tags: mlx flux apple-silicon image-generation
  • 最后活动时间: 2026-04-10

custom-diffusion

CVPR 2023论文实现,专注于文本到图像扩散模型的多概念定制化微调,支持少样本学习。

  • Stars: ⭐️ 2.0k
  • Tags: diffusion-models text-to-image fine-tuning computer-vision
  • 最后活动时间: 2025-12-01

OpenSplat

生产级3D高斯泼溅重建工具,支持CPU/GPU跨平台运行,适用于神经辐射场和3D场景重建。

  • Stars: ⭐️ 1.9k
  • Tags: 3d gaussian-splatting radiance-field neural-rendering
  • 最后活动时间: 2025-12-26

Show-o

统一多模态理解和生成的单一Transformer模型,ICLR/NeurIPS 2025接收,融合扩散模型与大语言模型。

  • Stars: ⭐️ 1.9k
  • Tags: 多模态 扩散模型 大语言模型
  • 最后活动时间: 2026-01-08

pymatting

Python图像Alpha抠图库,用于前景提取和图像处理任务。

  • Stars: ⭐️ 1.9k
  • Tags: alpha-matting image-processing computer-vision
  • 最后活动时间: 2026-04-07

mar

MAR+DiffLoss 的 PyTorch 实现,用于自回归图像生成的创新方法。

  • Stars: ⭐️ 1.9k
  • Tags: autoregressive-model image-generation diffusion pytorch
  • 最后活动时间: 2026-02-20

WorldGen

基于生成式AI的3D场景生成工具,支持文本和图像快速生成任意3D场景,实现秒级高质量三维内容创作。

  • Stars: ⭐️ 1.9k
  • Tags: 3D Generation Text-to-3D Scene Generation
  • 最后活动时间: 2026-04-12

OpenSeeFace

实时人脸与面部关键点追踪库,支持CPU运行并提供Unity集成,适用于虚拟主播等应用场景。

  • Stars: ⭐️ 1.8k
  • Tags: face-tracking face-detection onnx pytorch unity
  • 最后活动时间: 2025-12-28

GlobalMLBuildingFootprints

从卫星图像提取的全球建筑物轮廓数据集,支持地理空间AI应用开发。

  • Stars: ⭐️ 1.8k
  • Tags: satellite-imagery building-detection dataset geospatial
  • 最后活动时间: 2026-03-11

nvdiffrast

NVIDIA开发的高性能可微分渲染库,为AI图形学和神经渲染提供模块化原语支持。

  • Stars: ⭐️ 1.8k
  • Tags: differentiable-rendering neural-graphics gpu nvidia
  • 最后活动时间: 2025-12-08

tribev2

TRIBE v2多模态模型,用于脑响应预测的研究项目,结合神经科学与深度学习技术。

  • Stars: ⭐️ 1.8k
  • Tags: multimodal brain-response neuroscience deep-learning
  • 最后活动时间: 2026-03-30

ComfyUI-Prompt-Assistant

ComfyUI提示词助手插件,支持多LLM服务的提示词翻译、扩写和图片反推功能。

  • Stars: ⭐️ 1.8k
  • Tags: ComfyUI Prompt Image Generation
  • 最后活动时间: 2026-04-10

Emu

BAAI推出的多模态生成基础模型系列,支持上下文学习和指令微调。

  • Stars: ⭐️ 1.8k
  • Tags: multimodal foundation-model generative-ai
  • 最后活动时间: 2026-01-12

ComfyUI_frontend

ComfyUI官方前端实现,为节点式AI图像生成工作流提供现代化可视化界面,支持拖拽式构建复杂的Stable Diffusion处理流程。

  • Stars: ⭐️ 1.7k
  • Tags: Stable Diffusion Image Generation Node Editor
  • 最后活动时间: 2026-04-13

OnnxOCR

基于PaddleOCR重构的轻量级OCR系统,脱离PaddlePaddle框架,推理速度极快。

  • Stars: ⭐️ 1.7k
  • Tags: ocr onnx deep-learning computer-vision
  • 最后活动时间: 2025-11-01

deepseek_ocr_app

基于DeepSeek模型构建的OCR文字识别应用,支持图像到文本的快速转换。

  • Stars: ⭐️ 1.7k
  • Tags: ocr deepseek image-to-text
  • 最后活动时间: 2026-03-31

gaustudio

模块化 3D 高斯泼溅框架,支持多视图重建和表面重建。

  • Stars: ⭐️ 1.7k
  • Tags: 3d-gaussian-splatting nerf 3d-reconstruction pytorch computer-vision
  • 最后活动时间: 2025-11-05

pupil

开源眼动追踪项目,利用计算机视觉技术实现眼球检测与追踪,可应用于人机交互、心理学研究等领域。

  • Stars: ⭐️ 1.7k
  • Tags: eye-tracking computer-vision open-source
  • 最后活动时间: 2026-03-16

lightweight-gan

ICLR 2021轻量级GAN实现,支持快速训练高分辨率图像生成模型。

  • Stars: ⭐️ 1.7k
  • Tags: gan image-generation deep-learning pytorch
  • 最后活动时间: 2026-03-31

ComfyUI-Florence2

ComfyUI的Microsoft Florence2视觉语言模型推理节点。

  • Stars: ⭐️ 1.7k
  • Tags: comfyui florence2 vlm vision-language-model
  • 最后活动时间: 2026-04-08

CatVTON

ICLR 2025论文,轻量级虚拟试穿扩散模型,仅需8G显存支持1024x768分辨率。

  • Stars: ⭐️ 1.7k
  • Tags: virtual-try-on diffusion-models fashion image-generation
  • 最后活动时间: 2025-12-16

BrickGPT

基于文本提示生成物理稳定的积木模型,支持NeurIPS 2025论文实现。

  • Stars: ⭐️ 1.6k
  • Tags: 3d-generation text-to-3d lego
  • 最后活动时间: 2026-02-07

MMaDA

开源多模态大扩散语言模型,融合块扩散、混合思维链和统一强化学习技术。

  • Stars: ⭐️ 1.6k
  • Tags: diffusion-models multimodal-llm reasoning
  • 最后活动时间: 2026-02-14

Sa2VA

像素级大语言模型代码库,融合视觉与语言的多模态研究项目。

  • Stars: ⭐️ 1.6k
  • Tags: MLLM computer-vision pixel-llm
  • 最后活动时间: 2026-02-27

DanceGRPO

将GRPO强化学习算法应用于视觉生成任务的官方实现。

  • Stars: ⭐️ 1.6k
  • Tags: GRPO Visual Generation RL
  • 最后活动时间: 2025-10-16

Infinity

CVPR 2025 Oral论文,用于高分辨率图像合成的自回归模型。

  • Stars: ⭐️ 1.6k
  • Tags: text-to-image autoregressive image-generation transformers
  • 最后活动时间: 2025-11-10

LucidDreamer

基于3D Gaussian Splatting技术的场景生成方法,无需特定域约束即可生成高质量3D场景。

  • Stars: ⭐️ 1.5k
  • Tags: 3d-gaussian-splatting scene-generation generative-ai
  • 最后活动时间: 2025-11-24

SAM-Adapter-PyTorch

通过适配器和提示将Segment Anything模型迁移到下游分割任务的PyTorch实现。

  • Stars: ⭐️ 1.5k
  • Tags: Segment Anything Adapter Fine-tuning
  • 最后活动时间: 2025-12-01

pyntcloud

3D点云处理Python库,支持点云可视化与深度学习应用。

  • Stars: ⭐️ 1.5k
  • Tags: 3d-point-clouds deep-learning python 3d-graphics
  • 最后活动时间: 2026-01-28

ComfyUI_UltimateSDUpscale

ComfyUI的高质量图像放大节点扩展,支持多种放大算法,显著提升Stable Diffusion生成图像的分辨率和细节。

  • Stars: ⭐️ 1.5k
  • Tags: ComfyUI 图像放大 Stable Diffusion
  • 最后活动时间: 2026-04-08

ComfyUI-BlenderAI-node

Blender AI 生成插件,基于 ComfyUI 实现纹理增强与渲染引擎集成。

  • Stars: ⭐️ 1.5k
  • Tags: ai blender comfyui image-generation
  • 最后活动时间: 2025-11-28

DDColor

ICCV 2023论文,通过双解码器实现照片级真实的图像着色效果。

  • Stars: ⭐️ 1.4k
  • Tags: image-colorization computer-vision deep-learning
  • 最后活动时间: 2026-01-17

ComfyUI-Docker

ComfyUI的Docker容器化部署方案,支持Stable Diffusion图像生成工作流,开箱即用。

  • Stars: ⭐️ 1.4k
  • Tags: comfyui stable-diffusion docker
  • 最后活动时间: 2026-04-13

realesrgan-gui

跨平台AI图像超分辨率放大工具GUI,支持Real-ESRGAN和Real-CUGAN模型,提供美观易用的图形界面。

  • Stars: ⭐️ 1.4k
  • Tags: real-esrgan super-resolution image-upscaling gui
  • 最后活动时间: 2026-02-20

yomitoku

专为日语设计的 AI 文档图像分析 Python 包,集成深度学习 OCR 和版面分析功能,支持 PyTorch 框架。

  • Stars: ⭐️ 1.4k
  • Tags: OCR 文档分析 日语 PyTorch
  • 最后活动时间: 2026-04-09

JoyAI-Image

统一的多模态基础模型,支持图像理解、文本生成图像和指令引导的图像编辑功能。

  • Stars: ⭐️ 1.3k
  • Tags: multimodal image-generation image-editing text-to-image
  • 最后活动时间: 2026-04-12

TinyGPT-V

高效轻量级多模态大语言模型,采用小型骨干网络实现视觉语言理解与生成。

  • Stars: ⭐️ 1.3k
  • Tags: multimodal-llm vision-language efficient-model
  • 最后活动时间: 2026-02-05

DLSS

NVIDIA 深度学习超级采样技术,利用神经网络提升游戏帧率并生成高质量图像。

  • Stars: ⭐️ 1.3k
  • Tags: dlss nvidia image-upscaling gaming
  • 最后活动时间: 2026-01-26

image-matching-webui

基于Gradio的图像匹配Web界面,集成多种深度学习模型如SuperGlue、LightGlue、LoFTR等,支持特征匹配和位姿估计。

  • Stars: ⭐️ 1.2k
  • Tags: image-matching deep-learning feature-matching gradio
  • 最后活动时间: 2026-04-11

sprite-sheet-creator

基于fal.ai的2D角色和地图精灵图生成工具,支持创建可玩的像素风格游戏素材。

  • Stars: ⭐️ 1.2k
  • Tags: sprite-sheet game-assets ai-generation fal-ai
  • 最后活动时间: 2026-03-25

comfyui-portrait-master

ComfyUI 节点插件,帮助 AI 图像创作者快速生成人物肖像的提示词,简化人像生成工作流。

  • Stars: ⭐️ 1.2k
  • Tags: ComfyUI 人像生成 提示词
  • 最后活动时间: 2026-02-09

LucidFlux

ICLR 2026论文,基于大规模扩散Transformer实现无需标注的高质量图像修复。

  • Stars: ⭐️ 1.2k
  • Tags: diffusion image-restoration transformer iclr
  • 最后活动时间: 2026-03-25

Stable-Diffusion-Android

Android平台上的Stable Diffusion AI客户端应用,支持连接Automatic1111 WebUI进行AI图像生成。

  • Stars: ⭐️ 1.2k
  • Tags: stable-diffusion android ai-image-generation kotlin
  • 最后活动时间: 2026-02-15

comfyui-inpaint-nodes

ComfyUI专业图像修复节点集合,支持Fooocus SDXL、LaMa、MAT等多种算法,提供强大的图像修复功能。

  • Stars: ⭐️ 1.2k
  • Tags: ComfyUI 图像修复 Inpainting
  • 最后活动时间: 2026-04-10

sceneview

跨平台3D与AR SDK,支持Android、iOS、Web、Desktop等多端部署,集成Filament和RealityKit渲染引擎。

  • Stars: ⭐️ 1.2k
  • Tags: 3d ar arcore arkit kotlin swift webxr
  • 最后活动时间: 2026-04-13

SiT

探索流模型和扩散模型的可扩展插值Transformer生成模型。

  • Stars: ⭐️ 1.1k
  • Tags: diffusion-model transformer generative-model
  • 最后活动时间: 2025-12-22

FireRed-Image-Edit

开源SOTA图像编辑基础模型,支持精确指令跟随、高保真生成和优异身份一致性。

  • Stars: ⭐️ 1.1k
  • Tags: Image Editing Diffusion AIGC
  • 最后活动时间: 2026-04-03

CityGaussian

ECCV 2024 & ICLR 2025 系列,基于高斯泼溅的大规模场景高质量重建方法。

  • Stars: ⭐️ 1.1k
  • Tags: gaussian-splatting large-scale neural-rendering scene-reconstruction
  • 最后活动时间: 2026-02-07

biniou

一个自托管的生成式AI WebUI,支持30多种AI模型,包括Stable Diffusion、FLUX、AnimateDiff、Bark、Whisper等,覆盖图像、音频、视频多模态生成。

  • Stars: ⭐️ 1.1k
  • Tags: Generative AI WebUI Stable Diffusion Multimodal
  • 最后活动时间: 2026-04-12

Fastest_Image_Pattern_Matching

高性能图像模板匹配算法实现,基于归一化互相关算法优化。

  • Stars: ⭐️ 1.1k
  • Tags: pattern-matching template-matching opencv image-alignment
  • 最后活动时间: 2026-01-20

MeanFlow

一步生成建模的PyTorch实现,探索流匹配和扩散模型的高效生成方法。

  • Stars: ⭐️ 1.1k
  • Tags: Diffusion Flow Matching Generative Model
  • 最后活动时间: 2025-12-17

Awesome-Image-Composition

图像合成与物体插入领域的论文、代码和资源精选列表,涵盖图像融合、和谐化、阴影生成等生成式AI技术。

  • Stars: ⭐️ 1.1k
  • Tags: image-composition image-harmonization generative-ai computer-vision
  • 最后活动时间: 2026-02-24

LanPaint

高质量免训练图像修复工具,支持所有Stable Diffusion模型和ComfyUI。

  • Stars: ⭐️ 1.1k
  • Tags: inpainting stable-diffusion comfyui
  • 最后活动时间: 2026-04-11

ComfyUI-qwenmultiangle

ComfyUI 自定义节点,提供交互式 Three.js 视口控制相机角度,用于多角度 AI 图像生成。

  • Stars: ⭐️ 1.1k
  • Tags: comfyui image-generation 3d-camera stable-diffusion
  • 最后活动时间: 2026-03-24

Uni-MoE

大规模多模态模型家族,基于混合专家架构实现多模态理解与生成能力。

  • Stars: ⭐️ 1.1k
  • Tags: multimodal moe large-language-model image-generation
  • 最后活动时间: 2025-12-22

Lumina-mGPT-2.0

独立自回归图像建模研究项目,实现高质量图像生成。

  • Stars: ⭐️ 1.1k
  • Tags: image-generation autoregressive multimodal research
  • 最后活动时间: 2025-11-03

HunyuanWorld-Mirror

腾讯混元团队开发的快速通用3D重建模型,支持图像到3D、场景生成等多种任务。

  • Stars: ⭐️ 1.1k
  • Tags: 3d-reconstruction aigc image-to-3d scene-generation
  • 最后活动时间: 2026-02-06

PowerPaint

ECCV 2024多功能图像修复模型,支持物体插入、移除、扩展等多种功能。

  • Stars: ⭐️ 1.1k
  • Tags: inpainting image-editing stable-diffusion
  • 最后活动时间: 2025-12-20

ComfyUI-Lora-Manager

ComfyUI 的 LoRA 模型管理扩展,支持模型组织、预览和元数据管理,提升工作流效率。

  • Stars: ⭐️ 1.1k
  • Tags: ComfyUI LoRA Manager Image Generation
  • 最后活动时间: 2026-04-08

gaussian-splatting-lightning

基于PyTorch Lightning的3D高斯泼溅框架,集成多种衍生算法与交互式Web查看器。

  • Stars: ⭐️ 1.1k
  • Tags: gaussian-splatting 3d-reconstruction pytorch-lightning nerf deep-learning
  • 最后活动时间: 2026-03-13

TimeGAN

NeurIPS 2019论文代码,时间序列生成对抗网络,用于时序数据生成。

  • Stars: ⭐️ 1.0k
  • Tags: time-series gan neurips data-generation
  • 最后活动时间: 2026-02-05

ComfyUI-Easy-Install

跨平台便携式ComfyUI安装器,支持Nvidia GPU,简化Stable Diffusion工作流部署。

  • Stars: ⭐️ 1.0k
  • Tags: comfyui stable-diffusion image-generation installer
  • 最后活动时间: 2026-04-05

vertex-ai-creative-studio

Google Cloud Vertex AI生成媒体创意工作室,集成Imagen、Veo、Gemini TTS、Chirp等多模态AI能力。提供图像、视频、音频生成的完整解决方案。

  • Stars: ⭐️ 1.0k
  • Tags: Vertex AI Imagen Veo Gemini Multimodal
  • 最后活动时间: 2026-04-08

SyncDreamer

[ICLR 2024 Spotlight] 从单张图像生成多视角一致图像的扩散模型。

  • Stars: ⭐️ 1.0k
  • Tags: 3d-reconstruction diffusion-models generative-ai multiview-generation
  • 最后活动时间: 2025-10-26

PatchFusion

CVPR 2024高分辨率单目度量深度估计的端到端分块框架。

  • Stars: ⭐️ 1.0k
  • Tags: Depth Estimation Computer Vision CVPR 2024
  • 最后活动时间: 2026-02-21

ConsistentID

多模态细粒度身份保持的人像生成模型,发表于TPAMI 2026。

  • Stars: ⭐️ 1.0k
  • Tags: portrait-generation identity-preserving multimodal image-generation
  • 最后活动时间: 2026-01-02

3dgs-render-blender-addon

KIRI Engine 出品的 3D Gaussian Splatting 渲染器 Blender 插件,支持神经渲染技术在 3D 建模中的应用。

  • Stars: ⭐️ 989
  • Tags: 3d-gaussian-splatting blender neural-rendering 3d-reconstruction
  • 最后活动时间: 2026-04-10

GaussianAvatars

CVPR 2024 Highlight 论文,基于3D高斯泼溅的逼真头部头像生成技术,支持实时渲染与动画驱动。

  • Stars: ⭐️ 985
  • Tags: 3d-gaussian-splatting avatar-generation computer-vision neural-rendering
  • 最后活动时间: 2026-02-11

DiffusionToolkit

专为AI生成图像设计的元数据索引器和查看器,支持Stable Diffusion等生成工具的PNG信息管理。

  • Stars: ⭐️ 983
  • Tags: Stable Diffusion 图像管理 元数据
  • 最后活动时间: 2026-02-27

muapi-cli

muapi.ai官方CLI工具,支持终端生成图像、视频和音频,集成MCP服务器。

  • Stars: ⭐️ 978
  • Tags: ai cli image-generation video-generation mcp
  • 最后活动时间: 2026-04-13

PillOCR-python

基于大模型API的OCR工具,提供智能文字识别能力。

  • Stars: ⭐️ 969
  • Tags: ocr llm python
  • 最后活动时间: 2026-03-13

FastGS

CVPR 2026论文官方代码,将3D高斯泼溅训练时间缩短至100秒的革命性加速方法。

  • Stars: ⭐️ 963
  • Tags: 3dgs gaussian-splatting cvpr2026 acceleration
  • 最后活动时间: 2026-03-23

Lumina-DiMOO

开源多模态大扩散语言模型,支持统一的多模态理解与生成能力。

  • Stars: ⭐️ 962
  • Tags: diffusion-model multimodal-llm image-generation
  • 最后活动时间: 2026-03-20

story-iter

ICLR 2026论文项目,提供无需训练的迭代框架用于长故事可视化,基于扩散模型实现高质量图像生成。

  • Stars: ⭐️ 955
  • Tags: diffusion-models image-generation storytelling visual-storytelling
  • 最后活动时间: 2026-04-02

Pixelle-MCP

基于ComfyUI + MCP + LLM的开源多模态AIGC解决方案,支持图像生成与编辑。

  • Stars: ⭐️ 946
  • Tags: multimodal comfyui mcp aigc image-generation
  • 最后活动时间: 2025-12-17

NoPoSplat

ICLR 2025 Oral论文,从稀疏无位姿图像生成3D高斯溅射的简单高效方法。

  • Stars: ⭐️ 946
  • Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision nerf
  • 最后活动时间: 2026-02-25

Eagle

前沿视觉语言模型项目,采用以数据为中心的策略训练,支持多种主流大模型架构。

  • Stars: ⭐️ 938
  • Tags: Vision-Language LMM LLaVA
  • 最后活动时间: 2025-10-25

Awesome-diffusion-model-for-image-processing

基于扩散模型的图像处理资源汇总,涵盖图像修复、增强、编码和质量评估等方向。

  • Stars: ⭐️ 932
  • Tags: diffusion-models image-processing image-restoration image-enhancement
  • 最后活动时间: 2026-04-08

Pytorch-Medical-Segmentation

医学图像分割的PyTorch实现,支持2D和3D分割任务。

  • Stars: ⭐️ 927
  • Tags: medical-segmentation medical-imaging pytorch torchio
  • 最后活动时间: 2025-12-09

api-llm-ocr

基于视觉大模型的PDF转Markdown工具,支持表格、布局和结构保留,适用于文档AI处理场景。

  • Stars: ⭐️ 890
  • Tags: OCR Vision-LLM Document-AI PDF
  • 最后活动时间: 2026-02-21

OpenStereo

立体匹配领域的综合基准测试工具,用于评估和比较各种立体匹配算法的性能表现。

  • Stars: ⭐️ 885
  • Tags: stereo-matching computer-vision benchmark depth-estimation
  • 最后活动时间: 2026-03-30

StreamVGGT

ICLR 2026 论文实现,流式4D视觉几何Transformer,支持实时视觉几何处理与重建。

  • Stars: ⭐️ 879
  • Tags: streaming 4d-vision transformer computer-vision
  • 最后活动时间: 2025-10-27

UniPic

开源SOTA多图像编辑模型,支持高质量图像理解与编辑生成。

  • Stars: ⭐️ 864
  • Tags: Image Editing Diffusion VLM
  • 最后活动时间: 2026-01-24

UniWorld

高分辨率语义编码器,统一视觉理解与生成能力,支持图像编辑与文本生成图像。

  • Stars: ⭐️ 862
  • Tags: Image Generation Diffusion VLM
  • 最后活动时间: 2025-12-23

Image-Generation-CoT

CVPR 2025 论文,首次探索图像生成中的 Chain-of-Thought 推理,涵盖强化学习与反思机制。

  • Stars: ⭐️ 860
  • Tags: image-generation chain-of-thought diffusion reasoning
  • 最后活动时间: 2026-03-19

GLM-Image

基于自回归的高保真图像生成模型,支持文本到图像和图像到图像的生成任务。

  • Stars: ⭐️ 853
  • Tags: Text-to-Image Image Generation Auto-regressive
  • 最后活动时间: 2026-03-20

modly

桌面应用程序,利用本地AI从图像生成3D模型,完全在GPU上运行,支持离线使用。

  • Stars: ⭐️ 850
  • Tags: 3d-generation image-to-3d local-ai desktop-app gpu
  • 最后活动时间: 2026-04-09

open-cd

变化检测工具箱,集成多种深度学习变化检测算法,支持BIT、Changer等模型。

  • Stars: ⭐️ 845
  • Tags: change-detection deep-learning pytorch transformer
  • 最后活动时间: 2025-11-15

Open-DiffusionGS

ICCV 2025论文,融合高斯泼溅与扩散模型,实现快速单阶段图像到3D生成与重建。

  • Stars: ⭐️ 830
  • Tags: 3D生成 高斯泼溅 扩散模型
  • 最后活动时间: 2026-01-28

PoinTr

ICCV 2021 Oral论文,基于几何感知Transformer的点云补全模型,从部分点云重建完整3D几何结构。

  • Stars: ⭐️ 827
  • Tags: 3D Vision Point Cloud Transformer
  • 最后活动时间: 2025-12-15

PhysX-Anything

CVPR 2026论文,从单张图像生成具备物理仿真属性的3D资产。

  • Stars: ⭐️ 823
  • Tags: image-to-3d physical-modeling 3d-generation cvpr
  • 最后活动时间: 2026-04-03

MonoScene

CVPR 2022论文,单目3D语义场景补全,从单张图像预测3D语义占用。

  • Stars: ⭐️ 802
  • Tags: 3d-scene-completion monocular semantic-segmentation pytorch
  • 最后活动时间: 2026-03-25

AnySplat

SIGGRAPH Asia 2025论文,实现从无约束视角进行前馈3D高斯泼溅渲染,无需逐场景优化即可重建3D场景。

  • Stars: ⭐️ 799
  • Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction feed-forward
  • 最后活动时间: 2025-12-22

gemini-nanobanana-pro

基于 Google Gemini 2.5 Flash 模型构建的 AI 图像生成与编辑 Web 应用,使用 Next.js 开发。

  • Stars: ⭐️ 790
  • Tags: gemini image-generation image-editing nextjs web-app
  • 最后活动时间: 2026-04-01

jimeng-free-api-all

即梦AI免费API服务,支持文生图、图生图、视频生成等功能,兼容OpenAI接口格式,支持多账号接入与零配置Docker部署。

  • Stars: ⭐️ 788
  • Tags: ai-image-generation video-generation openai-compatible docker
  • 最后活动时间: 2026-04-11

CnSTD

基于PyTorch/MXNet的中文场景文字检测工具包,支持OCR、数学公式检测和版面分析。

  • Stars: ⭐️ 787
  • Tags: ocr text-detection deep-learning pytorch scene-text-detection
  • 最后活动时间: 2026-02-07

diffusion-point-cloud

CVPR 2021论文实现,基于扩散概率模型的3D点云生成方法,实现高质量三维点云生成与补全。

  • Stars: ⭐️ 785
  • Tags: 3D点云 扩散模型 生成模型
  • 最后活动时间: 2025-11-28

Skyfall-GS

从卫星图像合成沉浸式3D城市场景,结合3D高斯泼溅与扩散模型技术实现高质量三维重建。

  • Stars: ⭐️ 785
  • Tags: 3D重建 卫星图像 高斯泼溅
  • 最后活动时间: 2026-03-18

HVI-CIDNet

CVPR2025低光照图像增强方法,提出新型HVI颜色空间实现高质量暗光图像恢复。

  • Stars: ⭐️ 784
  • Tags: image-enhancement low-light transformer cvpr2025
  • 最后活动时间: 2026-03-09

fsgan

FSGAN 官方 PyTorch 实现,用于人脸重演和换脸的生成对抗网络。

  • Stars: ⭐️ 778
  • Tags: face-swapping face-reenactment gan pytorch computer-vision
  • 最后活动时间: 2025-11-13

ocean

Meta开源的跨平台计算机视觉与增强现实框架,C++实现,支持CV和AR应用开发。

  • Stars: ⭐️ 777
  • Tags: computer-vision augmented-reality meta cpp
  • 最后活动时间: 2026-04-11

scribeocr

基于Web的OCR文档识别与校对工具,支持创建完整数字化文档。

  • Stars: ⭐️ 774
  • Tags: ocr tesseract web-interface
  • 最后活动时间: 2026-04-11

ComfyUI-extension-tutorials

ComfyUI扩展开发教程,帮助用户学习如何为ComfyUI图像生成平台创建自定义节点和扩展。

  • Stars: ⭐️ 773
  • Tags: comfyui stable-diffusion image-generation extension tutorial
  • 最后活动时间: 2025-11-18

midjourney-proxy

全球最大的Midjourney绘图API。日生成超百万张图,支持Discord集成。

  • Stars: ⭐️ 771
  • Tags: midjourney image-generation api-proxy discord-bot
  • 最后活动时间: 2026-04-03

zotero-ocr

Zotero文献管理软件的OCR插件,基于Tesseract实现文档文字识别功能。

  • Stars: ⭐️ 769
  • Tags: ocr zotero tesseract
  • 最后活动时间: 2026-03-31

SSRS

遥感图像语义分割工具箱,支持Mamba、多模态融合、Segment Anything及无监督域适应等前沿方法。

  • Stars: ⭐️ 765
  • Tags: semantic-segmentation remote-sensing transformer mamba
  • 最后活动时间: 2026-03-14

JarvisArt

NeurIPS 2025智能照片修图代理,基于多模态大语言模型释放人类艺术创造力。

  • Stars: ⭐️ 756
  • Tags: multimodal image-processing vision-language-models agent
  • 最后活动时间: 2026-04-04

spz

Niantic开源的3D高斯泼溅文件格式,压缩率比PLY格式高约10倍,几乎无视觉质量损失。

  • Stars: ⭐️ 749
  • Tags: gaussian-splatting 3dgs compression 3d-reconstruction
  • 最后活动时间: 2026-04-09

ImageJ

开源科学图像处理软件,广泛应用于生物医学图像分析和科研领域。

  • Stars: ⭐️ 747
  • Tags: computer-vision image-processing scientific-imaging
  • 最后活动时间: 2026-03-28

FlashWorld

ICLR 2026 Oral论文官方代码,实现秒级高质量3D场景生成的创新方法。

  • Stars: ⭐️ 739
  • Tags: 3d-generation scene-generation iclr2026
  • 最后活动时间: 2026-03-24

3DGS-to-PC

将3D高斯泼溅转换为密集点云的工具,基于ICCVW 2025论文,支持高效的三维场景重建。

  • Stars: ⭐️ 737
  • Tags: 3d-gaussian-splatting point-cloud photogrammetry 3d-reconstruction
  • 最后活动时间: 2025-11-02

FastVGGT

ICLR 2026 论文实现,快速视觉几何Transformer模型,用于高效的视觉几何理解与重建。

  • Stars: ⭐️ 733
  • Tags: computer-vision transformer visual-geometry deep-learning
  • 最后活动时间: 2026-01-28

StableGen

强大的Blender插件,集成Stable Diffusion、ControlNet和Flux1-dev,实现智能3D纹理生成。

  • Stars: ⭐️ 731
  • Tags: Blender Stable Diffusion 3D纹理
  • 最后活动时间: 2026-03-17

ComfyUI-QwenVL

ComfyUI自定义节点,集成Qwen-VL系列视觉语言模型,支持GGUF格式,提供文本生成、图像理解和视频分析能力。

  • Stars: ⭐️ 723
  • Tags: ComfyUI Qwen-VL Multimodal
  • 最后活动时间: 2026-02-10

PaddleMIX

飞桨多模态开发工具箱,支持主流多模态任务及扩散模型,提供高性能实现。

  • Stars: ⭐️ 721
  • Tags: multimodal paddlepaddle diffusion
  • 最后活动时间: 2026-03-06

OpenAI-CLIP

OpenAI CLIP模型的PyTorch实现,支持图像-文本跨模态理解与检索。

  • Stars: ⭐️ 721
  • Tags: clip multimodal pytorch vision-language
  • 最后活动时间: 2025-10-18

DeepMesh

ICCV 2025论文官方实现,基于强化学习的自回归3D网格生成模型。

  • Stars: ⭐️ 707
  • Tags: 3d mesh-generation generative-model aigc
  • 最后活动时间: 2025-12-17

paz

Python层级感知库,支持姿态估计、目标检测、实例分割、人脸识别等多种计算机视觉任务。

  • Stars: ⭐️ 703
  • Tags: pose-estimation object-detection face-recognition instance-segmentation
  • 最后活动时间: 2026-04-13

prope

将相机参数作为相对位置编码的研究项目,用于多视角视觉任务。

  • Stars: ⭐️ 702
  • Tags: multi-view positional-encoding transformer
  • 最后活动时间: 2025-12-18

Fast-SRGAN

轻量级实时超分辨率模型,可在30fps下将低分辨率视频实时上采样为高分辨率。

  • Stars: ⭐️ 701
  • Tags: real-time srgan video-super-resolution tensorflow
  • 最后活动时间: 2026-02-11

mesh2splat

快速将3D网格模型转换为高斯泼溅格式的工具,支持神经渲染和实时新视角合成。

  • Stars: ⭐️ 699
  • Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction
  • 最后活动时间: 2026-04-11

Awesome-Sketch-Based-Applications

基于草图的应用论文合集,涵盖草图到图像生成、草图检索、草图建模等AI相关研究方向。

  • Stars: ⭐️ 697
  • Tags: sketch-to-image sketch-based-retrieval generative-ai computer-vision
  • 最后活动时间: 2026-04-07

ReLA

CVPR 2023 Highlight论文,广义指代表达分割(GRES)的视觉-语言Transformer模型。

  • Stars: ⭐️ 689
  • Tags: referring-segmentation vision-language transformer cvpr2023
  • 最后活动时间: 2025-11-26

DiffusionDPO

Salesforce开源的扩散模型对齐方法,将DPO技术应用于图像生成模型,实现更符合人类偏好的生成效果。

  • Stars: ⭐️ 677
  • Tags: Diffusion Models DPO Model Alignment
  • 最后活动时间: 2025-11-10

stirling-image

类似Stirling-PDF的图像处理工具箱,集成30多种本地AI功能,包括调整大小、压缩、背景移除、图像放大、OCR等,完全离线运行,无云服务依赖。

  • Stars: ⭐️ 677
  • Tags: ai image-processing ocr image-upscale self-hosted
  • 最后活动时间: 2026-04-13

HunyuanImage-2.1

腾讯开源的高效扩散模型,支持2K分辨率文本到图像生成。

  • Stars: ⭐️ 673
  • Tags: diffusion-models text-to-image image-generation
  • 最后活动时间: 2025-10-14

micro-sam

Segment Anything模型在显微图像领域的适配应用,支持细胞与细胞器分割。

  • Stars: ⭐️ 672
  • Tags: segment-anything microscopy cell-segmentation bioimage
  • 最后活动时间: 2026-04-08

FastGen

NVIDIA推出的扩散模型加速生成技术,通过蒸馏方法显著提升图像生成速度,提供高效推理优化方案。

  • Stars: ⭐️ 670
  • Tags: Diffusion Distillation NVIDIA
  • 最后活动时间: 2026-03-19

PaddleYOLO

飞桨YOLO系列全面实现,涵盖YOLOv3至YOLO11、RT-DETR等主流目标检测模型。

  • Stars: ⭐️ 664
  • Tags: object-detection yolo paddlepaddle instance-segmentation
  • 最后活动时间: 2026-01-14

FLAME-Universe

FLAME 3D头部模型的公开资源汇总,包含代码、数据集和学术论文,适用于人脸生成和表情动画。

  • Stars: ⭐️ 663
  • Tags: 3d-face face-model computer-vision generative-ai
  • 最后活动时间: 2026-03-03

Uni3D

ICLR 2024 Spotlight论文,BAAI推出的3D视觉表征基础模型,支持多种3D理解任务。

  • Stars: ⭐️ 663
  • Tags: 3d-representation foundation-model vision-transformer 3d-vision
  • 最后活动时间: 2026-01-12

ComfyScript

ComfyUI的Python前端库,支持将工作流编写为Python脚本,在Jupyter中实现自动化图像生成。

  • Stars: ⭐️ 660
  • Tags: ComfyUI Stable Diffusion Python
  • 最后活动时间: 2026-02-17

spectral

Python高光谱图像处理模块,支持异常检测、图像分类和目标检测等AI功能。

  • Stars: ⭐️ 660
  • Tags: hyperspectral image-processing anomaly-detection python
  • 最后活动时间: 2026-04-12

NextStep-1

StepFun团队开发的SOTA自回归图像生成模型,采用连续token技术实现高质量图像生成。

  • Stars: ⭐️ 657
  • Tags: image-generation autoregressive multimodal diffusion
  • 最后活动时间: 2026-02-27

uniface

基于ONNX Runtime的统一人脸分析Python库,支持人脸检测、识别、表情分析、年龄性别估计等多种功能。

  • Stars: ⭐️ 654
  • Tags: face-detection face-recognition face-analysis onnx computer-vision
  • 最后活动时间: 2026-04-06

DrawingSpinUp

SIGGRAPH Asia 2024 论文实现,从单张角色绘画生成 3D 动画。

  • Stars: ⭐️ 654
  • Tags: 3d-animation image-to-3d style-transfer pytorch computer-graphics
  • 最后活动时间: 2025-11-17

YOLOv11-RGBT

全面的多光谱目标检测框架,支持YOLOv3至YOLOv13全系列的RGBT检测。

  • Stars: ⭐️ 652
  • Tags: multispectral-detection yolo rgbt object-detection
  • 最后活动时间: 2025-12-15

BiomedParse

生物医学图像基础模型,支持九种模态的联合分割、检测和识别任务。

  • Stars: ⭐️ 649
  • Tags: biomedical-imaging segmentation object-detection foundation-model
  • 最后活动时间: 2026-01-22

Ming

基于Ling大模型构建的多模态理解与生成框架,支持高级多模态任务处理。

  • Stars: ⭐️ 648
  • Tags: multimodal llm vision-language
  • 最后活动时间: 2026-03-17

MHR

Meta开发的参数化全身数字人体模型,包含骨骼模型、3D网格、姿态校正和面部混合变形,专为计算机视觉和图形学社区设计。

  • Stars: ⭐️ 648
  • Tags: human-model 3d-body computer-vision parametric-model
  • 最后活动时间: 2026-04-06

yolov7-object-tracking

基于YOLOv7的目标检测与跟踪项目,结合PyTorch、OpenCV和SORT算法实现实时多目标跟踪。

  • Stars: ⭐️ 647
  • Tags: yolo object-detection object-tracking pytorch opencv
  • 最后活动时间: 2026-03-12

Lumina-mGPT

灵活的光真实感文本到图像生成模型,采用多模态生成式预训练技术实现高质量图像生成。

  • Stars: ⭐️ 645
  • Tags: 文本生成图像 多模态 图像生成
  • 最后活动时间: 2025-10-16

comfyui-tooling-nodes

ComfyUI工具节点集合,支持将其作为后端服务使用,实现外部工具与ComfyUI直接图像传输。

  • Stars: ⭐️ 645
  • Tags: ComfyUI Stable Diffusion API
  • 最后活动时间: 2026-02-21

Liquid

IJCV收录的多模态大语言模型,实现可扩展的统一文本到图像生成。

  • Stars: ⭐️ 643
  • Tags: Multimodal LLM Text-to-Image Generative AI
  • 最后活动时间: 2025-11-10

nnDetection

自配置3D医学目标检测框架,支持12个数据集,无需手动干预即可应用于新数据。

  • Stars: ⭐️ 635
  • Tags: medical-imaging 3d-object-detection deep-learning
  • 最后活动时间: 2025-10-27

Prism

开源的跨平台壁纸应用,支持社区上传、精选合集以及AI壁纸生成功能,让用户轻松创建个性化壁纸。

  • Stars: ⭐️ 633
  • Tags: flutter wallpaper ai image-generation
  • 最后活动时间: 2026-04-09

we-drawing

每日一句中国古诗词配AI生成图片的创意项目,融合传统文化与AI绘画技术。

  • Stars: ⭐️ 629
  • Tags: ai dalle-3 prompt image-generation
  • 最后活动时间: 2025-12-31

splat-transform

3D高斯泼溅格式转换与变换的CLI工具,支持多种格式互转和3D场景处理。

  • Stars: ⭐️ 626
  • Tags: 3d-gaussian-splatting gaussian-splatting 3d cli
  • 最后活动时间: 2026-04-12

SeeSR

CVPR 2024论文,实现语义感知的真实世界图像超分辨率重建。

  • Stars: ⭐️ 625
  • Tags: super-resolution stable-diffusion image-enhancement
  • 最后活动时间: 2026-04-09

XVerse

NeurIPS 2025论文官方实现,通过DiT调制实现多主体身份和语义属性的一致性控制,支持高质量多角色图像生成。

  • Stars: ⭐️ 624
  • Tags: diffusion image-generation transformer multi-subject
  • 最后活动时间: 2025-10-22

RAG-Diffusion

ICCV 2025 论文项目,通过硬绑定和软细化实现区域感知的文本到图像生成。

  • Stars: ⭐️ 620
  • Tags: text-to-image diffusion image-generation ICCV2025
  • 最后活动时间: 2025-12-12

EDGS

3D高斯泼溅高效收敛方法PyTorch实现,消除密集化步骤。3D重建新方法。

  • Stars: ⭐️ 617
  • Tags: 3dgs 3d-reconstruction gaussian-splatting
  • 最后活动时间: 2026-03-25

peinture

通用AI图像生成框架,支持Hugging Face、Model Scope等多个模型平台。

  • Stars: ⭐️ 610
  • Tags: Image Generation AI Art Framework
  • 最后活动时间: 2026-01-31

OmniLottie

CVPR 2026 论文项目,开源的多模态向量动画生成器,可通过指令生成 Lottie JSON 动画文件,支持 VLM 视觉语言模型驱动。

  • Stars: ⭐️ 610
  • Tags: generative-ai multi-modal vlm lottie-animation vector-graphics
  • 最后活动时间: 2026-04-06

NeRO

[SIGGRAPH 2023] 从多视角图像重建反射物体的神经几何和BRDF。

  • Stars: ⭐️ 598
  • Tags: 3d-reconstruction nerf neural-rendering material-estimation
  • 最后活动时间: 2025-10-26

Awesome-Face-Restoration

人脸修复方法综合资源列表,涵盖论文、代码库等计算机视觉前沿技术。

  • Stars: ⭐️ 594
  • Tags: face-restoration computer-vision image-enhancement deep-learning
  • 最后活动时间: 2026-03-20

FastSurfer

FastSurferCNN的PyTorch实现,用于脑部MRI图像快速分割。

  • Stars: ⭐️ 594
  • Tags: pytorch medical-imaging brain-segmentation mri cnn
  • 最后活动时间: 2026-03-18

ComfyUI_tinyterraNodes

ComfyUI自定义节点集合,为Stable Diffusion提供扩展功能和工作流增强。

  • Stars: ⭐️ 592
  • Tags: comfyui stable-diffusion nodes
  • 最后活动时间: 2026-02-26

FakeShield

ICLR 2025论文项目,基于多模态大语言模型的可解释图像伪造检测与定位系统。

  • Stars: ⭐️ 586
  • Tags: image-forensics mllm deepfake-detection iclr2025
  • 最后活动时间: 2026-02-21

aot-benchmark

基于Transformer的视频目标分割高效模块化实现,支持多对象关联追踪。

  • Stars: ⭐️ 586
  • Tags: video-segmentation transformer object-tracking
  • 最后活动时间: 2026-04-07

LLMDet

CVPR 2025亮点论文,利用大语言模型监督学习强大的开放词汇目标检测器。

  • Stars: ⭐️ 579
  • Tags: object-detection llm computer-vision cvpr
  • 最后活动时间: 2026-02-04

AI Upscaling Models

作者自训练的AI图像超分辨率模型集合,包含600多种上采样模型的训练成果。

  • Stars: ⭐️ 579
  • Tags: upscaling image-enhancement super-resolution ai-models
  • 最后活动时间: 2025-11-14

Awesome-Deep-Stereo-Matching

深度立体匹配资源精选合集,涵盖立体视觉、深度估计和相关深度学习算法。

  • Stars: ⭐️ 576
  • Tags: stereo-vision depth-estimation computer-vision deep-learning
  • 最后活动时间: 2026-04-05

imgpilot

基于实时潜在一致性模型(LCM)的图像生成工具,将草图转化为精美艺术作品。

  • Stars: ⭐️ 575
  • Tags: AI Image Generation LCM
  • 最后活动时间: 2026-01-31

MeiGen-AI-Design-MCP

基于MCP协议的AI图像生成工具,集成ComfyUI与1400+提示词库,支持多方向并行生成。

  • Stars: ⭐️ 575
  • Tags: ai-image-generation mcp comfyui claude-code prompt-engineering
  • 最后活动时间: 2026-04-01

IMAGHarmony

可控图像编辑框架,在复杂多对象编辑中保持对象数量和布局一致性,实现高保真连贯的图像生成。

  • Stars: ⭐️ 571
  • Tags: Image Editing Diffusion Controllable
  • 最后活动时间: 2026-03-24

Visual-Tracking-Development

视觉目标跟踪相关的深度学习基准测试项目,涵盖多种跟踪算法和评估方法。

  • Stars: ⭐️ 568
  • Tags: visual-tracking deep-learning computer-vision benchmark
  • 最后活动时间: 2026-02-10

Awesome-Sketch-Synthesis

草图生成与合成领域的论文合集,涵盖矢量草图生成、笔画级处理等研究方向。

  • Stars: ⭐️ 559
  • Tags: sketch-generation sketch-synthesis vector-sketch generative-ai
  • 最后活动时间: 2026-04-10

2txt

快速将图片转换为文本的AI工具,基于OpenAI技术实现高效图像识别与文字提取。

  • Stars: ⭐️ 557
  • Tags: Image-to-Text OpenAI Next.js
  • 最后活动时间: 2025-12-03

MistoLine

专为SDXL设计的ControlNet模型,支持多样化的线稿条件控制,生成高质量艺术图像。

  • Stars: ⭐️ 557
  • Tags: controlnet sdxl stable-diffusion line-art
  • 最后活动时间: 2026-01-06

ShapeLLM-Omni

NeurIPS 2025 Spotlight论文,原生多模态大语言模型,专注于3D生成与理解,支持文本/图像到3D转换。

  • Stars: ⭐️ 554
  • Tags: 3D生成 多模态LLM NeurIPS 2025
  • 最后活动时间: 2025-10-20

Hunyuan3D-Omni

腾讯混元统一3D资产生成框架,支持可控的图像到3D生成,为游戏和元宇宙内容创作提供强大工具。

  • Stars: ⭐️ 553
  • Tags: 3D生成 多模态 图像转3D
  • 最后活动时间: 2025-10-17

ReconViaGen

ICLR2026论文项目,通过生成式方法实现精确的多视角3D物体重建,支持图像到3D的转换和姿态估计。

  • Stars: ⭐️ 551
  • Tags: 3d-generation 3d-reconstruction image-to-3d pose-estimation generative-ai
  • 最后活动时间: 2026-04-04

3dgsconverter

3D Gaussian Splatting 模型转换工具,支持多种格式互转及 GPU 加速滤波处理。

  • Stars: ⭐️ 549
  • Tags: gaussian-splatting 3d-reconstruction neural-rendering converter
  • 最后活动时间: 2026-01-15

MST-plus-plus

CVPRW 2022获奖项目,多阶段光谱Transformer用于高效光谱图像重建,附带完整工具箱。

  • Stars: ⭐️ 546
  • Tags: hyperspectral spectral-reconstruction transformer
  • 最后活动时间: 2025-11-11

One-DM

ECCV 2024论文,单样本扩散模仿器用于手写文本生成。

  • Stars: ⭐️ 544
  • Tags: diffusion-models handwritten-text-generation image-generation
  • 最后活动时间: 2025-10-15

ComfyUI_Qwen3-VL-Instruct

将Qwen3-VL-Instruct系列集成到ComfyUI平台,支持文本、视频、单图和多图查询生成描述或响应。

  • Stars: ⭐️ 544
  • Tags: comfyui vision-language-model multimodal qwen
  • 最后活动时间: 2025-10-23

tessera

剑桥大学开发的卫星时序图像基础模型,支持土地分类和树冠高度预测等遥感应用。

  • Stars: ⭐️ 540
  • Tags: Satellite Remote Sensing Foundation Models
  • 最后活动时间: 2026-03-26

segmenteverygrain

基于SAM的颗粒图像实例分割模型,适用于地质和材料科学领域。

  • Stars: ⭐️ 537
  • Tags: sam instance-segmentation grain-analysis geoscience
  • 最后活动时间: 2026-03-22

FaceLift

ICCV 2025论文,从单张图像学习可泛化的3D人脸重建方法,基于合成头部数据训练。

  • Stars: ⭐️ 536
  • Tags: 3d-face-reconstruction computer-vision iccv2025
  • 最后活动时间: 2026-03-25

Awesome-Object-Insertion

图像合成与物体插入领域的精选资源合集,涵盖论文、代码和工具,帮助生成逼真的合成图像。

  • Stars: ⭐️ 532
  • Tags: image-composition object-insertion image-generation computer-vision
  • 最后活动时间: 2026-02-24

gemini-image-editing-nextjs-quickstart

基于Gemini 2.0和Next.js的图像生成与编辑快速入门项目,演示原生多模态能力。

  • Stars: ⭐️ 531
  • Tags: gemini gemini-api image-generation nextjs
  • 最后活动时间: 2026-04-13

ll3m

基于大语言模型的3D资产生成工具,可自动编写Python代码在Blender中创建3D模型。

  • Stars: ⭐️ 528
  • Tags: llm 3d-generation blender code-generation
  • 最后活动时间: 2026-03-07

facefusion-docker

业界领先的人脸处理平台,支持人脸替换、唇形同步等多种AI视频处理功能。

  • Stars: ⭐️ 527
  • Tags: ai face-swap lip-sync docker deepfake
  • 最后活动时间: 2026-03-18

TRIDENT

大规模全切片图像处理工具包,支持病理学基础模型,用于组织病理学图像的深度学习分析和处理。

  • Stars: ⭐️ 526
  • Tags: deep-learning pathology whole-slide-image foundation-model
  • 最后活动时间: 2026-04-08

Awesome-Image-Harmonization

图像和谐化领域的论文与代码资源合集,专注于使合成图像前景与背景光照色彩协调一致。

  • Stars: ⭐️ 526
  • Tags: image-harmonization image-composition computer-vision generative-ai
  • 最后活动时间: 2026-02-24

FFHQ-UV

CVPR 2023 论文,提供归一化面部UV纹理数据集,用于高质量3D人脸重建。

  • Stars: ⭐️ 525
  • Tags: face-texture uv-mapping 3d-face cvpr2023
  • 最后活动时间: 2026-01-20

LHM-plusplus

高效的大型人体重建模型,可从任意姿态图像重建3D人体模型。

  • Stars: ⭐️ 525
  • Tags: 3d-reconstruction human-model computer-vision deep-learning
  • 最后活动时间: 2026-03-16

handwritten-text-recognition-for-apache-mxnet

基于Apache MXNet的端到端手写文本识别神经网络训练框架,支持IAM数据集上的全页面手写识别。

  • Stars: ⭐️ 521
  • Tags: OCR Handwriting Recognition MXNet Deep Learning
  • 最后活动时间: 2026-02-05

SCube

NeurIPS 2024论文,使用VoxSplats实现大规模场景即时重建。

  • Stars: ⭐️ 521
  • Tags: 3d-reconstruction gaussian-splatting diffusion-models
  • 最后活动时间: 2025-10-14

immich-automated-selfie-timelapse

自动化人脸提取、调整和对齐工具,适合制作自拍延时视频。基于Immich平台实现的人脸识别与处理工作流。

  • Stars: ⭐️ 521
  • Tags: immich face-detection timelapse self-hosted
  • 最后活动时间: 2026-03-30

ComfyUI-OpenClaw

基于ComfyUI的个人AIGC工厂,支持多平台机器人集成,可生成任意图片和视频内容。

  • Stars: ⭐️ 519
  • Tags: comfyui image-generation agent bot aigc
  • 最后活动时间: 2026-04-09

Concerto

NeurIPS'25 论文官方仓库,提出联合2D-3D自监督学习方法,能够自主学习空间表征,适用于计算机视觉和3D理解任务。

  • Stars: ⭐️ 519
  • Tags: self-supervised-learning 3d-vision spatial-representation neurips
  • 最后活动时间: 2026-04-07

DiffiT

ECCV 2024 论文官方实现,提出 Diffusion Vision Transformers 用于高质量图像生成,创新性地将扩散模型与视觉 Transformer 架构相结合。

  • Stars: ⭐️ 518
  • Tags: diffusion-model vision-transformer image-generation deep-learning
  • 最后活动时间: 2026-03-09

ptlflow

基于 PyTorch Lightning 的光流估计模型库,提供多种预训练模型和权重。

  • Stars: ⭐️ 517
  • Tags: optical-flow pytorch-lightning pretrained-models computer-vision
  • 最后活动时间: 2026-03-31

SOTS

单目标跟踪与分割项目,结合目标检测与语义分割技术,适用于视频分析场景。

  • Stars: ⭐️ 516
  • Tags: object-tracking segmentation computer-vision
  • 最后活动时间: 2026-04-12

mmdit

Stable Diffusion 3中MMDiT(多模态扩散Transformer)层的PyTorch实现。

  • Stars: ⭐️ 515
  • Tags: stable-diffusion multimodal attention diffusion
  • 最后活动时间: 2026-01-18

XPretrain

多模态预训练框架,支持视觉与语言的联合表示学习。

  • Stars: ⭐️ 510
  • Tags: multimodal-learning pre-training deep-learning
  • 最后活动时间: 2026-03-27

Blender-3DGS-4DGS-Viewer-Node

用于检查Gaussian Splatting数据的Blender可视化工具,支持设计相机运动并导出配置到外部渲染器。

  • Stars: ⭐️ 504
  • Tags: 3dgs gaussian-splatting blender visualization
  • 最后活动时间: 2025-11-19

photo2pixel

将照片转换为像素风格(8-bit)艺术的算法实现,支持在线工具 photo2pixel.co。

  • Stars: ⭐️ 502
  • Tags: image-processing pixel-art pytorch style-transfer
  • 最后活动时间: 2026-03-12

UnSAM

NeurIPS 2024论文代码,实现无监督的图像分割模型,无需标注数据即可完成分割任务。

  • Stars: ⭐️ 501
  • Tags: segmentation unsupervised-learning computer-vision neurips2024
  • 最后活动时间: 2025-11-20

pexo-skills

开源Agent技能集合,专注于图像、音频和视频等多模态内容创作。

  • Stars: ⭐️ 501
  • Tags: agent-skills multimodal content-creation
  • 最后活动时间: 2026-04-09

visionworkbench

NASA开发的通用图像处理与计算机视觉库,用于自主系统和机器人研究。

  • Stars: ⭐️ 500
  • Tags: computer-vision nasa image-processing robotics
  • 最后活动时间: 2026-04-04

Open Source Models

MetaCLIP

Meta推出的CLIP模型实现,在视觉-语言理解任务上表现优异,入选NeurIPS、ICLR、CVPR等顶级会议。

  • Stars: ⭐️ 1.8k
  • Tags: clip vision-language multimodal contrastive-learning open-source
  • 最后活动时间: 2025-11-27

Video Generation

Deep-Live-Cam

实时AI换脸工具,仅需单张图片即可实现一键视频深度伪造和实时摄像头换脸。

  • Stars: ⭐️ 90.0k
  • Tags: deepfake face-swap real-time video-generation gan
  • 最后活动时间: 2026-04-09

MoneyPrinterTurbo

利用AI大模型一键生成高清短视频的自动化工具,支持批量创作和多种视频风格。

  • Stars: ⭐️ 55.6k
  • Tags: AI视频生成 短视频 自动化
  • 最后活动时间: 2026-04-11

faceswap

开源深度学习换脸软件,支持多种模型和训练方式,适合学习和研究深度伪造技术。

  • Stars: ⭐️ 55.1k
  • Tags: 深度伪造 人脸替换 深度学习 视频处理
  • 最后活动时间: 2026-04-08

video2x

基于机器学习的视频超分辨率与帧插值框架,提升视频画质。

  • Stars: ⭐️ 19.5k
  • Tags: video-upscaling super-resolution machine-learning frame-interpolation
  • 最后活动时间: 2026-03-07

Wan2.1

阿里开源的大规模视频生成模型,支持高质量视频内容生成,是先进的AI视频生成解决方案。

  • Stars: ⭐️ 15.8k
  • Tags: Video Generation AIGC Open Source
  • 最后活动时间: 2026-03-05

Wan2.2

开源的大规模视频生成模型,支持高质量视频内容创作与生成。

  • Stars: ⭐️ 15.1k
  • Tags: Video Generation AIGC Open Source
  • 最后活动时间: 2026-03-17

MoneyPrinter

使用MoviePy自动化创建YouTube短视频,结合AI生成内容。

  • Stars: ⭐️ 13.1k
  • Tags: video-generation automation youtube moviepy ai-video
  • 最后活动时间: 2026-03-26

Duix-Avatar

开源AI数字人工具包,支持离线视频生成与数字人克隆,适用于虚拟主播与内容创作场景。

  • Stars: ⭐️ 12.7k
  • Tags: ai-avatar digital-human video-generation open-source
  • 最后活动时间: 2025-10-16

CogVideo

智谱AI开源的视频生成模型,支持文本/图像到视频生成,包含CogVideoX(2024)和CogVideo(ICLR 2023)。

  • Stars: ⭐️ 12.6k
  • Tags: Video Generation Text-to-Video ICLR
  • 最后活动时间: 2025-11-04

CogVideo

智谱AI开源的文本/图像生成视频模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。

  • Stars: ⭐️ 12.6k
  • Tags: 文生视频 图生视频 视频生成
  • 最后活动时间: 2025-11-04

Open-Sora-Plan

开源复现OpenAI Sora视频生成模型的项目,旨在通过社区协作实现文本到视频的生成能力。

  • Stars: ⭐️ 12.2k
  • Tags: video-generation text-to-video sora open-source
  • 最后活动时间: 2026-03-08

waoowaoo

工业级全流程 AI 影视生产平台,支持从短视频到长片的可控视频生成与好莱坞标准工作流。

  • Stars: ⭐️ 11.3k
  • Tags: ai-agent video-generation generative-ai film-production
  • 最后活动时间: 2026-04-03

video-subtitle-remover

基于AI的视频/图片硬字幕和文本水印去除工具,本地运行无需第三方API,支持无损分辨率输出。

  • Stars: ⭐️ 10.2k
  • Tags: ai video-processing subtitle-removal deep-learning
  • 最后活动时间: 2026-04-11

huobao-drama

基于AI的一站式短剧生成平台,一句话即可生成完整短剧,实现从剧本到成片的全自动化流程。

  • Stars: ⭐️ 9.9k
  • Tags: video-generation ai-video drama-generator multimodal-ai
  • 最后活动时间: 2026-04-10

LTX-Video

LTX-Video官方仓库,提供高质量的文本到视频生成能力。

  • Stars: ⭐️ 9.9k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-01-05

NarratoAI

AI驱动的视频解说与剪辑工具,一键生成视频解说并自动完成剪辑处理。

  • Stars: ⭐️ 8.8k
  • Tags: Video AI Agent LLM Python
  • 最后活动时间: 2026-04-08

AI4Animation

Unity中基于AI的角色动画系统,利用计算机大脑让角色栩栩如生。

  • Stars: ⭐️ 8.5k
  • Tags: animation unity ai-animation game-development character-ai
  • 最后活动时间: 2026-03-30

Toonflow-app

AI 短剧漫剧创作工具,自动将小说转化为剧本并生成图片和视频内容。

  • Stars: ⭐️ 6.8k
  • Tags: ai-video story-generation content-creation multimodal
  • 最后活动时间: 2026-04-13

SkyReels-V2

无限长度电影生成模型,支持长视频内容的AI生成与创作。

  • Stars: ⭐️ 6.7k
  • Tags: video-generation generative-models film-generation
  • 最后活动时间: 2026-01-29

LTX-2

LTX-2音频-视频生成模型的官方推理和LoRA训练工具包。

  • Stars: ⭐️ 5.8k
  • Tags: generative-ai video-generation audio-video
  • 最后活动时间: 2026-04-02

Awesome-Video-Diffusion

视频扩散模型的精选资源列表,涵盖视频生成、编辑及运动定制等前沿应用。

  • Stars: ⭐️ 5.6k
  • Tags: video-diffusion video-generation diffusion-models generative-ai
  • 最后活动时间: 2026-04-03

VideoCrafter

高质量视频扩散模型,旨在克服数据限制以生成高质量视频内容。

  • Stars: ⭐️ 5.0k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-01-09

mmaction2

OpenMMLab新一代视频理解工具箱,支持动作识别、时序动作检测、视频分类等任务。

  • Stars: ⭐️ 5.0k
  • Tags: action-recognition video-understanding deep-learning pytorch openmmlab
  • 最后活动时间: 2026-03-18

aigcpanel

一站式 AI 数字人系统,支持视频合成、声音克隆、本地模型管理。

  • Stars: ⭐️ 4.8k
  • Tags: aigc digital-human video-synthesis voice-cloning
  • 最后活动时间: 2026-02-07

stable-diffusion-videos

利用Stable Diffusion探索潜在空间,在文本提示词之间实现平滑过渡,生成创意AI视频。

  • Stars: ⭐️ 4.7k
  • Tags: Stable Diffusion Video Generation AI Art
  • 最后活动时间: 2025-12-16

HunyuanVideo-1.5

腾讯开源的领先轻量级视频生成模型,支持文本到视频和图像到视频的高质量生成。

  • Stars: ⭐️ 4.4k
  • Tags: text-to-video video-generation image-to-video generative-ai
  • 最后活动时间: 2026-04-03

short-video-factory

AI驱动的短视频批量生成工具,支持一键生成产品营销视频,跨平台桌面应用。

  • Stars: ⭐️ 3.8k
  • Tags: AI视频 短视频 自动剪辑
  • 最后活动时间: 2026-04-07

Pixelle-Video

AI全自动短视频生成引擎,支持从文本到视频的端到端创作。

  • Stars: ⭐️ 3.7k
  • Tags: video-generation aigc comfyui short-video
  • 最后活动时间: 2026-04-13

vjepa2

Meta发布的视频自监督学习模型VJEPA2的PyTorch官方实现。

  • Stars: ⭐️ 3.6k
  • Tags: video self-supervised pytorch meta
  • 最后活动时间: 2026-03-23

pytorchvideo

Meta开源的视频理解深度学习库,提供视频分类、检测等预训练模型。

  • Stars: ⭐️ 3.6k
  • Tags: video-understanding pytorch deep-learning computer-vision
  • 最后活动时间: 2026-01-12

lingbot-world

推进开源世界模型发展的项目,专注于视频生成与AIGC。

  • Stars: ⭐️ 3.3k
  • Tags: world-models video-generation aigc
  • 最后活动时间: 2026-04-10

flownet2-pytorch

FlowNet 2.0 PyTorch实现,用于深度学习光流估计。

  • Stars: ⭐️ 3.3k
  • Tags: optical-flow computer-vision flownet
  • 最后活动时间: 2026-03-30

moyin-creator

AI影视生产级工具,支持Seedance 2.0,实现从剧本到成片的全流程批量化生产。

  • Stars: ⭐️ 3.0k
  • Tags: 视频生成 影视制作 AI工具
  • 最后活动时间: 2026-04-02

VideoPipe

跨平台视频结构化分析框架,支持目标检测、人脸识别、行为分析等多种AI能力。

  • Stars: ⭐️ 2.8k
  • Tags: Video Analysis Computer Vision DeepStream
  • 最后活动时间: 2026-02-25

Jellyfish

一站式AI短剧生产工具,从剧本输入到AI视频生成、后期剪辑、一键导出成片全流程覆盖。

  • Stars: ⭐️ 2.8k
  • Tags: ai-video short-drama video-generation ai-production
  • 最后活动时间: 2026-04-13

HunyuanWorld-1.0

混元3D世界模型,从文本或像素生成沉浸式、可探索的交互3D世界。

  • Stars: ⭐️ 2.8k
  • Tags: world-model text-to-3d scene-generation hunyuan3d
  • 最后活动时间: 2025-12-17

ViMax

智能体驱动的视频生成平台,集成导演、编剧、制片和视频生成全流程。

  • Stars: ⭐️ 2.6k
  • Tags: video-generation agentic-aigc ai-video
  • 最后活动时间: 2026-03-29

MimicMotion

腾讯开源的高质量人体运动视频生成框架,基于置信度感知姿态引导技术生成流畅自然的动作视频。

  • Stars: ⭐️ 2.6k
  • Tags: Video Generation Motion Synthesis Tencent
  • 最后活动时间: 2025-11-18

ttt-video-dit

测试时训练实现一分钟视频生成,官方PyTorch实现。

  • Stars: ⭐️ 2.4k
  • Tags: video-generation test-time-training diffusion
  • 最后活动时间: 2026-02-25

ComfyUI-SeedVR2_VideoUpscaler

ComfyUI官方SeedVR2视频超分辨率节点,支持AI驱动的视频画质增强。

  • Stars: ⭐️ 2.3k
  • Tags: comfyui video-upscaling ai-upscaler
  • 最后活动时间: 2025-12-24

HY-Motion-1.0

用于3D人体动作和角色动画生成的AI模型,支持高质量运动合成。

  • Stars: ⭐️ 2.3k
  • Tags: 3d-motion character-animation human-motion deep-learning
  • 最后活动时间: 2026-01-29

InternVideo

视频基础模型与多模态理解研究项目,支持动作识别、视频检索、问答等任务。

  • Stars: ⭐️ 2.2k
  • Tags: video-understanding multimodal foundation-models video-retrieval
  • 最后活动时间: 2026-03-25

LightX2V

轻量级图像到视频生成推理框架,支持自回归扩散模型和多种视频生成模型的高效推理部署。

  • Stars: ⭐️ 2.2k
  • Tags: Video Generation Diffusion Inference Framework
  • 最后活动时间: 2026-04-10

GeminiWatermarkTool

VEO和Gemini Nano视频生成模型的水印维护工具,支持CLI和GUI界面操作。

  • Stars: ⭐️ 2.1k
  • Tags: gemini veo3 watermark video-generation
  • 最后活动时间: 2026-03-30

Matrix-Game

开源的实时流式交互世界模型,支持长视频生成和交互式视频应用。

  • Stars: ⭐️ 2.1k
  • Tags: World Model Video Generation Interactive
  • 最后活动时间: 2026-03-30

VideoX-Fun

灵活的视频生成框架,支持任意分辨率视频生成及图像到视频转换。

  • Stars: ⭐️ 2.0k
  • Tags: Video Generation Image-to-Video AI Framework
  • 最后活动时间: 2026-04-08

Anime4KCPP

基于CNN的高性能动漫视频超分辨率放大工具,支持GPU加速和多种视频处理框架插件。

  • Stars: ⭐️ 2.0k
  • Tags: Upscaling CNN Video Processing
  • 最后活动时间: 2026-04-11

Latte

TMLR 2025论文实现,潜在扩散Transformer用于视频生成任务。

  • Stars: ⭐️ 1.9k
  • Tags: video-generation diffusion transformer
  • 最后活动时间: 2025-10-30

FireRed-OpenStoryline

AI视频编辑智能体,通过自然语言交互和LLM驱动的规划,实现意图驱动的导演式创作体验。

  • Stars: ⭐️ 1.9k
  • Tags: Video Editing LLM LangChain
  • 最后活动时间: 2026-04-09

tapnet

任意点追踪(TAP)深度学习模型,用于计算机视觉中的视频点跟踪任务。

  • Stars: ⭐️ 1.8k
  • Tags: point-tracking computer-vision deep-learning video
  • 最后活动时间: 2026-03-30

HunyuanVideo-I2V

腾讯混元推出的可定制图像到视频生成模型,基于扩散模型实现高质量视频生成,支持将静态图像转换为动态视频。

  • Stars: ⭐️ 1.8k
  • Tags: Image-to-Video Diffusion Models Tencent
  • 最后活动时间: 2026-04-07

ReCamMaster

ICCV'25最佳论文提名作品,实现从单一视频生成可控视角的视频渲染,支持相机轨迹控制。

  • Stars: ⭐️ 1.8k
  • Tags: video-generation camera-control aigc computer-vision
  • 最后活动时间: 2025-11-28

Auto-Synced-Translated-Dubs

自动翻译视频字幕并利用AI语音服务生成同步配音的工具,结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。

  • Stars: ⭐️ 1.7k
  • Tags: 视频配音 TTS 字幕翻译
  • 最后活动时间: 2026-01-24

ArcReel

AI Agent 驱动的开源视频生成工作台,支持从小说到视频的全流程自动化,实现跨镜头角色与场景一致性。

  • Stars: ⭐️ 1.7k
  • Tags: ai-video-generator ai-agent storyboard video-generation veo
  • 最后活动时间: 2026-04-13

clipsketch-ai

将视频片段转化为手绘风格故事的AI工具,支持视频到艺术画作的智能转换。

  • Stars: ⭐️ 1.7k
  • Tags: video-to-image sketch style-transfer video-processing
  • 最后活动时间: 2026-01-14

Helios

北大团队开源的实时长视频生成模型,支持文本/图像/视频到视频生成,具备世界模拟能力。

  • Stars: ⭐️ 1.6k
  • Tags: 视频生成 扩散模型 世界模型
  • 最后活动时间: 2026-04-08

kimodo

NVIDIA官方运动扩散模型,专注于生成高质量的人形角色动作序列。

  • Stars: ⭐️ 1.6k
  • Tags: 运动生成 扩散模型 角色动画
  • 最后活动时间: 2026-04-06

Code2Video

通过代码自动生成视频的工具,结合多智能体技术实现视频内容的自动化创作。

  • Stars: ⭐️ 1.6k
  • Tags: Video Generation Multi-Agent Education
  • 最后活动时间: 2025-11-25

SystemAnimatorOnline

基于AI的全身动作捕捉和扩展现实(XR)解决方案,支持VTuber和WebXR应用。

  • Stars: ⭐️ 1.6k
  • Tags: motion-capture mediapipe tensorflowjs threejs vtuber webxr
  • 最后活动时间: 2026-03-29

stable-virtual-camera

基于扩散模型的新视角合成生成模型,实现高质量视角生成。

  • Stars: ⭐️ 1.6k
  • Tags: diffusion-model novel-view-synthesis generative-ai
  • 最后活动时间: 2026-03-03

OpenMontage

全球首个开源智能体视频生产系统,包含11条流水线、49个工具和400+智能体技能,将AI编程助手转变为完整的视频制作工作室。

  • Stars: ⭐️ 1.6k
  • Tags: agentic-ai video-generation ffmpeg open-source python
  • 最后活动时间: 2026-04-12

HunyuanWorld-Voyager

交互式RGBD视频生成模型,支持相机输入条件下的实时3D重建。

  • Stars: ⭐️ 1.5k
  • Tags: world-model image-to-video 3d-generation hunyuan3d
  • 最后活动时间: 2025-12-17

seedance-prompt-skill

Seedance 2.0视频生成提示词技能,帮助用户快速生成高质量AI视频提示词。

  • Stars: ⭐️ 1.5k
  • Tags: video-generation prompt-engineering seedance ai-video
  • 最后活动时间: 2026-02-12

Awesome-Talking-Head-Synthesis

数字人说话头像生成领域的精选资源合集,涵盖音频驱动的人脸合成、论文及实现方法。

  • Stars: ⭐️ 1.5k
  • Tags: talking-head audio-driven face-synthesis video-generation
  • 最后活动时间: 2026-04-09

Video-Materials-AutoGEN-Workstation

集成内容策划、AI文案生成、TTS配音、图片合成、ASR字幕提取于一体的短视频生成工作站。

  • Stars: ⭐️ 1.5k
  • Tags: video-generation tts ai-content asr
  • 最后活动时间: 2025-11-30

awesome-seedance

Seedance 2.0 AI视频生成资源的精选合集,包含高质量提示词、API指南和高级视频生成工作流程。

  • Stars: ⭐️ 1.4k
  • Tags: ai video-generation seedance prompt-engineering
  • 最后活动时间: 2026-04-12

HY-WorldPlay

交互式世界建模系统框架,支持实时延迟和几何一致性的3D世界生成。

  • Stars: ⭐️ 1.4k
  • Tags: world-model 3d-generation hunyuan image-to-3d
  • 最后活动时间: 2026-03-24

MotionBERT

ICCV 2023论文实现,用于学习人体运动表示的统一框架,支持3D姿态估计、骨骼动作识别等任务。

  • Stars: ⭐️ 1.4k
  • Tags: motion-analysis 3d-pose-estimation transformer computer-vision
  • 最后活动时间: 2026-03-14

DepthFlow

基于深度估计的图像转3D视差视频工具,可将静态图片转换为沉浸式动态效果。

  • Stars: ⭐️ 1.4k
  • Tags: depth-estimation parallax image-to-video 3d-effect
  • 最后活动时间: 2026-03-19

PhysGaussian

CVPR 2024 Highlight项目,将物理模拟集成到3D高斯表示中,实现生成式动态场景建模。

  • Stars: ⭐️ 1.4k
  • Tags: 3d-gaussian-splatting physics-simulation generative-ai computer-vision neural-rendering
  • 最后活动时间: 2026-01-21

MagicTime

基于扩散模型的延时视频生成模型,能够模拟物体随时间变化的形态演变。

  • Stars: ⭐️ 1.3k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-03-08

vid2avatar

CVPR 2023 论文,通过自监督场景分解技术从野外视频中重建高质量3D人体化身。

  • Stars: ⭐️ 1.3k
  • Tags: 3d-avatar human-reconstruction self-supervised cvpr2023
  • 最后活动时间: 2025-12-17

DimensionX

从单张图像生成任意3D和4D场景的视频扩散模型,支持可控的视频生成与场景重建。

  • Stars: ⭐️ 1.3k
  • Tags: video-diffusion 3d-generation 4d-scenes image-to-3d
  • 最后活动时间: 2025-10-17

LTX-Desktop

开源桌面应用,用于使用LTX模型生成视频,支持非线性编辑功能。

  • Stars: ⭐️ 1.3k
  • Tags: video-generation generative-ai ltx desktop-app
  • 最后活动时间: 2026-04-03

BigBanana-AI-Director

工业级 AI 短剧/漫剧导演平台,实现从剧本到成片的全自动化生产,精准控制角色一致性与镜头运动。

  • Stars: ⭐️ 1.3k
  • Tags: ai-video ai-short-drama ai-comic video-generation
  • 最后活动时间: 2026-04-09

VideoChat

实时交互数字人系统,支持自定义形象与音色、语音克隆,对话延迟低至3秒,集成ASR、TTS、唇形同步等多模态能力。

  • Stars: ⭐️ 1.2k
  • Tags: digital-human multimodal tts asr lip-sync real-time llm
  • 最后活动时间: 2025-12-18

StableAvatar

首个端到端视频扩散Transformer,可生成无限长度的高质量音频驱动虚拟人视频。

  • Stars: ⭐️ 1.2k
  • Tags: video-generation diffusion avatar transformer
  • 最后活动时间: 2026-01-20

HunyuanCustom

腾讯混元多模态定制视频生成模型,支持音频驱动和图像到视频生成,实现高质量个性化视频创作。

  • Stars: ⭐️ 1.2k
  • Tags: 视频生成 多模态 扩散模型
  • 最后活动时间: 2025-10-15

EvTexture

ICML 2024 & TPAMI 2026 论文实现,利用事件相机驱动视频超分辨率纹理增强,显著提升视频质量。

  • Stars: ⭐️ 1.2k
  • Tags: video-super-resolution event-camera pytorch computational-photography
  • 最后活动时间: 2026-02-25

SoulX-LiveAct

实时人体动画生成推理代码,支持小时级别动画生成。

  • Stars: ⭐️ 1.1k
  • Tags: human-animation video-generation real-time
  • 最后活动时间: 2026-03-25

OC_SORT

CVPR2023多目标跟踪算法,对遮挡和非线性运动具有强鲁棒性,简单高效的在线跟踪方案。

  • Stars: ⭐️ 1.1k
  • Tags: object-tracking computer-vision deep-learning tracking
  • 最后活动时间: 2026-03-19

cosmos-predict2.5

NVIDIA Cosmos 世界基础模型,专注于通过视频形式模拟和预测世界未来状态。

  • Stars: ⭐️ 1.1k
  • Tags: world-models video-generation foundational-models
  • 最后活动时间: 2026-04-03

torchcodec

PyTorch媒体编解码库,提供视频和音频的解码与编码功能。

  • Stars: ⭐️ 1.0k
  • Tags: pytorch video audio codec media-processing
  • 最后活动时间: 2026-04-12

handcrafted-persona-engine

AI 驱动的交互式虚拟形象引擎,集成 Live2D、LLM、ASR、TTS 和 RVC,适合 VTuber 和虚拟助手应用。

  • Stars: ⭐️ 1.0k
  • Tags: ai-vtuber live2d avatar tts asr
  • 最后活动时间: 2026-04-11

bmf

字节跳动开源的跨平台多媒体处理框架,支持GPU加速、AI推理、转码和直播视频流处理。

  • Stars: ⭐️ 1.0k
  • Tags: 视频处理 AI推理 跨平台
  • 最后活动时间: 2026-03-19

segment-anything-video

MetaSeg是Segment Anything的封装版本,支持视频目标分割,集成YOLO系列检测器。

  • Stars: ⭐️ 985
  • Tags: segment-anything video-segmentation object-detection yolo
  • 最后活动时间: 2026-04-06

OpenVtuber

基于单目RGB摄像头的实时3D面部捕捉与虚拟形象驱动系统,支持人脸特征点检测。

  • Stars: ⭐️ 953
  • Tags: face-detection face-alignment vtuber 3d-capture tflite
  • 最后活动时间: 2025-10-17

brainrot.js

文本转视频生成器,可将任意主题转化为流行风格的短视频内容。支持多种个性化风格,适合快速创作教育或娱乐内容。

  • Stars: ⭐️ 952
  • Tags: Text-to-Video ChatGPT Content Generation
  • 最后活动时间: 2026-03-25

EGVSR

高效通用的视频超分辨率框架,支持实时视频增强处理。

  • Stars: ⭐️ 951
  • Tags: video-super-resolution real-time video-enhancement
  • 最后活动时间: 2026-03-25

hamer

基于Transformer的3D手部重建模型,实现高精度手部姿态估计与重建。

  • Stars: ⭐️ 942
  • Tags: 3d-reconstruction hand-pose transformer computer-vision
  • 最后活动时间: 2026-02-07

SpaTrackerV2

ICCV 2025论文,简化高效的3D点追踪方法,适用于视频理解和重建任务。

  • Stars: ⭐️ 939
  • Tags: 3d-tracking point-tracking computer-vision video-understanding
  • 最后活动时间: 2026-02-27

SCAIL

CVPR 2026论文,通过上下文学习实现工作室级别的角色动画生成。

  • Stars: ⭐️ 917
  • Tags: character-animation video-generation in-context-learning pose-estimation
  • 最后活动时间: 2026-03-16

MOVA

面向可扩展的同步视频-音频生成模型,基于扩散模型实现高质量多模态内容生成。

  • Stars: ⭐️ 900
  • Tags: Video Generation Audio Generation Multimodal
  • 最后活动时间: 2026-04-01

ai-moive-studio

AI电影生成工作流Agent,输入剧本即可自动完成分镜生成、画面与音频素材生成、视频合成全流程,让个人创作者也能制作电影级作品。

  • Stars: ⭐️ 893
  • Tags: AI视频 电影生成 工作流Agent
  • 最后活动时间: 2026-04-06

JoyVASA

基于扩散模型的人物与动物动画生成工具,支持音频驱动的说话头像生成。

  • Stars: ⭐️ 861
  • Tags: audio-driven talking-head portrait-animation diffusion
  • 最后活动时间: 2025-12-09

Seedance2-Storyboard-Generator

基于Seedance 2.0的AI剧本生成工具,可将小说故事一键转化为多集视频剧本。帮助创作者快速制作短剧内容。

  • Stars: ⭐️ 836
  • Tags: video-generation storyboard ai-script
  • 最后活动时间: 2026-03-26

lyra

ICLR 2026论文,通过视频扩散模型自蒸馏实现3D场景重建。

  • Stars: ⭐️ 834
  • Tags: 3d-reconstruction video-diffusion generative-model
  • 最后活动时间: 2026-03-16

ConsisID

CVPR 2025 Highlight项目,通过频率分解实现身份保持的文本到视频生成。

  • Stars: ⭐️ 833
  • Tags: Text-to-Video Identity Preserving Diffusion
  • 最后活动时间: 2026-03-08

4DNeX

前馈式4D生成建模框架,简化4D内容生成流程。

  • Stars: ⭐️ 833
  • Tags: 4d-generation generative-model 3d-dynamic
  • 最后活动时间: 2025-12-14

generative-manim

基于GPT的视频生成工具,利用Manim将文本提示转换为动画视频,支持Streamlit界面。

  • Stars: ⭐️ 822
  • Tags: gpt-4 manim video-generation animation streamlit
  • 最后活动时间: 2026-03-14

DiT-Extrapolation

视频扩散Transformer的长度外推方法,支持长视频生成和位置嵌入优化。

  • Stars: ⭐️ 801
  • Tags: diffusion-transformer video-generation position-embedding
  • 最后活动时间: 2026-03-08

JJYB_AI_VideoAutoCut

智能视频自动剪辑与AI解说工具,支持离线TTS、原创解说和AI配音。

  • Stars: ⭐️ 799
  • Tags: video-editing tts ai-video auto-editing
  • 最后活动时间: 2025-11-23

claude-code-video-toolkit

AI原生视频生产工具包,集成Claude Code、ElevenLabs、Qwen-TTS等,支持程序化视频编辑与生成。

  • Stars: ⭐️ 790
  • Tags: ai-video-generator claude-code video-production text-to-speech remotion
  • 最后活动时间: 2026-04-09

LongSplat

ICCV 2025论文实现,针对长视频的鲁棒3D高斯泼溅重建方法。

  • Stars: ⭐️ 762
  • Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision
  • 最后活动时间: 2026-01-19

VideoWorld

CVPR 2025 论文项目,一种从无标注视频中学习的生成模型,模拟婴儿通过观察环境学习的方式。

  • Stars: ⭐️ 761
  • Tags: video-generation generative-model self-supervised-learning cvpr2025
  • 最后活动时间: 2026-02-25

cosmos-predict2

NVIDIA推出的物理AI通用世界基础模型,可微调为下游应用定制化世界模型。

  • Stars: ⭐️ 760
  • Tags: world-model physical-ai foundation-model nvidia
  • 最后活动时间: 2025-10-29

kandinsky-5

Kandinsky 5.0 扩散模型,支持高质量的视频与图像生成。

  • Stars: ⭐️ 742
  • Tags: diffusion text-to-video image-generation
  • 最后活动时间: 2026-03-31

Text-To-Video-AI

利用AI技术实现文本到视频生成的工具集合。

  • Stars: ⭐️ 712
  • Tags: text-to-video ai-video-generator video-generation
  • 最后活动时间: 2026-02-05

StoryGen-Atelier

AI 驱动的分镜与视频生成工具,结合 Gemini 生成分镜文本和画面,使用 Veo 生成过渡视频片段。

  • Stars: ⭐️ 706
  • Tags: Video Generation Gemini Veo Storyboard
  • 最后活动时间: 2025-12-06

comfy_mtb

面向动画制作的ComfyUI节点扩展包,支持人脸替换和插值功能。

  • Stars: ⭐️ 697
  • Tags: comfyui animation faceswap stable-diffusion
  • 最后活动时间: 2026-03-19

Matrix-3D

从单张图像或文本提示生成大规模可探索3D场景及全景视频。

  • Stars: ⭐️ 687
  • Tags: 3d-generation text-to-video scene-generation
  • 最后活动时间: 2025-11-25

MoCha

端到端视频角色替换系统,无需结构引导即可实现高质量视频人物替换。

  • Stars: ⭐️ 681
  • Tags: Video Character Replacement End-to-End
  • 最后活动时间: 2026-03-02

infinite-zoom-automatic1111-webui

AUTOMATIC1111 WebUI的无限缩放效果扩展,支持文生视频创作。

  • Stars: ⭐️ 675
  • Tags: stable-diffusion automatic1111 infinite-zoom animation
  • 最后活动时间: 2026-02-08

YumCut

免费AI视频生成器,可将文本提示转换为适合TikTok、Reels和YouTube Shorts的竖屏视频。支持自动脚本、场景、配音、字幕生成,本地优先且支持多语言输出。

  • Stars: ⭐️ 660
  • Tags: ai-video-generator shorts tiktok ffmpeg nextjs
  • 最后活动时间: 2026-03-31

Sparse-VideoGen

通过稀疏注意力机制加速视频扩散Transformer的创新方法,显著提升视频生成效率。ICML 2025和NeurIPS 2025 Spotlight论文。

  • Stars: ⭐️ 656
  • Tags: Video Generation Diffusion Model Sparse Attention Efficient ML
  • 最后活动时间: 2026-03-06

videollm-online

CVPR 2024论文,面向流媒体视频的在线视频大语言模型。

  • Stars: ⭐️ 652
  • Tags: video-llm streaming-video multimodal
  • 最后活动时间: 2025-11-26

NOVA

ICLR 2025论文项目,提出无需向量量化的自回归视频生成方法,结合扩散模型实现高质量视频生成。

  • Stars: ⭐️ 642
  • Tags: Video Generation Autoregressive Diffusion
  • 最后活动时间: 2025-10-29

YUME

基于世界模型的实时交互式视频生成系统官方代码。

  • Stars: ⭐️ 641
  • Tags: world-model text-to-video interactive-generation
  • 最后活动时间: 2026-01-14

mpv-upscale-2x_animejanai

基于 Real-ESRGAN 模型的实时动漫视频超分辨率工具,可在 mpv 播放器中将动漫视频实时放大至 4K。

  • Stars: ⭐️ 637
  • Tags: real-esrgan super-resolution anime-upscaling tensorrt video
  • 最后活动时间: 2026-03-29

vidi

Vidi 大型多模态模型官方仓库,专注于视频理解与编辑任务。

  • Stars: ⭐️ 617
  • Tags: video-understanding video-editing multimodal-llm
  • 最后活动时间: 2026-03-04

DreamID-V

基于扩散Transformer的高保真视频换脸方法,实现图像到视频的跨模态生成。

  • Stars: ⭐️ 610
  • Tags: face-swapping diffusion-transformer video-generation
  • 最后活动时间: 2026-03-13

pose2sim

基于任意摄像头的无标记运动捕捉系统,从2D姿态估计到3D OpenSim运动学分析。

  • Stars: ⭐️ 609
  • Tags: pose-estimation motion-capture 3d-kinematics biomechanics
  • 最后活动时间: 2026-04-09

awesome-seedance-2-prompts

Seedance 2.0视频生成提示词精选合集,包含500+电影、动漫、UGC、广告等风格提示词及API使用指南。

  • Stars: ⭐️ 597
  • Tags: ai-video video-generation prompt-engineering seedance
  • 最后活动时间: 2026-04-13

Ditto

基于高质量合成数据集的指令驱动视频编辑方法,利用扩散模型实现精准视频编辑。

  • Stars: ⭐️ 592
  • Tags: Video Editing Diffusion Models Synthetic Data
  • 最后活动时间: 2025-10-29

sora-extend

扩展Sora 2视频生成时长限制的工具,可生成超过OpenAI原生12秒限制的长视频。

  • Stars: ⭐️ 590
  • Tags: sora video-generation openai ai-video
  • 最后活动时间: 2025-10-16

radial-attention

NeurIPS 2025论文,提出O(nlogn)稀疏注意力机制,支持长视频高效生成和主流视频模型。

  • Stars: ⭐️ 589
  • Tags: Sparse Attention Video Generation Efficient ML
  • 最后活动时间: 2025-11-11

Diffuman4D

ICCV 2025论文实现,利用时空扩散模型从稀疏视角视频生成4D一致性人体视图合成。

  • Stars: ⭐️ 587
  • Tags: 4d-synthesis diffusion human-avatar novel-view-synthesis
  • 最后活动时间: 2026-04-10

video-search-and-summarization

大规模视频检索与摘要蓝图,支持实时或存档视频的智能分析、摘要生成和交互式问答,结合LLM、RAG和VLM技术。

  • Stars: ⭐️ 587
  • Tags: video-search video-summarization rag vlm llm
  • 最后活动时间: 2026-04-10

Aether

ICCV 2025杰出论文,几何感知的统一世界建模框架,支持4D重建与视频生成。

  • Stars: ⭐️ 585
  • Tags: world-model 4d-reconstruction embodied-ai video-generation
  • 最后活动时间: 2025-10-26

sleap

多动物姿态追踪深度学习框架,支持行为分析和姿态估计,广泛应用于神经科学和动物行为研究。

  • Stars: ⭐️ 571
  • Tags: pose-estimation deep-learning animal-tracking computer-vision
  • 最后活动时间: 2026-04-10

ai_story

AI视频、动漫、短剧自动化生成工具,支持AI漫剧内容创作。

  • Stars: ⭐️ 570
  • Tags: ai-video ai-animation video-generation ai-storytelling
  • 最后活动时间: 2026-04-10

DigiHuman

使用姿态估计和地标生成技术实现3D角色自动动画化。

  • Stars: ⭐️ 567
  • Tags: 3d-animation pose-estimation digital-human unity
  • 最后活动时间: 2026-03-24

streamv2v

StreamV2V官方PyTorch实现,支持流式视频到视频转换,适用于实时视频编辑和生成场景。

  • Stars: ⭐️ 542
  • Tags: video-generation video-to-video streaming pytorch
  • 最后活动时间: 2025-12-29

X-Portrait

SIGGRAPH 2024论文官方代码,通过层次化运动注意力机制实现富有表现力的人像动画生成。

  • Stars: ⭐️ 542
  • Tags: portrait-animation video-generation motion-attention generative-ai
  • 最后活动时间: 2025-10-14

AlayaRenderer

面向游戏与虚拟世界的AI原生渲染引擎,基于扩散模型实现神经渲染和视频生成。

  • Stars: ⭐️ 542
  • Tags: neural-rendering diffusion-model video-generation game-rendering ai-renderer
  • 最后活动时间: 2026-04-09

Causal-Forcing

自回归扩散蒸馏方案,实现高质量实时交互式视频生成。

  • Stars: ⭐️ 541
  • Tags: diffusion-models video-generation autoregressive
  • 最后活动时间: 2026-04-08

TraceAnything

ICLR 2026论文,通过轨迹场实现任意视频的4D表示重建。

  • Stars: ⭐️ 525
  • Tags: 4d-reconstruction video-understanding computer-vision
  • 最后活动时间: 2025-10-31

Magic-TryOn

基于大规模视频扩散Transformer的视频虚拟试穿框架,支持高质量服装替换与视频编辑。

  • Stars: ⭐️ 525
  • Tags: virtual-tryon video-diffusion transformer video-editing
  • 最后活动时间: 2026-01-27

Open-OmniVCus

NeurIPS 2025论文,支持多模态控制条件的主体驱动视频定制。

  • Stars: ⭐️ 518
  • Tags: video-generation diffusion-models customization
  • 最后活动时间: 2026-01-03

VideoChat-Flash

ICLR 2026,通过分层压缩实现长上下文视频建模的视频对话模型。

  • Stars: ⭐️ 513
  • Tags: video-understanding long-context video-llm multimodal
  • 最后活动时间: 2025-11-18

simple_vehicle_counting

基于背景减除的车辆检测、追踪与计数系统,适用于交通监控场景。

  • Stars: ⭐️ 504
  • Tags: vehicle-counting vehicle-detection opencv tracking
  • 最后活动时间: 2025-11-14

未分类 (Others)

mediapipe

Google开源的跨平台机器学习框架,提供人脸检测、手势识别、姿态估计等实时ML解决方案,支持多平台部署。

  • Stars: ⭐️ 34.7k
  • Tags: 计算机视觉 机器学习 跨平台
  • 最后活动时间: 2026-04-11

sharp

高性能Node.js图像处理库,适用于多模态AI图像预处理

  • Stars: ⭐️ 32.1k
  • Tags: image-processing nodejs performance
  • 最后活动时间: 2026-04-10

moondream

轻量级视觉语言模型,专为边缘设备优化部署设计。

  • Stars: ⭐️ 9.6k
  • Tags: VLM Tiny Model Edge AI
  • 最后活动时间: 2025-11-14

minimind-v

1小时从零训练26M参数视觉多模态VLM的轻量级框架,适合快速入门和学习VLM架构原理。

  • Stars: ⭐️ 7.4k
  • Tags: VLM 多模态 训练框架
  • 最后活动时间: 2026-04-04

pytesseract

Google Tesseract OCR的Python封装库,提供强大的光学字符识别能力,支持多种语言和图片格式。

  • Stars: ⭐️ 6.3k
  • Tags: ocr tesseract computer-vision python
  • 最后活动时间: 2026-03-16

GLM-OCR

基于GLM的高精度OCR模型,支持快速全面的文字识别能力。

  • Stars: ⭐️ 5.8k
  • Tags: ocr glm image-to-text deep-learning
  • 最后活动时间: 2026-04-08

Bagel

开源统一多模态模型,支持多种模态的理解与生成任务。

  • Stars: ⭐️ 5.8k
  • Tags: Multimodal Model Open Source Unified Model
  • 最后活动时间: 2025-10-27

PySceneDetect

基于OpenCV的视频场景检测工具,自动识别视频中的转场与切割点。

  • Stars: ⭐️ 4.7k
  • Tags: video-processing scene-detection opencv
  • 最后活动时间: 2026-04-13

LightGlue

ICCV 2023论文实现,轻量级局部特征匹配模型,实现高速图像匹配与姿态估计。

  • Stars: ⭐️ 4.5k
  • Tags: Image Matching Computer Vision Deep Learning
  • 最后活动时间: 2026-02-18

VILA

NVIDIA推出的前沿视觉语言模型家族,支持边缘设备、数据中心和云端的多模态AI任务。

  • Stars: ⭐️ 3.8k
  • Tags: vision-language-model multimodal vlm
  • 最后活动时间: 2026-03-12

OpenSfM

开源的三维重建流水线库,用于从图像序列中恢复相机位姿和三维结构。

  • Stars: ⭐️ 3.7k
  • Tags: sfm 3d-reconstruction photogrammetry
  • 最后活动时间: 2026-04-08

TransUNet

医学图像分割Transformer模型,将Transformer作为编码器用于医学影像分析。

  • Stars: ⭐️ 3.1k
  • Tags: medical-imaging segmentation transformer
  • 最后活动时间: 2026-02-25

Segment-and-Track-Anything

开源视频目标分割与跟踪工具,结合SAM和AOT实现交互式视频对象分割。

  • Stars: ⭐️ 3.1k
  • Tags: segment-anything video-segmentation object-tracking sam
  • 最后活动时间: 2026-03-13

Pix2Text

开源Python工具,支持布局分析、表格、数学公式(LaTeX)和文字识别,输出Markdown格式。

  • Stars: ⭐️ 3.1k
  • Tags: ocr math-formula table-recognition markdown
  • 最后活动时间: 2026-02-07

T-Rex

ECCV 2024论文API代码,通过文本-视觉提示协同实现通用目标检测。

  • Stars: ⭐️ 2.6k
  • Tags: object-detection vision-language open-set visual-prompt
  • 最后活动时间: 2025-10-15

pytorch-3dunet

基于PyTorch的3D U-Net模型,用于体数据语义分割,支持医学影像等应用。

  • Stars: ⭐️ 2.4k
  • Tags: 3d-segmentation unet pytorch volumetric-data
  • 最后活动时间: 2025-12-16

GLM-V

智谱GLM系列多模态推理模型,通过可扩展强化学习实现通用多模态推理能力。

  • Stars: ⭐️ 2.3k
  • Tags: vlm multimodal reasoning video-understanding
  • 最后活动时间: 2026-04-06

perception_models

最先进的图像与视频CLIP模型及多模态大语言模型集合。

  • Stars: ⭐️ 2.2k
  • Tags: multimodal clip vision-language llm
  • 最后活动时间: 2026-03-12

deepseek-ocr.rs

Rust多后端OCR/VLM引擎,支持DeepSeek-OCR、PaddleOCR-VL等模型,提供OpenAI兼容服务器和CLI,无需Python即可本地运行。

  • Stars: ⭐️ 2.2k
  • Tags: ocr vlm deepseek rust openai-compatible
  • 最后活动时间: 2026-02-21

cambrian

以视觉为中心设计的多模态大语言模型家族,在视觉理解任务上表现优异。

  • Stars: ⭐️ 2.0k
  • Tags: Vision-Language Model Multimodal LLM Computer Vision
  • 最后活动时间: 2025-11-07

RAE

扩散Transformer与表示自编码器的官方PyTorch实现,用于高质量图像生成。

  • Stars: ⭐️ 1.9k
  • Tags: diffusion transformer autoencoder
  • 最后活动时间: 2026-02-25

PointTransformerV3

CVPR 2024 Oral论文,点云处理Transformer V3官方实现,用于3D视觉任务。

  • Stars: ⭐️ 1.8k
  • Tags: point-cloud transformer 3d-vision
  • 最后活动时间: 2025-10-24

yolov13

YOLOv13的官方实现,采用超图增强自适应视觉感知技术,实现实时目标检测。

  • Stars: ⭐️ 1.6k
  • Tags: Object Detection YOLO Computer Vision
  • 最后活动时间: 2025-11-18

HealthGPT

ICML 2025 Spotlight医学视觉语言模型,统一理解与生成能力。

  • Stars: ⭐️ 1.6k
  • Tags: Medical AI VLM Healthcare
  • 最后活动时间: 2025-11-02

4D-Humans

基于Transformer的4D人体重建与跟踪方法,用于动态人体运动捕捉。

  • Stars: ⭐️ 1.6k
  • Tags: 3d-reconstruction human-pose transformer
  • 最后活动时间: 2026-02-07

PytorchOCR

基于PyTorch的OCR工具库,支持多种文字检测和识别算法,适用于文档数字化和场景文字识别。

  • Stars: ⭐️ 1.5k
  • Tags: ocr text-detection text-recognition pytorch
  • 最后活动时间: 2026-01-04

TFace

腾讯优图实验室开发的人脸分析研究平台,支持人脸识别、属性分析等多种CV任务。

  • Stars: ⭐️ 1.5k
  • Tags: face-recognition computer-vision deep-learning face-analysis
  • 最后活动时间: 2025-12-11

Ovis

新颖的多模态大语言模型架构,通过结构化设计实现视觉与文本嵌入对齐,支持Llama3和Qwen等主流模型。

  • Stars: ⭐️ 1.4k
  • Tags: Multimodal Vision-Language Model MLLM
  • 最后活动时间: 2026-02-11

Awesome_Think_With_Images

大型视觉语言模型(LVLM)视觉思维资源与论文清单,涵盖如何利用视觉信息进行复杂推理、规划和生成的研究综述。

  • Stars: ⭐️ 1.4k
  • Tags: large-vision-language-models multimodal-reasoning visual-reasoning LVLM
  • 最后活动时间: 2026-03-09

tr

离线中文文本检测与识别SDK,支持弯曲文本、CRNN、CTPN等多种技术。

  • Stars: ⭐️ 1.4k
  • Tags: ocr chinese offline text-recognition
  • 最后活动时间: 2026-01-12

transfusion-pytorch

MetaAI Transfusion模型PyTorch实现,单模型实现下一token预测与图像扩散。

  • Stars: ⭐️ 1.3k
  • Tags: multimodal transformers diffusion flow-matching
  • 最后活动时间: 2026-01-27

Rex-Omni

CVPR2026论文项目,基于下一帧点预测实现通用目标检测,结合MLLM实现开放集检测能力。

  • Stars: ⭐️ 1.3k
  • Tags: mllm object-detection open-set computer-vision
  • 最后活动时间: 2026-02-22

UForm

轻量级多模态AI模型,支持多语言文本和图像理解,速度比OpenAI CLIP快5倍。

  • Stars: ⭐️ 1.2k
  • Tags: Multimodal AI Semantic Search Edge AI
  • 最后活动时间: 2025-10-30

audio-flamingo

Audio Flamingo系列音频理解语言模型PyTorch实现,支持音频描述、问答和推理等多模态任务。

  • Stars: ⭐️ 1.0k
  • Tags: audio-language-models multimodal-llm audio-understanding pytorch
  • 最后活动时间: 2025-12-15

PointLLM

ECCV 2024最佳论文候选,赋能大语言模型理解3D点云数据的多模态模型。

  • Stars: ⭐️ 1.0k
  • Tags: Point Cloud Multimodal LLM 3D
  • 最后活动时间: 2026-03-17

superpoint_transformer

ICCV'23和3DV'24 Oral论文官方实现,用于高效3D语义分割和全景分割的超点Transformer。

  • Stars: ⭐️ 982
  • Tags: 3d point-cloud semantic-segmentation transformer
  • 最后活动时间: 2026-02-24

MocapNET

实时3D人体姿态估计系统,从单目RGB图像直接生成BVH格式的动作捕捉数据,支持显著遮挡情况下的姿态恢复。

  • Stars: ⭐️ 928
  • Tags: Pose Estimation Computer Vision 3D Animation TensorFlow
  • 最后活动时间: 2026-03-18

Face-X

面部识别算法与操作演示集合,涵盖人脸检测、识别、动画等多种技术。

  • Stars: ⭐️ 847
  • Tags: face-recognition opencv deep-learning
  • 最后活动时间: 2026-02-15

MultimodalOCR

研究大型多模态模型中OCR能力的隐藏奥秘,提供OCRBench基准测试。

  • Stars: ⭐️ 818
  • Tags: OCR Multimodal Benchmark
  • 最后活动时间: 2026-04-11

handpose_x

手部21关键点检测与手势识别工具,支持二维手势姿态估计,适用于人机交互和手势控制场景。

  • Stars: ⭐️ 798
  • Tags: hand-pose gesture-recognition keypoint-detection pytorch
  • 最后活动时间: 2026-01-10

LLaVA-OneVision-1.5

完全开源的多模态训练框架,致力于降低VLM训练门槛,支持Qwen3等模型。

  • Stars: ⭐️ 788
  • Tags: LLaVA 多模态训练 开源框架
  • 最后活动时间: 2025-12-27

unicom

大规模视觉表征模型,面向具身智能和多模态应用。

  • Stars: ⭐️ 703
  • Tags: visual-representation vision-transformer embodied-ai multimodal
  • 最后活动时间: 2025-12-08

OmniVinci

全模态大语言模型,支持视觉、音频和语言的联合理解。

  • Stars: ⭐️ 652
  • Tags: multimodal vision-language-model audio-language-model
  • 最后活动时间: 2026-02-26

VLM2Vec

ICLR 2025论文,训练视觉语言模型用于大规模多模态嵌入任务。

  • Stars: ⭐️ 623
  • Tags: embedding vision-language-model multimodal
  • 最后活动时间: 2026-04-12

Seg-Zero

基于认知强化学习的推理链引导分割方法,实现图像分割与推理的深度融合。

  • Stars: ⭐️ 620
  • Tags: segmentation reasoning reinforcement-learning multimodal
  • 最后活动时间: 2026-01-17

Vision-DeepResearch

首个长周期多模态深度研究MLLM,支持数十轮推理和数百次搜索引擎交互。

  • Stars: ⭐️ 612
  • Tags: multimodal deep-research reasoning benchmark
  • 最后活动时间: 2026-03-13

Hulu-Med

面向整体医学视觉语言理解的透明通用模型。

  • Stars: ⭐️ 592
  • Tags: medical-ai vision-language-model multimodal
  • 最后活动时间: 2026-04-01

mvdust3r

Meta Reality Labs开源的MV-DUSt3R实现,可在2秒内从稀疏视图完成单阶段场景重建,支持3D视觉与深度学习应用。

  • Stars: ⭐️ 582
  • Tags: 3d-reconstruction computer-vision deep-learning scene-understanding
  • 最后活动时间: 2026-04-06

Emotion-LLaMA

基于指令微调的多模态情感识别与推理模型,能够理解和分析图像中的情感表达。

  • Stars: ⭐️ 556
  • Tags: Emotion Recognition Multimodal LLM Instruction Tuning
  • 最后活动时间: 2025-11-17

Senna

连接大型视觉语言模型与端到端自动驾驶的桥梁项目。

  • Stars: ⭐️ 543
  • Tags: autonomous-driving vision-language-model end-to-end
  • 最后活动时间: 2026-03-15

cambrian-s

面向视频空间超感知的视觉语言模型,实现视频场景的深度空间理解。

  • Stars: ⭐️ 537
  • Tags: 视频理解 空间感知 多模态
  • 最后活动时间: 2026-04-03

Live-Video-Magnification

基于欧拉视频放大算法的实时应用,可放大视频中的微小运动与颜色变化。

  • Stars: ⭐️ 527
  • Tags: video-magnification eulerian opencv
  • 最后活动时间: 2025-10-27

MeViS

ICCV 2023 & TPAMI 2025 大规模视频分割基准数据集,支持运动表达的视频目标分割任务。

  • Stars: ⭐️ 524
  • Tags: video-segmentation multimodal benchmark referring-expression
  • 最后活动时间: 2026-01-08

UniTok

NeurIPS 2025 Spotlight论文,统一视觉生成与理解的分词器。

  • Stars: ⭐️ 519
  • Tags: tokenizer image-generation visual-understanding autoregressive
  • 最后活动时间: 2025-11-14

GPT4Scene-and-VLN-R1

利用视觉语言模型从视频中理解3D场景的研究项目,结合VLN导航任务实现场景理解。

  • Stars: ⭐️ 512
  • Tags: vision-language-models 3d-scene-understanding video-understanding vln
  • 最后活动时间: 2026-03-02

SD-VLM

NeurIPS 2025论文,探索深度编码视觉语言模型的空间测量与理解能力。

  • Stars: ⭐️ 502
  • Tags: NeurIPS 2025 空间理解 VLM
  • 最后活动时间: 2025-12-29

Robust-R1

AAAI 2026口头报告论文,实现退化感知推理的鲁棒视觉理解模型。

  • Stars: ⭐️ 485
  • Tags: multimodal robustness visual-understanding reasoning
  • 最后活动时间: 2026-01-20