👁️ 多模态与音视频
Computer vision, image generation, audio, text-to-speech.
当前分类已收录 826 个相关项目。
Audio & Speech (TTS/STT)
Real-Time-Voice-Cloning
5秒实时语音克隆工具,可生成任意语音内容。
- Stars: ⭐️ 59.6k
- Tags:
Voice CloningTTSReal-time - 最后活动时间: 2026-03-09
GPT-SoVITS
少样本语音克隆TTS模型,仅需1分钟语音数据即可训练高质量语音合成模型。
- Stars: ⭐️ 56.6k
- Tags:
TTSVoice CloningFew-shot - 最后活动时间: 2026-02-09
whisper.cpp
OpenAI Whisper模型的C/C++高性能移植版本,支持本地CPU/GPU推理,适用于语音识别和语音转文字场景。
- Stars: ⭐️ 48.6k
- Tags:
speech-recognitionspeech-to-textwhisperinference - 最后活动时间: 2026-03-29
VibeVoice
开源的前沿语音AI项目,专注于语音识别与合成技术。
- Stars: ⭐️ 39.2k
- Tags:
voice-aispeech-synthesisspeech-recognition - 最后活动时间: 2026-04-10
ChatTTS
专为日常对话优化的生成式语音合成模型,支持中英双语,适合对话场景。
- Stars: ⭐️ 39.1k
- Tags:
TTSSpeechDialogue - 最后活动时间: 2026-04-10
MockingBird
5秒内克隆任意声音并实时生成语音的AI语音合成工具,支持中文和多语言。
- Stars: ⭐️ 36.9k
- Tags:
TTSVoice CloningDeep Learning - 最后活动时间: 2026-03-03
fish-speech
开源SOTA级文本转语音项目,基于LLaMA和Transformer架构,支持高质量语音合成与克隆。
- Stars: ⭐️ 29.3k
- Tags:
TTS语音合成Transformer - 最后活动时间: 2026-04-06
MiniCPM-o
达到Gemini 2.5 Flash级别的多模态大语言模型,支持视觉、语音和全双工多模态实时流媒体,可在手机端运行。
- Stars: ⭐️ 24.4k
- Tags:
multimodalllmvisionspeechmobile - 最后活动时间: 2026-04-01
chatterbox
开源SoTA文本转语音模型,提供高质量语音合成能力。
- Stars: ⭐️ 24.3k
- Tags:
TTSSpeech Synthesis - 最后活动时间: 2026-03-26
audiocraft
Meta推出的深度学习音频处理与生成库,包含业界领先的EnCodec音频压缩器和MusicGen音乐生成模型,支持文本和旋律条件控制。
- Stars: ⭐️ 23.2k
- Tags:
audio-generationmusic-generationdeep-learningmusicgenencodec - 最后活动时间: 2026-03-03
faster-whisper
基于CTranslate2的高效Whisper语音识别推理引擎,相比原版更快更省内存,支持量化压缩,适合生产部署。
- Stars: ⭐️ 22.1k
- Tags:
speech-recognitionwhisperinference-optimization - 最后活动时间: 2025-11-19
whisperX
基于Whisper的自动语音识别工具,支持词级时间戳和说话人分离,提供快速准确的语音转文字能力。
- Stars: ⭐️ 21.2k
- Tags:
ASRSpeech-to-TextWhisperDiarization - 最后活动时间: 2026-04-04
CosyVoice
多语言大语音生成模型,提供推理、训练和部署全栈能力。
- Stars: ⭐️ 20.5k
- Tags:
TTSMulti-lingualVoice Cloning - 最后活动时间: 2026-03-16
index-tts
工业级可控高效零样本文本转语音系统,支持跨语言语音合成。
- Stars: ⭐️ 20.0k
- Tags:
TTSZero-shotIndustrial - 最后活动时间: 2026-03-16
Handy
免费开源的离线语音转文字应用,支持完全离线运行保护隐私,基于Tauri v2跨平台构建。
- Stars: ⭐️ 19.8k
- Tags:
语音识别离线无障碍 - 最后活动时间: 2026-04-11
dia
单次推理生成超逼真对话的TTS模型,适合对话场景语音合成。
- Stars: ⭐️ 19.2k
- Tags:
TTSDialogueRealistic - 最后活动时间: 2025-11-19
buzz
基于OpenAI Whisper的离线音频转录与翻译工具,支持在本地电脑上运行,无需联网即可实现高质量的语音转文字。
- Stars: ⭐️ 18.6k
- Tags:
whisperspeech-to-texttranscriptionoffline-ai - 最后活动时间: 2026-04-12
pyvideotrans
AI驱动的视频翻译工具,支持跨语言翻译并自动生成配音与字幕,集成语音识别与合成技术。
- Stars: ⭐️ 16.8k
- Tags:
video-translationspeech-to-texttext-to-speechsubtitle - 最后活动时间: 2026-04-07
VideoLingo
Netflix级AI视频字幕处理工具,支持一键自动切割、翻译、对齐和配音,实现全自动视频本地化。
- Stars: ⭐️ 16.7k
- Tags:
video-translationai-translationdubbingvoice-cloningsubtitle - 最后活动时间: 2026-03-24
FunASR
阿里达摩院开源的端到端语音识别工具包,提供SOTA预训练模型。
- Stars: ⭐️ 15.6k
- Tags:
speech-recognitionasrpytorchpretrained-modelvad - 最后活动时间: 2026-03-17
voicebox
开源语音合成工作室,支持语音克隆和文本转语音,提供可视化界面操作。
- Stars: ⭐️ 15.6k
- Tags:
voice-aivoice-clonettswhisper - 最后活动时间: 2026-03-31
vosk-api
离线语音识别API,支持Android、iOS、树莓派和服务器,提供Python、Java、C#和Node.js多语言SDK。
- Stars: ⭐️ 14.5k
- Tags:
Speech RecognitionOfflineDeep Learning - 最后活动时间: 2026-02-22
F5-TTS
基于流匹配的高质量文本转语音模型,生成流畅自然的语音。
- Stars: ⭐️ 14.3k
- Tags:
TTSFlow MatchingResearch - 最后活动时间: 2026-04-04
VideoCaptioner
基于LLM的智能字幕助手,支持视频字幕生成、断句、校正和翻译全流程处理,提升视频内容创作效率。
- Stars: ⭐️ 14.0k
- Tags:
字幕生成视频处理LLM应用翻译 - 最后活动时间: 2026-03-29
KittenTTS
体积小于25MB的SOTA文本转语音模型,适合边缘设备部署。
- Stars: ⭐️ 13.5k
- Tags:
text-to-speechttslightweightedge-deployment - 最后活动时间: 2026-03-27
PaddleSpeech
易用语音工具包,涵盖ASR、TTS、语音翻译、声纹识别等全栈能力,获NAACL2022最佳Demo奖。
- Stars: ⭐️ 12.6k
- Tags:
ASRTTSSpeech Toolkit - 最后活动时间: 2026-04-11
VoxCPM
无分词器的文本转语音模型,支持上下文感知的语音生成和高保真声音克隆。
- Stars: ⭐️ 11.9k
- Tags:
TTS声音克隆语音合成 - 最后活动时间: 2026-04-13
sherpa-onnx
离线语音处理神器,支持语音识别、语音合成、说话人分离、语音增强等功能,覆盖嵌入式设备到服务器的全平台部署。
- Stars: ⭐️ 11.5k
- Tags:
Speech-to-TextText-to-SpeechONNXEmbedded - 最后活动时间: 2026-04-13
speechbrain
基于PyTorch的开源语音处理工具包,涵盖语音识别、说话人识别、语音增强等多种任务。
- Stars: ⭐️ 11.4k
- Tags:
SpeechPyTorchASRSpeaker-Recognition - 最后活动时间: 2026-04-03
Qwen3-TTS
阿里云Qwen团队开源的文本转语音模型,支持稳定流式语音生成、自由语音设计和生动的语音克隆功能。
- Stars: ⭐️ 10.6k
- Tags:
TTSSpeech SynthesisVoice Cloning - 最后活动时间: 2026-03-17
edge-tts
无需Microsoft Edge或Windows即可使用Edge在线TTS服务的Python库,无需API密钥。
- Stars: ⭐️ 10.6k
- Tags:
text-to-speechttsspeech-synthesis - 最后活动时间: 2026-03-22
moshi
语音-文本基础模型和全双工口语对话框架,支持实时流式对话,采用Mimi编解码器实现高质量神经音频压缩。
- Stars: ⭐️ 10.0k
- Tags:
SpeechDialogueVoice AIReal-time - 最后活动时间: 2026-03-04
KrillinAI
基于LLM的视频翻译配音工具,支持100种语言双向翻译和一键部署。
- Stars: ⭐️ 9.8k
- Tags:
VideoTranslationTTS - 最后活动时间: 2026-02-08
espnet
端到端语音处理工具包,支持语音识别、合成、翻译和说话人分离等多种任务,基于PyTorch构建并提供丰富的预训练模型。
- Stars: ⭐️ 9.8k
- Tags:
语音识别语音合成PyTorch - 最后活动时间: 2026-04-08
Amphion
音频、音乐和语音生成工具包,支持TTS、语音转换、音乐生成等多种生成任务,助力可复现研究。
- Stars: ⭐️ 9.8k
- Tags:
Audio GenerationTTSMusic Generation - 最后活动时间: 2026-03-25
pyannote-audio
说话人分离神经网络工具包,支持语音活动检测、说话人识别与嵌入。
- Stars: ⭐️ 9.7k
- Tags:
speaker-diarizationspeech-processingpytorch - 最后活动时间: 2026-04-01
RealtimeSTT
高性能实时语音转文本库,支持高级语音活动检测、唤醒词激活和即时转录。
- Stars: ⭐️ 9.7k
- Tags:
speech-to-textrealtimevoice-activity-detectiontranscription - 最后活动时间: 2026-03-14
so-vits-svc-fork
实时语音转换项目,支持歌声转换与变声功能。
- Stars: ⭐️ 9.3k
- Tags:
voice-conversionspeech-synthesispytorch - 最后活动时间: 2026-04-13
ACE-Step-1.5
强大的本地音乐生成模型,性能超越多数商业替代品,支持Mac、AMD、Intel和CUDA设备。
- Stars: ⭐️ 9.0k
- Tags:
music-generationtext-to-musicgenerative-ailocal-inference - 最后活动时间: 2026-04-08
speech_recognition
Python语音识别模块,支持多种引擎和API,可在线或离线进行语音转文字。
- Stars: ⭐️ 9.0k
- Tags:
speech-recognitionspeech-to-textpython - 最后活动时间: 2026-04-07
silero-vad
企业级预训练语音活动检测器,轻量高效,支持ONNX运行时,适用于语音识别前端处理。
- Stars: ⭐️ 8.8k
- Tags:
VADSpeech-ProcessingONNX - 最后活动时间: 2026-03-26
Bert-VITS2
基于VITS2与多语言BERT的高质量语音合成项目,支持多语言文本转语音,生成自然流畅的语音效果。
- Stars: ⭐️ 8.7k
- Tags:
TTS语音合成BERT - 最后活动时间: 2026-04-06
ASRT_SpeechRecognition
基于深度学习的中文语音识别系统,采用CNN和CTC架构实现语音转文字。
- Stars: ⭐️ 8.4k
- Tags:
Speech RecognitionChineseDeep Learning - 最后活动时间: 2026-04-10
librosa
Python音频与音乐分析核心库,提供丰富的音频特征提取和信号处理功能,广泛应用于AI音频领域。
- Stars: ⭐️ 8.3k
- Tags:
音频分析信号处理Python库 - 最后活动时间: 2026-03-24
higgs-audio
Boson AI开发的文本-音频基础模型,支持高质量音频生成与理解任务,在语音合成和多模态交互方面表现出色。
- Stars: ⭐️ 8.0k
- Tags:
Audio GenerationFoundation ModelMultimodal - 最后活动时间: 2026-01-18
SenseVoice
多语言语音理解模型,支持语音识别、情感识别和音频事件分类等多种语音理解任务。
- Stars: ⭐️ 8.0k
- Tags:
ASRMultilingualSpeechEmotion-Recognition - 最后活动时间: 2025-12-30
moonshine
专为边缘设备设计的快速精准自动语音识别(ASR)模型,适合资源受限环境下的实时语音转文字应用。
- Stars: ⭐️ 7.6k
- Tags:
ASRSpeech RecognitionEdge AI - 最后活动时间: 2026-04-08
ffsubsync
自动同步字幕与视频的工具,利用语音活动检测和FFT算法实现字幕时间轴的智能对齐。
- Stars: ⭐️ 7.6k
- Tags:
SubtitleSpeech DetectionVideo Processing - 最后活动时间: 2025-11-25
ChatTTS-ui
ChatTTS的本地Web界面,支持文字转语音和对外API接口调用。
- Stars: ⭐️ 7.5k
- Tags:
chatttstext-to-speechttsweb-ui - 最后活动时间: 2025-12-05
mlx-audio
基于Apple MLX框架的语音处理库,支持TTS、STT和STS全流程语音能力,专为Apple Silicon优化。
- Stars: ⭐️ 6.7k
- Tags:
TTSSTTApple SiliconMLX - 最后活动时间: 2026-04-07
voice-pro
功能强大的Gradio WebUI音频处理工具,集成Edge-TTS、F5-TTS语音合成与克隆、Whisper语音识别及翻译功能。
- Stars: ⭐️ 6.6k
- Tags:
TTSVoice CloningWhisperGradio - 最后活动时间: 2025-12-05
wav2letter
Meta AI Research开源的端到端自动语音识别工具包。
- Stars: ⭐️ 6.4k
- Tags:
speech-recognitionasrdeep-learningmeta - 最后活动时间: 2026-01-12
espeak-ng
开源语音合成引擎,支持超过100种语言和口音的文本转语音系统。
- Stars: ⭐️ 6.3k
- Tags:
text-to-speechspeech-synthesisopen-source - 最后活动时间: 2026-04-06
podcastfy
开源的NotebookLM播客功能替代方案,可将多种模态内容转换为引人入胜的多语言音频对话。
- Stars: ⭐️ 6.2k
- Tags:
Podcast GenerationText-to-SpeechGenAI - 最后活动时间: 2025-12-09
tts-vue
基于微软语音服务的桌面端TTS工具,支持文本转语音合成,使用Electron+Vue构建。
- Stars: ⭐️ 6.1k
- Tags:
TTSSpeech SynthesisDesktop - 最后活动时间: 2025-12-06
Orpheus-TTS
高质量文本转语音系统,致力于生成接近人类自然语感的语音输出。
- Stars: ⭐️ 6.1k
- Tags:
TTSSpeech SynthesisReal-time - 最后活动时间: 2025-12-05
pedalboard
Spotify开源的Python音频处理库,支持VST3插件和音频增强,适用于机器学习音频数据预处理。
- Stars: ⭐️ 6.1k
- Tags:
audio-processingpythonmachine-learningvst3 - 最后活动时间: 2026-02-02
WhisperKit
专为Apple Silicon优化的端侧语音识别框架,支持iOS、macOS等平台。
- Stars: ⭐️ 6.0k
- Tags:
speech-recognitionwhisperswifton-deviceapple-silicon - 最后活动时间: 2026-04-10
audiblez
从电子书生成有声书的工具,支持EPUB格式转换为音频。
- Stars: ⭐️ 5.9k
- Tags:
audiobookstext-to-speechttsepub - 最后活动时间: 2026-02-27
silero-models
预训练文本转语音模型库,支持俄语、乌克兰语等10多种语言,可通过PyTorch Hub快速集成。
- Stars: ⭐️ 5.9k
- Tags:
TTS预训练模型多语言 - 最后活动时间: 2026-03-27
vibe
基于 Whisper 的本地语音转录工具,支持跨平台桌面使用,让你完全掌控自己的语音识别流程。
- Stars: ⭐️ 5.7k
- Tags:
whispertranscribeaudiorustdesktop - 最后活动时间: 2026-03-13
mediabunny
纯TypeScript媒体处理工具包,支持在浏览器中直接读取、写入和转换音视频文件,适用于多模态AI应用的媒体预处理。
- Stars: ⭐️ 5.6k
- Tags:
audiovideowebcodecsmedia-processing - 最后活动时间: 2026-04-10
seek-tune
Shazam歌曲识别算法的开源实现,通过音频指纹技术实现快速精准的音乐识别。
- Stars: ⭐️ 5.6k
- Tags:
audio-fingerprintingaudio-processingsong-recognitionshazam - 最后活动时间: 2025-11-19
whisper-diarization
基于OpenAI Whisper的自动语音识别与说话人分离工具,支持多说话人场景下的语音转文字和身份识别。
- Stars: ⭐️ 5.5k
- Tags:
ASRSpeaker DiarizationWhisper - 最后活动时间: 2026-02-23
neutts
Neuphonic开发的设备端TTS模型,优化本地推理性能。
- Stars: ⭐️ 5.1k
- Tags:
text-to-speechttson-deviceedge-ai - 最后活动时间: 2026-03-23
wenet
生产级端到端语音识别工具包,支持Conformer和Transformer架构,专为工业部署优化。
- Stars: ⭐️ 5.1k
- Tags:
ASRE2EProduction Ready - 最后活动时间: 2026-03-31
basic-pitch
轻量级音频转MIDI工具,支持复音转录和音高弯曲检测,基于机器学习技术实现高精度音频分析。
- Stars: ⭐️ 4.9k
- Tags:
audiomachine-learningmidimusicpitch-detection - 最后活动时间: 2025-11-13
porcupine
基于深度学习的端上唤醒词检测引擎,支持自定义唤醒词。
- Stars: ⭐️ 4.8k
- Tags:
wake-word-detectionkeyword-spottingvoice-activationon-device - 最后活动时间: 2026-04-09
Kokoro-FastAPI
Kokoro-82M语音合成模型的FastAPI封装服务,支持CPU ONNX和GPU PyTorch推理,提供OpenAI兼容API。
- Stars: ⭐️ 4.7k
- Tags:
TTSFastAPIONNXDocker - 最后活动时间: 2026-01-04
speech-to-speech
基于开源模型构建的本地语音代理工具,支持语音识别、合成和翻译全流程。
- Stars: ⭐️ 4.7k
- Tags:
语音识别语音合成本地部署 - 最后活动时间: 2026-04-13
WhisperSpeech
开源文本转语音系统,基于Whisper模型逆向构建。
- Stars: ⭐️ 4.6k
- Tags:
text-to-speechspeech-synthesiswhisper - 最后活动时间: 2025-12-14
ultravox
开源实时语音多模态大模型,实现低延迟的语音到语音对话交互,适用于构建智能语音助手。
- Stars: ⭐️ 4.4k
- Tags:
Multimodal LLMReal-time VoiceSpeech AI - 最后活动时间: 2025-12-12
pocketsphinx
轻量级语音识别引擎,适用于嵌入式设备和离线语音识别场景。
- Stars: ⭐️ 4.3k
- Tags:
speech-recognitionoffline-speechlightweight-stt - 最后活动时间: 2026-04-06
abogen
将EPUB、PDF和文本转换为有声书的开源工具,支持同步字幕和多种TTS引擎。
- Stars: ⭐️ 4.2k
- Tags:
TTSAudiobookKokoro - 最后活动时间: 2026-03-06
WhisperLive
OpenAI Whisper的近实时实现,支持语音识别、翻译和听写功能。
- Stars: ⭐️ 4.0k
- Tags:
语音识别Whisper实时转录 - 最后活动时间: 2026-03-17
RealtimeTTS
实时文本转语音库,支持多种TTS引擎,可实现低延迟的语音合成输出。
- Stars: ⭐️ 3.9k
- Tags:
text-to-speechspeech-synthesisrealtimepython - 最后活动时间: 2026-04-09
pocket-tts
可在CPU上运行的轻量级TTS系统,适合资源受限环境。
- Stars: ⭐️ 3.8k
- Tags:
text-to-speechttslightweightcpu-inference - 最后活动时间: 2026-04-08
SmartSub
跨平台AI字幕生成工具,支持批量处理视频音频生成字幕并翻译,集成多家AI服务。
- Stars: ⭐️ 3.7k
- Tags:
字幕生成Whisper翻译 - 最后活动时间: 2026-03-17
aubio
音频与音乐分析库,提供音符检测、音高追踪、节拍检测和MFCC特征提取功能,广泛应用于音频机器学习和音乐信息检索领域。
- Stars: ⭐️ 3.7k
- Tags:
audiomusic-analysismfccpitch-detectiononset-detection - 最后活动时间: 2026-04-10
Qwen3-Omni
阿里云Qwen团队开发的全模态端到端大模型,支持文本、音频、图像、视频理解及实时语音生成。
- Stars: ⭐️ 3.7k
- Tags:
Omni-ModalTTSQwen - 最后活动时间: 2026-01-08
stable-audio-tools
用于条件音频生成的生成模型工具集,支持高质量音频合成与处理。
- Stars: ⭐️ 3.7k
- Tags:
audio-generationgenerative-modelsdiffusion-models - 最后活动时间: 2026-02-14
LuxTTS
高质量快速TTS语音克隆模型,推理速度可达150倍实时。
- Stars: ⭐️ 3.6k
- Tags:
text-to-speechttsvoice-cloningfast-inference - 最后活动时间: 2026-03-12
whisper_streaming
基于Whisper的实时流式语音转文本转录和翻译工具。
- Stars: ⭐️ 3.6k
- Tags:
WhisperSpeech-to-TextStreaming - 最后活动时间: 2025-11-12
essentia
专业的C++音频与音乐分析库,支持音乐信息检索、音频特征提取与合成,提供Python绑定接口。
- Stars: ⭐️ 3.5k
- Tags:
audio-analysismusic-information-retrievaldsppython - 最后活动时间: 2026-02-09
sam-audio
Meta官方音频分割模型SAM-Audio的推理代码和预训练权重,支持音频分割任务的完整示例和Jupyter笔记本。
- Stars: ⭐️ 3.4k
- Tags:
audio-processingsegment-anythingmeta-aiaudio-model - 最后活动时间: 2026-01-05
audioFlux
音频与音乐分析特征提取库,支持深度学习和机器学习应用,涵盖频谱分析、MFCC、音高检测等功能。
- Stars: ⭐️ 3.3k
- Tags:
Audio AnalysisMachine LearningSignal Processing - 最后活动时间: 2026-03-06
SoulX-Podcast
Soul AI团队开发的高保真播客生成工具,支持从文本生成高质量音频内容。
- Stars: ⭐️ 3.3k
- Tags:
podcast-generationtext-to-speechaudio-synthesis - 最后活动时间: 2025-12-11
Linly-Talker
数字人对话系统,融合大语言模型与视觉模型,集成语音识别、合成与说话人头像生成技术。
- Stars: ⭐️ 3.2k
- Tags:
Digital AvatarMultimodalTTS - 最后活动时间: 2026-02-10
speaches
基于Whisper的语音转文字服务,支持Docker部署和OpenAI API兼容接口,提供高效的音频转录能力。
- Stars: ⭐️ 3.2k
- Tags:
WhisperSpeech-to-TextDockerTranscription - 最后活动时间: 2026-04-09
AsrTools
智能语音转文字工具,支持批量处理、无需GPU,可输出SRT/TXT格式,高效准确的音频转录解决方案。
- Stars: ⭐️ 3.2k
- Tags:
speech-recognitionasrvoice-to-texttranscription - 最后活动时间: 2025-11-25
Applio
简单易用的高质量语音转换工具,专注于性能优化和用户体验。
- Stars: ⭐️ 3.2k
- Tags:
Voice ConversionRVCTTS - 最后活动时间: 2026-04-12
TTS-WebUI
集成多种TTS模型的统一WebUI,支持GPT-SoVITS、XTTS、Bark等20+语音合成引擎。
- Stars: ⭐️ 3.1k
- Tags:
TTSAudio GenerationGradio - 最后活动时间: 2026-04-07
stemroller
基于深度学习的音源分离工具,可从任意歌曲中提取人声、鼓点、贝斯等独立音轨。
- Stars: ⭐️ 3.1k
- Tags:
source-separationdeep-learningaudio-processingdemucs - 最后活动时间: 2026-02-25
auto-subs
本地 AI 字幕生成工具,支持 DaVinci Resolve 集成和说话人分离。
- Stars: ⭐️ 3.1k
- Tags:
subtitleswhisperspeech-to-texttranscriptiondavinci - 最后活动时间: 2026-04-12
OmniVoice
支持600多种语言的高质量语音克隆TTS系统,实现多语言语音合成与克隆功能。
- Stars: ⭐️ 3.1k
- Tags:
ttsvoice-cloningspeech-synthesismultilingual - 最后活动时间: 2026-04-11
willow
开源、本地自托管的智能语音助手,可作为 Amazon Echo/Google Home 的替代方案。支持 Whisper 语音识别,注重隐私保护。
- Stars: ⭐️ 3.0k
- Tags:
voice-assistantspeech-recognitionwhisperesp32home-automation - 最后活动时间: 2026-02-13
Bark-Voice-Cloning
基于Bark的语音克隆项目,支持中文语音合成与声音克隆功能。
- Stars: ⭐️ 3.0k
- Tags:
Voice CloningTTSBarkChinese Speech - 最后活动时间: 2025-12-19
delayed-streams-modeling
Kyutai开发的语音识别与合成模型框架,采用延迟流建模技术实现高质量语音转文本和文本转语音功能。
- Stars: ⭐️ 2.9k
- Tags:
Speech-to-TextText-to-SpeechKyutai - 最后活动时间: 2026-01-26
deepjazz
基于Keras和Theano的深度学习爵士乐生成项目。
- Stars: ⭐️ 2.9k
- Tags:
deep-learningmusic-generationlstmjazz - 最后活动时间: 2026-03-19
3D-Speaker
阿里达摩院开源的说话人识别工具库,支持说话人验证、识别和分离任务,提供多种先进模型实现。
- Stars: ⭐️ 2.9k
- Tags:
speaker-verificationspeaker-diarizationspeaker-recognitionaudio-processing - 最后活动时间: 2025-12-08
lingvo
Google开源的序列建模框架,专注于语音识别、机器翻译和NLP任务,支持大规模分布式训练。
- Stars: ⭐️ 2.9k
- Tags:
Speech RecognitionMachine TranslationNLP - 最后活动时间: 2026-03-30
openai-fm
OpenAI Speech API 的官方演示项目,展示语音合成与识别能力的交互式示例。
- Stars: ⭐️ 2.8k
- Tags:
openaispeech-apittsdemo - 最后活动时间: 2026-03-03
suno-api
Suno AI 音乐生成 API 封装,支持轻松集成到 GPTs 等 AI 智能体中。
- Stars: ⭐️ 2.8k
- Tags:
musicsunoaiapitypescript - 最后活动时间: 2026-03-06
supertonic
闪电般快速的设备端多语言TTS引擎,通过ONNX原生运行,支持跨平台离线语音合成。
- Stars: ⭐️ 2.8k
- Tags:
TTSONNXOn-Device - 最后活动时间: 2026-01-22
jarvis
离线语音助手,注重隐私保护,基于Rust和Tauri构建。无需联网即可运行,适合注重隐私的用户。
- Stars: ⭐️ 2.8k
- Tags:
voice-assistantrustofflineprivacy - 最后活动时间: 2026-02-18
Whisper-WebUI
基于Whisper模型的字幕生成Web界面,支持轻松将音频转换为字幕文本。
- Stars: ⭐️ 2.7k
- Tags:
whisperspeech-to-textgradiosubtitle - 最后活动时间: 2025-12-29
LiveCaptions-Translator
基于Windows LiveCaptions的轻量级实时语音翻译工具,支持音频转文字和实时翻译。
- Stars: ⭐️ 2.7k
- Tags:
speech-to-textaudio-to-textreal-time-translationlivecaptions - 最后活动时间: 2026-03-15
NeuralAmpModelerPlugin
基于神经网络的吉他放大器建模插件,利用AI技术精准模拟真实放大器的音色特性。
- Stars: ⭐️ 2.6k
- Tags:
Neural NetworkAudioPlugin - 最后活动时间: 2026-03-30
Scriberr
自托管的AI音频转录工具,支持本地部署以保护数据隐私,提供高质量的语音转文字服务。
- Stars: ⭐️ 2.5k
- Tags:
Audio TranscriptionSelf-hostedPrivacy - 最后活动时间: 2026-03-22
neural-amp-modeler
神经网络吉他放大器模拟器,使用深度学习精确还原放大器音色。
- Stars: ⭐️ 2.5k
- Tags:
neural-networkaudio-processingguitar-ampdeep-learning - 最后活动时间: 2026-04-12
DDSP-SVC
基于DDSP的实时端到端歌声转换系统,支持高质量声音克隆。
- Stars: ⭐️ 2.5k
- Tags:
Voice ConversionDDSPReal-time - 最后活动时间: 2026-02-22
pyttsx3
离线文本转语音合成库,支持多种语音引擎,无需网络连接即可运行。适用于语音助手、无障碍应用等场景。
- Stars: ⭐️ 2.5k
- Tags:
text-to-speechttspythonofflinespeech-synthesis - 最后活动时间: 2026-03-02
kokoro-onnx
基于Kokoro模型和ONNX Runtime的高效TTS推理实现。
- Stars: ⭐️ 2.5k
- Tags:
kokoroonnxruntimettstext-to-speech - 最后活动时间: 2026-01-30
Qwen3-ASR
Qwen团队开源的语音识别模型,支持多语言语音/音乐/歌曲识别及时间戳预测。
- Stars: ⭐️ 2.3k
- Tags:
ASRSpeech-RecognitionQwen - 最后活动时间: 2026-01-30
alltalk_tts
基于Coqui TTS引擎的高级TTS系统,支持DeepSpeed加速、模型微调、低显存模式及JSON API调用。
- Stars: ⭐️ 2.3k
- Tags:
ttscoquideepspeedtext-to-speechvoice-synthesis - 最后活动时间: 2026-01-09
AI-Video-Transcriber
开源AI视频转录与摘要工具,支持多语言视频和播客内容转录。跨平台支持,可处理YouTube、TikTok等平台视频。
- Stars: ⭐️ 2.3k
- Tags:
transcribeaivideospeech-to-textsummarization - 最后活动时间: 2026-03-07
DiffRhythm
基于潜在扩散模型的端到端完整歌曲生成系统,实现快速高质量音乐创作。
- Stars: ⭐️ 2.3k
- Tags:
song-generationlatent-diffusionmusic-generationaudio-synthesis - 最后活动时间: 2025-11-27
awesome-whisper
OpenAI Whisper语音识别模型精选资源列表,汇集工具、模型、教程和应用案例。
- Stars: ⭐️ 2.3k
- Tags:
Whisper语音识别Speech-to-Text - 最后活动时间: 2026-03-17
stable-ts
基于Whisper的音频转录与强制对齐工具,提供稳定的语音识别能力。
- Stars: ⭐️ 2.2k
- Tags:
whispertranscriptionforced-alignmentspeech-recognition - 最后活动时间: 2025-10-29
IMS-Toucan
支持7000多种语言的快速可控文本转语音工具包,基于深度学习和PyTorch构建。
- Stars: ⭐️ 2.2k
- Tags:
text-to-speechspeech-synthesisdeep-learningpytorch - 最后活动时间: 2026-01-25
voice
React Native 语音识别库,支持 iOS 和 Android 平台,可在线离线使用。
- Stars: ⭐️ 2.2k
- Tags:
speech-recognitionvoice-recognitionreact-nativeiosandroid - 最后活动时间: 2026-01-31
MMAudio
CVPR 2025接收的高质量视频到音频合成模型,通过多模态联合训练实现音视频同步生成,支持视频或文本生成音频。
- Stars: ⭐️ 2.1k
- Tags:
Video-to-AudioAudio SynthesisMultimodal - 最后活动时间: 2026-02-23
magenta-js
浏览器端机器学习音乐与艺术生成库,支持实时音频创作和视觉艺术生成。
- Stars: ⭐️ 2.1k
- Tags:
music-generationart-generationtensorflow-js - 最后活动时间: 2026-04-08
ten-vad
高性能、低延迟的轻量级语音活动检测器,适用于实时对话AI和语音识别场景。
- Stars: ⭐️ 2.1k
- Tags:
VADSpeech ProcessingReal-time - 最后活动时间: 2026-02-02
epub_to_audiobook
EPUB电子书转有声书工具,支持Audiobookshelf,带WebUI界面。
- Stars: ⭐️ 2.0k
- Tags:
audiobookttsepubopenai - 最后活动时间: 2026-03-24
vad
基于ONNX Runtime的高精度浏览器端语音活动检测器,提供简洁API实现实时语音识别。
- Stars: ⭐️ 1.9k
- Tags:
voice-activity-detectionsilero-vadonnxruntimeweb-audio - 最后活动时间: 2026-01-30
FireRedASR
开源工业级语音识别模型,支持普通话、方言和英语,在公开中文ASR基准上达到SOTA水平,同时具备出色的歌词识别能力。
- Stars: ⭐️ 1.8k
- Tags:
ASRSpeech RecognitionLLMMultimodal - 最后活动时间: 2026-02-25
FluidAudio
基于CoreML的前沿音频模型库,支持TTS、STT、语音活动检测和说话人分离,专为iOS/macOS设计。
- Stars: ⭐️ 1.8k
- Tags:
CoreMLSpeech AIiOS - 最后活动时间: 2026-04-12
SongRec
开源的Shazam客户端,使用音频指纹识别技术识别歌曲,支持Linux平台。
- Stars: ⭐️ 1.8k
- Tags:
audio-fingerprintingshazammusic-recognitionrust - 最后活动时间: 2026-04-12
Montreal-Forced-Aligner
基于Kaldi的强制对齐命令行工具,用于语音音频与文本的精确对齐。
- Stars: ⭐️ 1.8k
- Tags:
forced-alignmentkaldispeechacoustic-model - 最后活动时间: 2026-03-31
RHVoice
免费开源的多语言语音合成引擎,支持俄语、英语、乌克兰语等多种语言,跨平台运行于Windows、Linux和Android。
- Stars: ⭐️ 1.8k
- Tags:
TTS语音合成开源 - 最后活动时间: 2026-04-12
descript-audio-codec
最先进音频编解码器,支持90倍压缩率,适用于高质量音频生成与传输。
- Stars: ⭐️ 1.8k
- Tags:
audio-codecdeep-learningaudio-compressionpytorchgan - 最后活动时间: 2026-01-26
RAVE
实时音频变分自编码器,可实现高质量音频生成与风格迁移,支持实时处理。
- Stars: ⭐️ 1.7k
- Tags:
AudioDeep LearningGenerative Model - 最后活动时间: 2026-03-07
awesome-python-scientific-audio
Python音频科学研究资源精选,涵盖音频分析、处理和机器学习相关工具包。
- Stars: ⭐️ 1.7k
- Tags:
audiopythonspeech-processingscientific-computing - 最后活动时间: 2026-01-19
bailing
类似GPT-4o的低延迟语音对话机器人,集成DeepSeek R1等大模型,响应时延低至800ms,支持打断和低配置设备运行。
- Stars: ⭐️ 1.7k
- Tags:
语音助手TTSASRDeepSeek - 最后活动时间: 2026-04-06
read-aloud
一款优秀的浏览器扩展,一键朗读网页内容,支持多种语音引擎和语言,提升无障碍访问体验。
- Stars: ⭐️ 1.6k
- Tags:
text-to-speechbrowser-extensionaccessibilitytts - 最后活动时间: 2026-03-04
madmom
Python音频与音乐信号处理库,支持音乐信息检索。
- Stars: ⭐️ 1.6k
- Tags:
audio-analysissignal-processingmusic-information-retrieval - 最后活动时间: 2026-03-20
voxtral.c
纯C语言实现的Mistral Voxtral Realtime 4B语音转文字模型推理引擎,专注于高性能实时语音识别。
- Stars: ⭐️ 1.6k
- Tags:
speech-to-textinferencemistralc-language - 最后活动时间: 2026-02-15
uLipSync
基于MFCC的Unity口型同步插件,利用Job System和Burst Compiler实现高性能音频驱动的角色口型动画,支持VRM虚拟形象。
- Stars: ⭐️ 1.6k
- Tags:
Lip-SyncUnityVRMAudio Processing - 最后活动时间: 2026-01-06
SongGeneration
LeVo高质量歌曲生成模型官方代码,采用多偏好对齐技术提升生成效果。
- Stars: ⭐️ 1.6k
- Tags:
song-generationmusic-generationaudio-synthesisdeep-learning - 最后活动时间: 2026-03-12
BirdNET-Analyzer
基于深度学习的鸟类声音识别与分析工具,可用于科学音频数据处理和生态监测。
- Stars: ⭐️ 1.5k
- Tags:
deep-learningaudio-classificationbioacousticsacoustic-monitoring - 最后活动时间: 2026-04-08
pianotrans
ByteDance 钢琴转录工具的简洁 GUI,支持踏板检测。
- Stars: ⭐️ 1.5k
- Tags:
aipianotranscriptionaudio - 最后活动时间: 2026-03-28
VibeVoice-ComfyUI
微软VibeVoice TTS模型的ComfyUI集成节点,支持高质量单/多说话人语音合成。
- Stars: ⭐️ 1.5k
- Tags:
comfyuitext-to-speechttsvoice-cloningai-audio - 最后活动时间: 2026-02-18
obs-localvocal
OBS Studio本地语音识别与字幕生成插件,基于Whisper AI实现实时语音转文字和翻译功能,支持离线运行。
- Stars: ⭐️ 1.4k
- Tags:
语音识别WhisperOBS插件 - 最后活动时间: 2026-04-09
parlor
本地实时多模态AI助手,支持语音和视觉对话。基于Gemma 4 E2B和Kokoro,完全在设备端运行。
- Stars: ⭐️ 1.4k
- Tags:
multimodalvoice-assistantlocal-llmon-device-aitext-to-speech - 最后活动时间: 2026-04-07
WhisperJAV
基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具,集成TEN-VAD和本地LLM,抗噪能力强。
- Stars: ⭐️ 1.4k
- Tags:
ASRWhisper字幕生成语音识别 - 最后活动时间: 2026-04-09
OuteTTS
OuteTTS 模型的推理接口,支持 GGUF 格式和 Transformers 框架。
- Stars: ⭐️ 1.4k
- Tags:
text-to-speechllamagguf - 最后活动时间: 2026-03-23
SALMONN
字节跳动与清华联合开发的多模态大语言模型,支持音频、语音、音乐和视频理解,入选ICLR/ICML 2024。
- Stars: ⭐️ 1.4k
- Tags:
多模态音频处理视频理解 - 最后活动时间: 2026-02-03
Speech-AI-Forge
一站式语音AI平台,集成ChatTTS、CosyVoice、Fish-Speech等多种模型,提供API服务器和Gradio WebUI界面。
- Stars: ⭐️ 1.4k
- Tags:
TTSASR语音合成WebUI - 最后活动时间: 2026-04-02
Step-Audio2
端到端多模态大语言模型,专为工业级音频理解与语音对话设计。
- Stars: ⭐️ 1.4k
- Tags:
audio-llmmultimodalspeech-conversation - 最后活动时间: 2026-03-16
FireRedTTS2
面向多说话人对话生成的长文本流式 TTS 系统,支持高质量语音合成。
- Stars: ⭐️ 1.4k
- Tags:
text-to-speechstreaming-ttsmulti-speaker - 最后活动时间: 2025-10-26
ComfyUI-Qwen-TTS
Qwen3-TTS的ComfyUI插件实现,方便在ComfyUI中使用语音合成功能。
- Stars: ⭐️ 1.4k
- Tags:
TTSComfyUIQwen - 最后活动时间: 2026-03-24
video-analyzer
结合LLM、计算机视觉和语音识别的视频分析工具,支持多模态内容理解。
- Stars: ⭐️ 1.4k
- Tags:
视频分析ASR多模态 - 最后活动时间: 2026-03-20
SoniTranslate
视频同步翻译与自动配音工具,结合ASR、TTS和翻译技术实现跨语言视频内容转换。
- Stars: ⭐️ 1.3k
- Tags:
视频配音翻译TTSASR - 最后活动时间: 2025-12-02
k2
可微分的FSA/FST算法库,与PyTorch兼容,专为语音识别等序列建模任务设计。
- Stars: ⭐️ 1.3k
- Tags:
speech-recognitionfstdifferentiablepytorch - 最后活动时间: 2026-03-09
dicio-android
开源Android离线语音助手,基于Vosk实现本地语音识别与唤醒词检测,支持多种技能扩展。
- Stars: ⭐️ 1.3k
- Tags:
语音助手离线STTAndroidVosk - 最后活动时间: 2026-02-25
ThinkSound
NeurIPS 2025论文实现,基于思维链推理的多模态音频生成框架,支持文本、视频等输入生成音频。
- Stars: ⭐️ 1.3k
- Tags:
text-to-audiovideo-to-audiomultimodalaudio-generationpytorch - 最后活动时间: 2026-04-03
subgen
基于 OpenAI Whisper 模型的自动字幕生成工具,支持 Jellyfin、Plex、Emby 等媒体服务器集成。
- Stars: ⭐️ 1.3k
- Tags:
whispersubtitlespeech-to-textmedia-server - 最后活动时间: 2026-04-10
elevenlabs-mcp
ElevenLabs官方MCP服务器,为AI应用提供高质量的语音合成和语音克隆能力。
- Stars: ⭐️ 1.3k
- Tags:
elevenlabselevenlabs-apimcpttsvoice-ai - 最后活动时间: 2026-03-20
Matcha-TTS
ICASSP 2024发表的快速文本转语音架构,采用条件流匹配技术实现高质量语音合成。
- Stars: ⭐️ 1.3k
- Tags:
TTS流匹配语音合成 - 最后活动时间: 2026-03-16
whisper-ctranslate2
基于CTranslate2的Whisper语音识别命令行工具,兼容OpenAI官方客户端,提供高效的语音转文字能力。
- Stars: ⭐️ 1.3k
- Tags:
whisperspeech-recognitionspeech-to-textctranslate2openai - 最后活动时间: 2026-02-14
unmute
让文本大语言模型具备听和说的能力,实现语音交互功能。为LLM添加语音输入输出接口,使其能够进行自然对话。
- Stars: ⭐️ 1.3k
- Tags:
TTSSTTVoice AILLM - 最后活动时间: 2026-03-26
MOSS-TTSD
支持长上下文建模、多说话人合成和零样本语音克隆的语音对话生成模型。
- Stars: ⭐️ 1.3k
- Tags:
text-to-speechspeech-synthesisvoice-cloningstreaming - 最后活动时间: 2026-03-23
VieNeu-TTS
越南语实时文本转语音系统,支持即时语音克隆和端侧CPU实时推理,输出24kHz高质量音频。
- Stars: ⭐️ 1.3k
- Tags:
TTS语音克隆端侧推理 - 最后活动时间: 2026-04-07
VoiceprintRecognition-Pytorch
声纹识别工具库,支持EcapaTdnn、ResNetSE、CAM++等先进模型,适用于说话人识别和验证场景。
- Stars: ⭐️ 1.3k
- Tags:
voiceprint-recognitionspeaker-recognitionarcfacepytorch - 最后活动时间: 2025-12-17
wespeaker
面向研究和生产的说话人验证、识别和分割工具包。
- Stars: ⭐️ 1.3k
- Tags:
speaker-verificationspeaker-recognitionspeaker-diarizationpytorch - 最后活动时间: 2026-04-10
transcribe-anything
多后端Whisper语音转文字工具,支持本地文件和URL输入,Mac ARM优化,完全私密免费。
- Stars: ⭐️ 1.2k
- Tags:
whisperspeech-to-texttranscriptionaudio - 最后活动时间: 2026-03-24
speech-trident
精选语音/音频大语言模型、表示学习和编解码模型资源合集。
- Stars: ⭐️ 1.2k
- Tags:
speech-llmaudio-modelscodecrepresentation-learning - 最后活动时间: 2026-04-04
soprano
即时、超逼真的文本转语音系统,提供高质量语音合成能力。
- Stars: ⭐️ 1.2k
- Tags:
text-to-speechrealistic-voicetts - 最后活动时间: 2026-01-15
MOSS-TTS
开源语音和声音生成模型家族,支持高保真长语音、多说话人对话、声音克隆和实时流式TTS。
- Stars: ⭐️ 1.2k
- Tags:
TTSVoice CloningMultimodal - 最后活动时间: 2026-04-13
ekho
开源中文文本转语音引擎,支持粤语、藏语等多种中文方言。
- Stars: ⭐️ 1.2k
- Tags:
chinesecantonesettstext-to-speech - 最后活动时间: 2026-04-08
GMTalker
由光明实验室打造的3D数字人系统,集成语音识别、语音合成、自然语言理解和嘴型动画驱动,支持多平台快速部署。
- Stars: ⭐️ 1.2k
- Tags:
3d-avatardigital-humanspeech-recognitiontext-to-speechlip-sync - 最后活动时间: 2026-01-08
Mousai
开源歌曲识别应用,类似Shazam,可在数秒内识别正在播放的歌曲。基于GNOME/GTK的Linux桌面应用。
- Stars: ⭐️ 1.2k
- Tags:
music-recognitionshazam-likeaudio-fingerprintinglinuxgnome - 最后活动时间: 2026-04-07
TalkingHead
一个JavaScript类库,用于实现3D虚拟形象的实时口型同步和语音驱动动画。支持文本转语音和全身3D头像的唇形同步。
- Stars: ⭐️ 1.2k
- Tags:
3d-avatarlip-synctalking-avatartext-to-speechanimation - 最后活动时间: 2026-04-08
Chatterbox-TTS-Server
强大的TTS语音合成服务器,支持Web UI、OpenAI兼容API、声音克隆,可在NVIDIA/AMD/CPU上运行。
- Stars: ⭐️ 1.2k
- Tags:
TTS语音合成声音克隆API服务 - 最后活动时间: 2026-04-02
lhotse
机器学习多模态数据处理工具集,专注于语音识别和音频数据处理。
- Stars: ⭐️ 1.1k
- Tags:
audiospeech-recognitionpytorchdeep-learning - 最后活动时间: 2026-04-06
nnAudio
基于PyTorch的音频处理库,使用1D卷积网络实现高效的频谱图转换。
- Stars: ⭐️ 1.1k
- Tags:
audio-processingspectrogrampytorchneural-network - 最后活动时间: 2025-12-07
python-audio-separator
基于预训练模型的音频分离工具,支持从音乐中提取人声、伴奏等音轨,提供命令行和Python API两种使用方式。
- Stars: ⭐️ 1.1k
- Tags:
audio-separationstem-separationmusic-processingdeep-learning - 最后活动时间: 2026-03-26
dia2
支持实时流式对话音频生成的TTS模型,适合对话场景应用。
- Stars: ⭐️ 1.1k
- Tags:
ttstext-to-speechstreamingconversational - 最后活动时间: 2025-11-29
conformer
INTERSPEECH 2020论文非官方实现,卷积增强的Transformer语音识别模型,结合CNN局部建模与Transformer全局建模优势。
- Stars: ⭐️ 1.1k
- Tags:
conformerspeech-recognitionasrtransformer - 最后活动时间: 2026-01-05
A-Hackers-AI-Voice-Assistant
基于 Python 和 PyTorch 构建的 AI 语音助手,适合开发者学习和定制。
- Stars: ⭐️ 1.1k
- Tags:
voice-assistantpytorchspeech-recognitionpython - 最后活动时间: 2025-12-15
SoundMind
音频语言模型推理框架,包含ALR数据集和基于规则的强化学习算法,赋予音频模型深度推理能力。
- Stars: ⭐️ 1.1k
- Tags:
audio-language-modelaudio-reasoningreinforcement-learningdataset - 最后活动时间: 2025-11-26
aTrain
离线语音转录GUI工具,支持说话人分离,基于最新机器学习模型。
- Stars: ⭐️ 1.1k
- Tags:
speech-recognitiontranscriptionspeaker-diarization - 最后活动时间: 2026-04-09
AVA-AI-Voice-Agent-for-Asterisk
集成Asterisk/FreePBX的开源AI语音智能体,使用Audiosocket/RTP技术。
- Stars: ⭐️ 1.1k
- Tags:
voice-agentasteriskfreepbxvoip - 最后活动时间: 2026-04-12
MusicRecognizer
开源Android音乐识别应用,集成AudD、ACRCloud和Shazam等多种识别服务,实现快速歌曲识别。
- Stars: ⭐️ 1.1k
- Tags:
music-recognitionshazamauddacrcloudandroidaudio-fingerprinting - 最后活动时间: 2026-03-04
QuickPiperAudiobook
一键将多种格式文档转换为自然语音的有声书工具。
- Stars: ⭐️ 1.0k
- Tags:
audiobooksttspiper - 最后活动时间: 2025-11-07
pykaldi
Kaldi语音识别工具包的Python封装,提供简洁的API接口。
- Stars: ⭐️ 1.0k
- Tags:
kaldispeech-recognitionpythonasr - 最后活动时间: 2025-11-30
ms-ra-forwarder
免费的在线文本转语音API服务,提供便捷的TTS接口。
- Stars: ⭐️ 1.0k
- Tags:
text-to-speechttstts-api - 最后活动时间: 2026-01-21
vosk-android-demo
基于Vosk库的Android离线语音识别演示应用,支持本地语音转文字,无需网络连接。
- Stars: ⭐️ 1.0k
- Tags:
speech-recognitionofflineandroidvosk - 最后活动时间: 2025-12-08
SLAM-LLM
统一的多模态处理框架,支持语音、语言、音频和音乐处理的大语言模型集成。
- Stars: ⭐️ 1.0k
- Tags:
audio-processingspeech-processingmultimodal-llmmusic-processing - 最后活动时间: 2026-01-15
birdnet-go
实时鸟类声音识别分析系统,支持树莓派等边缘设备部署。
- Stars: ⭐️ 1.0k
- Tags:
birdnetaudio-recognitionwildlifeedge-ai - 最后活动时间: 2026-04-12
Whisperboard
开源iOS语音转文字应用,让高质量语音转录在移动设备上触手可及。基于Whisper.cpp实现,支持离线转录。
- Stars: ⭐️ 1.0k
- Tags:
iOS语音转录Whisper - 最后活动时间: 2025-12-18
Cognitive-Speech-TTS
微软认知服务TTS API的多语言示例代码,支持自定义神经语音。
- Stars: ⭐️ 1.0k
- Tags:
azure-ttstext-to-speechspeech-sdkneural-voice - 最后活动时间: 2026-02-28
Fun-ASR
通义实验室推出的端到端语音识别大模型,支持说话人分离等功能。
- Stars: ⭐️ 1.0k
- Tags:
ASRSpeech RecognitionAudio - 最后活动时间: 2026-02-25
GLM-TTS
可控情感表达的零样本TTS模型,支持多奖励强化学习优化。
- Stars: ⭐️ 972
- Tags:
ttsspeech-synthesiszero-shotemotion - 最后活动时间: 2026-04-10
ace-step-ui
开源AI音乐生成专业UI界面,作为ACE-Step 1.5的前端,支持本地免费无限生成音乐。
- Stars: ⭐️ 964
- Tags:
aiai-musicmusic-generationlocal-firstopen-source - 最后活动时间: 2026-03-02
kapre
Keras音频预处理库,提供可GPU加速的声谱图计算层。
- Stars: ⭐️ 946
- Tags:
audio-processingkerasspectrogram - 最后活动时间: 2025-10-26
Fun-Audio-Chat
大型音频语言模型,专为自然、低延迟的语音交互而设计,支持流畅的实时对话体验。
- Stars: ⭐️ 926
- Tags:
audio-language-modelvoice-interactionspeech-ailow-latency - 最后活动时间: 2026-02-27
my-translator
实时语音翻译工具,支持macOS和Windows,本地运行无需服务器,使用用户自己的API密钥实现语音转文字和文字转语音。
- Stars: ⭐️ 909
- Tags:
speech-translationsttttsreal-timetauri - 最后活动时间: 2026-04-10
whisper.net
基于Whisper模型的.NET语音识别库,支持跨平台语音转文字和翻译功能,简单易用。
- Stars: ⭐️ 901
- Tags:
speech-recognitionspeech-to-textwhisperdotnet - 最后活动时间: 2026-03-16
Step-Audio-EditX
30亿参数的LLM音频编辑模型,支持情感、风格编辑及零样本语音合成。
- Stars: ⭐️ 899
- Tags:
audio-editingttsvoice-cloningreinforcement-learning - 最后活动时间: 2026-04-09
parakeet-mlx
Nvidia Parakeet语音模型的Apple Silicon优化实现,基于MLX框架提供高效语音识别。
- Stars: ⭐️ 891
- Tags:
parakeetmlxspeech-recognitionapple-silicon - 最后活动时间: 2026-02-21
inaSpeechSegmenter
基于CNN的音频分割工具包,可检测语音、音乐、噪声和说话人性别。
- Stars: ⭐️ 882
- Tags:
audio-segmentationspeech-detectiongender-classificationcnn - 最后活动时间: 2026-03-12
ccextractor
强大的字幕提取工具,支持从视频流中提取隐藏字幕,集成OCR技术识别图像字幕。
- Stars: ⭐️ 881
- Tags:
字幕提取OCR视频处理 - 最后活动时间: 2026-04-12
Easy-Voice-Toolkit
用户友好的音频工具包,支持语音识别、转录、转换等多种功能,简化音频处理流程。
- Stars: ⭐️ 878
- Tags:
语音识别TTS音频处理 - 最后活动时间: 2026-03-20
PPASR
基于PaddlePaddle的端到端中文语音识别项目,支持DeepSpeech2、Conformer等主流模型,提供完整教程。
- Stars: ⭐️ 873
- Tags:
中文ASRPaddlePaddleConformer - 最后活动时间: 2025-12-17
MidiTok
为深度学习模型设计的MIDI/符号音乐标记器,支持音乐生成与信息检索任务。
- Stars: ⭐️ 858
- Tags:
deep-learningmidimusic-generationtokenization - 最后活动时间: 2026-04-01
TangoFlux
基于Flow Matching的超快速文本转音频生成模型,ICLR 2026论文项目。
- Stars: ⭐️ 847
- Tags:
text-to-audioflow-matchinggenerative-aiaudio-synthesis - 最后活动时间: 2026-01-28
faster-qwen3-tts
基于Qwen3-TTS的实时文本转语音工具,提供高效的语音合成能力。
- Stars: ⭐️ 845
- Tags:
TTSQwen3Real-time - 最后活动时间: 2026-03-27
auditok
音频活动检测与分割工具,支持语音活动检测(VAD),是语音识别预处理的重要组件。
- Stars: ⭐️ 844
- Tags:
audiovadvoice-activity-detectionaudio-segmentation - 最后活动时间: 2026-04-09
voquill
开源的语音听写工具,WisprFlow的免费替代方案。支持本地AI语音转文字,基于Whisper技术构建。
- Stars: ⭐️ 843
- Tags:
speech-to-textwhisperlocal-aidictation - 最后活动时间: 2026-04-12
local-talking-llm
完全离线运行的语音对话LLM应用,集成语音识别与语音合成功能,无需联网即可使用。
- Stars: ⭐️ 838
- Tags:
speech-recognitionspeech-synthesislocal-llmchatbot - 最后活动时间: 2026-04-04
TypeNo
一款免费开源、隐私优先的macOS语音输入应用,支持本地语音转文字功能。
- Stars: ⭐️ 833
- Tags:
speech-to-textmacosprivacyvoice-inputswift - 最后活动时间: 2026-03-28
TTS-Audio-Suite
ComfyUI多引擎TTS集成节点,支持10+主流语音合成引擎,提供角色配音和时间轴功能。
- Stars: ⭐️ 832
- Tags:
TTSComfyUIVoice CloningAudio Generation - 最后活动时间: 2026-04-12
TheWhisper
优化版Whisper模型,专为流式和端设备语音识别设计,支持多平台硬件加速。
- Stars: ⭐️ 822
- Tags:
whisperspeech-recognitionstreamingon-device-ai - 最后活动时间: 2026-03-01
essentia.js
基于WebAssembly的音乐/音频分析与处理JavaScript库,支持音频特征提取和音乐信息检索。
- Stars: ⭐️ 819
- Tags:
audio-analysiswebassemblymusic-information-retrieval - 最后活动时间: 2025-12-10
pdf-to-podcast
将PDF文档转换为AI生成的播客音频,基于NVIDIA NIM构建,支持随时随地收听文档内容。
- Stars: ⭐️ 816
- Tags:
PDFTTS播客音频生成 - 最后活动时间: 2026-01-30
sokuji
实时语音翻译工具,支持本地 AI 和多种云端服务商,提供 Chrome 扩展和桌面应用。
- Stars: ⭐️ 816
- Tags:
TranslationSpeech-to-SpeechReal-time - 最后活动时间: 2026-04-12
micro-wake-word
基于TensorFlow的唤醒词检测训练框架,支持合成样本生成,适用于微控制器部署。
- Stars: ⭐️ 807
- Tags:
wake-wordkeyword-spottingtensorflowembedded-aiaudio - 最后活动时间: 2025-12-21
whoBIRD
基于BirdNET的Android实时鸟类声音识别应用,支持全球6000+种鸟类的声音识别。
- Stars: ⭐️ 805
- Tags:
audio-recognitionbirdnetandroidreal-time - 最后活动时间: 2026-02-26
opensmile
慕尼黑开源大规模多媒体特征提取工具,广泛用于语音识别、情感计算等音频机器学习任务。
- Stars: ⭐️ 795
- Tags:
audiofeature-extractionspeech-processing - 最后活动时间: 2026-01-26
GLM-ASR
开源鲁棒性语音识别模型,15亿参数,支持边缘设备部署。
- Stars: ⭐️ 790
- Tags:
asrspeech-recognitionspeech-to-texton-device - 最后活动时间: 2026-03-06
lobe-tts
高质量文本转语音与语音识别库,同时支持服务端和浏览器端,提供统一 API 接口。
- Stars: ⭐️ 781
- Tags:
TTSSTTSpeech RecognitionReact - 最后活动时间: 2026-03-02
TTS-Voice-Wizard
强大的语音转换工具,支持语音识别、TTS和实时翻译,可集成VRChat虚拟形象显示,适合VTuber使用。
- Stars: ⭐️ 779
- Tags:
TTSSTTVRChatVTuber - 最后活动时间: 2026-04-05
BS-RoFormer
Band Split Roformer实现,ByteDance AI Labs的SOTA音乐源分离注意力网络。
- Stars: ⭐️ 768
- Tags:
music-source-separationtransformersattentionpytorch - 最后活动时间: 2026-02-01
SongBloom
基于交错自回归草图与扩散细化的连贯歌曲生成模型。官方代码仓库,实现高质量AI音乐创作。
- Stars: ⭐️ 767
- Tags:
song-generationdiffusion-modelautoregressivemusic-generationai-music - 最后活动时间: 2025-12-04
voxtral-mini-realtime-rs
基于Rust和Burn ML框架实现的Mistral Voxtral Mini 4B实时语音识别模型,支持本地运行和浏览器WASM部署。
- Stars: ⭐️ 762
- Tags:
speech-recognitionrustmistralasrwasmrealtime - 最后活动时间: 2026-04-02
PaddlePaddle-DeepSpeech
基于PaddlePaddle实现的中文语音识别系统,支持DeepSpeech2模型,可在Windows、Linux及Jetson上运行。
- Stars: ⭐️ 759
- Tags:
speech-recognitionasrpaddlepaddledeepspeechspeech-to-text - 最后活动时间: 2025-12-17
Kokoros
基于Kokoro模型的Rust高性能TTS实现,提供极速、高质量的实时语音合成能力。
- Stars: ⭐️ 751
- Tags:
TTSRust语音合成 - 最后活动时间: 2026-03-11
offline-translator
基于Firefox翻译模型的Android离线翻译工具,支持设备端本地翻译,无需网络连接。
- Stars: ⭐️ 746
- Tags:
translationandroidofflinemachine-translation - 最后活动时间: 2026-04-12
translate
实时手语翻译工具,利用计算机视觉技术实现无障碍沟通,支持Android、iOS和Web多平台。
- Stars: ⭐️ 742
- Tags:
sign-languagesign-language-recognitioncomputer-visiontranslation - 最后活动时间: 2026-03-18
dla
音频深度学习综合工具库,涵盖语音识别、说话人验证、语音合成等多种音频处理任务。
- Stars: ⭐️ 741
- Tags:
Deep LearningSpeech RecognitionTTSVoice Conversion - 最后活动时间: 2025-12-15
fish-diffusion
易于理解的 TTS/SVS/SVC 统一框架,基于扩散模型实现语音合成与转换。
- Stars: ⭐️ 740
- Tags:
diffusionttsvoice-conversionpytorch - 最后活动时间: 2026-04-06
sgmse
基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。
- Stars: ⭐️ 736
- Tags:
Diffusion语音增强音频处理 - 最后活动时间: 2026-02-01
audio-dataset
用于训练CLAP等音频-语言多模态模型的大规模音频数据集。
- Stars: ⭐️ 733
- Tags:
audiodatasetclapmultimodal - 最后活动时间: 2026-01-08
voice-ai
端到端语音AI编排平台,支持构建实时对话语音智能体,集成STT、TTS、VAD和多通道能力。
- Stars: ⭐️ 727
- Tags:
Voice AISTT/TTSVoice AgentsReal-time Audio - 最后活动时间: 2026-04-11
MASR
流式与非流式自动语音识别框架,支持Conformer、Squeezeformer等模型,兼容在线和离线识别场景。
- Stars: ⭐️ 722
- Tags:
asrspeech-recognitionconformerstreaming - 最后活动时间: 2025-12-17
ttsfm
镜像OpenAI TTS服务的开源实现,提供兼容的文本转语音接口,支持多种语音选项。
- Stars: ⭐️ 713
- Tags:
ttsopenai-apitext-to-speechself-hosted - 最后活动时间: 2025-12-18
Thorsten-Voice
高质量德语 TTS 语音数据集,免费离线使用,无许可证限制。
- Stars: ⭐️ 709
- Tags:
german-ttsspeech-datasetopen-source - 最后活动时间: 2026-02-02
rhino
基于深度学习的端上语音意图识别引擎,用于语音助手和命令控制。
- Stars: ⭐️ 698
- Tags:
speech-recognitionnluvoice-assistantintent-recognitionon-device - 最后活动时间: 2026-04-09
tts
Inworld TTS 语音合成引擎,提供高质量文本转语音服务。
- Stars: ⭐️ 692
- Tags:
ttstext-to-speechvoice-synthesis - 最后活动时间: 2026-04-08
murmure
完全本地化、隐私优先的跨平台语音转文字工具,集成LLM后处理功能。
- Stars: ⭐️ 679
- Tags:
Speech-to-TextPrivacyLocal AI - 最后活动时间: 2026-04-11
whisper-flow
基于OpenAI Whisper的实时音频转录框架,支持流式音频处理和增量转录输出。
- Stars: ⭐️ 676
- Tags:
speech-to-textwhisperreal-timetranscription - 最后活动时间: 2026-03-01
ComfyUI-Index-TTS
ComfyUI 的 IndexTTS 自定义节点,支持中英文文本转语音和声音克隆。
- Stars: ⭐️ 665
- Tags:
comfyuiindex-ttsvoice-cloning - 最后活动时间: 2026-04-09
hume-evi-next-js-starter
Hume AI EVI(共情语音接口)的 Next.js 快速启动模板,帮助开发者快速构建具有情感智能的语音交互应用。
- Stars: ⭐️ 662
- Tags:
hume-aievivoice-interfacenextjsempathic-ai - 最后活动时间: 2025-12-11
cheetah
基于深度学习的端上流式语音转文字引擎,支持实时转录。
- Stars: ⭐️ 661
- Tags:
speech-recognitionasrspeech-to-texton-devicestreaming - 最后活动时间: 2026-04-10
LLaSA_training
基于LLaMA的语音合成模型,通过扩展训练与推理计算提升效果。
- Stars: ⭐️ 659
- Tags:
text-to-speechllamallmspeech-synthesis - 最后活动时间: 2026-01-21
ZerolanLiveRobot
集成LLM、ASR、TTS、OCR、CV等技术的AI虚拟主播,支持直播和Minecraft互动。
- Stars: ⭐️ 658
- Tags:
ai-vtuberllmttsasrmultimodal - 最后活动时间: 2026-04-11
openlrc
使用Whisper和LLM进行语音转录与翻译,自动生成LRC字幕文件。
- Stars: ⭐️ 646
- Tags:
WhisperTranscriptionSubtitle - 最后活动时间: 2026-04-07
vui
1亿参数轻量级对话式 TTS 模型,支持呼吸声、笑声、多说话人对话、声音克隆和流式推理。
- Stars: ⭐️ 646
- Tags:
lightweight-ttsllamavoice-cloningon-device - 最后活动时间: 2026-02-25
hear
undefined
- Stars: ⭐️ 646
- Tags:
speech-recognitiontranscriptionmacoscli - 最后活动时间: 2026-02-02
whisper_android
基于OpenAI Whisper的Android离线语音识别方案,使用TensorFlow Lite实现本地化部署,无需网络即可运行。
- Stars: ⭐️ 644
- Tags:
语音识别Android离线推理 - 最后活动时间: 2026-03-18
UVR5-UI
基于Gradio的人声分离工具,支持多种模型将音频分离为人声和伴奏轨道。
- Stars: ⭐️ 623
- Tags:
audio-separationvocal-removergradio - 最后活动时间: 2025-10-18
voxtype
基于Whisper的Wayland语音转文字工具,支持按键说话和离线语音识别。
- Stars: ⭐️ 619
- Tags:
speech-to-textwhisperwaylandrustoffline - 最后活动时间: 2026-04-12
tts
基于Go语言开发的文本转语音(TTS)服务,提供语音合成能力。
- Stars: ⭐️ 607
- Tags:
ttsgospeech-synthesis - 最后活动时间: 2026-02-04
Neutone SDK
用于音频插件开发的AI SDK,支持实时音频处理和VST插件开发,适用于音乐AI应用。
- Stars: ⭐️ 601
- Tags:
audiodeep-learningpytorchrealtime-audiovst - 最后活动时间: 2025-12-05
WenetSpeech
超万小时大规模中文语音识别数据集,涵盖多种场景和说话人,适用于中文语音识别模型训练。
- Stars: ⭐️ 597
- Tags:
speech-recognitionchineseasrdataset - 最后活动时间: 2026-01-09
swift
基于Groq和Cartesia的快速语音助手,集成Whisper语音识别和Llama模型,实现低延迟语音交互。
- Stars: ⭐️ 591
- Tags:
Voice AssistantGroqWhisper - 最后活动时间: 2025-12-04
AudioClassification-Pytorch
PyTorch音频分类工具,支持EcapaTdnn、PANNS、TDNN等多种模型,适用于环境声音识别和语音分类。
- Stars: ⭐️ 591
- Tags:
audio-classificationpannsecapa-tdnnsound-recognition - 最后活动时间: 2025-12-17
speech-swift
专为 Apple Silicon 设计的 AI 语音工具包,支持语音识别、语音合成、语音增强和说话人分离等功能。
- Stars: ⭐️ 586
- Tags:
speech-recognitiontext-to-speechapple-siliconmlxcoreml - 最后活动时间: 2026-04-12
expo-speech-recognition
React Native Expo 语音识别库,支持语音转文字功能,适用于移动端语音交互应用开发。
- Stars: ⭐️ 584
- Tags:
speech-recognitionspeech-to-textreact-nativeexpovoice-recognition - 最后活动时间: 2026-03-20
BiBi-Keyboard
基于Kotlin的Android语音输入法键盘,集成LLM与ASR语音识别,支持智能语音输入。
- Stars: ⭐️ 579
- Tags:
AndroidASRKeyboardSpeech-to-Text - 最后活动时间: 2026-03-22
aiavatarkit
快速构建 AI 驱动的对话虚拟形象工具包。
- Stars: ⭐️ 579
- Tags:
ai-avatarchatgptvoicevoxvrchat - 最后活动时间: 2026-04-13
chatterbox-tts-api
本地OpenAI兼容的文本转语音API,支持语音克隆,可无缝集成到各类AI应用中。
- Stars: ⭐️ 576
- Tags:
TTSVoice CloneOpenAI API - 最后活动时间: 2025-12-23
AlphaAvatar
基于LiveKit的实时交互式全能虚拟化身平台,支持无缝集成各类开源虚拟角色组件,包括实时模型、视觉、语音、记忆和搜索功能。
- Stars: ⭐️ 566
- Tags:
AvatarReal-timeLiveKit - 最后活动时间: 2026-04-11
offmute
利用LLM实现会议转录和说话人分离的实验性工具,探索纯LLM进行音频处理的可行性。
- Stars: ⭐️ 565
- Tags:
transcriptiondiarizationllmmeeting - 最后活动时间: 2026-04-08
mlx-audio-swift
基于Apple Silicon的模块化Swift音频处理SDK,支持语音识别、语音合成和端到端语音处理。
- Stars: ⭐️ 558
- Tags:
mlxspeech-to-texttext-to-speechswiftapple-silicon - 最后活动时间: 2026-04-10
FlashLabs-Chroma
首个开源的实时端到端语音对话模型,支持个性化声音克隆。
- Stars: ⭐️ 551
- Tags:
speech-to-speechvoice-cloningreal-time-audio - 最后活动时间: 2026-01-28
vocotype-cli
本地端侧隐私安全语音输入工具,支持语音实时转文字、MCP集成、AI文本优化及自定义词典功能。
- Stars: ⭐️ 549
- Tags:
asrspeech-to-textvoice-inputmcpfunasr - 最后活动时间: 2026-04-10
SoulX-Singer
零样本歌唱语音合成项目,支持高质量歌声生成与推理。
- Stars: ⭐️ 546
- Tags:
singing-voice-synthesiszero-shotaudio-generationtts - 最后活动时间: 2026-04-12
Qwen3-Audiobook-Converter
基于Qwen3 TTS语音模型的有声书转换工具,支持PDF、EPUB、DOCX等多种格式转换为高质量有声书。
- Stars: ⭐️ 540
- Tags:
ttsaudiobookqwen3voice-synthesisdocument-converter - 最后活动时间: 2026-04-07
SenseVoice.cpp
FunASR SenseVoice语音识别模型的C/C++移植版本,提供高效的本地语音转文字能力。
- Stars: ⭐️ 539
- Tags:
speech-recognitionasrfunasrcpp - 最后活动时间: 2025-12-19
spleeter-web
可自托管的Web应用,用于分离歌曲中的人声、伴奏、贝斯和鼓声。支持Spleeter、Demucs、BS-RoFormer等多种AI分离模型。
- Stars: ⭐️ 537
- Tags:
source-separationvocal-removerspleeterdemucsaudio-processing - 最后活动时间: 2026-04-08
GigaAM
强大的语音识别基础模型,支持语音识别、情感识别等任务,采用自监督学习方法训练。
- Stars: ⭐️ 536
- Tags:
speech-recognitionfoundation-modelsself-supervised-learningemotion-recognition - 最后活动时间: 2026-04-02
parrots
自动语音识别与语音合成引擎,支持中英语音识别和多角色语音合成,准确率高。
- Stars: ⭐️ 526
- Tags:
asrttsspeech-recognitionspeech-synthesis - 最后活动时间: 2025-11-11
MimikaStudio
macOS本地优先应用,集成MCP智能体支持、TTS语音合成与声音克隆功能。
- Stars: ⭐️ 517
- Tags:
ttsvoice-cloningmcpqwenagent - 最后活动时间: 2026-04-01
e2-tts-pytorch
E2-TTS的PyTorch实现,一种简单高效的零样本文本转语音模型。
- Stars: ⭐️ 516
- Tags:
text-to-speechdeep-learningpytorchtts - 最后活动时间: 2025-12-20
easy-whisper-ui
Whisper 语音识别模型的易用图形界面,针对各类 GPU 进行优化。
- Stars: ⭐️ 515
- Tags:
whisperspeech-recognitiontranscriptiongpu - 最后活动时间: 2026-02-15
knn-vc
基于最近邻匹配的语音转换方法,无需训练即可实现任意说话人之间的声音转换。
- Stars: ⭐️ 514
- Tags:
voice-conversionspeech-synthesisknnpytorch - 最后活动时间: 2026-01-16
ComfyUI_IndexTTS
ComfyUI 的 IndexTTS 语音克隆节点,支持双人对话语音合成。
- Stars: ⭐️ 514
- Tags:
ttsvoice-cloningcomfyuispeech-synthesis - 最后活动时间: 2025-11-07
CleanS2S
单文件实现的流式全双工语音交互智能体,支持高质量实时语音对话。
- Stars: ⭐️ 513
- Tags:
speech-to-speechstreaminggpt-4o - 最后活动时间: 2026-04-07
MiraTTS
高质量快速 TTS 语音合成仓库,提供高效的文本转语音解决方案。
- Stars: ⭐️ 513
- Tags:
ttstext-to-speechvoice-synthesis - 最后活动时间: 2025-12-22
muspy
符号音乐生成工具包,支持音乐信息检索和机器学习驱动的音乐创作。
- Stars: ⭐️ 509
- Tags:
Music GenerationSymbolic MusicPython - 最后活动时间: 2026-03-11
qwen-asr
基于C语言实现的Qwen3-ASR语音识别模型推理引擎,支持0.6B和1.7B参数量的转录模型,提供高效轻量的本地部署方案。
- Stars: ⭐️ 509
- Tags:
asrspeech-recognitionqwenc-inferencetranscription - 最后活动时间: 2026-02-17
vosk-browser
浏览器端语音识别库,基于WebAssembly实现Vosk模型的本地运行。
- Stars: ⭐️ 507
- Tags:
speech-recognitionwasmbrowservosk - 最后活动时间: 2025-12-07
subaligner
基于深度神经网络和Transformer的字幕自动同步、翻译与转录工具,支持多种字幕格式和语音活动检测。
- Stars: ⭐️ 504
- Tags:
subtitletranscriptiontransformersvoice-activity-detectiondnn - 最后活动时间: 2026-03-17
aspeak
Azure TTS API 的简洁命令行客户端,支持高质量语音合成。可快速将文本转换为自然流畅的语音输出。
- Stars: ⭐️ 500
- Tags:
text-to-speechttsazure-cognitive-servicescli - 最后活动时间: 2026-03-11
Image Generation
stable-diffusion-webui
最受欢迎的Stable Diffusion Web UI,提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。
- Stars: ⭐️ 162.3k
- Tags:
stable-diffusionimage-generationgradioai-art - 最后活动时间: 2026-03-02
ComfyUI
最强大的模块化扩散模型GUI工具,基于节点的工作流界面,灵活构建复杂图像生成流程。
- Stars: ⭐️ 108.6k
- Tags:
Stable-DiffusionGUIImage-Generation - 最后活动时间: 2026-04-13
tesseract
开源OCR引擎,使用LSTM神经网络进行光学字符识别,支持多种语言。
- Stars: ⭐️ 73.5k
- Tags:
ocrmachine-learninglstmtesseract - 最后活动时间: 2026-03-29
upscayl
免费开源的AI图像放大工具,基于ESRGAN模型实现高质量图像超分辨率重建,支持跨平台使用。
- Stars: ⭐️ 44.6k
- Tags:
AI图像放大ESRGAN开源工具 - 最后活动时间: 2026-03-27
diffusers
Hugging Face推出的扩散模型库,支持图像、视频和音频生成,是生成式AI领域的核心工具。
- Stars: ⭐️ 33.3k
- Tags:
DiffusionPyTorchHuggingFace - 最后活动时间: 2026-04-13
insightface
业界领先的2D/3D人脸分析项目,支持人脸检测、识别、属性分析等任务。
- Stars: ⭐️ 28.4k
- Tags:
face-recognitionface-detectionpytorch - 最后活动时间: 2026-03-29
facefusion
业界领先的人脸处理平台,支持换脸、对口型等多种AI面部操作功能。
- Stars: ⭐️ 27.5k
- Tags:
人脸处理换脸深度学习 - 最后活动时间: 2026-04-08
generative-models
Stability AI官方生成模型库,包含Stable Diffusion等先进图像生成模型的实现。
- Stars: ⭐️ 27.1k
- Tags:
stable-diffusiongenerative-modelsdiffusion - 最后活动时间: 2025-12-16
InvokeAI
领先的Stable Diffusion创意引擎,提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。
- Stars: ⭐️ 27.0k
- Tags:
Stable Diffusion图像生成AI艺术 - 最后活动时间: 2026-04-12
DeepSeek-OCR
DeepSeek推出的光学字符识别(OCR)工具,支持上下文感知的文档压缩与识别。
- Stars: ⭐️ 22.8k
- Tags:
ocrdeepseekcomputer-visiondocument-processing - 最后活动时间: 2026-01-27
deepface
轻量级人脸分析库,支持年龄、性别、情绪等多属性识别。
- Stars: ⭐️ 22.5k
- Tags:
face-recognitiondeep-learningface-analysispython - 最后活动时间: 2026-03-01
rembg
基于深度学习的图像背景移除工具,支持多种AI模型快速精准去除图片背景。
- Stars: ⭐️ 22.5k
- Tags:
背景移除图像处理计算机视觉 - 最后活动时间: 2026-04-08
Awesome-Nano-Banana-images
基于Gemini-2.5-flash-image模型的图像生成示例集合,展示Nano Banana系列模型的创意生成能力,并开源Nano-consistent-150K数据集支持社区开发。
- Stars: ⭐️ 22.1k
- Tags:
image-generationgeminimultimodalgenerative-art - 最后活动时间: 2025-12-12
gaussian-splatting
3D Gaussian Splatting官方实现,突破性实时辐射场渲染技术,通过高斯点云实现高质量实时3D场景重建与渲染。
- Stars: ⭐️ 21.4k
- Tags:
3D重建计算机视觉神经渲染 - 最后活动时间: 2025-10-17
surya
支持90+语言的OCR工具,提供版面分析、阅读顺序识别和表格识别功能。
- Stars: ⭐️ 19.6k
- Tags:
ocrlayout-analysistable-recognitionmultilingual - 最后活动时间: 2026-04-10
blender-mcp
MCP服务器,实现AI与Blender 3D建模软件的集成控制。
- Stars: ⭐️ 19.3k
- Tags:
mcpblender3dcreative-tools - 最后活动时间: 2026-01-23
Qwen3-VL
阿里云Qwen团队开发的多模态大语言模型系列,支持图像理解与视觉语言任务。
- Stars: ⭐️ 18.9k
- Tags:
MultimodalVision-LanguageQwen - 最后活动时间: 2026-01-30
sam2
Meta第二代图像分割模型,支持图像和视频的实时分割,性能显著提升。
- Stars: ⭐️ 18.9k
- Tags:
segmentationvideo-segmentationcomputer-visionmeta - 最后活动时间: 2026-04-07
CodeFormer
NeurIPS 2022论文,基于码本查找Transformer的盲人脸修复模型,效果优于现有方法。
- Stars: ⭐️ 17.9k
- Tags:
Face RestorationTransformerSuper ResolutionCV - 最后活动时间: 2025-11-18
instant-ngp
NVIDIA开源的即时神经图形原语库,实现超快速NeRF三维重建与渲染。
- Stars: ⭐️ 17.4k
- Tags:
nerfcomputer-vision3d-reconstruction - 最后活动时间: 2026-02-02
Waifu2x-Extension-GUI
强大的AI图像视频超分辨率工具,集成多种AI模型,支持图片/视频放大与帧插值。
- Stars: ⭐️ 16.4k
- Tags:
超分辨率图像放大视频处理 - 最后活动时间: 2026-04-02
engine
强大的Web图形运行时,支持WebGL、WebGPU、WebXR和3D高斯泼溅神经渲染技术。
- Stars: ⭐️ 14.7k
- Tags:
3d-gaussian-splattingwebglwebgpugame-engine - 最后活动时间: 2026-04-13
ddddocr
通用验证码识别OCR工具,支持多种验证码类型的自动识别。
- Stars: ⭐️ 13.9k
- Tags:
ocrcaptchapython - 最后活动时间: 2026-03-10
open_clip
OpenAI CLIP模型的开源实现,支持多模态对比学习和零样本分类任务。
- Stars: ⭐️ 13.7k
- Tags:
clipmulti-modalzero-shotpytorch - 最后活动时间: 2026-04-06
Hunyuan3D-2
腾讯混元推出的高分辨率3D资产生成大模型,支持文本/图像生成高质量3D模型。
- Stars: ⭐️ 13.5k
- Tags:
3D GenerationText-to-3DTencent - 最后活动时间: 2025-10-28
vggt
CVPR 2025最佳论文奖获奖项目,视觉几何基础Transformer,在3D视觉理解与几何推理方面取得突破性进展。
- Stars: ⭐️ 12.8k
- Tags:
computer-visiontransformer3d-reconstructioncvpr2025 - 最后活动时间: 2026-03-03
Meshroom
基于节点的视觉编程工具箱,用于3D重建和摄影测量,支持计算机视觉工作流自动化。
- Stars: ⭐️ 12.7k
- Tags:
Computer Vision3D ReconstructionPhotogrammetry - 最后活动时间: 2026-04-13
ImageToolbox
功能强大的Android图像处理应用,集成AI背景移除、OCR文字识别、图像放大等智能功能。
- Stars: ⭐️ 12.5k
- Tags:
图像处理OCR背景移除 - 最后活动时间: 2026-04-12
DiffSynth-Studio
一站式扩散模型创作工作室,支持图像生成、视频合成等多种AI生成任务,轻松体验扩散模型的魔力。
- Stars: ⭐️ 12.2k
- Tags:
扩散模型图像生成视频合成 - 最后活动时间: 2026-04-08
TRELLIS
CVPR 2025 Spotlight论文,基于结构化3D潜变量的可扩展多功能3D生成模型。
- Stars: ⭐️ 12.2k
- Tags:
3d-generationimage-to-3dtext-to-3dcvpr - 最后活动时间: 2025-11-05
colmap
经典的运动恢复结构与多视图立体视觉系统,用于3D重建与视觉计算研究。
- Stars: ⭐️ 11.4k
- Tags:
structure-from-motionmulti-view-stereo3d-reconstructioncomputer-vision - 最后活动时间: 2026-04-10
denoising-diffusion-pytorch
去噪扩散概率模型的PyTorch实现,生成模型领域核心算法库。简洁易用的扩散模型训练框架。
- Stars: ⭐️ 10.5k
- Tags:
diffusion-modelsgenerative-modelpytorch - 最后活动时间: 2026-02-11
openFrameworks
跨平台创意编程工具包,支持图形、音频、计算机视觉等多媒体应用开发。
- Stars: ⭐️ 10.4k
- Tags:
creative-codingcomputer-visionopencvcpp - 最后活动时间: 2026-04-07
easydiffusion
一键式AI艺术创作工具,无需技术背景即可在本地生成精美图像。提供简洁的浏览器界面,支持文本生成图像。
- Stars: ⭐️ 10.3k
- Tags:
Stable DiffusionImage GenerationGUI - 最后活动时间: 2026-04-01
krita-ai-diffusion
Krita图像编辑器的AI扩散插件,支持文生图、内补和外补功能。
- Stars: ⭐️ 10.0k
- Tags:
stable-diffusionkrita-pluginimage-generationgenerative-ai - 最后活动时间: 2026-04-11
manga-image-translator
基于深度学习的漫画/图片文字翻译工具,集成OCR文字检测、机器翻译和图像修复功能,支持一键翻译各类图片内文字。
- Stars: ⭐️ 9.7k
- Tags:
ocrmachine-translationimage-processinginpaintingneural-network - 最后活动时间: 2026-03-29
sam3
Meta Segment Anything Model 3 (SAM 3) 的官方仓库,提供模型推理、微调代码及预训练权重下载,支持图像分割任务。
- Stars: ⭐️ 8.9k
- Tags:
segment-anythingimage-segmentationcomputer-visionmeta-aisam - 最后活动时间: 2026-03-31
VAR
NeurIPS 2024最佳论文官方实现,提出视觉自回归建模方法,超越扩散模型的新一代图像生成范式。
- Stars: ⭐️ 8.7k
- Tags:
AutoregressiveImage GenerationSOTA - 最后活动时间: 2025-11-10
chandra
强大的OCR模型,支持复杂表格、表单和手写内容的完整版面识别。
- Stars: ⭐️ 8.6k
- Tags:
ocrdocument-processinghandwriting-recognition - 最后活动时间: 2026-04-09
awesome-3D-gaussian-splatting
3D高斯泼溅技术资源精选,涵盖神经渲染、NeRF相关的前沿论文与实现,是3D视觉与AI交叉领域的热门方向。
- Stars: ⭐️ 8.5k
- Tags:
3d-gaussian-splattingnerfneural-renderingcomputer-vision - 最后活动时间: 2026-04-08
nnUNet
医学图像分割领域的顶级深度学习框架,自动配置网络架构和预处理流程,在多个医学分割挑战中取得SOTA成绩。
- Stars: ⭐️ 8.3k
- Tags:
medical-imagingsegmentationdeep-learning - 最后活动时间: 2026-04-10
imaginAIry
Pythonic AI图像和视频生成工具,提供简洁的Python接口进行AI内容创作。
- Stars: ⭐️ 8.1k
- Tags:
ai-image-generationai-videopython - 最后活动时间: 2026-02-24
ml-sharp
快速单目视图合成技术,可在不到一秒内生成高质量的新视角图像。
- Stars: ⭐️ 8.1k
- Tags:
computer-visionview-synthesismonoculardeep-learning - 最后活动时间: 2025-12-19
MONAI
医疗影像AI工具包,基于PyTorch提供高性能GPU加速的医学图像计算框架。
- Stars: ⭐️ 8.1k
- Tags:
deep-learninghealthcare-imagingmedical-imagingpytorch - 最后活动时间: 2026-04-12
fast-stable-diffusion
优化的Stable Diffusion工具集,支持DreamBooth训练,提供Colab笔记本快速部署。
- Stars: ⭐️ 7.9k
- Tags:
stable-diffusionimage-generationdreamboothcomfyuiflux - 最后活动时间: 2025-11-29
sygil-webui
Stable Diffusion 网页界面,提供友好的AI图像生成用户体验,支持多种模型和插件扩展。
- Stars: ⭐️ 7.9k
- Tags:
stable-diffusionwebuiimage-generationai-art - 最后活动时间: 2025-12-02
backgroundremover
基于AI的背景移除工具,支持图片和视频背景一键去除,提供简洁的命令行界面,免费开源。
- Stars: ⭐️ 7.8k
- Tags:
AIBackground RemovalImage ProcessingVideo Editing - 最后活动时间: 2026-03-21
face-alignment
基于PyTorch构建的2D和3D人脸对齐库,支持人脸检测与关键点定位,适用于人脸识别预处理。
- Stars: ⭐️ 7.5k
- Tags:
face-alignmentface-detectiondeep-learningpytorch - 最后活动时间: 2026-04-06
ccv
基于C语言的高性能计算机视觉库,提供现代化的CV功能实现,无外部依赖。
- Stars: ⭐️ 7.2k
- Tags:
computer-visionc-libraryimage-processing - 最后活动时间: 2026-04-12
civitai
AI 模型分享平台,汇集 Stable Diffusion 模型、文本反转等生成式 AI 资源。
- Stars: ⭐️ 7.1k
- Tags:
stable-diffusionmodelsimage-generationai - 最后活动时间: 2026-04-12
sdnext
全能型AI图像视频生成WebUI,支持Stable Diffusion、Flux等多种模型。集成图像生成、视频创作、字幕生成等功能。
- Stars: ⭐️ 7.0k
- Tags:
Stable DiffusionFluxWebUIVideo Generation - 最后活动时间: 2026-04-13
scikit-image
Python生态核心图像处理库,提供丰富的图像处理算法和科学计算工具。
- Stars: ⭐️ 6.5k
- Tags:
computer-visionimage-processingpythonscipy - 最后活动时间: 2026-04-10
sam-3d-objects
基于 Segment Anything Model (SAM) 的3D物体分割项目,将2D分割能力扩展到3D空间。
- Stars: ⭐️ 6.4k
- Tags:
segment-anything3d-segmentationcomputer-visionsam - 最后活动时间: 2026-03-12
VLM-R1
基于强化学习的视觉语言模型项目,将R1方法应用于多模态场景,实现视觉理解能力的突破性提升。
- Stars: ⭐️ 5.9k
- Tags:
VLMReinforcement LearningMultimodalDeepSeek-R1 - 最后活动时间: 2026-03-12
Chinese-CLIP
中文版CLIP模型,实现跨模态图文检索与表示生成。
- Stars: ⭐️ 5.9k
- Tags:
clipchinesemulti-modalcomputer-visionimage-text-retrieval - 最后活动时间: 2026-03-31
chaiNNer
基于节点的图像处理 GUI 工具,支持 AI 图像放大和处理任务的灵活编排。
- Stars: ⭐️ 5.7k
- Tags:
image-processingai-upscalingguinode-based - 最后活动时间: 2026-04-10
inpaint-web
基于WebGPU和WASM的免费开源图像修复与超分辨率工具,纯浏览器端运行。
- Stars: ⭐️ 5.7k
- Tags:
inpaintingimage-upscalingwebgpusuper-resolution - 最后活动时间: 2025-12-23
BLIP
Salesforce BLIP模型,统一视觉-语言理解与生成的预训练框架。
- Stars: ⭐️ 5.7k
- Tags:
vision-languageimage-captioningmultimodal - 最后活动时间: 2026-03-03
MobileSAM
官方MobileSAM项目,将Segment Anything Model轻量化以适配移动端应用,实现高效的图像分割能力。
- Stars: ⭐️ 5.7k
- Tags:
segment-anythingimage-segmentationmobile-aicomputer-vision - 最后活动时间: 2025-12-19
mmf
Meta AI开发的模块化多模态视觉-语言研究框架,支持VQA、图像描述、对话等多种任务,提供预训练模型。
- Stars: ⭐️ 5.6k
- Tags:
MultimodalVision-LanguageVQAPyTorch - 最后活动时间: 2026-04-07
TRELLIS.2
用于3D内容生成的原生紧凑结构化潜变量模型,支持高质量3D资产生成与编辑。
- Stars: ⭐️ 5.3k
- Tags:
3d-generationlatent-modelsimage-generationdeep-learning - 最后活动时间: 2026-01-10
opencv-python
OpenCV 的 Python 预编译包,提供强大的计算机视觉和图像处理能力,是 AI 视觉应用开发的基础库。
- Stars: ⭐️ 5.2k
- Tags:
opencvcomputer-visionimage-processingpython - 最后活动时间: 2026-02-03
Sana
基于线性扩散Transformer的高效高分辨率图像合成模型,支持文本到图像生成。
- Stars: ⭐️ 5.1k
- Tags:
文生图扩散模型Transformer - 最后活动时间: 2026-04-13
trace.moe
基于向量数据库的动漫场景反向图片搜索引擎,通过截图快速追溯动漫来源。
- Stars: ⭐️ 5.0k
- Tags:
animeimage-searchvector-databasereverse-search - 最后活动时间: 2026-04-06
unet
U-Net图像分割网络的Keras实现。经典的编码器-解码器架构,广泛应用于医学图像分割和语义分割任务。
- Stars: ⭐️ 4.9k
- Tags:
unetimage-segmentationkerasdeep-learning - 最后活动时间: 2026-03-27
gsplat
CUDA加速的3D Gaussian Splatting光栅化库,支持高效神经渲染和3D重建。
- Stars: ⭐️ 4.8k
- Tags:
gaussian-splattingcuda3d-reconstructionneural-rendering - 最后活动时间: 2026-04-09
deep-person-reid
基于PyTorch的行人重识别深度学习库,支持跨域度量学习与重排序。
- Stars: ⭐️ 4.8k
- Tags:
person-reidcomputer-visionmetric-learningpytorch - 最后活动时间: 2026-01-09
Open-Generative-AI
开源AI图像生成与视频创作工作室,支持Flux、SDXL、Midjourney等20+模型,可自托管部署。
- Stars: ⭐️ 4.6k
- Tags:
ai-image-generationai-video-generationgenerative-aiflux-1text-to-video - 最后活动时间: 2026-04-13
watermark-removal
基于深度学习的图像水印去除工具,使用图像修复技术自动移除水印。
- Stars: ⭐️ 4.5k
- Tags:
image-inpaintingdeep-learningcomputer-vision - 最后活动时间: 2026-02-09
Open-Higgsfield-AI
开源免费的AI图像生成与电影工作室,支持Flux、SDXL等20+模型。可自托管部署,提供完整的图像与视频创作功能。
- Stars: ⭐️ 4.4k
- Tags:
AI图像生成视频创作开源替代 - 最后活动时间: 2026-04-11
star-vector
基于视觉语言模型的SVG生成基础模型,将矢量化转化为代码生成任务。
- Stars: ⭐️ 4.4k
- Tags:
SVGVLMCode Generation - 最后活动时间: 2025-11-07
pollinations
开源生成式AI平台,提供友好的AI创作体验,支持多种生成模型。
- Stars: ⭐️ 4.3k
- Tags:
Gen-AIOpen SourcePlatform - 最后活动时间: 2026-04-13
flow_matching
基于PyTorch的流匹配算法库,支持连续与离散流匹配,提供文本与图像生成的实战示例。
- Stars: ⭐️ 4.3k
- Tags:
pytorchflow-matchinggenerative-ai - 最后活动时间: 2026-01-05
OmniGen
统一的图像生成模型,支持文生图、图像编辑等多种任务,无需额外组件即可完成复杂生成任务。
- Stars: ⭐️ 4.3k
- Tags:
Image GenerationDiffusionMulti-task - 最后活动时间: 2025-12-04
diffusion-models-class
Hugging Face扩散模型课程,深入讲解图像生成模型原理与实践。
- Stars: ⭐️ 4.3k
- Tags:
diffusion-modelsimage-generationhuggingfacegenerative-ai - 最后活动时间: 2026-04-02
HunyuanDiT
腾讯混元DiT扩散Transformer模型,支持多分辨率图像生成,具备精细中文语义理解。
- Stars: ⭐️ 4.3k
- Tags:
DiffusionText-to-Image中文 - 最后活动时间: 2025-11-27
supersplat
基于浏览器的3D高斯泼溅编辑器,支持编辑AI生成的3D场景重建结果。
- Stars: ⭐️ 4.1k
- Tags:
gaussian-splatting3dwebgpueditor - 最后活动时间: 2026-04-11
ComfyUI_examples
ComfyUI工作流示例集合,展示Stable Diffusion图像生成的各种节点组合与技巧。
- Stars: ⭐️ 4.1k
- Tags:
comfyuistable-diffusionimage-generationworkflow - 最后活动时间: 2025-11-26
OmniGen2
探索高级多模态生成的统一模型,支持多种生成任务的统一架构。
- Stars: ⭐️ 4.0k
- Tags:
multimodal-generationimage-generationunified-model - 最后活动时间: 2026-03-20
White-box-Cartoonization
CVPR2020论文实现,基于白盒卡通表示学习的图像卡通化转换工具。
- Stars: ⭐️ 4.0k
- Tags:
cartoonizationimage-processingcvprtensorflow - 最后活动时间: 2026-01-19
SwarmUI
模块化的Stable Diffusion Web界面,支持ComfyUI后端,提供高性能图像生成和强大的扩展能力。
- Stars: ⭐️ 4.0k
- Tags:
stable-diffusionimage-generationaicomfyui - 最后活动时间: 2026-04-13
brush
基于高斯溅射技术的通用3D重建工具,支持快速高质量场景重建。
- Stars: ⭐️ 3.9k
- Tags:
gaussian-splatting3d-reconstructionnerf - 最后活动时间: 2026-04-11
ComfyUI-3D-Pack
ComfyUI的3D处理扩展节点套件,支持3DGS、NeRF等前沿算法处理3D网格和纹理。
- Stars: ⭐️ 3.7k
- Tags:
comfyui3dgsnerfmachine-learning3d-processing - 最后活动时间: 2025-12-29
MagicQuill
CVPR'25论文官方实现,智能交互式图像编辑系统,支持基于MLLM的精准图像编辑。
- Stars: ⭐️ 3.7k
- Tags:
image-editingmllmaigcgradio - 最后活动时间: 2025-12-03
gemini-watermark-remover
高性能纯浏览器端Gemini AI水印去除工具,使用数学精确的反向Alpha混合算法实现无损去水印。
- Stars: ⭐️ 3.6k
- Tags:
watermark-removalgemini-aiimage-processingjavascript - 最后活动时间: 2026-04-10
sd-webui-roop
Stable Diffusion WebUI 的 Roop 换脸扩展插件。
- Stars: ⭐️ 3.5k
- Tags:
stable-diffusionface-swapwebui-plugin - 最后活动时间: 2026-03-13
Hunyuan3D-1
腾讯混元3D生成框架,统一支持文本到3D和图像到3D的生成能力。
- Stars: ⭐️ 3.5k
- Tags:
3d-generationtext-to-3dimage-to-3dgenerative-ai - 最后活动时间: 2025-11-19
ComfyUI-GGUF
为ComfyUI原生模型提供GGUF量化支持,降低显存占用并加速图像生成推理。
- Stars: ⭐️ 3.5k
- Tags:
GGUFComfyUIQuantization - 最后活动时间: 2026-01-12
photon
高性能的Rust/WebAssembly图像处理库,支持多种图像操作和滤镜效果,适用于Web端和AI图像处理管道。
- Stars: ⭐️ 3.4k
- Tags:
image-processingwebassemblyrustcomputer-vision - 最后活动时间: 2026-02-28
waifu2x-ncnn-vulkan
基于ncnn的waifu2x图像超分辨率工具,利用Vulkan实现跨平台GPU加速,适用于动漫图像放大降噪。
- Stars: ⭐️ 3.4k
- Tags:
Image UpscalingVulkanAnime - 最后活动时间: 2026-04-02
Hunyuan3D-2.1
混元3D最新版本,从图像生成高保真3D资产,支持生产级PBR材质。
- Stars: ⭐️ 3.3k
- Tags:
hunyuan3dimage-to-3dtext-to-3dtexture-generation - 最后活动时间: 2025-10-17
UnityGaussianSplatting
在Unity中实现Gaussian Splatting可视化的实验性项目,支持3D高斯渲染技术的实时展示与交互。
- Stars: ⭐️ 3.2k
- Tags:
gaussian-splattingunity3d-reconstructionneural-rendering - 最后活动时间: 2025-10-17
IQA-PyTorch
基于PyTorch的图像质量评估工具箱,支持PSNR、SSIM、LPIPS、FID等多种评估指标,涵盖全参考和无参考图像质量评估方法。
- Stars: ⭐️ 3.2k
- Tags:
image-quality-assessmentpytorchdeep-learningcomputer-vision - 最后活动时间: 2026-04-09
Skywork-R1V
Skywork AI开发的高级多模态模型系列,专注于视觉语言推理任务。
- Stars: ⭐️ 3.2k
- Tags:
MultimodalVLMVision-Language - 最后活动时间: 2025-12-15
2d-gaussian-splatting
SIGGRAPH'24论文实现,用于几何精确辐射场的高质量新视角合成与表面重建。
- Stars: ⭐️ 3.1k
- Tags:
gaussian-splattingnovel-view-synthesis3d-reconstructionneural-rendering - 最后活动时间: 2025-11-24
nunif
waifu2x最新版本及2D视频转立体3D视频转换工具集。
- Stars: ⭐️ 3.1k
- Tags:
waifu2xsuper-resolutionstereo-3dvideo-processing - 最后活动时间: 2026-04-11
Marigold
CVPR 2024口头报告论文,将扩散模型图像生成器重新用于单目深度估计,支持零样本推理。
- Stars: ⭐️ 3.1k
- Tags:
depth-estimationdiffusionzero-shot - 最后活动时间: 2025-12-10
map-anything
通用前馈度量3D重建模型,支持深度估计、多视角立体视觉和机器人应用场景。
- Stars: ⭐️ 3.1k
- Tags:
3d-reconstructiondepth-estimationimage-to-3drobotics - 最后活动时间: 2026-03-23
awesome-virtual-try-on
虚拟试穿领域精选资源列表,汇集论文、代码、数据集,涵盖2D/3D试穿与多姿态引导技术。
- Stars: ⭐️ 3.1k
- Tags:
虚拟试穿图像生成计算机视觉 - 最后活动时间: 2026-03-05
QualityScaler
基于AI的图像和视频超分辨率放大应用,支持降噪和压缩伪影消除,可运行于NVIDIA/AMD/Intel GPU。
- Stars: ⭐️ 3.0k
- Tags:
Super ResolutionImage EnhancementVideo Upscaling - 最后活动时间: 2026-04-05
HunyuanImage-3.0
腾讯混元图像生成模型3.0版本,强大的原生多模态图像生成模型,支持高质量图像创作。
- Stars: ⭐️ 3.0k
- Tags:
image-generationmultimodal-modeltext-to-imagediffusion-model - 最后活动时间: 2026-02-03
Pointcept
点云感知研究代码库,包含PTv3、Sonata等最新3D视觉研究成果。
- Stars: ⭐️ 3.0k
- Tags:
point-cloud3d-visionpytorch - 最后活动时间: 2026-04-07
splat
基于WebGL的3D高斯泼溅渲染查看器,支持加载和可视化3D高斯泼溅场景,适用于神经渲染和新型视图合成领域。
- Stars: ⭐️ 2.9k
- Tags:
3d-gaussian-splattingwebglviewerneural-rendering - 最后活动时间: 2025-11-16
jeelizFaceFilter
轻量级WebGL人脸检测与AR滤镜库,支持实时多人脸追踪和表情识别,可集成Three.js和Babylon.js。
- Stars: ⭐️ 2.9k
- Tags:
face-detectionaugmented-realitywebgldeep-learning - 最后活动时间: 2025-11-14
swift-coreml-diffusers
基于Core ML的Stable Diffusion Swift实现,支持在Apple设备上本地运行图像生成。
- Stars: ⭐️ 2.9k
- Tags:
stable-diffusioncoremlswiftimage-generationapple - 最后活动时间: 2026-04-10
ComfyUI-nunchaku
Nunchaku的ComfyUI插件,提供高效的扩散模型量化推理能力。
- Stars: ⭐️ 2.8k
- Tags:
ComfyUI扩散模型量化 - 最后活动时间: 2026-02-19
LichtFeld-Studio
3D高斯泼溅场景的完整解决方案,支持训练、编辑、自动化处理与导出。
- Stars: ⭐️ 2.8k
- Tags:
gaussian-splatting3d-reconstructioncomputer-visioncuda - 最后活动时间: 2026-04-12
sam-3d-body
SAM 3D人体模型推理代码,提供预训练模型和数据集,支持3D人体建模。
- Stars: ⭐️ 2.8k
- Tags:
3d-body-modelsegment-anythingcomputer-vision - 最后活动时间: 2026-02-19
SimpleTuner
面向图像、视频和音频扩散模型的通用微调工具包,支持Stable Diffusion、Flux等主流模型的高效训练。
- Stars: ⭐️ 2.8k
- Tags:
DiffusionFine-tuningStable Diffusion - 最后活动时间: 2026-04-10
a1111-sd-webui-tagcomplete
Stable Diffusion WebUI标签自动补全扩展,提供Booru风格的智能提示词补全功能。
- Stars: ⭐️ 2.8k
- Tags:
stable-diffusionautocompletionprompt-engineeringwebui-extension - 最后活动时间: 2026-03-21
voxelmorph
基于无监督学习的医学图像配准框架,支持变形场估计与图像对齐。
- Stars: ⭐️ 2.7k
- Tags:
image-registrationmedical-imagingunsupervised-learningdeep-learning - 最后活动时间: 2026-02-14
GaussianSplats3D
基于Three.js的3D高斯泼溅渲染库,支持实时神经渲染和新视角合成。
- Stars: ⭐️ 2.7k
- Tags:
3d-gaussian-splattingneural-renderingthreejswebgl - 最后活动时间: 2025-10-19
DeepSeek-OCR-2
DeepSeek推出的视觉因果流OCR模型,专注于文档理解和文字识别任务。
- Stars: ⭐️ 2.7k
- Tags:
ocrdeepseekvisual-aidocument-understanding - 最后活动时间: 2026-02-03
Stable-Diffusion
全面的Stable Diffusion学习资源库,涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。
- Stars: ⭐️ 2.7k
- Tags:
Stable DiffusionLoRAComfyUIImage Generation - 最后活动时间: 2026-04-09
xDiT
可扩展的Diffusion Transformers推理引擎,支持大规模并行计算,显著提升DiT模型推理性能。
- Stars: ⭐️ 2.6k
- Tags:
DiffusionInferenceParallelism - 最后活动时间: 2026-04-09
k-diffusion
Karras等人扩散模型PyTorch实现,高质量图像生成库。
- Stars: ⭐️ 2.6k
- Tags:
diffusion-modelsimage-generationpytorch - 最后活动时间: 2026-02-12
stitching
Python图像拼接包,提供快速鲁棒的全景图像拼接功能。
- Stars: ⭐️ 2.6k
- Tags:
image-stitchingpanoramacomputer-visionpython - 最后活动时间: 2026-03-16
Restormer
高效Transformer模型,专用于高分辨率图像恢复任务,在去模糊、去雨、去噪等任务达到SOTA性能。
- Stars: ⭐️ 2.5k
- Tags:
Transformer图像恢复CVPR2022 - 最后活动时间: 2025-10-23
OmniSVG
首个端到端多模态SVG生成器,基于预训练视觉语言模型,可生成从图标到动漫角色的复杂SVG。
- Stars: ⭐️ 2.5k
- Tags:
SVG GenerationVLMNeurIPS 2025 - 最后活动时间: 2026-03-01
conditional-flow-matching
条件流匹配库TorchCFM,用于生成模型训练。
- Stars: ⭐️ 2.4k
- Tags:
flow-matchinggenerative-modelsoptimal-transport - 最后活动时间: 2025-11-11
bgslibrary
C++背景减除库,提供多种背景建模算法,支持Python、MATLAB和Java绑定。
- Stars: ⭐️ 2.3k
- Tags:
background-subtractioncomputer-visionopencv - 最后活动时间: 2025-11-18
JiT
JiT 方法的 PyTorch 实现,用于高效图像生成任务。
- Stars: ⭐️ 2.2k
- Tags:
image-generationpytorchgenerative-model - 最后活动时间: 2025-12-08
gpupixel
基于GPU的实时图像滤镜引擎,支持人脸检测、美颜、瘦脸等AI图像处理功能。
- Stars: ⭐️ 2.2k
- Tags:
image-processinggpuface-detectionfilter - 最后活动时间: 2026-02-13
mediapipe-touchdesigner
GPU加速的MediaPipe TouchDesigner插件,用于实时计算机视觉和手势识别应用。
- Stars: ⭐️ 2.2k
- Tags:
mediapipetouchdesignercomputer-visiongpu - 最后活动时间: 2025-11-18
Step1X-Edit
SOTA级开源图像编辑模型,性能媲美GPT-4o和Gemini 2 Flash等闭源模型。
- Stars: ⭐️ 2.2k
- Tags:
image-editingmultimodalvisual-reasoningopen-source - 最后活动时间: 2025-12-29
Awesome-Image-Inpainting
图像修复与视频修复领域的精选论文和资源合集,涵盖人脸补全、图像修复等前沿研究方向。
- Stars: ⭐️ 2.2k
- Tags:
image-inpaintingvideo-inpaintingcomputer-visiondeep-learning - 最后活动时间: 2026-02-09
local-dream
在Android设备上运行Stable Diffusion,支持骁龙NPU加速及CPU/GPU推理。
- Stars: ⭐️ 2.1k
- Tags:
stable-diffusionandroidnpuimage-generation - 最后活动时间: 2026-03-27
cellpose
通用细胞分割算法,支持人机交互标注,广泛应用于生物医学图像分析领域。
- Stars: ⭐️ 2.1k
- Tags:
cell-segmentationbioimagedeep-learning - 最后活动时间: 2026-04-09
flux2
FLUX.2图像生成模型的官方推理仓库。
- Stars: ⭐️ 2.1k
- Tags:
fluximage-generationdiffusion-modelinference - 最后活动时间: 2026-03-12
gowall
多功能图像处理工具,支持VLM视觉语言模型OCR识别、对抗网络图像超分辨率放大、色彩提取与主题转换等功能。
- Stars: ⭐️ 2.1k
- Tags:
image-processingocrupscalecolor-palettecli - 最后活动时间: 2026-04-09
MambaVision
CVPR 2025论文,混合Mamba-Transformer视觉骨干网络,支持图像分类、检测和分割。
- Stars: ⭐️ 2.1k
- Tags:
mambavision-transformerimage-classificationobject-detection - 最后活动时间: 2026-03-11
DreamOmni2
多模态指令驱动的图像编辑与生成统一模型,支持基于自然语言指令的图像处理任务。
- Stars: ⭐️ 2.1k
- Tags:
图像编辑图像生成多模态 - 最后活动时间: 2026-04-11
3dgrut
高斯粒子的光线追踪与混合光栅化渲染技术,用于3D场景重建。
- Stars: ⭐️ 2.1k
- Tags:
gaussian-splattingray-tracing3d-reconstructioncomputer-vision - 最后活动时间: 2026-04-13
ICEdit
高效图像编辑工具,仅需单个LoRA即可实现高质量图像编辑。
- Stars: ⭐️ 2.1k
- Tags:
image-editingloradiffusion - 最后活动时间: 2025-12-19
spark
基于THREE.js的高级3D高斯泼溅渲染器,支持神经辐射场风格的实时3D重建与渲染。
- Stars: ⭐️ 2.1k
- Tags:
3d-gaussian-splattingnerfthreejswebgl - 最后活动时间: 2026-04-12
ViTPose
NeurIPS 2022论文,基于Vision Transformer的人体姿态估计模型。
- Stars: ⭐️ 2.0k
- Tags:
pose-estimationvision-transformerself-supervisedpytorch - 最后活动时间: 2025-12-25
ml-hypersim
用于室内场景理解的光真实感合成数据集,提供高质量的3D场景渲染数据。
- Stars: ⭐️ 2.0k
- Tags:
datasetsynthetic-dataindoor-scenecomputer-vision - 最后活动时间: 2026-01-09
mflux
基于Apple MLX框架的原生生成图像模型实现,针对Apple Silicon优化。
- Stars: ⭐️ 2.0k
- Tags:
mlxfluxapple-siliconimage-generation - 最后活动时间: 2026-04-10
custom-diffusion
CVPR 2023论文实现,专注于文本到图像扩散模型的多概念定制化微调,支持少样本学习。
- Stars: ⭐️ 2.0k
- Tags:
diffusion-modelstext-to-imagefine-tuningcomputer-vision - 最后活动时间: 2025-12-01
OpenSplat
生产级3D高斯泼溅重建工具,支持CPU/GPU跨平台运行,适用于神经辐射场和3D场景重建。
- Stars: ⭐️ 1.9k
- Tags:
3dgaussian-splattingradiance-fieldneural-rendering - 最后活动时间: 2025-12-26
Show-o
统一多模态理解和生成的单一Transformer模型,ICLR/NeurIPS 2025接收,融合扩散模型与大语言模型。
- Stars: ⭐️ 1.9k
- Tags:
多模态扩散模型大语言模型 - 最后活动时间: 2026-01-08
pymatting
Python图像Alpha抠图库,用于前景提取和图像处理任务。
- Stars: ⭐️ 1.9k
- Tags:
alpha-mattingimage-processingcomputer-vision - 最后活动时间: 2026-04-07
mar
MAR+DiffLoss 的 PyTorch 实现,用于自回归图像生成的创新方法。
- Stars: ⭐️ 1.9k
- Tags:
autoregressive-modelimage-generationdiffusionpytorch - 最后活动时间: 2026-02-20
WorldGen
基于生成式AI的3D场景生成工具,支持文本和图像快速生成任意3D场景,实现秒级高质量三维内容创作。
- Stars: ⭐️ 1.9k
- Tags:
3D GenerationText-to-3DScene Generation - 最后活动时间: 2026-04-12
OpenSeeFace
实时人脸与面部关键点追踪库,支持CPU运行并提供Unity集成,适用于虚拟主播等应用场景。
- Stars: ⭐️ 1.8k
- Tags:
face-trackingface-detectiononnxpytorchunity - 最后活动时间: 2025-12-28
GlobalMLBuildingFootprints
从卫星图像提取的全球建筑物轮廓数据集,支持地理空间AI应用开发。
- Stars: ⭐️ 1.8k
- Tags:
satellite-imagerybuilding-detectiondatasetgeospatial - 最后活动时间: 2026-03-11
nvdiffrast
NVIDIA开发的高性能可微分渲染库,为AI图形学和神经渲染提供模块化原语支持。
- Stars: ⭐️ 1.8k
- Tags:
differentiable-renderingneural-graphicsgpunvidia - 最后活动时间: 2025-12-08
tribev2
TRIBE v2多模态模型,用于脑响应预测的研究项目,结合神经科学与深度学习技术。
- Stars: ⭐️ 1.8k
- Tags:
multimodalbrain-responseneurosciencedeep-learning - 最后活动时间: 2026-03-30
ComfyUI-Prompt-Assistant
ComfyUI提示词助手插件,支持多LLM服务的提示词翻译、扩写和图片反推功能。
- Stars: ⭐️ 1.8k
- Tags:
ComfyUIPromptImage Generation - 最后活动时间: 2026-04-10
Emu
BAAI推出的多模态生成基础模型系列,支持上下文学习和指令微调。
- Stars: ⭐️ 1.8k
- Tags:
multimodalfoundation-modelgenerative-ai - 最后活动时间: 2026-01-12
ComfyUI_frontend
ComfyUI官方前端实现,为节点式AI图像生成工作流提供现代化可视化界面,支持拖拽式构建复杂的Stable Diffusion处理流程。
- Stars: ⭐️ 1.7k
- Tags:
Stable DiffusionImage GenerationNode Editor - 最后活动时间: 2026-04-13
OnnxOCR
基于PaddleOCR重构的轻量级OCR系统,脱离PaddlePaddle框架,推理速度极快。
- Stars: ⭐️ 1.7k
- Tags:
ocronnxdeep-learningcomputer-vision - 最后活动时间: 2025-11-01
deepseek_ocr_app
基于DeepSeek模型构建的OCR文字识别应用,支持图像到文本的快速转换。
- Stars: ⭐️ 1.7k
- Tags:
ocrdeepseekimage-to-text - 最后活动时间: 2026-03-31
gaustudio
模块化 3D 高斯泼溅框架,支持多视图重建和表面重建。
- Stars: ⭐️ 1.7k
- Tags:
3d-gaussian-splattingnerf3d-reconstructionpytorchcomputer-vision - 最后活动时间: 2025-11-05
pupil
开源眼动追踪项目,利用计算机视觉技术实现眼球检测与追踪,可应用于人机交互、心理学研究等领域。
- Stars: ⭐️ 1.7k
- Tags:
eye-trackingcomputer-visionopen-source - 最后活动时间: 2026-03-16
lightweight-gan
ICLR 2021轻量级GAN实现,支持快速训练高分辨率图像生成模型。
- Stars: ⭐️ 1.7k
- Tags:
ganimage-generationdeep-learningpytorch - 最后活动时间: 2026-03-31
ComfyUI-Florence2
ComfyUI的Microsoft Florence2视觉语言模型推理节点。
- Stars: ⭐️ 1.7k
- Tags:
comfyuiflorence2vlmvision-language-model - 最后活动时间: 2026-04-08
CatVTON
ICLR 2025论文,轻量级虚拟试穿扩散模型,仅需8G显存支持1024x768分辨率。
- Stars: ⭐️ 1.7k
- Tags:
virtual-try-ondiffusion-modelsfashionimage-generation - 最后活动时间: 2025-12-16
BrickGPT
基于文本提示生成物理稳定的积木模型,支持NeurIPS 2025论文实现。
- Stars: ⭐️ 1.6k
- Tags:
3d-generationtext-to-3dlego - 最后活动时间: 2026-02-07
MMaDA
开源多模态大扩散语言模型,融合块扩散、混合思维链和统一强化学习技术。
- Stars: ⭐️ 1.6k
- Tags:
diffusion-modelsmultimodal-llmreasoning - 最后活动时间: 2026-02-14
Sa2VA
像素级大语言模型代码库,融合视觉与语言的多模态研究项目。
- Stars: ⭐️ 1.6k
- Tags:
MLLMcomputer-visionpixel-llm - 最后活动时间: 2026-02-27
DanceGRPO
将GRPO强化学习算法应用于视觉生成任务的官方实现。
- Stars: ⭐️ 1.6k
- Tags:
GRPOVisual GenerationRL - 最后活动时间: 2025-10-16
Infinity
CVPR 2025 Oral论文,用于高分辨率图像合成的自回归模型。
- Stars: ⭐️ 1.6k
- Tags:
text-to-imageautoregressiveimage-generationtransformers - 最后活动时间: 2025-11-10
LucidDreamer
基于3D Gaussian Splatting技术的场景生成方法,无需特定域约束即可生成高质量3D场景。
- Stars: ⭐️ 1.5k
- Tags:
3d-gaussian-splattingscene-generationgenerative-ai - 最后活动时间: 2025-11-24
SAM-Adapter-PyTorch
通过适配器和提示将Segment Anything模型迁移到下游分割任务的PyTorch实现。
- Stars: ⭐️ 1.5k
- Tags:
Segment AnythingAdapterFine-tuning - 最后活动时间: 2025-12-01
pyntcloud
3D点云处理Python库,支持点云可视化与深度学习应用。
- Stars: ⭐️ 1.5k
- Tags:
3d-point-cloudsdeep-learningpython3d-graphics - 最后活动时间: 2026-01-28
ComfyUI_UltimateSDUpscale
ComfyUI的高质量图像放大节点扩展,支持多种放大算法,显著提升Stable Diffusion生成图像的分辨率和细节。
- Stars: ⭐️ 1.5k
- Tags:
ComfyUI图像放大Stable Diffusion - 最后活动时间: 2026-04-08
ComfyUI-BlenderAI-node
Blender AI 生成插件,基于 ComfyUI 实现纹理增强与渲染引擎集成。
- Stars: ⭐️ 1.5k
- Tags:
aiblendercomfyuiimage-generation - 最后活动时间: 2025-11-28
DDColor
ICCV 2023论文,通过双解码器实现照片级真实的图像着色效果。
- Stars: ⭐️ 1.4k
- Tags:
image-colorizationcomputer-visiondeep-learning - 最后活动时间: 2026-01-17
ComfyUI-Docker
ComfyUI的Docker容器化部署方案,支持Stable Diffusion图像生成工作流,开箱即用。
- Stars: ⭐️ 1.4k
- Tags:
comfyuistable-diffusiondocker - 最后活动时间: 2026-04-13
realesrgan-gui
跨平台AI图像超分辨率放大工具GUI,支持Real-ESRGAN和Real-CUGAN模型,提供美观易用的图形界面。
- Stars: ⭐️ 1.4k
- Tags:
real-esrgansuper-resolutionimage-upscalinggui - 最后活动时间: 2026-02-20
yomitoku
专为日语设计的 AI 文档图像分析 Python 包,集成深度学习 OCR 和版面分析功能,支持 PyTorch 框架。
- Stars: ⭐️ 1.4k
- Tags:
OCR文档分析日语PyTorch - 最后活动时间: 2026-04-09
JoyAI-Image
统一的多模态基础模型,支持图像理解、文本生成图像和指令引导的图像编辑功能。
- Stars: ⭐️ 1.3k
- Tags:
multimodalimage-generationimage-editingtext-to-image - 最后活动时间: 2026-04-12
TinyGPT-V
高效轻量级多模态大语言模型,采用小型骨干网络实现视觉语言理解与生成。
- Stars: ⭐️ 1.3k
- Tags:
multimodal-llmvision-languageefficient-model - 最后活动时间: 2026-02-05
DLSS
NVIDIA 深度学习超级采样技术,利用神经网络提升游戏帧率并生成高质量图像。
- Stars: ⭐️ 1.3k
- Tags:
dlssnvidiaimage-upscalinggaming - 最后活动时间: 2026-01-26
image-matching-webui
基于Gradio的图像匹配Web界面,集成多种深度学习模型如SuperGlue、LightGlue、LoFTR等,支持特征匹配和位姿估计。
- Stars: ⭐️ 1.2k
- Tags:
image-matchingdeep-learningfeature-matchinggradio - 最后活动时间: 2026-04-11
sprite-sheet-creator
基于fal.ai的2D角色和地图精灵图生成工具,支持创建可玩的像素风格游戏素材。
- Stars: ⭐️ 1.2k
- Tags:
sprite-sheetgame-assetsai-generationfal-ai - 最后活动时间: 2026-03-25
comfyui-portrait-master
ComfyUI 节点插件,帮助 AI 图像创作者快速生成人物肖像的提示词,简化人像生成工作流。
- Stars: ⭐️ 1.2k
- Tags:
ComfyUI人像生成提示词 - 最后活动时间: 2026-02-09
LucidFlux
ICLR 2026论文,基于大规模扩散Transformer实现无需标注的高质量图像修复。
- Stars: ⭐️ 1.2k
- Tags:
diffusionimage-restorationtransformericlr - 最后活动时间: 2026-03-25
Stable-Diffusion-Android
Android平台上的Stable Diffusion AI客户端应用,支持连接Automatic1111 WebUI进行AI图像生成。
- Stars: ⭐️ 1.2k
- Tags:
stable-diffusionandroidai-image-generationkotlin - 最后活动时间: 2026-02-15
comfyui-inpaint-nodes
ComfyUI专业图像修复节点集合,支持Fooocus SDXL、LaMa、MAT等多种算法,提供强大的图像修复功能。
- Stars: ⭐️ 1.2k
- Tags:
ComfyUI图像修复Inpainting - 最后活动时间: 2026-04-10
sceneview
跨平台3D与AR SDK,支持Android、iOS、Web、Desktop等多端部署,集成Filament和RealityKit渲染引擎。
- Stars: ⭐️ 1.2k
- Tags:
3dararcorearkitkotlinswiftwebxr - 最后活动时间: 2026-04-13
SiT
探索流模型和扩散模型的可扩展插值Transformer生成模型。
- Stars: ⭐️ 1.1k
- Tags:
diffusion-modeltransformergenerative-model - 最后活动时间: 2025-12-22
FireRed-Image-Edit
开源SOTA图像编辑基础模型,支持精确指令跟随、高保真生成和优异身份一致性。
- Stars: ⭐️ 1.1k
- Tags:
Image EditingDiffusionAIGC - 最后活动时间: 2026-04-03
CityGaussian
ECCV 2024 & ICLR 2025 系列,基于高斯泼溅的大规模场景高质量重建方法。
- Stars: ⭐️ 1.1k
- Tags:
gaussian-splattinglarge-scaleneural-renderingscene-reconstruction - 最后活动时间: 2026-02-07
biniou
一个自托管的生成式AI WebUI,支持30多种AI模型,包括Stable Diffusion、FLUX、AnimateDiff、Bark、Whisper等,覆盖图像、音频、视频多模态生成。
- Stars: ⭐️ 1.1k
- Tags:
Generative AIWebUIStable DiffusionMultimodal - 最后活动时间: 2026-04-12
Fastest_Image_Pattern_Matching
高性能图像模板匹配算法实现,基于归一化互相关算法优化。
- Stars: ⭐️ 1.1k
- Tags:
pattern-matchingtemplate-matchingopencvimage-alignment - 最后活动时间: 2026-01-20
MeanFlow
一步生成建模的PyTorch实现,探索流匹配和扩散模型的高效生成方法。
- Stars: ⭐️ 1.1k
- Tags:
DiffusionFlow MatchingGenerative Model - 最后活动时间: 2025-12-17
Awesome-Image-Composition
图像合成与物体插入领域的论文、代码和资源精选列表,涵盖图像融合、和谐化、阴影生成等生成式AI技术。
- Stars: ⭐️ 1.1k
- Tags:
image-compositionimage-harmonizationgenerative-aicomputer-vision - 最后活动时间: 2026-02-24
LanPaint
高质量免训练图像修复工具,支持所有Stable Diffusion模型和ComfyUI。
- Stars: ⭐️ 1.1k
- Tags:
inpaintingstable-diffusioncomfyui - 最后活动时间: 2026-04-11
ComfyUI-qwenmultiangle
ComfyUI 自定义节点,提供交互式 Three.js 视口控制相机角度,用于多角度 AI 图像生成。
- Stars: ⭐️ 1.1k
- Tags:
comfyuiimage-generation3d-camerastable-diffusion - 最后活动时间: 2026-03-24
Uni-MoE
大规模多模态模型家族,基于混合专家架构实现多模态理解与生成能力。
- Stars: ⭐️ 1.1k
- Tags:
multimodalmoelarge-language-modelimage-generation - 最后活动时间: 2025-12-22
Lumina-mGPT-2.0
独立自回归图像建模研究项目,实现高质量图像生成。
- Stars: ⭐️ 1.1k
- Tags:
image-generationautoregressivemultimodalresearch - 最后活动时间: 2025-11-03
HunyuanWorld-Mirror
腾讯混元团队开发的快速通用3D重建模型,支持图像到3D、场景生成等多种任务。
- Stars: ⭐️ 1.1k
- Tags:
3d-reconstructionaigcimage-to-3dscene-generation - 最后活动时间: 2026-02-06
PowerPaint
ECCV 2024多功能图像修复模型,支持物体插入、移除、扩展等多种功能。
- Stars: ⭐️ 1.1k
- Tags:
inpaintingimage-editingstable-diffusion - 最后活动时间: 2025-12-20
ComfyUI-Lora-Manager
ComfyUI 的 LoRA 模型管理扩展,支持模型组织、预览和元数据管理,提升工作流效率。
- Stars: ⭐️ 1.1k
- Tags:
ComfyUILoRA ManagerImage Generation - 最后活动时间: 2026-04-08
gaussian-splatting-lightning
基于PyTorch Lightning的3D高斯泼溅框架,集成多种衍生算法与交互式Web查看器。
- Stars: ⭐️ 1.1k
- Tags:
gaussian-splatting3d-reconstructionpytorch-lightningnerfdeep-learning - 最后活动时间: 2026-03-13
TimeGAN
NeurIPS 2019论文代码,时间序列生成对抗网络,用于时序数据生成。
- Stars: ⭐️ 1.0k
- Tags:
time-seriesganneuripsdata-generation - 最后活动时间: 2026-02-05
ComfyUI-Easy-Install
跨平台便携式ComfyUI安装器,支持Nvidia GPU,简化Stable Diffusion工作流部署。
- Stars: ⭐️ 1.0k
- Tags:
comfyuistable-diffusionimage-generationinstaller - 最后活动时间: 2026-04-05
vertex-ai-creative-studio
Google Cloud Vertex AI生成媒体创意工作室,集成Imagen、Veo、Gemini TTS、Chirp等多模态AI能力。提供图像、视频、音频生成的完整解决方案。
- Stars: ⭐️ 1.0k
- Tags:
Vertex AIImagenVeoGeminiMultimodal - 最后活动时间: 2026-04-08
SyncDreamer
[ICLR 2024 Spotlight] 从单张图像生成多视角一致图像的扩散模型。
- Stars: ⭐️ 1.0k
- Tags:
3d-reconstructiondiffusion-modelsgenerative-aimultiview-generation - 最后活动时间: 2025-10-26
PatchFusion
CVPR 2024高分辨率单目度量深度估计的端到端分块框架。
- Stars: ⭐️ 1.0k
- Tags:
Depth EstimationComputer VisionCVPR 2024 - 最后活动时间: 2026-02-21
ConsistentID
多模态细粒度身份保持的人像生成模型,发表于TPAMI 2026。
- Stars: ⭐️ 1.0k
- Tags:
portrait-generationidentity-preservingmultimodalimage-generation - 最后活动时间: 2026-01-02
3dgs-render-blender-addon
KIRI Engine 出品的 3D Gaussian Splatting 渲染器 Blender 插件,支持神经渲染技术在 3D 建模中的应用。
- Stars: ⭐️ 989
- Tags:
3d-gaussian-splattingblenderneural-rendering3d-reconstruction - 最后活动时间: 2026-04-10
GaussianAvatars
CVPR 2024 Highlight 论文,基于3D高斯泼溅的逼真头部头像生成技术,支持实时渲染与动画驱动。
- Stars: ⭐️ 985
- Tags:
3d-gaussian-splattingavatar-generationcomputer-visionneural-rendering - 最后活动时间: 2026-02-11
DiffusionToolkit
专为AI生成图像设计的元数据索引器和查看器,支持Stable Diffusion等生成工具的PNG信息管理。
- Stars: ⭐️ 983
- Tags:
Stable Diffusion图像管理元数据 - 最后活动时间: 2026-02-27
muapi-cli
muapi.ai官方CLI工具,支持终端生成图像、视频和音频,集成MCP服务器。
- Stars: ⭐️ 978
- Tags:
aicliimage-generationvideo-generationmcp - 最后活动时间: 2026-04-13
PillOCR-python
基于大模型API的OCR工具,提供智能文字识别能力。
- Stars: ⭐️ 969
- Tags:
ocrllmpython - 最后活动时间: 2026-03-13
FastGS
CVPR 2026论文官方代码,将3D高斯泼溅训练时间缩短至100秒的革命性加速方法。
- Stars: ⭐️ 963
- Tags:
3dgsgaussian-splattingcvpr2026acceleration - 最后活动时间: 2026-03-23
Lumina-DiMOO
开源多模态大扩散语言模型,支持统一的多模态理解与生成能力。
- Stars: ⭐️ 962
- Tags:
diffusion-modelmultimodal-llmimage-generation - 最后活动时间: 2026-03-20
story-iter
ICLR 2026论文项目,提供无需训练的迭代框架用于长故事可视化,基于扩散模型实现高质量图像生成。
- Stars: ⭐️ 955
- Tags:
diffusion-modelsimage-generationstorytellingvisual-storytelling - 最后活动时间: 2026-04-02
Pixelle-MCP
基于ComfyUI + MCP + LLM的开源多模态AIGC解决方案,支持图像生成与编辑。
- Stars: ⭐️ 946
- Tags:
multimodalcomfyuimcpaigcimage-generation - 最后活动时间: 2025-12-17
NoPoSplat
ICLR 2025 Oral论文,从稀疏无位姿图像生成3D高斯溅射的简单高效方法。
- Stars: ⭐️ 946
- Tags:
3d-gaussian-splatting3d-reconstructioncomputer-visionnerf - 最后活动时间: 2026-02-25
Eagle
前沿视觉语言模型项目,采用以数据为中心的策略训练,支持多种主流大模型架构。
- Stars: ⭐️ 938
- Tags:
Vision-LanguageLMMLLaVA - 最后活动时间: 2025-10-25
Awesome-diffusion-model-for-image-processing
基于扩散模型的图像处理资源汇总,涵盖图像修复、增强、编码和质量评估等方向。
- Stars: ⭐️ 932
- Tags:
diffusion-modelsimage-processingimage-restorationimage-enhancement - 最后活动时间: 2026-04-08
Pytorch-Medical-Segmentation
医学图像分割的PyTorch实现,支持2D和3D分割任务。
- Stars: ⭐️ 927
- Tags:
medical-segmentationmedical-imagingpytorchtorchio - 最后活动时间: 2025-12-09
api-llm-ocr
基于视觉大模型的PDF转Markdown工具,支持表格、布局和结构保留,适用于文档AI处理场景。
- Stars: ⭐️ 890
- Tags:
OCRVision-LLMDocument-AIPDF - 最后活动时间: 2026-02-21
OpenStereo
立体匹配领域的综合基准测试工具,用于评估和比较各种立体匹配算法的性能表现。
- Stars: ⭐️ 885
- Tags:
stereo-matchingcomputer-visionbenchmarkdepth-estimation - 最后活动时间: 2026-03-30
StreamVGGT
ICLR 2026 论文实现,流式4D视觉几何Transformer,支持实时视觉几何处理与重建。
- Stars: ⭐️ 879
- Tags:
streaming4d-visiontransformercomputer-vision - 最后活动时间: 2025-10-27
UniPic
开源SOTA多图像编辑模型,支持高质量图像理解与编辑生成。
- Stars: ⭐️ 864
- Tags:
Image EditingDiffusionVLM - 最后活动时间: 2026-01-24
UniWorld
高分辨率语义编码器,统一视觉理解与生成能力,支持图像编辑与文本生成图像。
- Stars: ⭐️ 862
- Tags:
Image GenerationDiffusionVLM - 最后活动时间: 2025-12-23
Image-Generation-CoT
CVPR 2025 论文,首次探索图像生成中的 Chain-of-Thought 推理,涵盖强化学习与反思机制。
- Stars: ⭐️ 860
- Tags:
image-generationchain-of-thoughtdiffusionreasoning - 最后活动时间: 2026-03-19
GLM-Image
基于自回归的高保真图像生成模型,支持文本到图像和图像到图像的生成任务。
- Stars: ⭐️ 853
- Tags:
Text-to-ImageImage GenerationAuto-regressive - 最后活动时间: 2026-03-20
modly
桌面应用程序,利用本地AI从图像生成3D模型,完全在GPU上运行,支持离线使用。
- Stars: ⭐️ 850
- Tags:
3d-generationimage-to-3dlocal-aidesktop-appgpu - 最后活动时间: 2026-04-09
open-cd
变化检测工具箱,集成多种深度学习变化检测算法,支持BIT、Changer等模型。
- Stars: ⭐️ 845
- Tags:
change-detectiondeep-learningpytorchtransformer - 最后活动时间: 2025-11-15
Open-DiffusionGS
ICCV 2025论文,融合高斯泼溅与扩散模型,实现快速单阶段图像到3D生成与重建。
- Stars: ⭐️ 830
- Tags:
3D生成高斯泼溅扩散模型 - 最后活动时间: 2026-01-28
PoinTr
ICCV 2021 Oral论文,基于几何感知Transformer的点云补全模型,从部分点云重建完整3D几何结构。
- Stars: ⭐️ 827
- Tags:
3D VisionPoint CloudTransformer - 最后活动时间: 2025-12-15
PhysX-Anything
CVPR 2026论文,从单张图像生成具备物理仿真属性的3D资产。
- Stars: ⭐️ 823
- Tags:
image-to-3dphysical-modeling3d-generationcvpr - 最后活动时间: 2026-04-03
MonoScene
CVPR 2022论文,单目3D语义场景补全,从单张图像预测3D语义占用。
- Stars: ⭐️ 802
- Tags:
3d-scene-completionmonocularsemantic-segmentationpytorch - 最后活动时间: 2026-03-25
AnySplat
SIGGRAPH Asia 2025论文,实现从无约束视角进行前馈3D高斯泼溅渲染,无需逐场景优化即可重建3D场景。
- Stars: ⭐️ 799
- Tags:
3d-gaussian-splattingneural-rendering3d-reconstructionfeed-forward - 最后活动时间: 2025-12-22
gemini-nanobanana-pro
基于 Google Gemini 2.5 Flash 模型构建的 AI 图像生成与编辑 Web 应用,使用 Next.js 开发。
- Stars: ⭐️ 790
- Tags:
geminiimage-generationimage-editingnextjsweb-app - 最后活动时间: 2026-04-01
jimeng-free-api-all
即梦AI免费API服务,支持文生图、图生图、视频生成等功能,兼容OpenAI接口格式,支持多账号接入与零配置Docker部署。
- Stars: ⭐️ 788
- Tags:
ai-image-generationvideo-generationopenai-compatibledocker - 最后活动时间: 2026-04-11
CnSTD
基于PyTorch/MXNet的中文场景文字检测工具包,支持OCR、数学公式检测和版面分析。
- Stars: ⭐️ 787
- Tags:
ocrtext-detectiondeep-learningpytorchscene-text-detection - 最后活动时间: 2026-02-07
diffusion-point-cloud
CVPR 2021论文实现,基于扩散概率模型的3D点云生成方法,实现高质量三维点云生成与补全。
- Stars: ⭐️ 785
- Tags:
3D点云扩散模型生成模型 - 最后活动时间: 2025-11-28
Skyfall-GS
从卫星图像合成沉浸式3D城市场景,结合3D高斯泼溅与扩散模型技术实现高质量三维重建。
- Stars: ⭐️ 785
- Tags:
3D重建卫星图像高斯泼溅 - 最后活动时间: 2026-03-18
HVI-CIDNet
CVPR2025低光照图像增强方法,提出新型HVI颜色空间实现高质量暗光图像恢复。
- Stars: ⭐️ 784
- Tags:
image-enhancementlow-lighttransformercvpr2025 - 最后活动时间: 2026-03-09
fsgan
FSGAN 官方 PyTorch 实现,用于人脸重演和换脸的生成对抗网络。
- Stars: ⭐️ 778
- Tags:
face-swappingface-reenactmentganpytorchcomputer-vision - 最后活动时间: 2025-11-13
ocean
Meta开源的跨平台计算机视觉与增强现实框架,C++实现,支持CV和AR应用开发。
- Stars: ⭐️ 777
- Tags:
computer-visionaugmented-realitymetacpp - 最后活动时间: 2026-04-11
scribeocr
基于Web的OCR文档识别与校对工具,支持创建完整数字化文档。
- Stars: ⭐️ 774
- Tags:
ocrtesseractweb-interface - 最后活动时间: 2026-04-11
ComfyUI-extension-tutorials
ComfyUI扩展开发教程,帮助用户学习如何为ComfyUI图像生成平台创建自定义节点和扩展。
- Stars: ⭐️ 773
- Tags:
comfyuistable-diffusionimage-generationextensiontutorial - 最后活动时间: 2025-11-18
midjourney-proxy
全球最大的Midjourney绘图API。日生成超百万张图,支持Discord集成。
- Stars: ⭐️ 771
- Tags:
midjourneyimage-generationapi-proxydiscord-bot - 最后活动时间: 2026-04-03
zotero-ocr
Zotero文献管理软件的OCR插件,基于Tesseract实现文档文字识别功能。
- Stars: ⭐️ 769
- Tags:
ocrzoterotesseract - 最后活动时间: 2026-03-31
SSRS
遥感图像语义分割工具箱,支持Mamba、多模态融合、Segment Anything及无监督域适应等前沿方法。
- Stars: ⭐️ 765
- Tags:
semantic-segmentationremote-sensingtransformermamba - 最后活动时间: 2026-03-14
JarvisArt
NeurIPS 2025智能照片修图代理,基于多模态大语言模型释放人类艺术创造力。
- Stars: ⭐️ 756
- Tags:
multimodalimage-processingvision-language-modelsagent - 最后活动时间: 2026-04-04
spz
Niantic开源的3D高斯泼溅文件格式,压缩率比PLY格式高约10倍,几乎无视觉质量损失。
- Stars: ⭐️ 749
- Tags:
gaussian-splatting3dgscompression3d-reconstruction - 最后活动时间: 2026-04-09
ImageJ
开源科学图像处理软件,广泛应用于生物医学图像分析和科研领域。
- Stars: ⭐️ 747
- Tags:
computer-visionimage-processingscientific-imaging - 最后活动时间: 2026-03-28
FlashWorld
ICLR 2026 Oral论文官方代码,实现秒级高质量3D场景生成的创新方法。
- Stars: ⭐️ 739
- Tags:
3d-generationscene-generationiclr2026 - 最后活动时间: 2026-03-24
3DGS-to-PC
将3D高斯泼溅转换为密集点云的工具,基于ICCVW 2025论文,支持高效的三维场景重建。
- Stars: ⭐️ 737
- Tags:
3d-gaussian-splattingpoint-cloudphotogrammetry3d-reconstruction - 最后活动时间: 2025-11-02
FastVGGT
ICLR 2026 论文实现,快速视觉几何Transformer模型,用于高效的视觉几何理解与重建。
- Stars: ⭐️ 733
- Tags:
computer-visiontransformervisual-geometrydeep-learning - 最后活动时间: 2026-01-28
StableGen
强大的Blender插件,集成Stable Diffusion、ControlNet和Flux1-dev,实现智能3D纹理生成。
- Stars: ⭐️ 731
- Tags:
BlenderStable Diffusion3D纹理 - 最后活动时间: 2026-03-17
ComfyUI-QwenVL
ComfyUI自定义节点,集成Qwen-VL系列视觉语言模型,支持GGUF格式,提供文本生成、图像理解和视频分析能力。
- Stars: ⭐️ 723
- Tags:
ComfyUIQwen-VLMultimodal - 最后活动时间: 2026-02-10
PaddleMIX
飞桨多模态开发工具箱,支持主流多模态任务及扩散模型,提供高性能实现。
- Stars: ⭐️ 721
- Tags:
multimodalpaddlepaddlediffusion - 最后活动时间: 2026-03-06
OpenAI-CLIP
OpenAI CLIP模型的PyTorch实现,支持图像-文本跨模态理解与检索。
- Stars: ⭐️ 721
- Tags:
clipmultimodalpytorchvision-language - 最后活动时间: 2025-10-18
DeepMesh
ICCV 2025论文官方实现,基于强化学习的自回归3D网格生成模型。
- Stars: ⭐️ 707
- Tags:
3dmesh-generationgenerative-modelaigc - 最后活动时间: 2025-12-17
paz
Python层级感知库,支持姿态估计、目标检测、实例分割、人脸识别等多种计算机视觉任务。
- Stars: ⭐️ 703
- Tags:
pose-estimationobject-detectionface-recognitioninstance-segmentation - 最后活动时间: 2026-04-13
prope
将相机参数作为相对位置编码的研究项目,用于多视角视觉任务。
- Stars: ⭐️ 702
- Tags:
multi-viewpositional-encodingtransformer - 最后活动时间: 2025-12-18
Fast-SRGAN
轻量级实时超分辨率模型,可在30fps下将低分辨率视频实时上采样为高分辨率。
- Stars: ⭐️ 701
- Tags:
real-timesrganvideo-super-resolutiontensorflow - 最后活动时间: 2026-02-11
mesh2splat
快速将3D网格模型转换为高斯泼溅格式的工具,支持神经渲染和实时新视角合成。
- Stars: ⭐️ 699
- Tags:
3d-gaussian-splattingneural-rendering3d-reconstruction - 最后活动时间: 2026-04-11
Awesome-Sketch-Based-Applications
基于草图的应用论文合集,涵盖草图到图像生成、草图检索、草图建模等AI相关研究方向。
- Stars: ⭐️ 697
- Tags:
sketch-to-imagesketch-based-retrievalgenerative-aicomputer-vision - 最后活动时间: 2026-04-07
ReLA
CVPR 2023 Highlight论文,广义指代表达分割(GRES)的视觉-语言Transformer模型。
- Stars: ⭐️ 689
- Tags:
referring-segmentationvision-languagetransformercvpr2023 - 最后活动时间: 2025-11-26
DiffusionDPO
Salesforce开源的扩散模型对齐方法,将DPO技术应用于图像生成模型,实现更符合人类偏好的生成效果。
- Stars: ⭐️ 677
- Tags:
Diffusion ModelsDPOModel Alignment - 最后活动时间: 2025-11-10
stirling-image
类似Stirling-PDF的图像处理工具箱,集成30多种本地AI功能,包括调整大小、压缩、背景移除、图像放大、OCR等,完全离线运行,无云服务依赖。
- Stars: ⭐️ 677
- Tags:
aiimage-processingocrimage-upscaleself-hosted - 最后活动时间: 2026-04-13
HunyuanImage-2.1
腾讯开源的高效扩散模型,支持2K分辨率文本到图像生成。
- Stars: ⭐️ 673
- Tags:
diffusion-modelstext-to-imageimage-generation - 最后活动时间: 2025-10-14
micro-sam
Segment Anything模型在显微图像领域的适配应用,支持细胞与细胞器分割。
- Stars: ⭐️ 672
- Tags:
segment-anythingmicroscopycell-segmentationbioimage - 最后活动时间: 2026-04-08
FastGen
NVIDIA推出的扩散模型加速生成技术,通过蒸馏方法显著提升图像生成速度,提供高效推理优化方案。
- Stars: ⭐️ 670
- Tags:
DiffusionDistillationNVIDIA - 最后活动时间: 2026-03-19
PaddleYOLO
飞桨YOLO系列全面实现,涵盖YOLOv3至YOLO11、RT-DETR等主流目标检测模型。
- Stars: ⭐️ 664
- Tags:
object-detectionyolopaddlepaddleinstance-segmentation - 最后活动时间: 2026-01-14
FLAME-Universe
FLAME 3D头部模型的公开资源汇总,包含代码、数据集和学术论文,适用于人脸生成和表情动画。
- Stars: ⭐️ 663
- Tags:
3d-faceface-modelcomputer-visiongenerative-ai - 最后活动时间: 2026-03-03
Uni3D
ICLR 2024 Spotlight论文,BAAI推出的3D视觉表征基础模型,支持多种3D理解任务。
- Stars: ⭐️ 663
- Tags:
3d-representationfoundation-modelvision-transformer3d-vision - 最后活动时间: 2026-01-12
ComfyScript
ComfyUI的Python前端库,支持将工作流编写为Python脚本,在Jupyter中实现自动化图像生成。
- Stars: ⭐️ 660
- Tags:
ComfyUIStable DiffusionPython - 最后活动时间: 2026-02-17
spectral
Python高光谱图像处理模块,支持异常检测、图像分类和目标检测等AI功能。
- Stars: ⭐️ 660
- Tags:
hyperspectralimage-processinganomaly-detectionpython - 最后活动时间: 2026-04-12
NextStep-1
StepFun团队开发的SOTA自回归图像生成模型,采用连续token技术实现高质量图像生成。
- Stars: ⭐️ 657
- Tags:
image-generationautoregressivemultimodaldiffusion - 最后活动时间: 2026-02-27
uniface
基于ONNX Runtime的统一人脸分析Python库,支持人脸检测、识别、表情分析、年龄性别估计等多种功能。
- Stars: ⭐️ 654
- Tags:
face-detectionface-recognitionface-analysisonnxcomputer-vision - 最后活动时间: 2026-04-06
DrawingSpinUp
SIGGRAPH Asia 2024 论文实现,从单张角色绘画生成 3D 动画。
- Stars: ⭐️ 654
- Tags:
3d-animationimage-to-3dstyle-transferpytorchcomputer-graphics - 最后活动时间: 2025-11-17
YOLOv11-RGBT
全面的多光谱目标检测框架,支持YOLOv3至YOLOv13全系列的RGBT检测。
- Stars: ⭐️ 652
- Tags:
multispectral-detectionyolorgbtobject-detection - 最后活动时间: 2025-12-15
BiomedParse
生物医学图像基础模型,支持九种模态的联合分割、检测和识别任务。
- Stars: ⭐️ 649
- Tags:
biomedical-imagingsegmentationobject-detectionfoundation-model - 最后活动时间: 2026-01-22
Ming
基于Ling大模型构建的多模态理解与生成框架,支持高级多模态任务处理。
- Stars: ⭐️ 648
- Tags:
multimodalllmvision-language - 最后活动时间: 2026-03-17
MHR
Meta开发的参数化全身数字人体模型,包含骨骼模型、3D网格、姿态校正和面部混合变形,专为计算机视觉和图形学社区设计。
- Stars: ⭐️ 648
- Tags:
human-model3d-bodycomputer-visionparametric-model - 最后活动时间: 2026-04-06
yolov7-object-tracking
基于YOLOv7的目标检测与跟踪项目,结合PyTorch、OpenCV和SORT算法实现实时多目标跟踪。
- Stars: ⭐️ 647
- Tags:
yoloobject-detectionobject-trackingpytorchopencv - 最后活动时间: 2026-03-12
Lumina-mGPT
灵活的光真实感文本到图像生成模型,采用多模态生成式预训练技术实现高质量图像生成。
- Stars: ⭐️ 645
- Tags:
文本生成图像多模态图像生成 - 最后活动时间: 2025-10-16
comfyui-tooling-nodes
ComfyUI工具节点集合,支持将其作为后端服务使用,实现外部工具与ComfyUI直接图像传输。
- Stars: ⭐️ 645
- Tags:
ComfyUIStable DiffusionAPI - 最后活动时间: 2026-02-21
Liquid
IJCV收录的多模态大语言模型,实现可扩展的统一文本到图像生成。
- Stars: ⭐️ 643
- Tags:
Multimodal LLMText-to-ImageGenerative AI - 最后活动时间: 2025-11-10
nnDetection
自配置3D医学目标检测框架,支持12个数据集,无需手动干预即可应用于新数据。
- Stars: ⭐️ 635
- Tags:
medical-imaging3d-object-detectiondeep-learning - 最后活动时间: 2025-10-27
Prism
开源的跨平台壁纸应用,支持社区上传、精选合集以及AI壁纸生成功能,让用户轻松创建个性化壁纸。
- Stars: ⭐️ 633
- Tags:
flutterwallpaperaiimage-generation - 最后活动时间: 2026-04-09
we-drawing
每日一句中国古诗词配AI生成图片的创意项目,融合传统文化与AI绘画技术。
- Stars: ⭐️ 629
- Tags:
aidalle-3promptimage-generation - 最后活动时间: 2025-12-31
splat-transform
3D高斯泼溅格式转换与变换的CLI工具,支持多种格式互转和3D场景处理。
- Stars: ⭐️ 626
- Tags:
3d-gaussian-splattinggaussian-splatting3dcli - 最后活动时间: 2026-04-12
SeeSR
CVPR 2024论文,实现语义感知的真实世界图像超分辨率重建。
- Stars: ⭐️ 625
- Tags:
super-resolutionstable-diffusionimage-enhancement - 最后活动时间: 2026-04-09
XVerse
NeurIPS 2025论文官方实现,通过DiT调制实现多主体身份和语义属性的一致性控制,支持高质量多角色图像生成。
- Stars: ⭐️ 624
- Tags:
diffusionimage-generationtransformermulti-subject - 最后活动时间: 2025-10-22
RAG-Diffusion
ICCV 2025 论文项目,通过硬绑定和软细化实现区域感知的文本到图像生成。
- Stars: ⭐️ 620
- Tags:
text-to-imagediffusionimage-generationICCV2025 - 最后活动时间: 2025-12-12
EDGS
3D高斯泼溅高效收敛方法PyTorch实现,消除密集化步骤。3D重建新方法。
- Stars: ⭐️ 617
- Tags:
3dgs3d-reconstructiongaussian-splatting - 最后活动时间: 2026-03-25
peinture
通用AI图像生成框架,支持Hugging Face、Model Scope等多个模型平台。
- Stars: ⭐️ 610
- Tags:
Image GenerationAI ArtFramework - 最后活动时间: 2026-01-31
OmniLottie
CVPR 2026 论文项目,开源的多模态向量动画生成器,可通过指令生成 Lottie JSON 动画文件,支持 VLM 视觉语言模型驱动。
- Stars: ⭐️ 610
- Tags:
generative-aimulti-modalvlmlottie-animationvector-graphics - 最后活动时间: 2026-04-06
NeRO
[SIGGRAPH 2023] 从多视角图像重建反射物体的神经几何和BRDF。
- Stars: ⭐️ 598
- Tags:
3d-reconstructionnerfneural-renderingmaterial-estimation - 最后活动时间: 2025-10-26
Awesome-Face-Restoration
人脸修复方法综合资源列表,涵盖论文、代码库等计算机视觉前沿技术。
- Stars: ⭐️ 594
- Tags:
face-restorationcomputer-visionimage-enhancementdeep-learning - 最后活动时间: 2026-03-20
FastSurfer
FastSurferCNN的PyTorch实现,用于脑部MRI图像快速分割。
- Stars: ⭐️ 594
- Tags:
pytorchmedical-imagingbrain-segmentationmricnn - 最后活动时间: 2026-03-18
ComfyUI_tinyterraNodes
ComfyUI自定义节点集合,为Stable Diffusion提供扩展功能和工作流增强。
- Stars: ⭐️ 592
- Tags:
comfyuistable-diffusionnodes - 最后活动时间: 2026-02-26
FakeShield
ICLR 2025论文项目,基于多模态大语言模型的可解释图像伪造检测与定位系统。
- Stars: ⭐️ 586
- Tags:
image-forensicsmllmdeepfake-detectioniclr2025 - 最后活动时间: 2026-02-21
aot-benchmark
基于Transformer的视频目标分割高效模块化实现,支持多对象关联追踪。
- Stars: ⭐️ 586
- Tags:
video-segmentationtransformerobject-tracking - 最后活动时间: 2026-04-07
LLMDet
CVPR 2025亮点论文,利用大语言模型监督学习强大的开放词汇目标检测器。
- Stars: ⭐️ 579
- Tags:
object-detectionllmcomputer-visioncvpr - 最后活动时间: 2026-02-04
AI Upscaling Models
作者自训练的AI图像超分辨率模型集合,包含600多种上采样模型的训练成果。
- Stars: ⭐️ 579
- Tags:
upscalingimage-enhancementsuper-resolutionai-models - 最后活动时间: 2025-11-14
Awesome-Deep-Stereo-Matching
深度立体匹配资源精选合集,涵盖立体视觉、深度估计和相关深度学习算法。
- Stars: ⭐️ 576
- Tags:
stereo-visiondepth-estimationcomputer-visiondeep-learning - 最后活动时间: 2026-04-05
imgpilot
基于实时潜在一致性模型(LCM)的图像生成工具,将草图转化为精美艺术作品。
- Stars: ⭐️ 575
- Tags:
AIImage GenerationLCM - 最后活动时间: 2026-01-31
MeiGen-AI-Design-MCP
基于MCP协议的AI图像生成工具,集成ComfyUI与1400+提示词库,支持多方向并行生成。
- Stars: ⭐️ 575
- Tags:
ai-image-generationmcpcomfyuiclaude-codeprompt-engineering - 最后活动时间: 2026-04-01
IMAGHarmony
可控图像编辑框架,在复杂多对象编辑中保持对象数量和布局一致性,实现高保真连贯的图像生成。
- Stars: ⭐️ 571
- Tags:
Image EditingDiffusionControllable - 最后活动时间: 2026-03-24
Visual-Tracking-Development
视觉目标跟踪相关的深度学习基准测试项目,涵盖多种跟踪算法和评估方法。
- Stars: ⭐️ 568
- Tags:
visual-trackingdeep-learningcomputer-visionbenchmark - 最后活动时间: 2026-02-10
Awesome-Sketch-Synthesis
草图生成与合成领域的论文合集,涵盖矢量草图生成、笔画级处理等研究方向。
- Stars: ⭐️ 559
- Tags:
sketch-generationsketch-synthesisvector-sketchgenerative-ai - 最后活动时间: 2026-04-10
2txt
快速将图片转换为文本的AI工具,基于OpenAI技术实现高效图像识别与文字提取。
- Stars: ⭐️ 557
- Tags:
Image-to-TextOpenAINext.js - 最后活动时间: 2025-12-03
MistoLine
专为SDXL设计的ControlNet模型,支持多样化的线稿条件控制,生成高质量艺术图像。
- Stars: ⭐️ 557
- Tags:
controlnetsdxlstable-diffusionline-art - 最后活动时间: 2026-01-06
ShapeLLM-Omni
NeurIPS 2025 Spotlight论文,原生多模态大语言模型,专注于3D生成与理解,支持文本/图像到3D转换。
- Stars: ⭐️ 554
- Tags:
3D生成多模态LLMNeurIPS 2025 - 最后活动时间: 2025-10-20
Hunyuan3D-Omni
腾讯混元统一3D资产生成框架,支持可控的图像到3D生成,为游戏和元宇宙内容创作提供强大工具。
- Stars: ⭐️ 553
- Tags:
3D生成多模态图像转3D - 最后活动时间: 2025-10-17
ReconViaGen
ICLR2026论文项目,通过生成式方法实现精确的多视角3D物体重建,支持图像到3D的转换和姿态估计。
- Stars: ⭐️ 551
- Tags:
3d-generation3d-reconstructionimage-to-3dpose-estimationgenerative-ai - 最后活动时间: 2026-04-04
3dgsconverter
3D Gaussian Splatting 模型转换工具,支持多种格式互转及 GPU 加速滤波处理。
- Stars: ⭐️ 549
- Tags:
gaussian-splatting3d-reconstructionneural-renderingconverter - 最后活动时间: 2026-01-15
MST-plus-plus
CVPRW 2022获奖项目,多阶段光谱Transformer用于高效光谱图像重建,附带完整工具箱。
- Stars: ⭐️ 546
- Tags:
hyperspectralspectral-reconstructiontransformer - 最后活动时间: 2025-11-11
One-DM
ECCV 2024论文,单样本扩散模仿器用于手写文本生成。
- Stars: ⭐️ 544
- Tags:
diffusion-modelshandwritten-text-generationimage-generation - 最后活动时间: 2025-10-15
ComfyUI_Qwen3-VL-Instruct
将Qwen3-VL-Instruct系列集成到ComfyUI平台,支持文本、视频、单图和多图查询生成描述或响应。
- Stars: ⭐️ 544
- Tags:
comfyuivision-language-modelmultimodalqwen - 最后活动时间: 2025-10-23
tessera
剑桥大学开发的卫星时序图像基础模型,支持土地分类和树冠高度预测等遥感应用。
- Stars: ⭐️ 540
- Tags:
SatelliteRemote SensingFoundation Models - 最后活动时间: 2026-03-26
segmenteverygrain
基于SAM的颗粒图像实例分割模型,适用于地质和材料科学领域。
- Stars: ⭐️ 537
- Tags:
saminstance-segmentationgrain-analysisgeoscience - 最后活动时间: 2026-03-22
FaceLift
ICCV 2025论文,从单张图像学习可泛化的3D人脸重建方法,基于合成头部数据训练。
- Stars: ⭐️ 536
- Tags:
3d-face-reconstructioncomputer-visioniccv2025 - 最后活动时间: 2026-03-25
Awesome-Object-Insertion
图像合成与物体插入领域的精选资源合集,涵盖论文、代码和工具,帮助生成逼真的合成图像。
- Stars: ⭐️ 532
- Tags:
image-compositionobject-insertionimage-generationcomputer-vision - 最后活动时间: 2026-02-24
gemini-image-editing-nextjs-quickstart
基于Gemini 2.0和Next.js的图像生成与编辑快速入门项目,演示原生多模态能力。
- Stars: ⭐️ 531
- Tags:
geminigemini-apiimage-generationnextjs - 最后活动时间: 2026-04-13
ll3m
基于大语言模型的3D资产生成工具,可自动编写Python代码在Blender中创建3D模型。
- Stars: ⭐️ 528
- Tags:
llm3d-generationblendercode-generation - 最后活动时间: 2026-03-07
facefusion-docker
业界领先的人脸处理平台,支持人脸替换、唇形同步等多种AI视频处理功能。
- Stars: ⭐️ 527
- Tags:
aiface-swaplip-syncdockerdeepfake - 最后活动时间: 2026-03-18
TRIDENT
大规模全切片图像处理工具包,支持病理学基础模型,用于组织病理学图像的深度学习分析和处理。
- Stars: ⭐️ 526
- Tags:
deep-learningpathologywhole-slide-imagefoundation-model - 最后活动时间: 2026-04-08
Awesome-Image-Harmonization
图像和谐化领域的论文与代码资源合集,专注于使合成图像前景与背景光照色彩协调一致。
- Stars: ⭐️ 526
- Tags:
image-harmonizationimage-compositioncomputer-visiongenerative-ai - 最后活动时间: 2026-02-24
FFHQ-UV
CVPR 2023 论文,提供归一化面部UV纹理数据集,用于高质量3D人脸重建。
- Stars: ⭐️ 525
- Tags:
face-textureuv-mapping3d-facecvpr2023 - 最后活动时间: 2026-01-20
LHM-plusplus
高效的大型人体重建模型,可从任意姿态图像重建3D人体模型。
- Stars: ⭐️ 525
- Tags:
3d-reconstructionhuman-modelcomputer-visiondeep-learning - 最后活动时间: 2026-03-16
handwritten-text-recognition-for-apache-mxnet
基于Apache MXNet的端到端手写文本识别神经网络训练框架,支持IAM数据集上的全页面手写识别。
- Stars: ⭐️ 521
- Tags:
OCRHandwriting RecognitionMXNetDeep Learning - 最后活动时间: 2026-02-05
SCube
NeurIPS 2024论文,使用VoxSplats实现大规模场景即时重建。
- Stars: ⭐️ 521
- Tags:
3d-reconstructiongaussian-splattingdiffusion-models - 最后活动时间: 2025-10-14
immich-automated-selfie-timelapse
自动化人脸提取、调整和对齐工具,适合制作自拍延时视频。基于Immich平台实现的人脸识别与处理工作流。
- Stars: ⭐️ 521
- Tags:
immichface-detectiontimelapseself-hosted - 最后活动时间: 2026-03-30
ComfyUI-OpenClaw
基于ComfyUI的个人AIGC工厂,支持多平台机器人集成,可生成任意图片和视频内容。
- Stars: ⭐️ 519
- Tags:
comfyuiimage-generationagentbotaigc - 最后活动时间: 2026-04-09
Concerto
NeurIPS'25 论文官方仓库,提出联合2D-3D自监督学习方法,能够自主学习空间表征,适用于计算机视觉和3D理解任务。
- Stars: ⭐️ 519
- Tags:
self-supervised-learning3d-visionspatial-representationneurips - 最后活动时间: 2026-04-07
DiffiT
ECCV 2024 论文官方实现,提出 Diffusion Vision Transformers 用于高质量图像生成,创新性地将扩散模型与视觉 Transformer 架构相结合。
- Stars: ⭐️ 518
- Tags:
diffusion-modelvision-transformerimage-generationdeep-learning - 最后活动时间: 2026-03-09
ptlflow
基于 PyTorch Lightning 的光流估计模型库,提供多种预训练模型和权重。
- Stars: ⭐️ 517
- Tags:
optical-flowpytorch-lightningpretrained-modelscomputer-vision - 最后活动时间: 2026-03-31
SOTS
单目标跟踪与分割项目,结合目标检测与语义分割技术,适用于视频分析场景。
- Stars: ⭐️ 516
- Tags:
object-trackingsegmentationcomputer-vision - 最后活动时间: 2026-04-12
mmdit
Stable Diffusion 3中MMDiT(多模态扩散Transformer)层的PyTorch实现。
- Stars: ⭐️ 515
- Tags:
stable-diffusionmultimodalattentiondiffusion - 最后活动时间: 2026-01-18
XPretrain
多模态预训练框架,支持视觉与语言的联合表示学习。
- Stars: ⭐️ 510
- Tags:
multimodal-learningpre-trainingdeep-learning - 最后活动时间: 2026-03-27
Blender-3DGS-4DGS-Viewer-Node
用于检查Gaussian Splatting数据的Blender可视化工具,支持设计相机运动并导出配置到外部渲染器。
- Stars: ⭐️ 504
- Tags:
3dgsgaussian-splattingblendervisualization - 最后活动时间: 2025-11-19
photo2pixel
将照片转换为像素风格(8-bit)艺术的算法实现,支持在线工具 photo2pixel.co。
- Stars: ⭐️ 502
- Tags:
image-processingpixel-artpytorchstyle-transfer - 最后活动时间: 2026-03-12
UnSAM
NeurIPS 2024论文代码,实现无监督的图像分割模型,无需标注数据即可完成分割任务。
- Stars: ⭐️ 501
- Tags:
segmentationunsupervised-learningcomputer-visionneurips2024 - 最后活动时间: 2025-11-20
pexo-skills
开源Agent技能集合,专注于图像、音频和视频等多模态内容创作。
- Stars: ⭐️ 501
- Tags:
agent-skillsmultimodalcontent-creation - 最后活动时间: 2026-04-09
visionworkbench
NASA开发的通用图像处理与计算机视觉库,用于自主系统和机器人研究。
- Stars: ⭐️ 500
- Tags:
computer-visionnasaimage-processingrobotics - 最后活动时间: 2026-04-04
Open Source Models
MetaCLIP
Meta推出的CLIP模型实现,在视觉-语言理解任务上表现优异,入选NeurIPS、ICLR、CVPR等顶级会议。
- Stars: ⭐️ 1.8k
- Tags:
clipvision-languagemultimodalcontrastive-learningopen-source - 最后活动时间: 2025-11-27
Video Generation
Deep-Live-Cam
实时AI换脸工具,仅需单张图片即可实现一键视频深度伪造和实时摄像头换脸。
- Stars: ⭐️ 90.0k
- Tags:
deepfakeface-swapreal-timevideo-generationgan - 最后活动时间: 2026-04-09
MoneyPrinterTurbo
利用AI大模型一键生成高清短视频的自动化工具,支持批量创作和多种视频风格。
- Stars: ⭐️ 55.6k
- Tags:
AI视频生成短视频自动化 - 最后活动时间: 2026-04-11
faceswap
开源深度学习换脸软件,支持多种模型和训练方式,适合学习和研究深度伪造技术。
- Stars: ⭐️ 55.1k
- Tags:
深度伪造人脸替换深度学习视频处理 - 最后活动时间: 2026-04-08
video2x
基于机器学习的视频超分辨率与帧插值框架,提升视频画质。
- Stars: ⭐️ 19.5k
- Tags:
video-upscalingsuper-resolutionmachine-learningframe-interpolation - 最后活动时间: 2026-03-07
Wan2.1
阿里开源的大规模视频生成模型,支持高质量视频内容生成,是先进的AI视频生成解决方案。
- Stars: ⭐️ 15.8k
- Tags:
Video GenerationAIGCOpen Source - 最后活动时间: 2026-03-05
Wan2.2
开源的大规模视频生成模型,支持高质量视频内容创作与生成。
- Stars: ⭐️ 15.1k
- Tags:
Video GenerationAIGCOpen Source - 最后活动时间: 2026-03-17
MoneyPrinter
使用MoviePy自动化创建YouTube短视频,结合AI生成内容。
- Stars: ⭐️ 13.1k
- Tags:
video-generationautomationyoutubemoviepyai-video - 最后活动时间: 2026-03-26
Duix-Avatar
开源AI数字人工具包,支持离线视频生成与数字人克隆,适用于虚拟主播与内容创作场景。
- Stars: ⭐️ 12.7k
- Tags:
ai-avatardigital-humanvideo-generationopen-source - 最后活动时间: 2025-10-16
CogVideo
智谱AI开源的视频生成模型,支持文本/图像到视频生成,包含CogVideoX(2024)和CogVideo(ICLR 2023)。
- Stars: ⭐️ 12.6k
- Tags:
Video GenerationText-to-VideoICLR - 最后活动时间: 2025-11-04
CogVideo
智谱AI开源的文本/图像生成视频模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。
- Stars: ⭐️ 12.6k
- Tags:
文生视频图生视频视频生成 - 最后活动时间: 2025-11-04
Open-Sora-Plan
开源复现OpenAI Sora视频生成模型的项目,旨在通过社区协作实现文本到视频的生成能力。
- Stars: ⭐️ 12.2k
- Tags:
video-generationtext-to-videosoraopen-source - 最后活动时间: 2026-03-08
waoowaoo
工业级全流程 AI 影视生产平台,支持从短视频到长片的可控视频生成与好莱坞标准工作流。
- Stars: ⭐️ 11.3k
- Tags:
ai-agentvideo-generationgenerative-aifilm-production - 最后活动时间: 2026-04-03
video-subtitle-remover
基于AI的视频/图片硬字幕和文本水印去除工具,本地运行无需第三方API,支持无损分辨率输出。
- Stars: ⭐️ 10.2k
- Tags:
aivideo-processingsubtitle-removaldeep-learning - 最后活动时间: 2026-04-11
huobao-drama
基于AI的一站式短剧生成平台,一句话即可生成完整短剧,实现从剧本到成片的全自动化流程。
- Stars: ⭐️ 9.9k
- Tags:
video-generationai-videodrama-generatormultimodal-ai - 最后活动时间: 2026-04-10
LTX-Video
LTX-Video官方仓库,提供高质量的文本到视频生成能力。
- Stars: ⭐️ 9.9k
- Tags:
text-to-videodiffusion-modelsvideo-generation - 最后活动时间: 2026-01-05
NarratoAI
AI驱动的视频解说与剪辑工具,一键生成视频解说并自动完成剪辑处理。
- Stars: ⭐️ 8.8k
- Tags:
VideoAI AgentLLMPython - 最后活动时间: 2026-04-08
AI4Animation
Unity中基于AI的角色动画系统,利用计算机大脑让角色栩栩如生。
- Stars: ⭐️ 8.5k
- Tags:
animationunityai-animationgame-developmentcharacter-ai - 最后活动时间: 2026-03-30
Toonflow-app
AI 短剧漫剧创作工具,自动将小说转化为剧本并生成图片和视频内容。
- Stars: ⭐️ 6.8k
- Tags:
ai-videostory-generationcontent-creationmultimodal - 最后活动时间: 2026-04-13
SkyReels-V2
无限长度电影生成模型,支持长视频内容的AI生成与创作。
- Stars: ⭐️ 6.7k
- Tags:
video-generationgenerative-modelsfilm-generation - 最后活动时间: 2026-01-29
LTX-2
LTX-2音频-视频生成模型的官方推理和LoRA训练工具包。
- Stars: ⭐️ 5.8k
- Tags:
generative-aivideo-generationaudio-video - 最后活动时间: 2026-04-02
Awesome-Video-Diffusion
视频扩散模型的精选资源列表,涵盖视频生成、编辑及运动定制等前沿应用。
- Stars: ⭐️ 5.6k
- Tags:
video-diffusionvideo-generationdiffusion-modelsgenerative-ai - 最后活动时间: 2026-04-03
VideoCrafter
高质量视频扩散模型,旨在克服数据限制以生成高质量视频内容。
- Stars: ⭐️ 5.0k
- Tags:
text-to-videodiffusion-modelsvideo-generation - 最后活动时间: 2026-01-09
mmaction2
OpenMMLab新一代视频理解工具箱,支持动作识别、时序动作检测、视频分类等任务。
- Stars: ⭐️ 5.0k
- Tags:
action-recognitionvideo-understandingdeep-learningpytorchopenmmlab - 最后活动时间: 2026-03-18
aigcpanel
一站式 AI 数字人系统,支持视频合成、声音克隆、本地模型管理。
- Stars: ⭐️ 4.8k
- Tags:
aigcdigital-humanvideo-synthesisvoice-cloning - 最后活动时间: 2026-02-07
stable-diffusion-videos
利用Stable Diffusion探索潜在空间,在文本提示词之间实现平滑过渡,生成创意AI视频。
- Stars: ⭐️ 4.7k
- Tags:
Stable DiffusionVideo GenerationAI Art - 最后活动时间: 2025-12-16
HunyuanVideo-1.5
腾讯开源的领先轻量级视频生成模型,支持文本到视频和图像到视频的高质量生成。
- Stars: ⭐️ 4.4k
- Tags:
text-to-videovideo-generationimage-to-videogenerative-ai - 最后活动时间: 2026-04-03
short-video-factory
AI驱动的短视频批量生成工具,支持一键生成产品营销视频,跨平台桌面应用。
- Stars: ⭐️ 3.8k
- Tags:
AI视频短视频自动剪辑 - 最后活动时间: 2026-04-07
Pixelle-Video
AI全自动短视频生成引擎,支持从文本到视频的端到端创作。
- Stars: ⭐️ 3.7k
- Tags:
video-generationaigccomfyuishort-video - 最后活动时间: 2026-04-13
vjepa2
Meta发布的视频自监督学习模型VJEPA2的PyTorch官方实现。
- Stars: ⭐️ 3.6k
- Tags:
videoself-supervisedpytorchmeta - 最后活动时间: 2026-03-23
pytorchvideo
Meta开源的视频理解深度学习库,提供视频分类、检测等预训练模型。
- Stars: ⭐️ 3.6k
- Tags:
video-understandingpytorchdeep-learningcomputer-vision - 最后活动时间: 2026-01-12
lingbot-world
推进开源世界模型发展的项目,专注于视频生成与AIGC。
- Stars: ⭐️ 3.3k
- Tags:
world-modelsvideo-generationaigc - 最后活动时间: 2026-04-10
flownet2-pytorch
FlowNet 2.0 PyTorch实现,用于深度学习光流估计。
- Stars: ⭐️ 3.3k
- Tags:
optical-flowcomputer-visionflownet - 最后活动时间: 2026-03-30
moyin-creator
AI影视生产级工具,支持Seedance 2.0,实现从剧本到成片的全流程批量化生产。
- Stars: ⭐️ 3.0k
- Tags:
视频生成影视制作AI工具 - 最后活动时间: 2026-04-02
VideoPipe
跨平台视频结构化分析框架,支持目标检测、人脸识别、行为分析等多种AI能力。
- Stars: ⭐️ 2.8k
- Tags:
Video AnalysisComputer VisionDeepStream - 最后活动时间: 2026-02-25
Jellyfish
一站式AI短剧生产工具,从剧本输入到AI视频生成、后期剪辑、一键导出成片全流程覆盖。
- Stars: ⭐️ 2.8k
- Tags:
ai-videoshort-dramavideo-generationai-production - 最后活动时间: 2026-04-13
HunyuanWorld-1.0
混元3D世界模型,从文本或像素生成沉浸式、可探索的交互3D世界。
- Stars: ⭐️ 2.8k
- Tags:
world-modeltext-to-3dscene-generationhunyuan3d - 最后活动时间: 2025-12-17
ViMax
智能体驱动的视频生成平台,集成导演、编剧、制片和视频生成全流程。
- Stars: ⭐️ 2.6k
- Tags:
video-generationagentic-aigcai-video - 最后活动时间: 2026-03-29
MimicMotion
腾讯开源的高质量人体运动视频生成框架,基于置信度感知姿态引导技术生成流畅自然的动作视频。
- Stars: ⭐️ 2.6k
- Tags:
Video GenerationMotion SynthesisTencent - 最后活动时间: 2025-11-18
ttt-video-dit
测试时训练实现一分钟视频生成,官方PyTorch实现。
- Stars: ⭐️ 2.4k
- Tags:
video-generationtest-time-trainingdiffusion - 最后活动时间: 2026-02-25
ComfyUI-SeedVR2_VideoUpscaler
ComfyUI官方SeedVR2视频超分辨率节点,支持AI驱动的视频画质增强。
- Stars: ⭐️ 2.3k
- Tags:
comfyuivideo-upscalingai-upscaler - 最后活动时间: 2025-12-24
HY-Motion-1.0
用于3D人体动作和角色动画生成的AI模型,支持高质量运动合成。
- Stars: ⭐️ 2.3k
- Tags:
3d-motioncharacter-animationhuman-motiondeep-learning - 最后活动时间: 2026-01-29
InternVideo
视频基础模型与多模态理解研究项目,支持动作识别、视频检索、问答等任务。
- Stars: ⭐️ 2.2k
- Tags:
video-understandingmultimodalfoundation-modelsvideo-retrieval - 最后活动时间: 2026-03-25
LightX2V
轻量级图像到视频生成推理框架,支持自回归扩散模型和多种视频生成模型的高效推理部署。
- Stars: ⭐️ 2.2k
- Tags:
Video GenerationDiffusionInference Framework - 最后活动时间: 2026-04-10
GeminiWatermarkTool
VEO和Gemini Nano视频生成模型的水印维护工具,支持CLI和GUI界面操作。
- Stars: ⭐️ 2.1k
- Tags:
geminiveo3watermarkvideo-generation - 最后活动时间: 2026-03-30
Matrix-Game
开源的实时流式交互世界模型,支持长视频生成和交互式视频应用。
- Stars: ⭐️ 2.1k
- Tags:
World ModelVideo GenerationInteractive - 最后活动时间: 2026-03-30
VideoX-Fun
灵活的视频生成框架,支持任意分辨率视频生成及图像到视频转换。
- Stars: ⭐️ 2.0k
- Tags:
Video GenerationImage-to-VideoAI Framework - 最后活动时间: 2026-04-08
Anime4KCPP
基于CNN的高性能动漫视频超分辨率放大工具,支持GPU加速和多种视频处理框架插件。
- Stars: ⭐️ 2.0k
- Tags:
UpscalingCNNVideo Processing - 最后活动时间: 2026-04-11
Latte
TMLR 2025论文实现,潜在扩散Transformer用于视频生成任务。
- Stars: ⭐️ 1.9k
- Tags:
video-generationdiffusiontransformer - 最后活动时间: 2025-10-30
FireRed-OpenStoryline
AI视频编辑智能体,通过自然语言交互和LLM驱动的规划,实现意图驱动的导演式创作体验。
- Stars: ⭐️ 1.9k
- Tags:
Video EditingLLMLangChain - 最后活动时间: 2026-04-09
tapnet
任意点追踪(TAP)深度学习模型,用于计算机视觉中的视频点跟踪任务。
- Stars: ⭐️ 1.8k
- Tags:
point-trackingcomputer-visiondeep-learningvideo - 最后活动时间: 2026-03-30
HunyuanVideo-I2V
腾讯混元推出的可定制图像到视频生成模型,基于扩散模型实现高质量视频生成,支持将静态图像转换为动态视频。
- Stars: ⭐️ 1.8k
- Tags:
Image-to-VideoDiffusion ModelsTencent - 最后活动时间: 2026-04-07
ReCamMaster
ICCV'25最佳论文提名作品,实现从单一视频生成可控视角的视频渲染,支持相机轨迹控制。
- Stars: ⭐️ 1.8k
- Tags:
video-generationcamera-controlaigccomputer-vision - 最后活动时间: 2025-11-28
Auto-Synced-Translated-Dubs
自动翻译视频字幕并利用AI语音服务生成同步配音的工具,结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。
- Stars: ⭐️ 1.7k
- Tags:
视频配音TTS字幕翻译 - 最后活动时间: 2026-01-24
ArcReel
AI Agent 驱动的开源视频生成工作台,支持从小说到视频的全流程自动化,实现跨镜头角色与场景一致性。
- Stars: ⭐️ 1.7k
- Tags:
ai-video-generatorai-agentstoryboardvideo-generationveo - 最后活动时间: 2026-04-13
clipsketch-ai
将视频片段转化为手绘风格故事的AI工具,支持视频到艺术画作的智能转换。
- Stars: ⭐️ 1.7k
- Tags:
video-to-imagesketchstyle-transfervideo-processing - 最后活动时间: 2026-01-14
Helios
北大团队开源的实时长视频生成模型,支持文本/图像/视频到视频生成,具备世界模拟能力。
- Stars: ⭐️ 1.6k
- Tags:
视频生成扩散模型世界模型 - 最后活动时间: 2026-04-08
kimodo
NVIDIA官方运动扩散模型,专注于生成高质量的人形角色动作序列。
- Stars: ⭐️ 1.6k
- Tags:
运动生成扩散模型角色动画 - 最后活动时间: 2026-04-06
Code2Video
通过代码自动生成视频的工具,结合多智能体技术实现视频内容的自动化创作。
- Stars: ⭐️ 1.6k
- Tags:
Video GenerationMulti-AgentEducation - 最后活动时间: 2025-11-25
SystemAnimatorOnline
基于AI的全身动作捕捉和扩展现实(XR)解决方案,支持VTuber和WebXR应用。
- Stars: ⭐️ 1.6k
- Tags:
motion-capturemediapipetensorflowjsthreejsvtuberwebxr - 最后活动时间: 2026-03-29
stable-virtual-camera
基于扩散模型的新视角合成生成模型,实现高质量视角生成。
- Stars: ⭐️ 1.6k
- Tags:
diffusion-modelnovel-view-synthesisgenerative-ai - 最后活动时间: 2026-03-03
OpenMontage
全球首个开源智能体视频生产系统,包含11条流水线、49个工具和400+智能体技能,将AI编程助手转变为完整的视频制作工作室。
- Stars: ⭐️ 1.6k
- Tags:
agentic-aivideo-generationffmpegopen-sourcepython - 最后活动时间: 2026-04-12
HunyuanWorld-Voyager
交互式RGBD视频生成模型,支持相机输入条件下的实时3D重建。
- Stars: ⭐️ 1.5k
- Tags:
world-modelimage-to-video3d-generationhunyuan3d - 最后活动时间: 2025-12-17
seedance-prompt-skill
Seedance 2.0视频生成提示词技能,帮助用户快速生成高质量AI视频提示词。
- Stars: ⭐️ 1.5k
- Tags:
video-generationprompt-engineeringseedanceai-video - 最后活动时间: 2026-02-12
Awesome-Talking-Head-Synthesis
数字人说话头像生成领域的精选资源合集,涵盖音频驱动的人脸合成、论文及实现方法。
- Stars: ⭐️ 1.5k
- Tags:
talking-headaudio-drivenface-synthesisvideo-generation - 最后活动时间: 2026-04-09
Video-Materials-AutoGEN-Workstation
集成内容策划、AI文案生成、TTS配音、图片合成、ASR字幕提取于一体的短视频生成工作站。
- Stars: ⭐️ 1.5k
- Tags:
video-generationttsai-contentasr - 最后活动时间: 2025-11-30
awesome-seedance
Seedance 2.0 AI视频生成资源的精选合集,包含高质量提示词、API指南和高级视频生成工作流程。
- Stars: ⭐️ 1.4k
- Tags:
aivideo-generationseedanceprompt-engineering - 最后活动时间: 2026-04-12
HY-WorldPlay
交互式世界建模系统框架,支持实时延迟和几何一致性的3D世界生成。
- Stars: ⭐️ 1.4k
- Tags:
world-model3d-generationhunyuanimage-to-3d - 最后活动时间: 2026-03-24
MotionBERT
ICCV 2023论文实现,用于学习人体运动表示的统一框架,支持3D姿态估计、骨骼动作识别等任务。
- Stars: ⭐️ 1.4k
- Tags:
motion-analysis3d-pose-estimationtransformercomputer-vision - 最后活动时间: 2026-03-14
DepthFlow
基于深度估计的图像转3D视差视频工具,可将静态图片转换为沉浸式动态效果。
- Stars: ⭐️ 1.4k
- Tags:
depth-estimationparallaximage-to-video3d-effect - 最后活动时间: 2026-03-19
PhysGaussian
CVPR 2024 Highlight项目,将物理模拟集成到3D高斯表示中,实现生成式动态场景建模。
- Stars: ⭐️ 1.4k
- Tags:
3d-gaussian-splattingphysics-simulationgenerative-aicomputer-visionneural-rendering - 最后活动时间: 2026-01-21
MagicTime
基于扩散模型的延时视频生成模型,能够模拟物体随时间变化的形态演变。
- Stars: ⭐️ 1.3k
- Tags:
text-to-videodiffusion-modelsvideo-generation - 最后活动时间: 2026-03-08
vid2avatar
CVPR 2023 论文,通过自监督场景分解技术从野外视频中重建高质量3D人体化身。
- Stars: ⭐️ 1.3k
- Tags:
3d-avatarhuman-reconstructionself-supervisedcvpr2023 - 最后活动时间: 2025-12-17
DimensionX
从单张图像生成任意3D和4D场景的视频扩散模型,支持可控的视频生成与场景重建。
- Stars: ⭐️ 1.3k
- Tags:
video-diffusion3d-generation4d-scenesimage-to-3d - 最后活动时间: 2025-10-17
LTX-Desktop
开源桌面应用,用于使用LTX模型生成视频,支持非线性编辑功能。
- Stars: ⭐️ 1.3k
- Tags:
video-generationgenerative-ailtxdesktop-app - 最后活动时间: 2026-04-03
BigBanana-AI-Director
工业级 AI 短剧/漫剧导演平台,实现从剧本到成片的全自动化生产,精准控制角色一致性与镜头运动。
- Stars: ⭐️ 1.3k
- Tags:
ai-videoai-short-dramaai-comicvideo-generation - 最后活动时间: 2026-04-09
VideoChat
实时交互数字人系统,支持自定义形象与音色、语音克隆,对话延迟低至3秒,集成ASR、TTS、唇形同步等多模态能力。
- Stars: ⭐️ 1.2k
- Tags:
digital-humanmultimodalttsasrlip-syncreal-timellm - 最后活动时间: 2025-12-18
StableAvatar
首个端到端视频扩散Transformer,可生成无限长度的高质量音频驱动虚拟人视频。
- Stars: ⭐️ 1.2k
- Tags:
video-generationdiffusionavatartransformer - 最后活动时间: 2026-01-20
HunyuanCustom
腾讯混元多模态定制视频生成模型,支持音频驱动和图像到视频生成,实现高质量个性化视频创作。
- Stars: ⭐️ 1.2k
- Tags:
视频生成多模态扩散模型 - 最后活动时间: 2025-10-15
EvTexture
ICML 2024 & TPAMI 2026 论文实现,利用事件相机驱动视频超分辨率纹理增强,显著提升视频质量。
- Stars: ⭐️ 1.2k
- Tags:
video-super-resolutionevent-camerapytorchcomputational-photography - 最后活动时间: 2026-02-25
SoulX-LiveAct
实时人体动画生成推理代码,支持小时级别动画生成。
- Stars: ⭐️ 1.1k
- Tags:
human-animationvideo-generationreal-time - 最后活动时间: 2026-03-25
OC_SORT
CVPR2023多目标跟踪算法,对遮挡和非线性运动具有强鲁棒性,简单高效的在线跟踪方案。
- Stars: ⭐️ 1.1k
- Tags:
object-trackingcomputer-visiondeep-learningtracking - 最后活动时间: 2026-03-19
cosmos-predict2.5
NVIDIA Cosmos 世界基础模型,专注于通过视频形式模拟和预测世界未来状态。
- Stars: ⭐️ 1.1k
- Tags:
world-modelsvideo-generationfoundational-models - 最后活动时间: 2026-04-03
torchcodec
PyTorch媒体编解码库,提供视频和音频的解码与编码功能。
- Stars: ⭐️ 1.0k
- Tags:
pytorchvideoaudiocodecmedia-processing - 最后活动时间: 2026-04-12
handcrafted-persona-engine
AI 驱动的交互式虚拟形象引擎,集成 Live2D、LLM、ASR、TTS 和 RVC,适合 VTuber 和虚拟助手应用。
- Stars: ⭐️ 1.0k
- Tags:
ai-vtuberlive2davatarttsasr - 最后活动时间: 2026-04-11
bmf
字节跳动开源的跨平台多媒体处理框架,支持GPU加速、AI推理、转码和直播视频流处理。
- Stars: ⭐️ 1.0k
- Tags:
视频处理AI推理跨平台 - 最后活动时间: 2026-03-19
segment-anything-video
MetaSeg是Segment Anything的封装版本,支持视频目标分割,集成YOLO系列检测器。
- Stars: ⭐️ 985
- Tags:
segment-anythingvideo-segmentationobject-detectionyolo - 最后活动时间: 2026-04-06
OpenVtuber
基于单目RGB摄像头的实时3D面部捕捉与虚拟形象驱动系统,支持人脸特征点检测。
- Stars: ⭐️ 953
- Tags:
face-detectionface-alignmentvtuber3d-capturetflite - 最后活动时间: 2025-10-17
brainrot.js
文本转视频生成器,可将任意主题转化为流行风格的短视频内容。支持多种个性化风格,适合快速创作教育或娱乐内容。
- Stars: ⭐️ 952
- Tags:
Text-to-VideoChatGPTContent Generation - 最后活动时间: 2026-03-25
EGVSR
高效通用的视频超分辨率框架,支持实时视频增强处理。
- Stars: ⭐️ 951
- Tags:
video-super-resolutionreal-timevideo-enhancement - 最后活动时间: 2026-03-25
hamer
基于Transformer的3D手部重建模型,实现高精度手部姿态估计与重建。
- Stars: ⭐️ 942
- Tags:
3d-reconstructionhand-posetransformercomputer-vision - 最后活动时间: 2026-02-07
SpaTrackerV2
ICCV 2025论文,简化高效的3D点追踪方法,适用于视频理解和重建任务。
- Stars: ⭐️ 939
- Tags:
3d-trackingpoint-trackingcomputer-visionvideo-understanding - 最后活动时间: 2026-02-27
SCAIL
CVPR 2026论文,通过上下文学习实现工作室级别的角色动画生成。
- Stars: ⭐️ 917
- Tags:
character-animationvideo-generationin-context-learningpose-estimation - 最后活动时间: 2026-03-16
MOVA
面向可扩展的同步视频-音频生成模型,基于扩散模型实现高质量多模态内容生成。
- Stars: ⭐️ 900
- Tags:
Video GenerationAudio GenerationMultimodal - 最后活动时间: 2026-04-01
ai-moive-studio
AI电影生成工作流Agent,输入剧本即可自动完成分镜生成、画面与音频素材生成、视频合成全流程,让个人创作者也能制作电影级作品。
- Stars: ⭐️ 893
- Tags:
AI视频电影生成工作流Agent - 最后活动时间: 2026-04-06
JoyVASA
基于扩散模型的人物与动物动画生成工具,支持音频驱动的说话头像生成。
- Stars: ⭐️ 861
- Tags:
audio-driventalking-headportrait-animationdiffusion - 最后活动时间: 2025-12-09
Seedance2-Storyboard-Generator
基于Seedance 2.0的AI剧本生成工具,可将小说故事一键转化为多集视频剧本。帮助创作者快速制作短剧内容。
- Stars: ⭐️ 836
- Tags:
video-generationstoryboardai-script - 最后活动时间: 2026-03-26
lyra
ICLR 2026论文,通过视频扩散模型自蒸馏实现3D场景重建。
- Stars: ⭐️ 834
- Tags:
3d-reconstructionvideo-diffusiongenerative-model - 最后活动时间: 2026-03-16
ConsisID
CVPR 2025 Highlight项目,通过频率分解实现身份保持的文本到视频生成。
- Stars: ⭐️ 833
- Tags:
Text-to-VideoIdentity PreservingDiffusion - 最后活动时间: 2026-03-08
4DNeX
前馈式4D生成建模框架,简化4D内容生成流程。
- Stars: ⭐️ 833
- Tags:
4d-generationgenerative-model3d-dynamic - 最后活动时间: 2025-12-14
generative-manim
基于GPT的视频生成工具,利用Manim将文本提示转换为动画视频,支持Streamlit界面。
- Stars: ⭐️ 822
- Tags:
gpt-4manimvideo-generationanimationstreamlit - 最后活动时间: 2026-03-14
DiT-Extrapolation
视频扩散Transformer的长度外推方法,支持长视频生成和位置嵌入优化。
- Stars: ⭐️ 801
- Tags:
diffusion-transformervideo-generationposition-embedding - 最后活动时间: 2026-03-08
JJYB_AI_VideoAutoCut
智能视频自动剪辑与AI解说工具,支持离线TTS、原创解说和AI配音。
- Stars: ⭐️ 799
- Tags:
video-editingttsai-videoauto-editing - 最后活动时间: 2025-11-23
claude-code-video-toolkit
AI原生视频生产工具包,集成Claude Code、ElevenLabs、Qwen-TTS等,支持程序化视频编辑与生成。
- Stars: ⭐️ 790
- Tags:
ai-video-generatorclaude-codevideo-productiontext-to-speechremotion - 最后活动时间: 2026-04-09
LongSplat
ICCV 2025论文实现,针对长视频的鲁棒3D高斯泼溅重建方法。
- Stars: ⭐️ 762
- Tags:
3d-gaussian-splatting3d-reconstructioncomputer-vision - 最后活动时间: 2026-01-19
VideoWorld
CVPR 2025 论文项目,一种从无标注视频中学习的生成模型,模拟婴儿通过观察环境学习的方式。
- Stars: ⭐️ 761
- Tags:
video-generationgenerative-modelself-supervised-learningcvpr2025 - 最后活动时间: 2026-02-25
cosmos-predict2
NVIDIA推出的物理AI通用世界基础模型,可微调为下游应用定制化世界模型。
- Stars: ⭐️ 760
- Tags:
world-modelphysical-aifoundation-modelnvidia - 最后活动时间: 2025-10-29
kandinsky-5
Kandinsky 5.0 扩散模型,支持高质量的视频与图像生成。
- Stars: ⭐️ 742
- Tags:
diffusiontext-to-videoimage-generation - 最后活动时间: 2026-03-31
Text-To-Video-AI
利用AI技术实现文本到视频生成的工具集合。
- Stars: ⭐️ 712
- Tags:
text-to-videoai-video-generatorvideo-generation - 最后活动时间: 2026-02-05
StoryGen-Atelier
AI 驱动的分镜与视频生成工具,结合 Gemini 生成分镜文本和画面,使用 Veo 生成过渡视频片段。
- Stars: ⭐️ 706
- Tags:
Video GenerationGeminiVeoStoryboard - 最后活动时间: 2025-12-06
comfy_mtb
面向动画制作的ComfyUI节点扩展包,支持人脸替换和插值功能。
- Stars: ⭐️ 697
- Tags:
comfyuianimationfaceswapstable-diffusion - 最后活动时间: 2026-03-19
Matrix-3D
从单张图像或文本提示生成大规模可探索3D场景及全景视频。
- Stars: ⭐️ 687
- Tags:
3d-generationtext-to-videoscene-generation - 最后活动时间: 2025-11-25
MoCha
端到端视频角色替换系统,无需结构引导即可实现高质量视频人物替换。
- Stars: ⭐️ 681
- Tags:
VideoCharacter ReplacementEnd-to-End - 最后活动时间: 2026-03-02
infinite-zoom-automatic1111-webui
AUTOMATIC1111 WebUI的无限缩放效果扩展,支持文生视频创作。
- Stars: ⭐️ 675
- Tags:
stable-diffusionautomatic1111infinite-zoomanimation - 最后活动时间: 2026-02-08
YumCut
免费AI视频生成器,可将文本提示转换为适合TikTok、Reels和YouTube Shorts的竖屏视频。支持自动脚本、场景、配音、字幕生成,本地优先且支持多语言输出。
- Stars: ⭐️ 660
- Tags:
ai-video-generatorshortstiktokffmpegnextjs - 最后活动时间: 2026-03-31
Sparse-VideoGen
通过稀疏注意力机制加速视频扩散Transformer的创新方法,显著提升视频生成效率。ICML 2025和NeurIPS 2025 Spotlight论文。
- Stars: ⭐️ 656
- Tags:
Video GenerationDiffusion ModelSparse AttentionEfficient ML - 最后活动时间: 2026-03-06
videollm-online
CVPR 2024论文,面向流媒体视频的在线视频大语言模型。
- Stars: ⭐️ 652
- Tags:
video-llmstreaming-videomultimodal - 最后活动时间: 2025-11-26
NOVA
ICLR 2025论文项目,提出无需向量量化的自回归视频生成方法,结合扩散模型实现高质量视频生成。
- Stars: ⭐️ 642
- Tags:
Video GenerationAutoregressiveDiffusion - 最后活动时间: 2025-10-29
YUME
基于世界模型的实时交互式视频生成系统官方代码。
- Stars: ⭐️ 641
- Tags:
world-modeltext-to-videointeractive-generation - 最后活动时间: 2026-01-14
mpv-upscale-2x_animejanai
基于 Real-ESRGAN 模型的实时动漫视频超分辨率工具,可在 mpv 播放器中将动漫视频实时放大至 4K。
- Stars: ⭐️ 637
- Tags:
real-esrgansuper-resolutionanime-upscalingtensorrtvideo - 最后活动时间: 2026-03-29
vidi
Vidi 大型多模态模型官方仓库,专注于视频理解与编辑任务。
- Stars: ⭐️ 617
- Tags:
video-understandingvideo-editingmultimodal-llm - 最后活动时间: 2026-03-04
DreamID-V
基于扩散Transformer的高保真视频换脸方法,实现图像到视频的跨模态生成。
- Stars: ⭐️ 610
- Tags:
face-swappingdiffusion-transformervideo-generation - 最后活动时间: 2026-03-13
pose2sim
基于任意摄像头的无标记运动捕捉系统,从2D姿态估计到3D OpenSim运动学分析。
- Stars: ⭐️ 609
- Tags:
pose-estimationmotion-capture3d-kinematicsbiomechanics - 最后活动时间: 2026-04-09
awesome-seedance-2-prompts
Seedance 2.0视频生成提示词精选合集,包含500+电影、动漫、UGC、广告等风格提示词及API使用指南。
- Stars: ⭐️ 597
- Tags:
ai-videovideo-generationprompt-engineeringseedance - 最后活动时间: 2026-04-13
Ditto
基于高质量合成数据集的指令驱动视频编辑方法,利用扩散模型实现精准视频编辑。
- Stars: ⭐️ 592
- Tags:
Video EditingDiffusion ModelsSynthetic Data - 最后活动时间: 2025-10-29
sora-extend
扩展Sora 2视频生成时长限制的工具,可生成超过OpenAI原生12秒限制的长视频。
- Stars: ⭐️ 590
- Tags:
soravideo-generationopenaiai-video - 最后活动时间: 2025-10-16
radial-attention
NeurIPS 2025论文,提出O(nlogn)稀疏注意力机制,支持长视频高效生成和主流视频模型。
- Stars: ⭐️ 589
- Tags:
Sparse AttentionVideo GenerationEfficient ML - 最后活动时间: 2025-11-11
Diffuman4D
ICCV 2025论文实现,利用时空扩散模型从稀疏视角视频生成4D一致性人体视图合成。
- Stars: ⭐️ 587
- Tags:
4d-synthesisdiffusionhuman-avatarnovel-view-synthesis - 最后活动时间: 2026-04-10
video-search-and-summarization
大规模视频检索与摘要蓝图,支持实时或存档视频的智能分析、摘要生成和交互式问答,结合LLM、RAG和VLM技术。
- Stars: ⭐️ 587
- Tags:
video-searchvideo-summarizationragvlmllm - 最后活动时间: 2026-04-10
Aether
ICCV 2025杰出论文,几何感知的统一世界建模框架,支持4D重建与视频生成。
- Stars: ⭐️ 585
- Tags:
world-model4d-reconstructionembodied-aivideo-generation - 最后活动时间: 2025-10-26
sleap
多动物姿态追踪深度学习框架,支持行为分析和姿态估计,广泛应用于神经科学和动物行为研究。
- Stars: ⭐️ 571
- Tags:
pose-estimationdeep-learninganimal-trackingcomputer-vision - 最后活动时间: 2026-04-10
ai_story
AI视频、动漫、短剧自动化生成工具,支持AI漫剧内容创作。
- Stars: ⭐️ 570
- Tags:
ai-videoai-animationvideo-generationai-storytelling - 最后活动时间: 2026-04-10
DigiHuman
使用姿态估计和地标生成技术实现3D角色自动动画化。
- Stars: ⭐️ 567
- Tags:
3d-animationpose-estimationdigital-humanunity - 最后活动时间: 2026-03-24
streamv2v
StreamV2V官方PyTorch实现,支持流式视频到视频转换,适用于实时视频编辑和生成场景。
- Stars: ⭐️ 542
- Tags:
video-generationvideo-to-videostreamingpytorch - 最后活动时间: 2025-12-29
X-Portrait
SIGGRAPH 2024论文官方代码,通过层次化运动注意力机制实现富有表现力的人像动画生成。
- Stars: ⭐️ 542
- Tags:
portrait-animationvideo-generationmotion-attentiongenerative-ai - 最后活动时间: 2025-10-14
AlayaRenderer
面向游戏与虚拟世界的AI原生渲染引擎,基于扩散模型实现神经渲染和视频生成。
- Stars: ⭐️ 542
- Tags:
neural-renderingdiffusion-modelvideo-generationgame-renderingai-renderer - 最后活动时间: 2026-04-09
Causal-Forcing
自回归扩散蒸馏方案,实现高质量实时交互式视频生成。
- Stars: ⭐️ 541
- Tags:
diffusion-modelsvideo-generationautoregressive - 最后活动时间: 2026-04-08
TraceAnything
ICLR 2026论文,通过轨迹场实现任意视频的4D表示重建。
- Stars: ⭐️ 525
- Tags:
4d-reconstructionvideo-understandingcomputer-vision - 最后活动时间: 2025-10-31
Magic-TryOn
基于大规模视频扩散Transformer的视频虚拟试穿框架,支持高质量服装替换与视频编辑。
- Stars: ⭐️ 525
- Tags:
virtual-tryonvideo-diffusiontransformervideo-editing - 最后活动时间: 2026-01-27
Open-OmniVCus
NeurIPS 2025论文,支持多模态控制条件的主体驱动视频定制。
- Stars: ⭐️ 518
- Tags:
video-generationdiffusion-modelscustomization - 最后活动时间: 2026-01-03
VideoChat-Flash
ICLR 2026,通过分层压缩实现长上下文视频建模的视频对话模型。
- Stars: ⭐️ 513
- Tags:
video-understandinglong-contextvideo-llmmultimodal - 最后活动时间: 2025-11-18
simple_vehicle_counting
基于背景减除的车辆检测、追踪与计数系统,适用于交通监控场景。
- Stars: ⭐️ 504
- Tags:
vehicle-countingvehicle-detectionopencvtracking - 最后活动时间: 2025-11-14
未分类 (Others)
mediapipe
Google开源的跨平台机器学习框架,提供人脸检测、手势识别、姿态估计等实时ML解决方案,支持多平台部署。
- Stars: ⭐️ 34.7k
- Tags:
计算机视觉机器学习跨平台 - 最后活动时间: 2026-04-11
sharp
高性能Node.js图像处理库,适用于多模态AI图像预处理
- Stars: ⭐️ 32.1k
- Tags:
image-processingnodejsperformance - 最后活动时间: 2026-04-10
moondream
轻量级视觉语言模型,专为边缘设备优化部署设计。
- Stars: ⭐️ 9.6k
- Tags:
VLMTiny ModelEdge AI - 最后活动时间: 2025-11-14
minimind-v
1小时从零训练26M参数视觉多模态VLM的轻量级框架,适合快速入门和学习VLM架构原理。
- Stars: ⭐️ 7.4k
- Tags:
VLM多模态训练框架 - 最后活动时间: 2026-04-04
pytesseract
Google Tesseract OCR的Python封装库,提供强大的光学字符识别能力,支持多种语言和图片格式。
- Stars: ⭐️ 6.3k
- Tags:
ocrtesseractcomputer-visionpython - 最后活动时间: 2026-03-16
GLM-OCR
基于GLM的高精度OCR模型,支持快速全面的文字识别能力。
- Stars: ⭐️ 5.8k
- Tags:
ocrglmimage-to-textdeep-learning - 最后活动时间: 2026-04-08
Bagel
开源统一多模态模型,支持多种模态的理解与生成任务。
- Stars: ⭐️ 5.8k
- Tags:
Multimodal ModelOpen SourceUnified Model - 最后活动时间: 2025-10-27
PySceneDetect
基于OpenCV的视频场景检测工具,自动识别视频中的转场与切割点。
- Stars: ⭐️ 4.7k
- Tags:
video-processingscene-detectionopencv - 最后活动时间: 2026-04-13
LightGlue
ICCV 2023论文实现,轻量级局部特征匹配模型,实现高速图像匹配与姿态估计。
- Stars: ⭐️ 4.5k
- Tags:
Image MatchingComputer VisionDeep Learning - 最后活动时间: 2026-02-18
VILA
NVIDIA推出的前沿视觉语言模型家族,支持边缘设备、数据中心和云端的多模态AI任务。
- Stars: ⭐️ 3.8k
- Tags:
vision-language-modelmultimodalvlm - 最后活动时间: 2026-03-12
OpenSfM
开源的三维重建流水线库,用于从图像序列中恢复相机位姿和三维结构。
- Stars: ⭐️ 3.7k
- Tags:
sfm3d-reconstructionphotogrammetry - 最后活动时间: 2026-04-08
TransUNet
医学图像分割Transformer模型,将Transformer作为编码器用于医学影像分析。
- Stars: ⭐️ 3.1k
- Tags:
medical-imagingsegmentationtransformer - 最后活动时间: 2026-02-25
Segment-and-Track-Anything
开源视频目标分割与跟踪工具,结合SAM和AOT实现交互式视频对象分割。
- Stars: ⭐️ 3.1k
- Tags:
segment-anythingvideo-segmentationobject-trackingsam - 最后活动时间: 2026-03-13
Pix2Text
开源Python工具,支持布局分析、表格、数学公式(LaTeX)和文字识别,输出Markdown格式。
- Stars: ⭐️ 3.1k
- Tags:
ocrmath-formulatable-recognitionmarkdown - 最后活动时间: 2026-02-07
T-Rex
ECCV 2024论文API代码,通过文本-视觉提示协同实现通用目标检测。
- Stars: ⭐️ 2.6k
- Tags:
object-detectionvision-languageopen-setvisual-prompt - 最后活动时间: 2025-10-15
pytorch-3dunet
基于PyTorch的3D U-Net模型,用于体数据语义分割,支持医学影像等应用。
- Stars: ⭐️ 2.4k
- Tags:
3d-segmentationunetpytorchvolumetric-data - 最后活动时间: 2025-12-16
GLM-V
智谱GLM系列多模态推理模型,通过可扩展强化学习实现通用多模态推理能力。
- Stars: ⭐️ 2.3k
- Tags:
vlmmultimodalreasoningvideo-understanding - 最后活动时间: 2026-04-06
perception_models
最先进的图像与视频CLIP模型及多模态大语言模型集合。
- Stars: ⭐️ 2.2k
- Tags:
multimodalclipvision-languagellm - 最后活动时间: 2026-03-12
deepseek-ocr.rs
Rust多后端OCR/VLM引擎,支持DeepSeek-OCR、PaddleOCR-VL等模型,提供OpenAI兼容服务器和CLI,无需Python即可本地运行。
- Stars: ⭐️ 2.2k
- Tags:
ocrvlmdeepseekrustopenai-compatible - 最后活动时间: 2026-02-21
cambrian
以视觉为中心设计的多模态大语言模型家族,在视觉理解任务上表现优异。
- Stars: ⭐️ 2.0k
- Tags:
Vision-Language ModelMultimodal LLMComputer Vision - 最后活动时间: 2025-11-07
RAE
扩散Transformer与表示自编码器的官方PyTorch实现,用于高质量图像生成。
- Stars: ⭐️ 1.9k
- Tags:
diffusiontransformerautoencoder - 最后活动时间: 2026-02-25
PointTransformerV3
CVPR 2024 Oral论文,点云处理Transformer V3官方实现,用于3D视觉任务。
- Stars: ⭐️ 1.8k
- Tags:
point-cloudtransformer3d-vision - 最后活动时间: 2025-10-24
yolov13
YOLOv13的官方实现,采用超图增强自适应视觉感知技术,实现实时目标检测。
- Stars: ⭐️ 1.6k
- Tags:
Object DetectionYOLOComputer Vision - 最后活动时间: 2025-11-18
HealthGPT
ICML 2025 Spotlight医学视觉语言模型,统一理解与生成能力。
- Stars: ⭐️ 1.6k
- Tags:
Medical AIVLMHealthcare - 最后活动时间: 2025-11-02
4D-Humans
基于Transformer的4D人体重建与跟踪方法,用于动态人体运动捕捉。
- Stars: ⭐️ 1.6k
- Tags:
3d-reconstructionhuman-posetransformer - 最后活动时间: 2026-02-07
PytorchOCR
基于PyTorch的OCR工具库,支持多种文字检测和识别算法,适用于文档数字化和场景文字识别。
- Stars: ⭐️ 1.5k
- Tags:
ocrtext-detectiontext-recognitionpytorch - 最后活动时间: 2026-01-04
TFace
腾讯优图实验室开发的人脸分析研究平台,支持人脸识别、属性分析等多种CV任务。
- Stars: ⭐️ 1.5k
- Tags:
face-recognitioncomputer-visiondeep-learningface-analysis - 最后活动时间: 2025-12-11
Ovis
新颖的多模态大语言模型架构,通过结构化设计实现视觉与文本嵌入对齐,支持Llama3和Qwen等主流模型。
- Stars: ⭐️ 1.4k
- Tags:
MultimodalVision-Language ModelMLLM - 最后活动时间: 2026-02-11
Awesome_Think_With_Images
大型视觉语言模型(LVLM)视觉思维资源与论文清单,涵盖如何利用视觉信息进行复杂推理、规划和生成的研究综述。
- Stars: ⭐️ 1.4k
- Tags:
large-vision-language-modelsmultimodal-reasoningvisual-reasoningLVLM - 最后活动时间: 2026-03-09
tr
离线中文文本检测与识别SDK,支持弯曲文本、CRNN、CTPN等多种技术。
- Stars: ⭐️ 1.4k
- Tags:
ocrchineseofflinetext-recognition - 最后活动时间: 2026-01-12
transfusion-pytorch
MetaAI Transfusion模型PyTorch实现,单模型实现下一token预测与图像扩散。
- Stars: ⭐️ 1.3k
- Tags:
multimodaltransformersdiffusionflow-matching - 最后活动时间: 2026-01-27
Rex-Omni
CVPR2026论文项目,基于下一帧点预测实现通用目标检测,结合MLLM实现开放集检测能力。
- Stars: ⭐️ 1.3k
- Tags:
mllmobject-detectionopen-setcomputer-vision - 最后活动时间: 2026-02-22
UForm
轻量级多模态AI模型,支持多语言文本和图像理解,速度比OpenAI CLIP快5倍。
- Stars: ⭐️ 1.2k
- Tags:
Multimodal AISemantic SearchEdge AI - 最后活动时间: 2025-10-30
audio-flamingo
Audio Flamingo系列音频理解语言模型PyTorch实现,支持音频描述、问答和推理等多模态任务。
- Stars: ⭐️ 1.0k
- Tags:
audio-language-modelsmultimodal-llmaudio-understandingpytorch - 最后活动时间: 2025-12-15
PointLLM
ECCV 2024最佳论文候选,赋能大语言模型理解3D点云数据的多模态模型。
- Stars: ⭐️ 1.0k
- Tags:
Point CloudMultimodalLLM3D - 最后活动时间: 2026-03-17
superpoint_transformer
ICCV'23和3DV'24 Oral论文官方实现,用于高效3D语义分割和全景分割的超点Transformer。
- Stars: ⭐️ 982
- Tags:
3dpoint-cloudsemantic-segmentationtransformer - 最后活动时间: 2026-02-24
MocapNET
实时3D人体姿态估计系统,从单目RGB图像直接生成BVH格式的动作捕捉数据,支持显著遮挡情况下的姿态恢复。
- Stars: ⭐️ 928
- Tags:
Pose EstimationComputer Vision3D AnimationTensorFlow - 最后活动时间: 2026-03-18
Face-X
面部识别算法与操作演示集合,涵盖人脸检测、识别、动画等多种技术。
- Stars: ⭐️ 847
- Tags:
face-recognitionopencvdeep-learning - 最后活动时间: 2026-02-15
MultimodalOCR
研究大型多模态模型中OCR能力的隐藏奥秘,提供OCRBench基准测试。
- Stars: ⭐️ 818
- Tags:
OCRMultimodalBenchmark - 最后活动时间: 2026-04-11
handpose_x
手部21关键点检测与手势识别工具,支持二维手势姿态估计,适用于人机交互和手势控制场景。
- Stars: ⭐️ 798
- Tags:
hand-posegesture-recognitionkeypoint-detectionpytorch - 最后活动时间: 2026-01-10
LLaVA-OneVision-1.5
完全开源的多模态训练框架,致力于降低VLM训练门槛,支持Qwen3等模型。
- Stars: ⭐️ 788
- Tags:
LLaVA多模态训练开源框架 - 最后活动时间: 2025-12-27
unicom
大规模视觉表征模型,面向具身智能和多模态应用。
- Stars: ⭐️ 703
- Tags:
visual-representationvision-transformerembodied-aimultimodal - 最后活动时间: 2025-12-08
OmniVinci
全模态大语言模型,支持视觉、音频和语言的联合理解。
- Stars: ⭐️ 652
- Tags:
multimodalvision-language-modelaudio-language-model - 最后活动时间: 2026-02-26
VLM2Vec
ICLR 2025论文,训练视觉语言模型用于大规模多模态嵌入任务。
- Stars: ⭐️ 623
- Tags:
embeddingvision-language-modelmultimodal - 最后活动时间: 2026-04-12
Seg-Zero
基于认知强化学习的推理链引导分割方法,实现图像分割与推理的深度融合。
- Stars: ⭐️ 620
- Tags:
segmentationreasoningreinforcement-learningmultimodal - 最后活动时间: 2026-01-17
Vision-DeepResearch
首个长周期多模态深度研究MLLM,支持数十轮推理和数百次搜索引擎交互。
- Stars: ⭐️ 612
- Tags:
multimodaldeep-researchreasoningbenchmark - 最后活动时间: 2026-03-13
Hulu-Med
面向整体医学视觉语言理解的透明通用模型。
- Stars: ⭐️ 592
- Tags:
medical-aivision-language-modelmultimodal - 最后活动时间: 2026-04-01
mvdust3r
Meta Reality Labs开源的MV-DUSt3R实现,可在2秒内从稀疏视图完成单阶段场景重建,支持3D视觉与深度学习应用。
- Stars: ⭐️ 582
- Tags:
3d-reconstructioncomputer-visiondeep-learningscene-understanding - 最后活动时间: 2026-04-06
Emotion-LLaMA
基于指令微调的多模态情感识别与推理模型,能够理解和分析图像中的情感表达。
- Stars: ⭐️ 556
- Tags:
Emotion RecognitionMultimodal LLMInstruction Tuning - 最后活动时间: 2025-11-17
Senna
连接大型视觉语言模型与端到端自动驾驶的桥梁项目。
- Stars: ⭐️ 543
- Tags:
autonomous-drivingvision-language-modelend-to-end - 最后活动时间: 2026-03-15
cambrian-s
面向视频空间超感知的视觉语言模型,实现视频场景的深度空间理解。
- Stars: ⭐️ 537
- Tags:
视频理解空间感知多模态 - 最后活动时间: 2026-04-03
Live-Video-Magnification
基于欧拉视频放大算法的实时应用,可放大视频中的微小运动与颜色变化。
- Stars: ⭐️ 527
- Tags:
video-magnificationeulerianopencv - 最后活动时间: 2025-10-27
MeViS
ICCV 2023 & TPAMI 2025 大规模视频分割基准数据集,支持运动表达的视频目标分割任务。
- Stars: ⭐️ 524
- Tags:
video-segmentationmultimodalbenchmarkreferring-expression - 最后活动时间: 2026-01-08
UniTok
NeurIPS 2025 Spotlight论文,统一视觉生成与理解的分词器。
- Stars: ⭐️ 519
- Tags:
tokenizerimage-generationvisual-understandingautoregressive - 最后活动时间: 2025-11-14
GPT4Scene-and-VLN-R1
利用视觉语言模型从视频中理解3D场景的研究项目,结合VLN导航任务实现场景理解。
- Stars: ⭐️ 512
- Tags:
vision-language-models3d-scene-understandingvideo-understandingvln - 最后活动时间: 2026-03-02
SD-VLM
NeurIPS 2025论文,探索深度编码视觉语言模型的空间测量与理解能力。
- Stars: ⭐️ 502
- Tags:
NeurIPS 2025空间理解VLM - 最后活动时间: 2025-12-29
Robust-R1
AAAI 2026口头报告论文,实现退化感知推理的鲁棒视觉理解模型。
- Stars: ⭐️ 485
- Tags:
multimodalrobustnessvisual-understandingreasoning - 最后活动时间: 2026-01-20
