👁️ 多模态与音视频
Computer vision, image generation, audio, text-to-speech.
Audio & Speech (TTS/STT)
bark
Suno AI推出的文本转音频生成模型,支持多语言语音合成、音乐生成和音效创作,可生成高度逼真的语音和音频内容。
- Stars: ⭐️ 39.0k
- Tags:
TTSAudio GenerationGenerative AI - 最后活动时间: 2024-08-19
ChatTTS
专为日常对话优化的生成式语音合成模型,支持中英双语,适合对话场景。
- Stars: ⭐️ 39.0k
- Tags:
TTSSpeechDialogue - 最后活动时间: 2026-01-18
OpenVoice
MIT与MyShell联合开发的即时语音克隆模型,支持零样本TTS,可快速克隆任意声音并生成自然流畅的语音。
- Stars: ⭐️ 36.1k
- Tags:
Voice CloningZero-shot TTSSpeech Synthesis - 最后活动时间: 2025-04-19
fish-speech
开源SOTA级文本转语音项目,基于LLaMA和Transformer架构,支持高质量语音合成与克隆。
- Stars: ⭐️ 28.5k
- Tags:
TTS语音合成Transformer - 最后活动时间: 2026-03-19
faster-whisper
基于CTranslate2的高效Whisper语音识别推理引擎,相比原版更快更省内存,支持量化压缩,适合生产部署。
- Stars: ⭐️ 21.6k
- Tags:
speech-recognitionwhisperinference-optimization - 最后活动时间: 2025-11-19
Handy
免费开源的离线语音转文字应用,支持完全离线运行保护隐私,基于Tauri v2跨平台构建。
- Stars: ⭐️ 18.1k
- Tags:
语音识别离线无障碍 - 最后活动时间: 2026-03-19
vosk-api
离线语音识别API,支持Android、iOS、树莓派和服务器,提供Python、Java、C#和Node.js多语言SDK。
- Stars: ⭐️ 14.4k
- Tags:
Speech RecognitionOfflineDeep Learning - 最后活动时间: 2026-02-22
AudioGPT
基于GPT的音频多模态系统,支持语音、音乐、声音的理解与生成及说话人头像合成。
- Stars: ⭐️ 10.2k
- Tags:
AudioGPTMultimodalSpeech - 最后活动时间: 2024-07-06
moshi
语音-文本基础模型和全双工口语对话框架,支持实时流式对话,采用Mimi编解码器实现高质量神经音频压缩。
- Stars: ⭐️ 9.9k
- Tags:
SpeechDialogueVoice AIReal-time - 最后活动时间: 2026-03-04
espnet
端到端语音处理工具包,支持语音识别、合成、翻译和说话人分离等多种任务,基于PyTorch构建并提供丰富的预训练模型。
- Stars: ⭐️ 9.8k
- Tags:
语音识别语音合成PyTorch - 最后活动时间: 2026-03-18
Amphion
音频、音乐和语音生成工具包,支持TTS、语音转换、音乐生成等多种生成任务,助力可复现研究。
- Stars: ⭐️ 9.7k
- Tags:
Audio GenerationTTSMusic Generation - 最后活动时间: 2025-05-27
clone-voice
带Web界面的声音克隆工具,支持使用任意音色录制和生成音频,实现个性化语音合成。
- Stars: ⭐️ 8.9k
- Tags:
Voice CloningTTS语音合成 - 最后活动时间: 2025-08-29
Bert-VITS2
基于VITS2与多语言BERT的高质量语音合成项目,支持多语言文本转语音,生成自然流畅的语音效果。
- Stars: ⭐️ 8.7k
- Tags:
TTS语音合成BERT - 最后活动时间: 2026-03-16
librosa
Python音频与音乐分析核心库,提供丰富的音频特征提取和信号处理功能,广泛应用于AI音频领域。
- Stars: ⭐️ 8.3k
- Tags:
音频分析信号处理Python库 - 最后活动时间: 2026-03-16
jukebox
OpenAI音乐生成模型,使用Transformer和VQ-VAE架构生成带歌词的完整音乐作品。
- Stars: ⭐️ 8.0k
- Tags:
音乐生成VQ-VAETransformer - 最后活动时间: 2024-06-19
higgs-audio
Boson AI开发的文本-音频基础模型,支持高质量音频生成与理解任务,在语音合成和多模态交互方面表现出色。
- Stars: ⭐️ 8.0k
- Tags:
Audio GenerationFoundation ModelMultimodal - 最后活动时间: 2026-01-18
ffsubsync
自动同步字幕与视频的工具,利用语音活动检测和FFT算法实现字幕时间轴的智能对齐。
- Stars: ⭐️ 7.6k
- Tags:
SubtitleSpeech DetectionVideo Processing - 最后活动时间: 2025-11-25
mlx-audio
基于Apple MLX框架的语音处理库,支持TTS、STT和STS全流程语音能力,专为Apple Silicon优化。
- Stars: ⭐️ 6.3k
- Tags:
TTSSTTApple SiliconMLX - 最后活动时间: 2026-03-20
silero-models
预训练文本转语音模型库,支持俄语、乌克兰语等10多种语言,可通过PyTorch Hub快速集成。
- Stars: ⭐️ 5.8k
- Tags:
TTS预训练模型多语言 - 最后活动时间: 2026-03-17
Recorder
功能强大的HTML5录音库,支持多格式音频录制并集成ASR语音识别,适用于语音交互和实时通话场景。
- Stars: ⭐️ 5.6k
- Tags:
音频录制ASRWebRTC - 最后活动时间: 2025-03-31
rnnoise
基于RNN的实时音频降噪库,可有效去除语音中的背景噪声,适用于通信和录音场景。
- Stars: ⭐️ 5.4k
- Tags:
AudioNoise ReductionRNNReal-time - 最后活动时间: 2025-02-22
speech-to-speech
基于开源模型构建的本地语音代理工具,支持语音识别、合成和翻译全流程。
- Stars: ⭐️ 4.6k
- Tags:
语音识别语音合成本地部署 - 最后活动时间: 2026-03-20
SmartSub
跨平台AI字幕生成工具,支持批量处理视频音频生成字幕并翻译,集成多家AI服务。
- Stars: ⭐️ 3.6k
- Tags:
字幕生成Whisper翻译 - 最后活动时间: 2026-03-17
mini-omni
开源多模态大语言模型,支持实时端到端语音输入和流式音频输出,实现听说思考一体化对话。
- Stars: ⭐️ 3.5k
- Tags:
Multimodal LLMSpeech-to-SpeechReal-time - 最后活动时间: 2024-11-05
faster-whisper-GUI
基于PySide6的faster-whisper图形界面工具,支持语音转文字、VAD检测,提供高效本地音频转录体验。
- Stars: ⭐️ 2.9k
- Tags:
ASRWhisper语音转录GUI - 最后活动时间: 2024-12-08
delayed-streams-modeling
Kyutai开发的语音识别与合成模型框架,采用延迟流建模技术实现高质量语音转文本和文本转语音功能。
- Stars: ⭐️ 2.9k
- Tags:
Speech-to-TextText-to-SpeechKyutai - 最后活动时间: 2026-01-26
lingvo
Google开源的序列建模框架,专注于语音识别、机器翻译和NLP任务,支持大规模分布式训练。
- Stars: ⭐️ 2.9k
- Tags:
Speech RecognitionMachine TranslationNLP - 最后活动时间: 2026-03-17
MARS5-TTS
CAMB.AI开源的高质量语音合成模型,支持声音克隆和韵律控制,生成自然流畅的语音输出。
- Stars: ⭐️ 2.8k
- Tags:
TTSVoice-CloningSpeech-Synthesis - 最后活动时间: 2024-08-01
aeneas
Python/C库,用于自动同步音频与文本,支持生成SRT、SMIL等字幕格式,适合字幕制作场景。
- Stars: ⭐️ 2.8k
- Tags:
forced-alignmentaudiospeech - 最后活动时间: 2024-06-22
supertonic
闪电般快速的设备端多语言TTS引擎,通过ONNX原生运行,支持跨平台离线语音合成。
- Stars: ⭐️ 2.7k
- Tags:
TTSONNXOn-Device - 最后活动时间: 2026-01-22
jarvis
离线语音助手,注重隐私保护,基于Rust和Tauri构建。无需联网即可运行,适合注重隐私的用户。
- Stars: ⭐️ 2.7k
- Tags:
voice-assistantrustofflineprivacy - 最后活动时间: 2026-02-18
ChatTTS_colab
基于ChatTTS的一键部署工具,支持流式输出、音色抽卡、长音频生成和分角色朗读。
- Stars: ⭐️ 2.6k
- Tags:
text-to-speechvoice-synthesiscolab - 最后活动时间: 2024-07-02
NeuralAmpModelerPlugin
基于神经网络的吉他放大器建模插件,利用AI技术精准模拟真实放大器的音色特性。
- Stars: ⭐️ 2.6k
- Tags:
Neural NetworkAudioPlugin - 最后活动时间: 2026-02-20
STT
强大的深度学习语音识别工具包,简化语音转文本模型的训练和部署流程。
- Stars: ⭐️ 2.6k
- Tags:
STTDeep LearningTensorFlow - 最后活动时间: 2024-03-11
marytts
开源多语言文本转语音合成系统,纯Java编写,支持多种语言的语音合成,适合语音应用开发与研究。
- Stars: ⭐️ 2.6k
- Tags:
TTS语音合成Java - 最后活动时间: 2025-01-17
NeuralNote
基于深度学习的音频转MIDI转录插件,支持实时音频识别并转换为MIDI音符,适用于音乐制作工作流。
- Stars: ⭐️ 2.5k
- Tags:
Audio-to-MIDIDeep LearningMusic Transcription - 最后活动时间: 2025-01-16
Scriberr
自托管的AI音频转录工具,支持本地部署以保护数据隐私,提供高质量的语音转文字服务。
- Stars: ⭐️ 2.5k
- Tags:
Audio TranscriptionSelf-hostedPrivacy - 最后活动时间: 2026-03-19
awesome-whisper
OpenAI Whisper语音识别模型精选资源列表,汇集工具、模型、教程和应用案例。
- Stars: ⭐️ 2.2k
- Tags:
Whisper语音识别Speech-to-Text - 最后活动时间: 2026-03-17
MMAudio
CVPR 2025接收的高质量视频到音频合成模型,通过多模态联合训练实现音视频同步生成,支持视频或文本生成音频。
- Stars: ⭐️ 2.1k
- Tags:
Video-to-AudioAudio SynthesisMultimodal - 最后活动时间: 2026-02-23
julius
开源的大词汇量连续语音识别引擎,支持实时语音处理和多平台部署,适用于语音助手和转录系统。
- Stars: ⭐️ 1.9k
- Tags:
语音识别开源引擎音频处理 - 最后活动时间: 2025-06-16
Awesome-ChatTTS
官方推荐的ChatTTS资源汇总项目,整理全网相关资源、教程和FAQ,帮助开发者快速上手语音合成模型。
- Stars: ⭐️ 1.9k
- Tags:
ChatTTSTTS语音合成 - 最后活动时间: 2024-07-03
RHVoice
免费开源的多语言语音合成引擎,支持俄语、英语、乌克兰语等多种语言,跨平台运行于Windows、Linux和Android。
- Stars: ⭐️ 1.8k
- Tags:
TTS语音合成开源 - 最后活动时间: 2026-03-19
openai-edge-tts
免费高质量的TTS API端点,兼容OpenAI接口,可替代商业TTS服务,支持自托管。
- Stars: ⭐️ 1.7k
- Tags:
TTSAPI自托管 - 最后活动时间: 2025-07-01
ParallelWaveGAN
基于PyTorch的神经网络声码器实现,支持Parallel WaveGAN、MelGAN、HiFi-GAN等多种实时语音合成模型。
- Stars: ⭐️ 1.6k
- Tags:
神经声码器TTSHiFi-GAN - 最后活动时间: 2024-04-22
bailing
类似GPT-4o的低延迟语音对话机器人,集成DeepSeek R1等大模型,响应时延低至800ms,支持打断和低配置设备运行。
- Stars: ⭐️ 1.6k
- Tags:
语音助手TTSASRDeepSeek - 最后活动时间: 2025-07-31
delta
LF AI基金会项目,基于深度学习的自然语言和语音处理平台,支持语音识别、情感识别、文本分类等任务。
- Stars: ⭐️ 1.6k
- Tags:
深度学习语音识别NLP - 最后活动时间: 2025-04-16
obs-localvocal
OBS Studio本地语音识别与字幕生成插件,基于Whisper AI实现实时语音转文字和翻译功能,支持离线运行。
- Stars: ⭐️ 1.4k
- Tags:
语音识别WhisperOBS插件 - 最后活动时间: 2026-02-18
Speech-Emotion-Analyzer
基于深度学习的语音情感分析模型,可识别五种不同情感,适合学习语音处理与情感识别技术。
- Stars: ⭐️ 1.4k
- Tags:
深度学习语音识别情感分析 - 最后活动时间: 2023-02-07
SALMONN
字节跳动与清华联合开发的多模态大语言模型,支持音频、语音、音乐和视频理解,入选ICLR/ICML 2024。
- Stars: ⭐️ 1.4k
- Tags:
多模态音频处理视频理解 - 最后活动时间: 2026-02-03
open-speech-corpora
精心整理的开源语音数据集列表,涵盖ASR、TTS、语音克隆等多种语音技术领域,为语音AI开发提供丰富的数据资源索引。
- Stars: ⭐️ 1.4k
- Tags:
语音识别TTS数据集 - 最后活动时间: 2024-06-06
Speech-AI-Forge
一站式语音AI平台,集成ChatTTS、CosyVoice、Fish-Speech等多种模型,提供API服务器和Gradio WebUI界面。
- Stars: ⭐️ 1.4k
- Tags:
TTSASR语音合成WebUI - 最后活动时间: 2026-03-06
SoniTranslate
视频同步翻译与自动配音工具,结合ASR、TTS和翻译技术实现跨语言视频内容转换。
- Stars: ⭐️ 1.3k
- Tags:
视频配音翻译TTSASR - 最后活动时间: 2025-12-02
HunyuanVideo-Foley
腾讯混元团队推出的高保真拟音音频生成模型,利用多模态扩散技术实现视频到音频的精准生成。
- Stars: ⭐️ 1.3k
- Tags:
video-to-audiofoley-generationmultimodal-diffusion - 最后活动时间: 2025-09-28
voicefixer
通用语音修复工具,支持去噪、去混响、语音增强和超分辨率重建,有效恢复语音质量。
- Stars: ⭐️ 1.3k
- Tags:
语音增强音频修复深度学习 - 最后活动时间: 2025-02-17
dicio-android
开源Android离线语音助手,基于Vosk实现本地语音识别与唤醒词检测,支持多种技能扩展。
- Stars: ⭐️ 1.3k
- Tags:
语音助手离线STTAndroidVosk - 最后活动时间: 2026-02-25
WhisperJAV
基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具,集成TEN-VAD和本地LLM,抗噪能力强。
- Stars: ⭐️ 1.3k
- Tags:
ASRWhisper字幕生成语音识别 - 最后活动时间: 2026-03-19
Matcha-TTS
ICASSP 2024发表的快速文本转语音架构,采用条件流匹配技术实现高质量语音合成。
- Stars: ⭐️ 1.3k
- Tags:
TTS流匹配语音合成 - 最后活动时间: 2026-03-16
LPCNet
Xiph.org开源的高效神经语音合成项目,结合LPC与深度学习实现低复杂度实时语音编解码。
- Stars: ⭐️ 1.2k
- Tags:
Speech SynthesisAudio CodecReal-time - 最后活动时间: 2024-09-21
athena
开源序列到序列语音处理引擎,支持语音识别、语音合成和说话人识别等多种任务。
- Stars: ⭐️ 970
- Tags:
语音识别语音合成TensorFlow - 最后活动时间: 2022-12-02
espresso
基于PyTorch的快速端到端神经语音识别工具包,支持多种ASR模型的训练与推理。
- Stars: ⭐️ 940
- Tags:
ASRPyTorch端到端 - 最后活动时间: 2024-09-04
VieNeu-TTS
越南语实时文本转语音系统,支持即时语音克隆和端侧CPU实时推理,输出24kHz高质量音频。
- Stars: ⭐️ 928
- Tags:
TTS语音克隆端侧推理 - 最后活动时间: 2026-03-19
CrisperWhisper
基于Whisper改进的逐字语音识别模型,提供更精确的词级时间戳和填充词检测功能。
- Stars: ⭐️ 927
- Tags:
ASR语音识别Whisper - 最后活动时间: 2025-06-03
PPASR
基于PaddlePaddle的端到端中文语音识别项目,支持DeepSpeech2、Conformer等主流模型,提供完整教程。
- Stars: ⭐️ 876
- Tags:
中文ASRPaddlePaddleConformer - 最后活动时间: 2025-12-17
SONAR
Meta推出的多语言多模态句子嵌入空间,支持语音和文本的统一编码与解码,为跨语言跨模态语义理解提供强大基础能力。
- Stars: ⭐️ 876
- Tags:
embeddingsmultilingualmultimodalspeech - 最后活动时间: 2025-10-10
Easy-Voice-Toolkit
用户友好的音频工具包,支持语音识别、转录、转换等多种功能,简化音频处理流程。
- Stars: ⭐️ 875
- Tags:
语音识别TTS音频处理 - 最后活动时间: 2026-03-20
sokuji
实时语音翻译工具,支持本地 AI 和多种云端服务商,提供 Chrome 扩展和桌面应用。
- Stars: ⭐️ 862
- Tags:
TranslationSpeech-to-SpeechReal-time - 最后活动时间: 2026-03-19
gitpodcast
将任意Git仓库自动转换为播客内容,利用AI和TTS技术让开发者通过音频了解代码项目。
- Stars: ⭐️ 804
- Tags:
AITTSPodcastDeveloper Tools - 最后活动时间: 2025-08-30
pdf-to-podcast
将PDF文档转换为AI生成的播客音频,基于NVIDIA NIM构建,支持随时随地收听文档内容。
- Stars: ⭐️ 803
- Tags:
PDFTTS播客音频生成 - 最后活动时间: 2026-01-30
lobe-tts
高质量文本转语音与语音识别库,同时支持服务端和浏览器端,提供统一 API 接口。
- Stars: ⭐️ 779
- Tags:
TTSSTTSpeech RecognitionReact - 最后活动时间: 2026-03-02
TTS-Voice-Wizard
强大的语音转换工具,支持语音识别、TTS和实时翻译,可集成VRChat虚拟形象显示,适合VTuber使用。
- Stars: ⭐️ 778
- Tags:
TTSSTTVRChatVTuber - 最后活动时间: 2025-11-02
TTS-Audio-Suite
ComfyUI多引擎TTS集成节点,支持10+主流语音合成引擎,提供角色配音和时间轴功能。
- Stars: ⭐️ 776
- Tags:
TTSComfyUIVoice CloningAudio Generation - 最后活动时间: 2026-03-19
dla
音频深度学习综合工具库,涵盖语音识别、说话人验证、语音合成等多种音频处理任务。
- Stars: ⭐️ 738
- Tags:
Deep LearningSpeech RecognitionTTSVoice Conversion - 最后活动时间: 2025-12-15
Kokoros
基于Kokoro模型的Rust高性能TTS实现,提供极速、高质量的实时语音合成能力。
- Stars: ⭐️ 736
- Tags:
TTSRust语音合成 - 最后活动时间: 2026-03-11
sgmse
基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。
- Stars: ⭐️ 729
- Tags:
Diffusion语音增强音频处理 - 最后活动时间: 2026-02-01
openspeech
基于PyTorch-Lightning和Hydra的端到端语音识别工具包,提供完整ASR解决方案。
- Stars: ⭐️ 717
- Tags:
ASRPyTorch端到端 - 最后活动时间: 2023-10-23
ProjectAlice
模块化、注重隐私的语音助手项目,支持自定义技能扩展,适合构建本地化智能语音交互系统。
- Stars: ⭐️ 709
- Tags:
Voice AssistantPrivacyModular - 最后活动时间: 2023-12-14
whisper.unity
Unity3d本地Whisper语音识别集成工具,支持离线实时语音转文字,无需联网即可运行。
- Stars: ⭐️ 705
- Tags:
Unity语音识别Whisper离线ASR - 最后活动时间: 2025-04-17
Make-An-Audio
ICML'23论文实现,基于扩散模型的文本/视频到音频生成系统,支持高质量音频生成。
- Stars: ⭐️ 669
- Tags:
text-to-audiodiffusion-modelsvideo-to-audio - 最后活动时间: 2024-05-22
kospeech
端到端韩语语音识别开源工具包,支持Transformer、Conformer等多种ASR架构。
- Stars: ⭐️ 638
- Tags:
ASR韩语PyTorch - 最后活动时间: 2023-05-27
whisper_android
基于OpenAI Whisper的Android离线语音识别方案,使用TensorFlow Lite实现本地化部署,无需网络即可运行。
- Stars: ⭐️ 632
- Tags:
语音识别Android离线推理 - 最后活动时间: 2026-03-18
RapidASR
商用级开源语音识别推理库,基于ONNXRuntime支持中英文混合识别,开箱即用。
- Stars: ⭐️ 603
- Tags:
ASRONNX语音识别 - 最后活动时间: 2024-05-15
WhisperS2T
针对Whisper模型优化的语音转文本流水线,支持TensorRT推理引擎并集成VAD功能。
- Stars: ⭐️ 542
- Tags:
WhisperTensorRTASR - 最后活动时间: 2024-08-27
Leaderboard
大规模自动语音识别(ASR)基准测试平台,全面评估和比较语音识别系统的性能。
- Stars: ⭐️ 541
- Tags:
ASR基准测试语音识别 - 最后活动时间: 2025-03-29
Image Generation
stable-diffusion-webui
最受欢迎的Stable Diffusion Web UI,提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。
- Stars: ⭐️ 161.9k
- Tags:
stable-diffusionimage-generationgradioai-art - 最后活动时间: 2026-03-02
ComfyUI
最强大的模块化扩散模型GUI工具,基于节点的工作流界面,灵活构建复杂图像生成流程。
- Stars: ⭐️ 106.5k
- Tags:
Stable-DiffusionGUIImage-Generation - 最后活动时间: 2026-03-20
stable-diffusion
革命性的潜在文本到图像扩散模型,AI艺术创作领域的里程碑项目。
- Stars: ⭐️ 72.7k
- Tags:
Text-to-ImageDiffusionAI Art - 最后活动时间: 2024-06-18
GFPGAN
腾讯开源的人脸修复算法,利用GAN实现真实世界人脸图像的高质量修复与增强。
- Stars: ⭐️ 37.4k
- Tags:
人脸修复图像增强GAN - 最后活动时间: 2024-07-26
openpose
CMU开发的实时多人关键点检测库,支持人体、面部、手部和脚部姿态估计,广泛应用于动作识别领域。
- Stars: ⭐️ 33.9k
- Tags:
姿态估计关键点检测实时 - 最后活动时间: 2024-08-03
diffusers
Hugging Face推出的扩散模型库,支持图像、视频和音频生成,是生成式AI领域的核心工具。
- Stars: ⭐️ 33.1k
- Tags:
DiffusionPyTorchHuggingFace - 最后活动时间: 2026-03-20
facefusion
业界领先的人脸处理平台,支持换脸、对口型等多种AI面部操作功能。
- Stars: ⭐️ 27.2k
- Tags:
人脸处理换脸深度学习 - 最后活动时间: 2026-03-20
InvokeAI
领先的Stable Diffusion创意引擎,提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。
- Stars: ⭐️ 26.9k
- Tags:
Stable Diffusion图像生成AI艺术 - 最后活动时间: 2026-03-20
pytorch-CycleGAN-and-pix2pix
经典图像到图像翻译PyTorch实现,包含CycleGAN和pix2pix模型,支持无配对数据的风格迁移及高质量图像生成。
- Stars: ⭐️ 25.0k
- Tags:
CycleGANpix2pixImage-to-ImageGAN - 最后活动时间: 2025-08-06
IOPaint
基于SOTA AI模型的图像修复工具,支持移除图片中不需要的物体或人物。集成Stable Diffusion,智能擦除替换图片内容。
- Stars: ⭐️ 22.9k
- Tags:
图像修复Stable Diffusion图像编辑 - 最后活动时间: 2025-04-29
gaussian-splatting
3D Gaussian Splatting官方实现,突破性实时辐射场渲染技术,通过高斯点云实现高质量实时3D场景重建与渲染。
- Stars: ⭐️ 21.1k
- Tags:
3D重建计算机视觉神经渲染 - 最后活动时间: 2025-10-17
DeOldify
基于深度学习的老照片和视频上色修复工具,能够将黑白影像智能还原为彩色,效果惊艳。
- Stars: ⭐️ 18.5k
- Tags:
image-colorizationdeep-learningcomputer-vision - 最后活动时间: 2024-10-19
ml-stable-diffusion
Apple官方推出的Stable Diffusion Core ML实现,专为Apple Silicon芯片优化,支持在Mac和iOS设备上高效运行图像生成模型。
- Stars: ⭐️ 17.8k
- Tags:
Stable DiffusionCore MLApple Silicon - 最后活动时间: 2025-07-03
Grounded-Segment-Anything
融合Grounding DINO与Segment Anything,实现自动检测、分割和生成任意对象。
- Stars: ⭐️ 17.5k
- Tags:
SegmentationObject DetectionSAM - 最后活动时间: 2024-09-05
Waifu2x-Extension-GUI
强大的AI图像视频超分辨率工具,集成多种AI模型,支持图片/视频放大与帧插值。
- Stars: ⭐️ 16.3k
- Tags:
超分辨率图像放大视频处理 - 最后活动时间: 2026-03-17
Hunyuan3D-2
腾讯混元推出的高分辨率3D资产生成大模型,支持文本/图像生成高质量3D模型。
- Stars: ⭐️ 13.3k
- Tags:
3D GenerationText-to-3DTencent - 最后活动时间: 2025-10-28
ImageToolbox
功能强大的Android图像处理应用,集成AI背景移除、OCR文字识别、图像放大等智能功能。
- Stars: ⭐️ 12.2k
- Tags:
图像处理OCR背景移除 - 最后活动时间: 2026-03-20
DiffSynth-Studio
一站式扩散模型创作工作室,支持图像生成、视频合成等多种AI生成任务,轻松体验扩散模型的魔力。
- Stars: ⭐️ 12.0k
- Tags:
扩散模型图像生成视频合成 - 最后活动时间: 2026-03-20
VAR
NeurIPS 2024最佳论文官方实现,提出视觉自回归建模方法,超越扩散模型的新一代图像生成范式。
- Stars: ⭐️ 8.6k
- Tags:
AutoregressiveImage GenerationSOTA - 最后活动时间: 2025-11-10
awesome-gpt4o-images
精选GPT-4o图像生成作品与提示词合集,展示多种AI艺术风格示例,是学习提示词工程的优质资源。
- Stars: ⭐️ 7.9k
- Tags:
GPT-4oImage GenerationPrompt EngineeringAI Art - 最后活动时间: 2025-05-26
mmagic
OpenMMLab开源的多模态生成式AI工具箱,支持文本生成图像、图像/视频修复增强、扩散模型等,提供丰富的预训练模型。
- Stars: ⭐️ 7.4k
- Tags:
AIGCDiffusionImage GenerationVideo Enhancement - 最后活动时间: 2024-08-06
donut
ECCV 2022官方实现,无需OCR即可直接从文档图像提取结构化信息的Transformer模型。
- Stars: ⭐️ 6.8k
- Tags:
文档理解OCR-free多模态 - 最后活动时间: 2024-07-11
VLM-R1
基于强化学习的视觉语言模型项目,将R1方法应用于多模态场景,实现视觉理解能力的突破性提升。
- Stars: ⭐️ 5.9k
- Tags:
VLMReinforcement LearningMultimodalDeepSeek-R1 - 最后活动时间: 2026-03-12
mmf
Meta AI开发的模块化多模态视觉-语言研究框架,支持VQA、图像描述、对话等多种任务,提供预训练模型。
- Stars: ⭐️ 5.6k
- Tags:
MultimodalVision-LanguageVQAPyTorch - 最后活动时间: 2026-03-16
SUPIR
面向真实场景的图像修复算法,利用扩散模型和LLaVA实现照片级超分辨率重建,结合SDXL技术提供高质量图像恢复。
- Stars: ⭐️ 5.5k
- Tags:
Image RestorationSuper ResolutionSDXL - 最后活动时间: 2025-05-12
clarity-upscaler
免费开源的AI图像放大增强工具,基于Stable Diffusion提供高质量超分辨率处理。
- Stars: ⭐️ 5.0k
- Tags:
Image EnhancementUpscalingStable Diffusion - 最后活动时间: 2025-03-06
StableSwarmUI
模块化的Stable Diffusion Web界面,专注于高性能图像生成和强大扩展能力。
- Stars: ⭐️ 4.9k
- Tags:
Stable DiffusionImage GenerationWeb UI - 最后活动时间: 2025-03-06
HunyuanDiT
腾讯混元DiT扩散Transformer模型,支持多分辨率图像生成,具备精细中文语义理解。
- Stars: ⭐️ 4.3k
- Tags:
DiffusionText-to-Image中文 - 最后活动时间: 2025-11-27
Deformable-DETR
改进的端到端目标检测模型,通过可变形注意力机制大幅提升收敛速度和小目标检测性能。
- Stars: ⭐️ 3.9k
- Tags:
Object DetectionTransformerComputer Vision - 最后活动时间: 2024-05-16
SegFormer
NVIDIA官方发布的Transformer语义分割模型,在ADE20K和Cityscapes等数据集上取得SOTA性能。
- Stars: ⭐️ 3.4k
- Tags:
语义分割Transformer计算机视觉 - 最后活动时间: 2024-08-02
awesome-virtual-try-on
虚拟试穿领域精选资源列表,汇集论文、代码、数据集,涵盖2D/3D试穿与多姿态引导技术。
- Stars: ⭐️ 3.0k
- Tags:
虚拟试穿图像生成计算机视觉 - 最后活动时间: 2026-03-05
DreamCraft3D
ICLR 2024 分层3D生成方法,通过引导式扩散先验实现高质量图像到3D转换,可从单张图像生成精细3D模型。
- Stars: ⭐️ 3.0k
- Tags:
3D GenerationDiffusion ModelsImage-to-3D - 最后活动时间: 2025-04-22
SimpleTuner
面向图像、视频和音频扩散模型的通用微调工具包,支持Stable Diffusion、Flux等主流模型的高效训练。
- Stars: ⭐️ 2.8k
- Tags:
DiffusionFine-tuningStable Diffusion - 最后活动时间: 2026-03-20
Stable-Diffusion
全面的Stable Diffusion学习资源库,涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。
- Stars: ⭐️ 2.7k
- Tags:
Stable DiffusionLoRAComfyUIImage Generation - 最后活动时间: 2026-03-18
Open-Higgsfield-AI
开源免费的AI图像生成与电影工作室,支持Flux、SDXL等20+模型。可自托管部署,提供完整的图像与视频创作功能。
- Stars: ⭐️ 2.6k
- Tags:
AI图像生成视频创作开源替代 - 最后活动时间: 2026-03-18
xDiT
可扩展的Diffusion Transformers推理引擎,支持大规模并行计算,显著提升DiT模型推理性能。
- Stars: ⭐️ 2.6k
- Tags:
DiffusionInferenceParallelism - 最后活动时间: 2026-03-18
mPLUG-Owl
阿里巴巴达摩院多模态大语言模型家族,支持图像和视频理解,具备强大的视觉-语言对齐能力。
- Stars: ⭐️ 2.5k
- Tags:
MultimodalLLMVision-LanguageVideo Understanding - 最后活动时间: 2025-04-02
Restormer
高效Transformer模型,专用于高分辨率图像恢复任务,在去模糊、去雨、去噪等任务达到SOTA性能。
- Stars: ⭐️ 2.5k
- Tags:
Transformer图像恢复CVPR2022 - 最后活动时间: 2025-10-23
DreamOmni2
多模态指令驱动的图像编辑与生成统一模型,支持基于自然语言指令的图像处理任务。
- Stars: ⭐️ 2.3k
- Tags:
图像编辑图像生成多模态 - 最后活动时间: 2025-10-20
MeshAnything
ICLR 2025官方实现,利用自回归Transformer将任意输入转换为高质量3D网格模型,支持点云等多种输入格式。
- Stars: ⭐️ 2.3k
- Tags:
3D生成TransformerICLR2025 - 最后活动时间: 2025-04-28
Lumina-T2X
统一的文本到任意模态生成框架,基于扩散Transformer实现高质量的多模态内容生成。
- Stars: ⭐️ 2.3k
- Tags:
DiffusionTransformerMultimodal Generation - 最后活动时间: 2025-02-16
LlamaGen
基于Llama架构的自回归图像生成模型,在图像生成质量上超越扩散模型,展示自回归模型在视觉生成领域的潜力。
- Stars: ⭐️ 1.9k
- Tags:
Text-to-ImageAutoregressiveLlama - 最后活动时间: 2024-08-15
Show-o
统一多模态理解和生成的单一Transformer模型,ICLR/NeurIPS 2025接收,融合扩散模型与大语言模型。
- Stars: ⭐️ 1.9k
- Tags:
多模态扩散模型大语言模型 - 最后活动时间: 2026-01-08
ComfyUI_frontend
ComfyUI官方前端实现,为节点式AI图像生成工作流提供现代化可视化界面,支持拖拽式构建复杂的Stable Diffusion处理流程。
- Stars: ⭐️ 1.7k
- Tags:
Stable DiffusionImage GenerationNode Editor - 最后活动时间: 2026-03-20
Magic123
ICLR24论文官方实现,单图生成高质量3D物体,结合2D和3D扩散先验实现精细转换。
- Stars: ⭐️ 1.6k
- Tags:
3D生成扩散模型图像转3D - 最后活动时间: 2025-05-29
MMaDA
开源多模态大扩散语言模型,融合块扩散、混合思维链和统一强化学习技术。
- Stars: ⭐️ 1.6k
- Tags:
diffusion-modelsmultimodal-llmreasoning - 最后活动时间: 2026-02-14
WorldGen
基于生成式AI的3D场景生成工具,支持文本和图像快速生成任意3D场景,实现秒级高质量三维内容创作。
- Stars: ⭐️ 1.6k
- Tags:
3D GenerationText-to-3DScene Generation - 最后活动时间: 2026-03-17
unidiffuser
清华大学提出的统一多模态扩散模型,一个Transformer处理所有多模态分布,支持图像、文本等多种模态的联合生成。
- Stars: ⭐️ 1.5k
- Tags:
Diffusion ModelMultimodalTransformer - 最后活动时间: 2023-05-31
ComfyUI_UltimateSDUpscale
ComfyUI的高质量图像放大节点扩展,支持多种放大算法,显著提升Stable Diffusion生成图像的分辨率和细节。
- Stars: ⭐️ 1.5k
- Tags:
ComfyUI图像放大Stable Diffusion - 最后活动时间: 2026-02-27
ResShift
NeurIPS 2023 Spotlight论文,高效图像超分辨率扩散模型,通过残差偏移机制实现快速高质量图像重建。
- Stars: ⭐️ 1.4k
- Tags:
超分辨率扩散模型计算机视觉 - 最后活动时间: 2025-07-08
CrossAttentionControl
Prompt-to-Prompt图像编辑技术的实现,基于Stable Diffusion控制交叉注意力实现精准文本引导编辑。
- Stars: ⭐️ 1.3k
- Tags:
Stable Diffusion图像编辑交叉注意力 - 最后活动时间: 2022-10-18
DDNM
ICLR 2023 Oral论文实现,零样本图像修复方法,无需针对特定任务训练即可实现高质量图像修复。
- Stars: ⭐️ 1.3k
- Tags:
扩散模型图像修复零样本学习 - 最后活动时间: 2024-04-25
data-efficient-gans
NeurIPS 2020论文实现,通过可微分增强技术实现数据高效的GAN训练,仅需少量数据即可生成高质量图像。
- Stars: ⭐️ 1.3k
- Tags:
GANImage GenerationNeurIPS - 最后活动时间: 2024-09-24
stable-fast
针对 HuggingFace Diffusers 的高性能推理优化框架,在 NVIDIA GPU 上实现 Stable Diffusion 等扩散模型的最佳推理性能。
- Stars: ⭐️ 1.3k
- Tags:
推理优化Stable DiffusionCUDAPyTorch - 最后活动时间: 2025-03-27
DragDiffusion
CVPR2024 Highlight论文官方代码,基于扩散模型的高精度图像拖拽编辑方法,支持用户通过拖拽点精确控制图像内容变形。
- Stars: ⭐️ 1.3k
- Tags:
DiffusionImage EditingCVPR2024 - 最后活动时间: 2024-01-29
PaddleViT
基于PaddlePaddle的视觉Transformer和MLP模型库,支持图像分类、目标检测、语义分割等CV任务。
- Stars: ⭐️ 1.2k
- Tags:
TransformerPaddlePaddle计算机视觉 - 最后活动时间: 2022-09-07
Kimi-VL
月之暗面开源的混合专家视觉语言模型,支持多模态推理和长上下文理解。
- Stars: ⭐️ 1.2k
- Tags:
Vision-LanguageMoEMultimodal - 最后活动时间: 2025-07-15
comfyui-inpaint-nodes
ComfyUI专业图像修复节点集合,支持Fooocus SDXL、LaMa、MAT等多种算法,提供强大的图像修复功能。
- Stars: ⭐️ 1.2k
- Tags:
ComfyUI图像修复Inpainting - 最后活动时间: 2026-02-27
Difix3D
CVPR 2025口头报告与最佳论文入围作品,利用单步扩散模型显著提升3D重建质量,结合高斯泼溅与NeRF技术。
- Stars: ⭐️ 1.1k
- Tags:
3D ReconstructionDiffusion ModelsGaussian Splatting - 最后活动时间: 2025-06-28
MeanFlow
一步生成建模的PyTorch实现,探索流匹配和扩散模型的高效生成方法。
- Stars: ⭐️ 1.1k
- Tags:
DiffusionFlow MatchingGenerative Model - 最后活动时间: 2025-12-17
FireRed-Image-Edit
开源SOTA图像编辑基础模型,支持精确指令跟随、高保真生成和优异身份一致性。
- Stars: ⭐️ 1.1k
- Tags:
Image EditingDiffusionAIGC - 最后活动时间: 2026-03-10
VisCPM
基于CPM的中英双语多模态大模型,ICLR'24 spotlight,支持多模态对话和图像生成。
- Stars: ⭐️ 1.1k
- Tags:
multimodalvision-languagebilingual - 最后活动时间: 2024-06-13
DiffusionToolkit
专为AI生成图像设计的元数据索引器和查看器,支持Stable Diffusion等生成工具的PNG信息管理。
- Stars: ⭐️ 979
- Tags:
Stable Diffusion图像管理元数据 - 最后活动时间: 2026-02-27
visual_anagrams
基于扩散模型的多视角光学错觉生成工具,可创建从不同角度观看呈现不同图像的创意视觉作品。
- Stars: ⭐️ 962
- Tags:
Diffusion ModelsOptical IllusionGenerative AI - 最后活动时间: 2024-06-22
ODISE
NVIDIA开发的开放词汇全景分割模型,CVPR 2023 Highlight,利用扩散模型实现零样本分割。
- Stars: ⭐️ 934
- Tags:
SegmentationZero-ShotCVPR 2023 - 最后活动时间: 2024-07-06
FernRPExample
Unity渲染包实现,集成NPR/PBR渲染技术与Stable Diffusion,为游戏开发者提供AI增强渲染方案。
- Stars: ⭐️ 918
- Tags:
unitystable-diffusionrendering - 最后活动时间: 2025-01-22
Real-Time-Latent-Consistency-Model
展示多种实时扩散模型管道的应用,基于Diffusers实现低延迟图像生成,支持实时交互式AI绘画体验。
- Stars: ⭐️ 915
- Tags:
实时生成扩散模型LCM - 最后活动时间: 2025-09-27
DiffSensei
CVPR 2025论文实现,结合多模态大语言模型与扩散模型,实现定制化漫画生成。
- Stars: ⭐️ 904
- Tags:
Diffusion漫画生成多模态LLM - 最后活动时间: 2025-02-05
api-llm-ocr
基于视觉大模型的PDF转Markdown工具,支持表格、布局和结构保留,适用于文档AI处理场景。
- Stars: ⭐️ 889
- Tags:
OCRVision-LLMDocument-AIPDF - 最后活动时间: 2026-02-21
SeargeSDXL
专为ComfyUI设计的自定义节点集合,提供优化的SDXL工作流和高级图像生成功能。
- Stars: ⭐️ 872
- Tags:
ComfyUISDXL工作流 - 最后活动时间: 2024-05-22
MiniGPT-5
支持交错视觉-语言生成的多模态模型,通过生成式Voken实现内容创作。
- Stars: ⭐️ 862
- Tags:
MultimodalVision-LanguageGPT - 最后活动时间: 2025-05-08
SSH
单阶段无头人脸检测器,实现高效精准的人脸检测,无需额外的人脸提议网络。
- Stars: ⭐️ 839
- Tags:
Face DetectionComputer VisionDeep Learning - 最后活动时间: 2021-08-22
ComfyUI-BRIA_AI-RMBG
BRIA RMBG背景移除模型的ComfyUI实现,支持高质量图像背景自动移除,可无缝集成到Stable Diffusion工作流。
- Stars: ⭐️ 834
- Tags:
ComfyUI背景移除图像处理 - 最后活动时间: 2024-05-22
MeshDiffusion
ICLR 2023 Spotlight论文官方实现,基于扩散模型的高质量3D网格生成方法,为3D内容创作提供新范式。
- Stars: ⭐️ 828
- Tags:
3D生成扩散模型PyTorch - 最后活动时间: 2024-05-20
Open-DiffusionGS
ICCV 2025论文,融合高斯泼溅与扩散模型,实现快速单阶段图像到3D生成与重建。
- Stars: ⭐️ 822
- Tags:
3D生成高斯泼溅扩散模型 - 最后活动时间: 2026-01-28
PoinTr
ICCV 2021 Oral论文,基于几何感知Transformer的点云补全模型,从部分点云重建完整3D几何结构。
- Stars: ⭐️ 822
- Tags:
3D VisionPoint CloudTransformer - 最后活动时间: 2025-12-15
TF-ICON
ICCV 2023论文实现,基于扩散模型的无训练跨域图像合成方法,支持Stable Diffusion。
- Stars: ⭐️ 821
- Tags:
Diffusion ModelImage CompositionGenerative AI - 最后活动时间: 2025-03-06
GaussianDreamer
CVPR 2024论文,结合2D/3D扩散模型与Gaussian Splatting,实现快速文本到3D高质量生成。
- Stars: ⭐️ 818
- Tags:
Text-to-3DGaussian Splatting扩散模型 - 最后活动时间: 2025-01-13
daclip-uir
基于视觉语言模型的通用图像修复框架,支持去模糊、去雾、去噪等多种任务,ICLR 2024论文,NTIRE 2024挑战赛第5名。
- Stars: ⭐️ 808
- Tags:
Image RestorationVision-LanguageICLR 2024 - 最后活动时间: 2024-08-07
diffusion-point-cloud
CVPR 2021论文实现,基于扩散概率模型的3D点云生成方法,实现高质量三维点云生成与补全。
- Stars: ⭐️ 782
- Tags:
3D点云扩散模型生成模型 - 最后活动时间: 2025-11-28
Skyfall-GS
从卫星图像合成沉浸式3D城市场景,结合3D高斯泼溅与扩散模型技术实现高质量三维重建。
- Stars: ⭐️ 765
- Tags:
3D重建卫星图像高斯泼溅 - 最后活动时间: 2026-03-18
dift
NeurIPS'23论文项目,发现扩散模型中自然涌现的对应关系能力,无需监督即可实现跨图像语义匹配。
- Stars: ⭐️ 754
- Tags:
DiffusionCorrespondenceComputer Vision - 最后活动时间: 2024-05-14
GenerativeModels
MONAI官方生成式模型工具包,专注于医学影像领域的扩散模型、GAN等生成模型训练与部署。
- Stars: ⭐️ 747
- Tags:
医学影像生成模型扩散模型 - 最后活动时间: 2024-07-01
stable-diffusion-aesthetic-gradients
通过美学梯度实现Stable Diffusion模型个性化,让生成的图像更符合特定审美偏好。
- Stars: ⭐️ 741
- Tags:
Stable DiffusionAesthetic GradientsPersonalization - 最后活动时间: 2022-10-21
image-restoration-sde
ICML 2023论文,NTIRE 2023冠军方案,支持去模糊、去雾、去噪、超分辨率等多种图像修复任务。
- Stars: ⭐️ 704
- Tags:
Image RestorationDiffusionICML 2023 - 最后活动时间: 2024-07-23
StableGen
强大的Blender插件,集成Stable Diffusion、ControlNet和Flux1-dev,实现智能3D纹理生成。
- Stars: ⭐️ 701
- Tags:
BlenderStable Diffusion3D纹理 - 最后活动时间: 2026-03-17
CRM
ECCV 2024论文,10秒内将单张图像转换为高质量3D纹理网格,实现快速多视图重建。
- Stars: ⭐️ 684
- Tags:
3D GenerationImage ReconstructionECCV 2024 - 最后活动时间: 2024-11-28
DiffusionDPO
Salesforce开源的扩散模型对齐方法,将DPO技术应用于图像生成模型,实现更符合人类偏好的生成效果。
- Stars: ⭐️ 672
- Tags:
Diffusion ModelsDPOModel Alignment - 最后活动时间: 2025-11-10
ComfyScript
ComfyUI的Python前端库,支持将工作流编写为Python脚本,在Jupyter中实现自动化图像生成。
- Stars: ⭐️ 660
- Tags:
ComfyUIStable DiffusionPython - 最后活动时间: 2026-02-17
Lumina-mGPT
灵活的光真实感文本到图像生成模型,采用多模态生成式预训练技术实现高质量图像生成。
- Stars: ⭐️ 643
- Tags:
文本生成图像多模态图像生成 - 最后活动时间: 2025-10-16
comfyui-tooling-nodes
ComfyUI工具节点集合,支持将其作为后端服务使用,实现外部工具与ComfyUI直接图像传输。
- Stars: ⭐️ 643
- Tags:
ComfyUIStable DiffusionAPI - 最后活动时间: 2026-02-21
FastGen
NVIDIA推出的扩散模型加速生成技术,通过蒸馏方法显著提升图像生成速度,提供高效推理优化方案。
- Stars: ⭐️ 638
- Tags:
DiffusionDistillationNVIDIA - 最后活动时间: 2026-03-19
IMAGHarmony
可控图像编辑框架,在复杂多对象编辑中保持对象数量和布局一致性,实现高保真连贯的图像生成。
- Stars: ⭐️ 607
- Tags:
Image EditingDiffusionControllable - 最后活动时间: 2025-10-18
ComfyFlowApp
将ComfyUI工作流快速转换为Web应用的工具,无需前端开发经验即可部署AI图像生成应用。
- Stars: ⭐️ 606
- Tags:
ComfyUI工作流转换Web应用 - 最后活动时间: 2024-03-21
semantic-draw
CVPR 2025 论文官方实现,支持从图像扩散模型进行实时交互式内容创作,结合语义绘制与 Stable Diffusion 技术。
- Stars: ⭐️ 587
- Tags:
Image GenerationStable DiffusionInteractive - 最后活动时间: 2025-06-01
Stable-Texturify
基于Stable Diffusion和Blender的3D纹理生成工具,AI自动为3D模型创建高质量纹理贴图。
- Stars: ⭐️ 583
- Tags:
Stable Diffusion3D纹理BlenderAI生成 - 最后活动时间: 2023-09-06
ShapeLLM-Omni
NeurIPS 2025 Spotlight论文,原生多模态大语言模型,专注于3D生成与理解,支持文本/图像到3D转换。
- Stars: ⭐️ 551
- Tags:
3D生成多模态LLMNeurIPS 2025 - 最后活动时间: 2025-10-20
Hunyuan3D-Omni
腾讯混元统一3D资产生成框架,支持可控的图像到3D生成,为游戏和元宇宙内容创作提供强大工具。
- Stars: ⭐️ 537
- Tags:
3D生成多模态图像转3D - 最后活动时间: 2025-10-17
ComfyUI-TiledDiffusion
ComfyUI的Tiled Diffusion扩展,支持生成超大尺寸图像并优化显存使用。
- Stars: ⭐️ 516
- Tags:
Stable DiffusionImage GenerationComfyUIVRAM Optimization - 最后活动时间: 2025-03-18
tessera
剑桥大学开发的卫星时序图像基础模型,支持土地分类和树冠高度预测等遥感应用。
- Stars: ⭐️ 509
- Tags:
SatelliteRemote SensingFoundation Models - 最后活动时间: 2026-03-17
PIDM
CVPR 2023论文,基于扩散模型的人物图像合成方法,支持姿态引导的高质量人物图像生成与编辑。
- Stars: ⭐️ 500
- Tags:
Image GenerationDiffusionCVPR 2023 - 最后活动时间: 2024-06-11
Video Generation
MoneyPrinterTurbo
利用AI大模型一键生成高清短视频的自动化工具,支持批量创作和多种视频风格。
- Stars: ⭐️ 50.4k
- Tags:
AI视频生成短视频自动化 - 最后活动时间: 2025-12-14
DeepFaceLab
业界领先的深度伪造视频制作工具,支持人脸替换和表情迁移,广泛应用于影视后期和创意内容制作。
- Stars: ⭐️ 19.1k
- Tags:
deep-learningface-swapcomputer-vision - 最后活动时间: 2024-11-13
CogVideo
智谱AI开源的文本/图像生成视频模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。
- Stars: ⭐️ 12.5k
- Tags:
文生视频图生视频视频生成 - 最后活动时间: 2025-11-04
hallo
层次化音频驱动的肖像动画生成项目,根据音频输入生成逼真的人物说话动画视频。
- Stars: ⭐️ 8.7k
- Tags:
人脸动画音频驱动肖像合成 - 最后活动时间: 2024-09-14
ShortGPT
实验性AI框架,用于自动化YouTube Shorts和TikTok频道的内容创作,实现视频自动生成和编辑。
- Stars: ⭐️ 7.2k
- Tags:
AI视频自动化内容创作 - 最后活动时间: 2025-02-10
ProPainter
ICCV 2023论文实现,基于Transformer的高质量视频修复模型,支持物体移除、水印去除等场景。
- Stars: ⭐️ 6.6k
- Tags:
视频修复物体移除Transformer - 最后活动时间: 2025-02-19
agentheroes
AI角色生成与动画化平台,支持图像视频生成,集成ChatGPT、LoRA等技术打造智能虚拟角色。
- Stars: ⭐️ 3.4k
- Tags:
AI CharactersVideo GenerationAnimationLoRA - 最后活动时间: 2025-06-23
Ask-Anything
CVPR2024 Highlight项目,实现ChatGPT视频理解能力,支持miniGPT4、StableLM、MOSS等多种大语言模型。
- Stars: ⭐️ 3.3k
- Tags:
video-understandingmultimodalvideo-qa - 最后活动时间: 2025-01-18
autoclip
AI驱动的智能视频剪辑工具,自动识别并提取视频高光片段,助力二创内容快速生成。
- Stars: ⭐️ 3.1k
- Tags:
AI视频自动剪辑高光提取 - 最后活动时间: 2025-09-24
frame-interpolation
Google Research帧插值模型,ECCV 2022发表,可处理大运动场景下的视频帧插值,适用于视频增强和慢动作生成。
- Stars: ⭐️ 3.1k
- Tags:
帧插值视频处理计算机视觉 - 最后活动时间: 2024-08-10
MimicMotion
腾讯开源的高质量人体运动视频生成框架,基于置信度感知姿态引导技术生成流畅自然的动作视频。
- Stars: ⭐️ 2.5k
- Tags:
Video GenerationMotion SynthesisTencent - 最后活动时间: 2025-11-18
moyin-creator
AI影视生产级工具,支持Seedance 2.0,实现从剧本到成片的全流程批量化生产。
- Stars: ⭐️ 2.3k
- Tags:
视频生成影视制作AI工具 - 最后活动时间: 2026-03-20
LightX2V
轻量级图像到视频生成推理框架,支持自回归扩散模型和多种视频生成模型的高效推理部署。
- Stars: ⭐️ 2.1k
- Tags:
Video GenerationDiffusionInference Framework - 最后活动时间: 2026-03-20
HunyuanVideo-I2V
腾讯混元推出的可定制图像到视频生成模型,基于扩散模型实现高质量视频生成,支持将静态图像转换为动态视频。
- Stars: ⭐️ 1.8k
- Tags:
Image-to-VideoDiffusion ModelsTencent - 最后活动时间: 2025-05-20
Auto-Synced-Translated-Dubs
自动翻译视频字幕并利用AI语音服务生成同步配音的工具,结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。
- Stars: ⭐️ 1.7k
- Tags:
视频配音TTS字幕翻译 - 最后活动时间: 2026-01-24
TokenFlow
ICLR 2024论文实现,通过一致的扩散特征实现高质量视频编辑,保持帧间时序一致性。
- Stars: ⭐️ 1.7k
- Tags:
Video EditingStable DiffusionText-to-VideoDiffusion - 最后活动时间: 2025-02-03
Helios
北大团队开源的实时长视频生成模型,支持文本/图像/视频到视频生成,具备世界模拟能力。
- Stars: ⭐️ 1.4k
- Tags:
视频生成扩散模型世界模型 - 最后活动时间: 2026-03-20
HunyuanCustom
腾讯混元多模态定制视频生成模型,支持音频驱动和图像到视频生成,实现高质量个性化视频创作。
- Stars: ⭐️ 1.2k
- Tags:
视频生成多模态扩散模型 - 最后活动时间: 2025-10-15
FireRed-OpenStoryline
AI视频编辑智能体,通过自然语言交互和LLM驱动的规划,实现意图驱动的导演式创作体验。
- Stars: ⭐️ 1.2k
- Tags:
Video EditingLLMLangChain - 最后活动时间: 2026-03-20
MagicDrive
ICLR 2024 论文实现,基于扩散模型的街景视图生成,支持多样化3D几何控制,为自动驾驶提供数据增强和仿真环境。
- Stars: ⭐️ 1.2k
- Tags:
Autonomous DrivingStreet ViewVideo Generation - 最后活动时间: 2025-04-21
Hotshot-XL
最先进的文本转GIF AI模型,专为与Stable Diffusion XL协同工作而训练,可轻松生成高质量动态图像。
- Stars: ⭐️ 1.1k
- Tags:
Text-to-GIFText-to-VideoSDXL - 最后活动时间: 2024-01-23
MotionDirector
ECCV 2024 Oral论文,实现文本到视频扩散模型的动作定制化,支持精准运动控制。
- Stars: ⭐️ 1.1k
- Tags:
Video GenerationMotion ControlECCV 2024 - 最后活动时间: 2024-08-21
speech-driven-animation
基于语音驱动的面部动画生成工具,可根据语音输入自动生成逼真的口型和面部表情动画。
- Stars: ⭐️ 964
- Tags:
Lip-syncAnimationAvatar - 最后活动时间: 2023-09-10
ControlVideo
ICLR 2024论文实现,无需训练的可控文本到视频生成方案。
- Stars: ⭐️ 862
- Tags:
Video GenerationDiffusionText-to-Video - 最后活动时间: 2023-10-12
instruct-nerf2nerf
ICCV 2023论文,基于指令的3D场景编辑工具,支持文本引导的3D内容修改。
- Stars: ⭐️ 850
- Tags:
3DNeRFScene Editing - 最后活动时间: 2024-02-12
MOVA
面向可扩展的同步视频-音频生成模型,基于扩散模型实现高质量多模态内容生成。
- Stars: ⭐️ 840
- Tags:
Video GenerationAudio GenerationMultimodal - 最后活动时间: 2026-03-14
ConsisID
CVPR 2025 Highlight项目,通过频率分解实现身份保持的文本到视频生成。
- Stars: ⭐️ 835
- Tags:
Text-to-VideoIdentity PreservingDiffusion - 最后活动时间: 2026-03-08
MOFA-Video
ECCV 2024 论文,通过生成式运动场适配实现可控图像动画,在冻结的图像到视频扩散模型中实现高质量视频生成。
- Stars: ⭐️ 767
- Tags:
Image-to-VideoControllable GenerationECCV 2024 - 最后活动时间: 2024-12-05
MPP-LLaVA
支持视频/图像多模态的LLaVA风格训练框架,可在消费级显卡上训练8B/14B多模态大模型。
- Stars: ⭐️ 658
- Tags:
MLLMFine-tuningMultimodal - 最后活动时间: 2025-03-10
NOVA
ICLR 2025论文项目,提出无需向量量化的自回归视频生成方法,结合扩散模型实现高质量视频生成。
- Stars: ⭐️ 636
- Tags:
Video GenerationAutoregressiveDiffusion - 最后活动时间: 2025-10-29
radial-attention
NeurIPS 2025论文,提出O(nlogn)稀疏注意力机制,支持长视频高效生成和主流视频模型。
- Stars: ⭐️ 587
- Tags:
Sparse AttentionVideo GenerationEfficient ML - 最后活动时间: 2025-11-11
Ditto
基于高质量合成数据集的指令驱动视频编辑方法,利用扩散模型实现精准视频编辑。
- Stars: ⭐️ 586
- Tags:
Video EditingDiffusion ModelsSynthetic Data - 最后活动时间: 2025-10-29
kimodo
NVIDIA官方运动扩散模型,专注于生成高质量的人形角色动作序列。
- Stars: ⭐️ 558
- Tags:
运动生成扩散模型角色动画 - 最后活动时间: 2026-03-19
EDGE
斯坦福大学提出的舞蹈动作生成模型,基于扩散模型实现高质量音乐驱动舞蹈生成,发表于CVPR 2023。
- Stars: ⭐️ 552
- Tags:
Dance GenerationDiffusion ModelsCVPR 2023 - 最后活动时间: 2024-01-05
未分类 (Others)
mediapipe
Google开源的跨平台机器学习框架,提供人脸检测、手势识别、姿态估计等实时ML解决方案,支持多平台部署。
- Stars: ⭐️ 34.2k
- Tags:
计算机视觉机器学习跨平台 - 最后活动时间: 2026-03-20
MetaTransformer
统一的多模态学习框架,支持文本、图像、音频等多种模态的跨模态特征对齐与融合。
- Stars: ⭐️ 1.7k
- Tags:
MultimodalTransformerFoundation Model - 最后活动时间: 2023-12-05
Multimodal-GPT
基于Flamingo架构的多模态对话模型,融合视觉编码器与大语言模型实现图文理解与对话。
- Stars: ⭐️ 1.5k
- Tags:
MultimodalVision-LanguageLLaMA - 最后活动时间: 2023-06-04
Ovis
新颖的多模态大语言模型架构,通过结构化设计实现视觉与文本嵌入对齐,支持Llama3和Qwen等主流模型。
- Stars: ⭐️ 1.4k
- Tags:
MultimodalVision-Language ModelMLLM - 最后活动时间: 2026-02-11
PointLLM
ECCV 2024最佳论文候选,赋能大语言模型理解3D点云数据的多模态模型。
- Stars: ⭐️ 985
- Tags:
Point CloudMultimodalLLM3D - 最后活动时间: 2026-03-17
