Skip to content

👁️ 多模态与音视频

Computer vision, image generation, audio, text-to-speech.

Audio & Speech (TTS/STT)

bark

Suno AI推出的文本转音频生成模型,支持多语言语音合成、音乐生成和音效创作,可生成高度逼真的语音和音频内容。

  • Stars: ⭐️ 39.0k
  • Tags: TTS Audio Generation Generative AI
  • 最后活动时间: 2024-08-19

ChatTTS

专为日常对话优化的生成式语音合成模型,支持中英双语,适合对话场景。

  • Stars: ⭐️ 39.0k
  • Tags: TTS Speech Dialogue
  • 最后活动时间: 2026-01-18

OpenVoice

MIT与MyShell联合开发的即时语音克隆模型,支持零样本TTS,可快速克隆任意声音并生成自然流畅的语音。

  • Stars: ⭐️ 36.1k
  • Tags: Voice Cloning Zero-shot TTS Speech Synthesis
  • 最后活动时间: 2025-04-19

fish-speech

开源SOTA级文本转语音项目,基于LLaMA和Transformer架构,支持高质量语音合成与克隆。

  • Stars: ⭐️ 28.5k
  • Tags: TTS 语音合成 Transformer
  • 最后活动时间: 2026-03-19

faster-whisper

基于CTranslate2的高效Whisper语音识别推理引擎,相比原版更快更省内存,支持量化压缩,适合生产部署。

  • Stars: ⭐️ 21.6k
  • Tags: speech-recognition whisper inference-optimization
  • 最后活动时间: 2025-11-19

Handy

免费开源的离线语音转文字应用,支持完全离线运行保护隐私,基于Tauri v2跨平台构建。

  • Stars: ⭐️ 18.1k
  • Tags: 语音识别 离线 无障碍
  • 最后活动时间: 2026-03-19

vosk-api

离线语音识别API,支持Android、iOS、树莓派和服务器,提供Python、Java、C#和Node.js多语言SDK。

  • Stars: ⭐️ 14.4k
  • Tags: Speech Recognition Offline Deep Learning
  • 最后活动时间: 2026-02-22

AudioGPT

基于GPT的音频多模态系统,支持语音、音乐、声音的理解与生成及说话人头像合成。

  • Stars: ⭐️ 10.2k
  • Tags: Audio GPT Multimodal Speech
  • 最后活动时间: 2024-07-06

moshi

语音-文本基础模型和全双工口语对话框架,支持实时流式对话,采用Mimi编解码器实现高质量神经音频压缩。

  • Stars: ⭐️ 9.9k
  • Tags: Speech Dialogue Voice AI Real-time
  • 最后活动时间: 2026-03-04

espnet

端到端语音处理工具包,支持语音识别、合成、翻译和说话人分离等多种任务,基于PyTorch构建并提供丰富的预训练模型。

  • Stars: ⭐️ 9.8k
  • Tags: 语音识别 语音合成 PyTorch
  • 最后活动时间: 2026-03-18

Amphion

音频、音乐和语音生成工具包,支持TTS、语音转换、音乐生成等多种生成任务,助力可复现研究。

  • Stars: ⭐️ 9.7k
  • Tags: Audio Generation TTS Music Generation
  • 最后活动时间: 2025-05-27

clone-voice

带Web界面的声音克隆工具,支持使用任意音色录制和生成音频,实现个性化语音合成。

  • Stars: ⭐️ 8.9k
  • Tags: Voice Cloning TTS 语音合成
  • 最后活动时间: 2025-08-29

Bert-VITS2

基于VITS2与多语言BERT的高质量语音合成项目,支持多语言文本转语音,生成自然流畅的语音效果。

  • Stars: ⭐️ 8.7k
  • Tags: TTS 语音合成 BERT
  • 最后活动时间: 2026-03-16

librosa

Python音频与音乐分析核心库,提供丰富的音频特征提取和信号处理功能,广泛应用于AI音频领域。

  • Stars: ⭐️ 8.3k
  • Tags: 音频分析 信号处理 Python库
  • 最后活动时间: 2026-03-16

jukebox

OpenAI音乐生成模型,使用Transformer和VQ-VAE架构生成带歌词的完整音乐作品。

  • Stars: ⭐️ 8.0k
  • Tags: 音乐生成 VQ-VAE Transformer
  • 最后活动时间: 2024-06-19

higgs-audio

Boson AI开发的文本-音频基础模型,支持高质量音频生成与理解任务,在语音合成和多模态交互方面表现出色。

  • Stars: ⭐️ 8.0k
  • Tags: Audio Generation Foundation Model Multimodal
  • 最后活动时间: 2026-01-18

ffsubsync

自动同步字幕与视频的工具,利用语音活动检测和FFT算法实现字幕时间轴的智能对齐。

  • Stars: ⭐️ 7.6k
  • Tags: Subtitle Speech Detection Video Processing
  • 最后活动时间: 2025-11-25

mlx-audio

基于Apple MLX框架的语音处理库,支持TTS、STT和STS全流程语音能力,专为Apple Silicon优化。

  • Stars: ⭐️ 6.3k
  • Tags: TTS STT Apple Silicon MLX
  • 最后活动时间: 2026-03-20

silero-models

预训练文本转语音模型库,支持俄语、乌克兰语等10多种语言,可通过PyTorch Hub快速集成。

  • Stars: ⭐️ 5.8k
  • Tags: TTS 预训练模型 多语言
  • 最后活动时间: 2026-03-17

Recorder

功能强大的HTML5录音库,支持多格式音频录制并集成ASR语音识别,适用于语音交互和实时通话场景。

  • Stars: ⭐️ 5.6k
  • Tags: 音频录制 ASR WebRTC
  • 最后活动时间: 2025-03-31

rnnoise

基于RNN的实时音频降噪库,可有效去除语音中的背景噪声,适用于通信和录音场景。

  • Stars: ⭐️ 5.4k
  • Tags: Audio Noise Reduction RNN Real-time
  • 最后活动时间: 2025-02-22

speech-to-speech

基于开源模型构建的本地语音代理工具,支持语音识别、合成和翻译全流程。

  • Stars: ⭐️ 4.6k
  • Tags: 语音识别 语音合成 本地部署
  • 最后活动时间: 2026-03-20

SmartSub

跨平台AI字幕生成工具,支持批量处理视频音频生成字幕并翻译,集成多家AI服务。

  • Stars: ⭐️ 3.6k
  • Tags: 字幕生成 Whisper 翻译
  • 最后活动时间: 2026-03-17

mini-omni

开源多模态大语言模型,支持实时端到端语音输入和流式音频输出,实现听说思考一体化对话。

  • Stars: ⭐️ 3.5k
  • Tags: Multimodal LLM Speech-to-Speech Real-time
  • 最后活动时间: 2024-11-05

faster-whisper-GUI

基于PySide6的faster-whisper图形界面工具,支持语音转文字、VAD检测,提供高效本地音频转录体验。

  • Stars: ⭐️ 2.9k
  • Tags: ASR Whisper 语音转录 GUI
  • 最后活动时间: 2024-12-08

delayed-streams-modeling

Kyutai开发的语音识别与合成模型框架,采用延迟流建模技术实现高质量语音转文本和文本转语音功能。

  • Stars: ⭐️ 2.9k
  • Tags: Speech-to-Text Text-to-Speech Kyutai
  • 最后活动时间: 2026-01-26

lingvo

Google开源的序列建模框架,专注于语音识别、机器翻译和NLP任务,支持大规模分布式训练。

  • Stars: ⭐️ 2.9k
  • Tags: Speech Recognition Machine Translation NLP
  • 最后活动时间: 2026-03-17

MARS5-TTS

CAMB.AI开源的高质量语音合成模型,支持声音克隆和韵律控制,生成自然流畅的语音输出。

  • Stars: ⭐️ 2.8k
  • Tags: TTS Voice-Cloning Speech-Synthesis
  • 最后活动时间: 2024-08-01

aeneas

Python/C库,用于自动同步音频与文本,支持生成SRT、SMIL等字幕格式,适合字幕制作场景。

  • Stars: ⭐️ 2.8k
  • Tags: forced-alignment audio speech
  • 最后活动时间: 2024-06-22

supertonic

闪电般快速的设备端多语言TTS引擎,通过ONNX原生运行,支持跨平台离线语音合成。

  • Stars: ⭐️ 2.7k
  • Tags: TTS ONNX On-Device
  • 最后活动时间: 2026-01-22

jarvis

离线语音助手,注重隐私保护,基于Rust和Tauri构建。无需联网即可运行,适合注重隐私的用户。

  • Stars: ⭐️ 2.7k
  • Tags: voice-assistant rust offline privacy
  • 最后活动时间: 2026-02-18

ChatTTS_colab

基于ChatTTS的一键部署工具,支持流式输出、音色抽卡、长音频生成和分角色朗读。

  • Stars: ⭐️ 2.6k
  • Tags: text-to-speech voice-synthesis colab
  • 最后活动时间: 2024-07-02

NeuralAmpModelerPlugin

基于神经网络的吉他放大器建模插件,利用AI技术精准模拟真实放大器的音色特性。

  • Stars: ⭐️ 2.6k
  • Tags: Neural Network Audio Plugin
  • 最后活动时间: 2026-02-20

STT

强大的深度学习语音识别工具包,简化语音转文本模型的训练和部署流程。

  • Stars: ⭐️ 2.6k
  • Tags: STT Deep Learning TensorFlow
  • 最后活动时间: 2024-03-11

marytts

开源多语言文本转语音合成系统,纯Java编写,支持多种语言的语音合成,适合语音应用开发与研究。

  • Stars: ⭐️ 2.6k
  • Tags: TTS 语音合成 Java
  • 最后活动时间: 2025-01-17

NeuralNote

基于深度学习的音频转MIDI转录插件,支持实时音频识别并转换为MIDI音符,适用于音乐制作工作流。

  • Stars: ⭐️ 2.5k
  • Tags: Audio-to-MIDI Deep Learning Music Transcription
  • 最后活动时间: 2025-01-16

Scriberr

自托管的AI音频转录工具,支持本地部署以保护数据隐私,提供高质量的语音转文字服务。

  • Stars: ⭐️ 2.5k
  • Tags: Audio Transcription Self-hosted Privacy
  • 最后活动时间: 2026-03-19

awesome-whisper

OpenAI Whisper语音识别模型精选资源列表,汇集工具、模型、教程和应用案例。

  • Stars: ⭐️ 2.2k
  • Tags: Whisper 语音识别 Speech-to-Text
  • 最后活动时间: 2026-03-17

MMAudio

CVPR 2025接收的高质量视频到音频合成模型,通过多模态联合训练实现音视频同步生成,支持视频或文本生成音频。

  • Stars: ⭐️ 2.1k
  • Tags: Video-to-Audio Audio Synthesis Multimodal
  • 最后活动时间: 2026-02-23

julius

开源的大词汇量连续语音识别引擎,支持实时语音处理和多平台部署,适用于语音助手和转录系统。

  • Stars: ⭐️ 1.9k
  • Tags: 语音识别 开源引擎 音频处理
  • 最后活动时间: 2025-06-16

Awesome-ChatTTS

官方推荐的ChatTTS资源汇总项目,整理全网相关资源、教程和FAQ,帮助开发者快速上手语音合成模型。

  • Stars: ⭐️ 1.9k
  • Tags: ChatTTS TTS 语音合成
  • 最后活动时间: 2024-07-03

RHVoice

免费开源的多语言语音合成引擎,支持俄语、英语、乌克兰语等多种语言,跨平台运行于Windows、Linux和Android。

  • Stars: ⭐️ 1.8k
  • Tags: TTS 语音合成 开源
  • 最后活动时间: 2026-03-19

openai-edge-tts

免费高质量的TTS API端点,兼容OpenAI接口,可替代商业TTS服务,支持自托管。

  • Stars: ⭐️ 1.7k
  • Tags: TTS API 自托管
  • 最后活动时间: 2025-07-01

ParallelWaveGAN

基于PyTorch的神经网络声码器实现,支持Parallel WaveGAN、MelGAN、HiFi-GAN等多种实时语音合成模型。

  • Stars: ⭐️ 1.6k
  • Tags: 神经声码器 TTS HiFi-GAN
  • 最后活动时间: 2024-04-22

bailing

类似GPT-4o的低延迟语音对话机器人,集成DeepSeek R1等大模型,响应时延低至800ms,支持打断和低配置设备运行。

  • Stars: ⭐️ 1.6k
  • Tags: 语音助手 TTS ASR DeepSeek
  • 最后活动时间: 2025-07-31

delta

LF AI基金会项目,基于深度学习的自然语言和语音处理平台,支持语音识别、情感识别、文本分类等任务。

  • Stars: ⭐️ 1.6k
  • Tags: 深度学习 语音识别 NLP
  • 最后活动时间: 2025-04-16

obs-localvocal

OBS Studio本地语音识别与字幕生成插件,基于Whisper AI实现实时语音转文字和翻译功能,支持离线运行。

  • Stars: ⭐️ 1.4k
  • Tags: 语音识别 Whisper OBS插件
  • 最后活动时间: 2026-02-18

Speech-Emotion-Analyzer

基于深度学习的语音情感分析模型,可识别五种不同情感,适合学习语音处理与情感识别技术。

  • Stars: ⭐️ 1.4k
  • Tags: 深度学习 语音识别 情感分析
  • 最后活动时间: 2023-02-07

SALMONN

字节跳动与清华联合开发的多模态大语言模型,支持音频、语音、音乐和视频理解,入选ICLR/ICML 2024。

  • Stars: ⭐️ 1.4k
  • Tags: 多模态 音频处理 视频理解
  • 最后活动时间: 2026-02-03

open-speech-corpora

精心整理的开源语音数据集列表,涵盖ASR、TTS、语音克隆等多种语音技术领域,为语音AI开发提供丰富的数据资源索引。

  • Stars: ⭐️ 1.4k
  • Tags: 语音识别 TTS 数据集
  • 最后活动时间: 2024-06-06

Speech-AI-Forge

一站式语音AI平台,集成ChatTTS、CosyVoice、Fish-Speech等多种模型,提供API服务器和Gradio WebUI界面。

  • Stars: ⭐️ 1.4k
  • Tags: TTS ASR 语音合成 WebUI
  • 最后活动时间: 2026-03-06

SoniTranslate

视频同步翻译与自动配音工具,结合ASR、TTS和翻译技术实现跨语言视频内容转换。

  • Stars: ⭐️ 1.3k
  • Tags: 视频配音 翻译 TTS ASR
  • 最后活动时间: 2025-12-02

HunyuanVideo-Foley

腾讯混元团队推出的高保真拟音音频生成模型,利用多模态扩散技术实现视频到音频的精准生成。

  • Stars: ⭐️ 1.3k
  • Tags: video-to-audio foley-generation multimodal-diffusion
  • 最后活动时间: 2025-09-28

voicefixer

通用语音修复工具,支持去噪、去混响、语音增强和超分辨率重建,有效恢复语音质量。

  • Stars: ⭐️ 1.3k
  • Tags: 语音增强 音频修复 深度学习
  • 最后活动时间: 2025-02-17

dicio-android

开源Android离线语音助手,基于Vosk实现本地语音识别与唤醒词检测,支持多种技能扩展。

  • Stars: ⭐️ 1.3k
  • Tags: 语音助手 离线STT Android Vosk
  • 最后活动时间: 2026-02-25

WhisperJAV

基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具,集成TEN-VAD和本地LLM,抗噪能力强。

  • Stars: ⭐️ 1.3k
  • Tags: ASR Whisper 字幕生成 语音识别
  • 最后活动时间: 2026-03-19

Matcha-TTS

ICASSP 2024发表的快速文本转语音架构,采用条件流匹配技术实现高质量语音合成。

  • Stars: ⭐️ 1.3k
  • Tags: TTS 流匹配 语音合成
  • 最后活动时间: 2026-03-16

LPCNet

Xiph.org开源的高效神经语音合成项目,结合LPC与深度学习实现低复杂度实时语音编解码。

  • Stars: ⭐️ 1.2k
  • Tags: Speech Synthesis Audio Codec Real-time
  • 最后活动时间: 2024-09-21

athena

开源序列到序列语音处理引擎,支持语音识别、语音合成和说话人识别等多种任务。

  • Stars: ⭐️ 970
  • Tags: 语音识别 语音合成 TensorFlow
  • 最后活动时间: 2022-12-02

espresso

基于PyTorch的快速端到端神经语音识别工具包,支持多种ASR模型的训练与推理。

  • Stars: ⭐️ 940
  • Tags: ASR PyTorch 端到端
  • 最后活动时间: 2024-09-04

VieNeu-TTS

越南语实时文本转语音系统,支持即时语音克隆和端侧CPU实时推理,输出24kHz高质量音频。

  • Stars: ⭐️ 928
  • Tags: TTS 语音克隆 端侧推理
  • 最后活动时间: 2026-03-19

CrisperWhisper

基于Whisper改进的逐字语音识别模型,提供更精确的词级时间戳和填充词检测功能。

  • Stars: ⭐️ 927
  • Tags: ASR 语音识别 Whisper
  • 最后活动时间: 2025-06-03

PPASR

基于PaddlePaddle的端到端中文语音识别项目,支持DeepSpeech2、Conformer等主流模型,提供完整教程。

  • Stars: ⭐️ 876
  • Tags: 中文ASR PaddlePaddle Conformer
  • 最后活动时间: 2025-12-17

SONAR

Meta推出的多语言多模态句子嵌入空间,支持语音和文本的统一编码与解码,为跨语言跨模态语义理解提供强大基础能力。

  • Stars: ⭐️ 876
  • Tags: embeddings multilingual multimodal speech
  • 最后活动时间: 2025-10-10

Easy-Voice-Toolkit

用户友好的音频工具包,支持语音识别、转录、转换等多种功能,简化音频处理流程。

  • Stars: ⭐️ 875
  • Tags: 语音识别 TTS 音频处理
  • 最后活动时间: 2026-03-20

sokuji

实时语音翻译工具,支持本地 AI 和多种云端服务商,提供 Chrome 扩展和桌面应用。

  • Stars: ⭐️ 862
  • Tags: Translation Speech-to-Speech Real-time
  • 最后活动时间: 2026-03-19

gitpodcast

将任意Git仓库自动转换为播客内容,利用AI和TTS技术让开发者通过音频了解代码项目。

  • Stars: ⭐️ 804
  • Tags: AI TTS Podcast Developer Tools
  • 最后活动时间: 2025-08-30

pdf-to-podcast

将PDF文档转换为AI生成的播客音频,基于NVIDIA NIM构建,支持随时随地收听文档内容。

  • Stars: ⭐️ 803
  • Tags: PDF TTS 播客 音频生成
  • 最后活动时间: 2026-01-30

lobe-tts

高质量文本转语音与语音识别库,同时支持服务端和浏览器端,提供统一 API 接口。

  • Stars: ⭐️ 779
  • Tags: TTS STT Speech Recognition React
  • 最后活动时间: 2026-03-02

TTS-Voice-Wizard

强大的语音转换工具,支持语音识别、TTS和实时翻译,可集成VRChat虚拟形象显示,适合VTuber使用。

  • Stars: ⭐️ 778
  • Tags: TTS STT VRChat VTuber
  • 最后活动时间: 2025-11-02

TTS-Audio-Suite

ComfyUI多引擎TTS集成节点,支持10+主流语音合成引擎,提供角色配音和时间轴功能。

  • Stars: ⭐️ 776
  • Tags: TTS ComfyUI Voice Cloning Audio Generation
  • 最后活动时间: 2026-03-19

dla

音频深度学习综合工具库,涵盖语音识别、说话人验证、语音合成等多种音频处理任务。

  • Stars: ⭐️ 738
  • Tags: Deep Learning Speech Recognition TTS Voice Conversion
  • 最后活动时间: 2025-12-15

Kokoros

基于Kokoro模型的Rust高性能TTS实现,提供极速、高质量的实时语音合成能力。

  • Stars: ⭐️ 736
  • Tags: TTS Rust 语音合成
  • 最后活动时间: 2026-03-11

sgmse

基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。

  • Stars: ⭐️ 729
  • Tags: Diffusion 语音增强 音频处理
  • 最后活动时间: 2026-02-01

openspeech

基于PyTorch-Lightning和Hydra的端到端语音识别工具包,提供完整ASR解决方案。

  • Stars: ⭐️ 717
  • Tags: ASR PyTorch 端到端
  • 最后活动时间: 2023-10-23

ProjectAlice

模块化、注重隐私的语音助手项目,支持自定义技能扩展,适合构建本地化智能语音交互系统。

  • Stars: ⭐️ 709
  • Tags: Voice Assistant Privacy Modular
  • 最后活动时间: 2023-12-14

whisper.unity

Unity3d本地Whisper语音识别集成工具,支持离线实时语音转文字,无需联网即可运行。

  • Stars: ⭐️ 705
  • Tags: Unity 语音识别 Whisper 离线ASR
  • 最后活动时间: 2025-04-17

Make-An-Audio

ICML'23论文实现,基于扩散模型的文本/视频到音频生成系统,支持高质量音频生成。

  • Stars: ⭐️ 669
  • Tags: text-to-audio diffusion-models video-to-audio
  • 最后活动时间: 2024-05-22

kospeech

端到端韩语语音识别开源工具包,支持Transformer、Conformer等多种ASR架构。

  • Stars: ⭐️ 638
  • Tags: ASR 韩语 PyTorch
  • 最后活动时间: 2023-05-27

whisper_android

基于OpenAI Whisper的Android离线语音识别方案,使用TensorFlow Lite实现本地化部署,无需网络即可运行。

  • Stars: ⭐️ 632
  • Tags: 语音识别 Android 离线推理
  • 最后活动时间: 2026-03-18

RapidASR

商用级开源语音识别推理库,基于ONNXRuntime支持中英文混合识别,开箱即用。

  • Stars: ⭐️ 603
  • Tags: ASR ONNX 语音识别
  • 最后活动时间: 2024-05-15

WhisperS2T

针对Whisper模型优化的语音转文本流水线,支持TensorRT推理引擎并集成VAD功能。

  • Stars: ⭐️ 542
  • Tags: Whisper TensorRT ASR
  • 最后活动时间: 2024-08-27

Leaderboard

大规模自动语音识别(ASR)基准测试平台,全面评估和比较语音识别系统的性能。

  • Stars: ⭐️ 541
  • Tags: ASR 基准测试 语音识别
  • 最后活动时间: 2025-03-29

Image Generation

stable-diffusion-webui

最受欢迎的Stable Diffusion Web UI,提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。

  • Stars: ⭐️ 161.9k
  • Tags: stable-diffusion image-generation gradio ai-art
  • 最后活动时间: 2026-03-02

ComfyUI

最强大的模块化扩散模型GUI工具,基于节点的工作流界面,灵活构建复杂图像生成流程。

  • Stars: ⭐️ 106.5k
  • Tags: Stable-Diffusion GUI Image-Generation
  • 最后活动时间: 2026-03-20

stable-diffusion

革命性的潜在文本到图像扩散模型,AI艺术创作领域的里程碑项目。

  • Stars: ⭐️ 72.7k
  • Tags: Text-to-Image Diffusion AI Art
  • 最后活动时间: 2024-06-18

GFPGAN

腾讯开源的人脸修复算法,利用GAN实现真实世界人脸图像的高质量修复与增强。

  • Stars: ⭐️ 37.4k
  • Tags: 人脸修复 图像增强 GAN
  • 最后活动时间: 2024-07-26

openpose

CMU开发的实时多人关键点检测库,支持人体、面部、手部和脚部姿态估计,广泛应用于动作识别领域。

  • Stars: ⭐️ 33.9k
  • Tags: 姿态估计 关键点检测 实时
  • 最后活动时间: 2024-08-03

diffusers

Hugging Face推出的扩散模型库,支持图像、视频和音频生成,是生成式AI领域的核心工具。

  • Stars: ⭐️ 33.1k
  • Tags: Diffusion PyTorch HuggingFace
  • 最后活动时间: 2026-03-20

facefusion

业界领先的人脸处理平台,支持换脸、对口型等多种AI面部操作功能。

  • Stars: ⭐️ 27.2k
  • Tags: 人脸处理 换脸 深度学习
  • 最后活动时间: 2026-03-20

InvokeAI

领先的Stable Diffusion创意引擎,提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。

  • Stars: ⭐️ 26.9k
  • Tags: Stable Diffusion 图像生成 AI艺术
  • 最后活动时间: 2026-03-20

pytorch-CycleGAN-and-pix2pix

经典图像到图像翻译PyTorch实现,包含CycleGAN和pix2pix模型,支持无配对数据的风格迁移及高质量图像生成。

  • Stars: ⭐️ 25.0k
  • Tags: CycleGAN pix2pix Image-to-Image GAN
  • 最后活动时间: 2025-08-06

IOPaint

基于SOTA AI模型的图像修复工具,支持移除图片中不需要的物体或人物。集成Stable Diffusion,智能擦除替换图片内容。

  • Stars: ⭐️ 22.9k
  • Tags: 图像修复 Stable Diffusion 图像编辑
  • 最后活动时间: 2025-04-29

gaussian-splatting

3D Gaussian Splatting官方实现,突破性实时辐射场渲染技术,通过高斯点云实现高质量实时3D场景重建与渲染。

  • Stars: ⭐️ 21.1k
  • Tags: 3D重建 计算机视觉 神经渲染
  • 最后活动时间: 2025-10-17

DeOldify

基于深度学习的老照片和视频上色修复工具,能够将黑白影像智能还原为彩色,效果惊艳。

  • Stars: ⭐️ 18.5k
  • Tags: image-colorization deep-learning computer-vision
  • 最后活动时间: 2024-10-19

ml-stable-diffusion

Apple官方推出的Stable Diffusion Core ML实现,专为Apple Silicon芯片优化,支持在Mac和iOS设备上高效运行图像生成模型。

  • Stars: ⭐️ 17.8k
  • Tags: Stable Diffusion Core ML Apple Silicon
  • 最后活动时间: 2025-07-03

Grounded-Segment-Anything

融合Grounding DINO与Segment Anything,实现自动检测、分割和生成任意对象。

  • Stars: ⭐️ 17.5k
  • Tags: Segmentation Object Detection SAM
  • 最后活动时间: 2024-09-05

Waifu2x-Extension-GUI

强大的AI图像视频超分辨率工具,集成多种AI模型,支持图片/视频放大与帧插值。

  • Stars: ⭐️ 16.3k
  • Tags: 超分辨率 图像放大 视频处理
  • 最后活动时间: 2026-03-17

Hunyuan3D-2

腾讯混元推出的高分辨率3D资产生成大模型,支持文本/图像生成高质量3D模型。

  • Stars: ⭐️ 13.3k
  • Tags: 3D Generation Text-to-3D Tencent
  • 最后活动时间: 2025-10-28

ImageToolbox

功能强大的Android图像处理应用,集成AI背景移除、OCR文字识别、图像放大等智能功能。

  • Stars: ⭐️ 12.2k
  • Tags: 图像处理 OCR 背景移除
  • 最后活动时间: 2026-03-20

DiffSynth-Studio

一站式扩散模型创作工作室,支持图像生成、视频合成等多种AI生成任务,轻松体验扩散模型的魔力。

  • Stars: ⭐️ 12.0k
  • Tags: 扩散模型 图像生成 视频合成
  • 最后活动时间: 2026-03-20

VAR

NeurIPS 2024最佳论文官方实现,提出视觉自回归建模方法,超越扩散模型的新一代图像生成范式。

  • Stars: ⭐️ 8.6k
  • Tags: Autoregressive Image Generation SOTA
  • 最后活动时间: 2025-11-10

awesome-gpt4o-images

精选GPT-4o图像生成作品与提示词合集,展示多种AI艺术风格示例,是学习提示词工程的优质资源。

  • Stars: ⭐️ 7.9k
  • Tags: GPT-4o Image Generation Prompt Engineering AI Art
  • 最后活动时间: 2025-05-26

mmagic

OpenMMLab开源的多模态生成式AI工具箱,支持文本生成图像、图像/视频修复增强、扩散模型等,提供丰富的预训练模型。

  • Stars: ⭐️ 7.4k
  • Tags: AIGC Diffusion Image Generation Video Enhancement
  • 最后活动时间: 2024-08-06

donut

ECCV 2022官方实现,无需OCR即可直接从文档图像提取结构化信息的Transformer模型。

  • Stars: ⭐️ 6.8k
  • Tags: 文档理解 OCR-free 多模态
  • 最后活动时间: 2024-07-11

VLM-R1

基于强化学习的视觉语言模型项目,将R1方法应用于多模态场景,实现视觉理解能力的突破性提升。

  • Stars: ⭐️ 5.9k
  • Tags: VLM Reinforcement Learning Multimodal DeepSeek-R1
  • 最后活动时间: 2026-03-12

mmf

Meta AI开发的模块化多模态视觉-语言研究框架,支持VQA、图像描述、对话等多种任务,提供预训练模型。

  • Stars: ⭐️ 5.6k
  • Tags: Multimodal Vision-Language VQA PyTorch
  • 最后活动时间: 2026-03-16

SUPIR

面向真实场景的图像修复算法,利用扩散模型和LLaVA实现照片级超分辨率重建,结合SDXL技术提供高质量图像恢复。

  • Stars: ⭐️ 5.5k
  • Tags: Image Restoration Super Resolution SDXL
  • 最后活动时间: 2025-05-12

clarity-upscaler

免费开源的AI图像放大增强工具,基于Stable Diffusion提供高质量超分辨率处理。

  • Stars: ⭐️ 5.0k
  • Tags: Image Enhancement Upscaling Stable Diffusion
  • 最后活动时间: 2025-03-06

StableSwarmUI

模块化的Stable Diffusion Web界面,专注于高性能图像生成和强大扩展能力。

  • Stars: ⭐️ 4.9k
  • Tags: Stable Diffusion Image Generation Web UI
  • 最后活动时间: 2025-03-06

HunyuanDiT

腾讯混元DiT扩散Transformer模型,支持多分辨率图像生成,具备精细中文语义理解。

  • Stars: ⭐️ 4.3k
  • Tags: Diffusion Text-to-Image 中文
  • 最后活动时间: 2025-11-27

Deformable-DETR

改进的端到端目标检测模型,通过可变形注意力机制大幅提升收敛速度和小目标检测性能。

  • Stars: ⭐️ 3.9k
  • Tags: Object Detection Transformer Computer Vision
  • 最后活动时间: 2024-05-16

SegFormer

NVIDIA官方发布的Transformer语义分割模型,在ADE20K和Cityscapes等数据集上取得SOTA性能。

  • Stars: ⭐️ 3.4k
  • Tags: 语义分割 Transformer 计算机视觉
  • 最后活动时间: 2024-08-02

awesome-virtual-try-on

虚拟试穿领域精选资源列表,汇集论文、代码、数据集,涵盖2D/3D试穿与多姿态引导技术。

  • Stars: ⭐️ 3.0k
  • Tags: 虚拟试穿 图像生成 计算机视觉
  • 最后活动时间: 2026-03-05

DreamCraft3D

ICLR 2024 分层3D生成方法,通过引导式扩散先验实现高质量图像到3D转换,可从单张图像生成精细3D模型。

  • Stars: ⭐️ 3.0k
  • Tags: 3D Generation Diffusion Models Image-to-3D
  • 最后活动时间: 2025-04-22

SimpleTuner

面向图像、视频和音频扩散模型的通用微调工具包,支持Stable Diffusion、Flux等主流模型的高效训练。

  • Stars: ⭐️ 2.8k
  • Tags: Diffusion Fine-tuning Stable Diffusion
  • 最后活动时间: 2026-03-20

Stable-Diffusion

全面的Stable Diffusion学习资源库,涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。

  • Stars: ⭐️ 2.7k
  • Tags: Stable Diffusion LoRA ComfyUI Image Generation
  • 最后活动时间: 2026-03-18

Open-Higgsfield-AI

开源免费的AI图像生成与电影工作室,支持Flux、SDXL等20+模型。可自托管部署,提供完整的图像与视频创作功能。

  • Stars: ⭐️ 2.6k
  • Tags: AI图像生成 视频创作 开源替代
  • 最后活动时间: 2026-03-18

xDiT

可扩展的Diffusion Transformers推理引擎,支持大规模并行计算,显著提升DiT模型推理性能。

  • Stars: ⭐️ 2.6k
  • Tags: Diffusion Inference Parallelism
  • 最后活动时间: 2026-03-18

mPLUG-Owl

阿里巴巴达摩院多模态大语言模型家族,支持图像和视频理解,具备强大的视觉-语言对齐能力。

  • Stars: ⭐️ 2.5k
  • Tags: Multimodal LLM Vision-Language Video Understanding
  • 最后活动时间: 2025-04-02

Restormer

高效Transformer模型,专用于高分辨率图像恢复任务,在去模糊、去雨、去噪等任务达到SOTA性能。

  • Stars: ⭐️ 2.5k
  • Tags: Transformer 图像恢复 CVPR2022
  • 最后活动时间: 2025-10-23

DreamOmni2

多模态指令驱动的图像编辑与生成统一模型,支持基于自然语言指令的图像处理任务。

  • Stars: ⭐️ 2.3k
  • Tags: 图像编辑 图像生成 多模态
  • 最后活动时间: 2025-10-20

MeshAnything

ICLR 2025官方实现,利用自回归Transformer将任意输入转换为高质量3D网格模型,支持点云等多种输入格式。

  • Stars: ⭐️ 2.3k
  • Tags: 3D生成 Transformer ICLR2025
  • 最后活动时间: 2025-04-28

Lumina-T2X

统一的文本到任意模态生成框架,基于扩散Transformer实现高质量的多模态内容生成。

  • Stars: ⭐️ 2.3k
  • Tags: Diffusion Transformer Multimodal Generation
  • 最后活动时间: 2025-02-16

LlamaGen

基于Llama架构的自回归图像生成模型,在图像生成质量上超越扩散模型,展示自回归模型在视觉生成领域的潜力。

  • Stars: ⭐️ 1.9k
  • Tags: Text-to-Image Autoregressive Llama
  • 最后活动时间: 2024-08-15

Show-o

统一多模态理解和生成的单一Transformer模型,ICLR/NeurIPS 2025接收,融合扩散模型与大语言模型。

  • Stars: ⭐️ 1.9k
  • Tags: 多模态 扩散模型 大语言模型
  • 最后活动时间: 2026-01-08

ComfyUI_frontend

ComfyUI官方前端实现,为节点式AI图像生成工作流提供现代化可视化界面,支持拖拽式构建复杂的Stable Diffusion处理流程。

  • Stars: ⭐️ 1.7k
  • Tags: Stable Diffusion Image Generation Node Editor
  • 最后活动时间: 2026-03-20

Magic123

ICLR24论文官方实现,单图生成高质量3D物体,结合2D和3D扩散先验实现精细转换。

  • Stars: ⭐️ 1.6k
  • Tags: 3D生成 扩散模型 图像转3D
  • 最后活动时间: 2025-05-29

MMaDA

开源多模态大扩散语言模型,融合块扩散、混合思维链和统一强化学习技术。

  • Stars: ⭐️ 1.6k
  • Tags: diffusion-models multimodal-llm reasoning
  • 最后活动时间: 2026-02-14

WorldGen

基于生成式AI的3D场景生成工具,支持文本和图像快速生成任意3D场景,实现秒级高质量三维内容创作。

  • Stars: ⭐️ 1.6k
  • Tags: 3D Generation Text-to-3D Scene Generation
  • 最后活动时间: 2026-03-17

unidiffuser

清华大学提出的统一多模态扩散模型,一个Transformer处理所有多模态分布,支持图像、文本等多种模态的联合生成。

  • Stars: ⭐️ 1.5k
  • Tags: Diffusion Model Multimodal Transformer
  • 最后活动时间: 2023-05-31

ComfyUI_UltimateSDUpscale

ComfyUI的高质量图像放大节点扩展,支持多种放大算法,显著提升Stable Diffusion生成图像的分辨率和细节。

  • Stars: ⭐️ 1.5k
  • Tags: ComfyUI 图像放大 Stable Diffusion
  • 最后活动时间: 2026-02-27

ResShift

NeurIPS 2023 Spotlight论文,高效图像超分辨率扩散模型,通过残差偏移机制实现快速高质量图像重建。

  • Stars: ⭐️ 1.4k
  • Tags: 超分辨率 扩散模型 计算机视觉
  • 最后活动时间: 2025-07-08

CrossAttentionControl

Prompt-to-Prompt图像编辑技术的实现,基于Stable Diffusion控制交叉注意力实现精准文本引导编辑。

  • Stars: ⭐️ 1.3k
  • Tags: Stable Diffusion 图像编辑 交叉注意力
  • 最后活动时间: 2022-10-18

DDNM

ICLR 2023 Oral论文实现,零样本图像修复方法,无需针对特定任务训练即可实现高质量图像修复。

  • Stars: ⭐️ 1.3k
  • Tags: 扩散模型 图像修复 零样本学习
  • 最后活动时间: 2024-04-25

data-efficient-gans

NeurIPS 2020论文实现,通过可微分增强技术实现数据高效的GAN训练,仅需少量数据即可生成高质量图像。

  • Stars: ⭐️ 1.3k
  • Tags: GAN Image Generation NeurIPS
  • 最后活动时间: 2024-09-24

stable-fast

针对 HuggingFace Diffusers 的高性能推理优化框架,在 NVIDIA GPU 上实现 Stable Diffusion 等扩散模型的最佳推理性能。

  • Stars: ⭐️ 1.3k
  • Tags: 推理优化 Stable Diffusion CUDA PyTorch
  • 最后活动时间: 2025-03-27

DragDiffusion

CVPR2024 Highlight论文官方代码,基于扩散模型的高精度图像拖拽编辑方法,支持用户通过拖拽点精确控制图像内容变形。

  • Stars: ⭐️ 1.3k
  • Tags: Diffusion Image Editing CVPR2024
  • 最后活动时间: 2024-01-29

PaddleViT

基于PaddlePaddle的视觉Transformer和MLP模型库,支持图像分类、目标检测、语义分割等CV任务。

  • Stars: ⭐️ 1.2k
  • Tags: Transformer PaddlePaddle 计算机视觉
  • 最后活动时间: 2022-09-07

Kimi-VL

月之暗面开源的混合专家视觉语言模型,支持多模态推理和长上下文理解。

  • Stars: ⭐️ 1.2k
  • Tags: Vision-Language MoE Multimodal
  • 最后活动时间: 2025-07-15

comfyui-inpaint-nodes

ComfyUI专业图像修复节点集合,支持Fooocus SDXL、LaMa、MAT等多种算法,提供强大的图像修复功能。

  • Stars: ⭐️ 1.2k
  • Tags: ComfyUI 图像修复 Inpainting
  • 最后活动时间: 2026-02-27

Difix3D

CVPR 2025口头报告与最佳论文入围作品,利用单步扩散模型显著提升3D重建质量,结合高斯泼溅与NeRF技术。

  • Stars: ⭐️ 1.1k
  • Tags: 3D Reconstruction Diffusion Models Gaussian Splatting
  • 最后活动时间: 2025-06-28

MeanFlow

一步生成建模的PyTorch实现,探索流匹配和扩散模型的高效生成方法。

  • Stars: ⭐️ 1.1k
  • Tags: Diffusion Flow Matching Generative Model
  • 最后活动时间: 2025-12-17

FireRed-Image-Edit

开源SOTA图像编辑基础模型,支持精确指令跟随、高保真生成和优异身份一致性。

  • Stars: ⭐️ 1.1k
  • Tags: Image Editing Diffusion AIGC
  • 最后活动时间: 2026-03-10

VisCPM

基于CPM的中英双语多模态大模型,ICLR'24 spotlight,支持多模态对话和图像生成。

  • Stars: ⭐️ 1.1k
  • Tags: multimodal vision-language bilingual
  • 最后活动时间: 2024-06-13

DiffusionToolkit

专为AI生成图像设计的元数据索引器和查看器,支持Stable Diffusion等生成工具的PNG信息管理。

  • Stars: ⭐️ 979
  • Tags: Stable Diffusion 图像管理 元数据
  • 最后活动时间: 2026-02-27

visual_anagrams

基于扩散模型的多视角光学错觉生成工具,可创建从不同角度观看呈现不同图像的创意视觉作品。

  • Stars: ⭐️ 962
  • Tags: Diffusion Models Optical Illusion Generative AI
  • 最后活动时间: 2024-06-22

ODISE

NVIDIA开发的开放词汇全景分割模型,CVPR 2023 Highlight,利用扩散模型实现零样本分割。

  • Stars: ⭐️ 934
  • Tags: Segmentation Zero-Shot CVPR 2023
  • 最后活动时间: 2024-07-06

FernRPExample

Unity渲染包实现,集成NPR/PBR渲染技术与Stable Diffusion,为游戏开发者提供AI增强渲染方案。

  • Stars: ⭐️ 918
  • Tags: unity stable-diffusion rendering
  • 最后活动时间: 2025-01-22

Real-Time-Latent-Consistency-Model

展示多种实时扩散模型管道的应用,基于Diffusers实现低延迟图像生成,支持实时交互式AI绘画体验。

  • Stars: ⭐️ 915
  • Tags: 实时生成 扩散模型 LCM
  • 最后活动时间: 2025-09-27

DiffSensei

CVPR 2025论文实现,结合多模态大语言模型与扩散模型,实现定制化漫画生成。

  • Stars: ⭐️ 904
  • Tags: Diffusion 漫画生成 多模态LLM
  • 最后活动时间: 2025-02-05

api-llm-ocr

基于视觉大模型的PDF转Markdown工具,支持表格、布局和结构保留,适用于文档AI处理场景。

  • Stars: ⭐️ 889
  • Tags: OCR Vision-LLM Document-AI PDF
  • 最后活动时间: 2026-02-21

SeargeSDXL

专为ComfyUI设计的自定义节点集合,提供优化的SDXL工作流和高级图像生成功能。

  • Stars: ⭐️ 872
  • Tags: ComfyUI SDXL 工作流
  • 最后活动时间: 2024-05-22

MiniGPT-5

支持交错视觉-语言生成的多模态模型,通过生成式Voken实现内容创作。

  • Stars: ⭐️ 862
  • Tags: Multimodal Vision-Language GPT
  • 最后活动时间: 2025-05-08

SSH

单阶段无头人脸检测器,实现高效精准的人脸检测,无需额外的人脸提议网络。

  • Stars: ⭐️ 839
  • Tags: Face Detection Computer Vision Deep Learning
  • 最后活动时间: 2021-08-22

ComfyUI-BRIA_AI-RMBG

BRIA RMBG背景移除模型的ComfyUI实现,支持高质量图像背景自动移除,可无缝集成到Stable Diffusion工作流。

  • Stars: ⭐️ 834
  • Tags: ComfyUI 背景移除 图像处理
  • 最后活动时间: 2024-05-22

MeshDiffusion

ICLR 2023 Spotlight论文官方实现,基于扩散模型的高质量3D网格生成方法,为3D内容创作提供新范式。

  • Stars: ⭐️ 828
  • Tags: 3D生成 扩散模型 PyTorch
  • 最后活动时间: 2024-05-20

Open-DiffusionGS

ICCV 2025论文,融合高斯泼溅与扩散模型,实现快速单阶段图像到3D生成与重建。

  • Stars: ⭐️ 822
  • Tags: 3D生成 高斯泼溅 扩散模型
  • 最后活动时间: 2026-01-28

PoinTr

ICCV 2021 Oral论文,基于几何感知Transformer的点云补全模型,从部分点云重建完整3D几何结构。

  • Stars: ⭐️ 822
  • Tags: 3D Vision Point Cloud Transformer
  • 最后活动时间: 2025-12-15

TF-ICON

ICCV 2023论文实现,基于扩散模型的无训练跨域图像合成方法,支持Stable Diffusion。

  • Stars: ⭐️ 821
  • Tags: Diffusion Model Image Composition Generative AI
  • 最后活动时间: 2025-03-06

GaussianDreamer

CVPR 2024论文,结合2D/3D扩散模型与Gaussian Splatting,实现快速文本到3D高质量生成。

  • Stars: ⭐️ 818
  • Tags: Text-to-3D Gaussian Splatting 扩散模型
  • 最后活动时间: 2025-01-13

daclip-uir

基于视觉语言模型的通用图像修复框架,支持去模糊、去雾、去噪等多种任务,ICLR 2024论文,NTIRE 2024挑战赛第5名。

  • Stars: ⭐️ 808
  • Tags: Image Restoration Vision-Language ICLR 2024
  • 最后活动时间: 2024-08-07

diffusion-point-cloud

CVPR 2021论文实现,基于扩散概率模型的3D点云生成方法,实现高质量三维点云生成与补全。

  • Stars: ⭐️ 782
  • Tags: 3D点云 扩散模型 生成模型
  • 最后活动时间: 2025-11-28

Skyfall-GS

从卫星图像合成沉浸式3D城市场景,结合3D高斯泼溅与扩散模型技术实现高质量三维重建。

  • Stars: ⭐️ 765
  • Tags: 3D重建 卫星图像 高斯泼溅
  • 最后活动时间: 2026-03-18

dift

NeurIPS'23论文项目,发现扩散模型中自然涌现的对应关系能力,无需监督即可实现跨图像语义匹配。

  • Stars: ⭐️ 754
  • Tags: Diffusion Correspondence Computer Vision
  • 最后活动时间: 2024-05-14

GenerativeModels

MONAI官方生成式模型工具包,专注于医学影像领域的扩散模型、GAN等生成模型训练与部署。

  • Stars: ⭐️ 747
  • Tags: 医学影像 生成模型 扩散模型
  • 最后活动时间: 2024-07-01

stable-diffusion-aesthetic-gradients

通过美学梯度实现Stable Diffusion模型个性化,让生成的图像更符合特定审美偏好。

  • Stars: ⭐️ 741
  • Tags: Stable Diffusion Aesthetic Gradients Personalization
  • 最后活动时间: 2022-10-21

image-restoration-sde

ICML 2023论文,NTIRE 2023冠军方案,支持去模糊、去雾、去噪、超分辨率等多种图像修复任务。

  • Stars: ⭐️ 704
  • Tags: Image Restoration Diffusion ICML 2023
  • 最后活动时间: 2024-07-23

StableGen

强大的Blender插件,集成Stable Diffusion、ControlNet和Flux1-dev,实现智能3D纹理生成。

  • Stars: ⭐️ 701
  • Tags: Blender Stable Diffusion 3D纹理
  • 最后活动时间: 2026-03-17

CRM

ECCV 2024论文,10秒内将单张图像转换为高质量3D纹理网格,实现快速多视图重建。

  • Stars: ⭐️ 684
  • Tags: 3D Generation Image Reconstruction ECCV 2024
  • 最后活动时间: 2024-11-28

DiffusionDPO

Salesforce开源的扩散模型对齐方法,将DPO技术应用于图像生成模型,实现更符合人类偏好的生成效果。

  • Stars: ⭐️ 672
  • Tags: Diffusion Models DPO Model Alignment
  • 最后活动时间: 2025-11-10

ComfyScript

ComfyUI的Python前端库,支持将工作流编写为Python脚本,在Jupyter中实现自动化图像生成。

  • Stars: ⭐️ 660
  • Tags: ComfyUI Stable Diffusion Python
  • 最后活动时间: 2026-02-17

Lumina-mGPT

灵活的光真实感文本到图像生成模型,采用多模态生成式预训练技术实现高质量图像生成。

  • Stars: ⭐️ 643
  • Tags: 文本生成图像 多模态 图像生成
  • 最后活动时间: 2025-10-16

comfyui-tooling-nodes

ComfyUI工具节点集合,支持将其作为后端服务使用,实现外部工具与ComfyUI直接图像传输。

  • Stars: ⭐️ 643
  • Tags: ComfyUI Stable Diffusion API
  • 最后活动时间: 2026-02-21

FastGen

NVIDIA推出的扩散模型加速生成技术,通过蒸馏方法显著提升图像生成速度,提供高效推理优化方案。

  • Stars: ⭐️ 638
  • Tags: Diffusion Distillation NVIDIA
  • 最后活动时间: 2026-03-19

IMAGHarmony

可控图像编辑框架,在复杂多对象编辑中保持对象数量和布局一致性,实现高保真连贯的图像生成。

  • Stars: ⭐️ 607
  • Tags: Image Editing Diffusion Controllable
  • 最后活动时间: 2025-10-18

ComfyFlowApp

将ComfyUI工作流快速转换为Web应用的工具,无需前端开发经验即可部署AI图像生成应用。

  • Stars: ⭐️ 606
  • Tags: ComfyUI 工作流转换 Web应用
  • 最后活动时间: 2024-03-21

semantic-draw

CVPR 2025 论文官方实现,支持从图像扩散模型进行实时交互式内容创作,结合语义绘制与 Stable Diffusion 技术。

  • Stars: ⭐️ 587
  • Tags: Image Generation Stable Diffusion Interactive
  • 最后活动时间: 2025-06-01

Stable-Texturify

基于Stable Diffusion和Blender的3D纹理生成工具,AI自动为3D模型创建高质量纹理贴图。

  • Stars: ⭐️ 583
  • Tags: Stable Diffusion 3D纹理 Blender AI生成
  • 最后活动时间: 2023-09-06

ShapeLLM-Omni

NeurIPS 2025 Spotlight论文,原生多模态大语言模型,专注于3D生成与理解,支持文本/图像到3D转换。

  • Stars: ⭐️ 551
  • Tags: 3D生成 多模态LLM NeurIPS 2025
  • 最后活动时间: 2025-10-20

Hunyuan3D-Omni

腾讯混元统一3D资产生成框架,支持可控的图像到3D生成,为游戏和元宇宙内容创作提供强大工具。

  • Stars: ⭐️ 537
  • Tags: 3D生成 多模态 图像转3D
  • 最后活动时间: 2025-10-17

ComfyUI-TiledDiffusion

ComfyUI的Tiled Diffusion扩展,支持生成超大尺寸图像并优化显存使用。

  • Stars: ⭐️ 516
  • Tags: Stable Diffusion Image Generation ComfyUI VRAM Optimization
  • 最后活动时间: 2025-03-18

tessera

剑桥大学开发的卫星时序图像基础模型,支持土地分类和树冠高度预测等遥感应用。

  • Stars: ⭐️ 509
  • Tags: Satellite Remote Sensing Foundation Models
  • 最后活动时间: 2026-03-17

PIDM

CVPR 2023论文,基于扩散模型的人物图像合成方法,支持姿态引导的高质量人物图像生成与编辑。

  • Stars: ⭐️ 500
  • Tags: Image Generation Diffusion CVPR 2023
  • 最后活动时间: 2024-06-11

Video Generation

MoneyPrinterTurbo

利用AI大模型一键生成高清短视频的自动化工具,支持批量创作和多种视频风格。

  • Stars: ⭐️ 50.4k
  • Tags: AI视频生成 短视频 自动化
  • 最后活动时间: 2025-12-14

DeepFaceLab

业界领先的深度伪造视频制作工具,支持人脸替换和表情迁移,广泛应用于影视后期和创意内容制作。

  • Stars: ⭐️ 19.1k
  • Tags: deep-learning face-swap computer-vision
  • 最后活动时间: 2024-11-13

CogVideo

智谱AI开源的文本/图像生成视频模型,包含CogVideoX (2024)和CogVideo (ICLR 2023),支持高质量视频创作。

  • Stars: ⭐️ 12.5k
  • Tags: 文生视频 图生视频 视频生成
  • 最后活动时间: 2025-11-04

hallo

层次化音频驱动的肖像动画生成项目,根据音频输入生成逼真的人物说话动画视频。

  • Stars: ⭐️ 8.7k
  • Tags: 人脸动画 音频驱动 肖像合成
  • 最后活动时间: 2024-09-14

ShortGPT

实验性AI框架,用于自动化YouTube Shorts和TikTok频道的内容创作,实现视频自动生成和编辑。

  • Stars: ⭐️ 7.2k
  • Tags: AI视频 自动化 内容创作
  • 最后活动时间: 2025-02-10

ProPainter

ICCV 2023论文实现,基于Transformer的高质量视频修复模型,支持物体移除、水印去除等场景。

  • Stars: ⭐️ 6.6k
  • Tags: 视频修复 物体移除 Transformer
  • 最后活动时间: 2025-02-19

agentheroes

AI角色生成与动画化平台,支持图像视频生成,集成ChatGPT、LoRA等技术打造智能虚拟角色。

  • Stars: ⭐️ 3.4k
  • Tags: AI Characters Video Generation Animation LoRA
  • 最后活动时间: 2025-06-23

Ask-Anything

CVPR2024 Highlight项目,实现ChatGPT视频理解能力,支持miniGPT4、StableLM、MOSS等多种大语言模型。

  • Stars: ⭐️ 3.3k
  • Tags: video-understanding multimodal video-qa
  • 最后活动时间: 2025-01-18

autoclip

AI驱动的智能视频剪辑工具,自动识别并提取视频高光片段,助力二创内容快速生成。

  • Stars: ⭐️ 3.1k
  • Tags: AI视频 自动剪辑 高光提取
  • 最后活动时间: 2025-09-24

frame-interpolation

Google Research帧插值模型,ECCV 2022发表,可处理大运动场景下的视频帧插值,适用于视频增强和慢动作生成。

  • Stars: ⭐️ 3.1k
  • Tags: 帧插值 视频处理 计算机视觉
  • 最后活动时间: 2024-08-10

MimicMotion

腾讯开源的高质量人体运动视频生成框架,基于置信度感知姿态引导技术生成流畅自然的动作视频。

  • Stars: ⭐️ 2.5k
  • Tags: Video Generation Motion Synthesis Tencent
  • 最后活动时间: 2025-11-18

moyin-creator

AI影视生产级工具,支持Seedance 2.0,实现从剧本到成片的全流程批量化生产。

  • Stars: ⭐️ 2.3k
  • Tags: 视频生成 影视制作 AI工具
  • 最后活动时间: 2026-03-20

LightX2V

轻量级图像到视频生成推理框架,支持自回归扩散模型和多种视频生成模型的高效推理部署。

  • Stars: ⭐️ 2.1k
  • Tags: Video Generation Diffusion Inference Framework
  • 最后活动时间: 2026-03-20

HunyuanVideo-I2V

腾讯混元推出的可定制图像到视频生成模型,基于扩散模型实现高质量视频生成,支持将静态图像转换为动态视频。

  • Stars: ⭐️ 1.8k
  • Tags: Image-to-Video Diffusion Models Tencent
  • 最后活动时间: 2025-05-20

Auto-Synced-Translated-Dubs

自动翻译视频字幕并利用AI语音服务生成同步配音的工具,结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。

  • Stars: ⭐️ 1.7k
  • Tags: 视频配音 TTS 字幕翻译
  • 最后活动时间: 2026-01-24

TokenFlow

ICLR 2024论文实现,通过一致的扩散特征实现高质量视频编辑,保持帧间时序一致性。

  • Stars: ⭐️ 1.7k
  • Tags: Video Editing Stable Diffusion Text-to-Video Diffusion
  • 最后活动时间: 2025-02-03

Helios

北大团队开源的实时长视频生成模型,支持文本/图像/视频到视频生成,具备世界模拟能力。

  • Stars: ⭐️ 1.4k
  • Tags: 视频生成 扩散模型 世界模型
  • 最后活动时间: 2026-03-20

HunyuanCustom

腾讯混元多模态定制视频生成模型,支持音频驱动和图像到视频生成,实现高质量个性化视频创作。

  • Stars: ⭐️ 1.2k
  • Tags: 视频生成 多模态 扩散模型
  • 最后活动时间: 2025-10-15

FireRed-OpenStoryline

AI视频编辑智能体,通过自然语言交互和LLM驱动的规划,实现意图驱动的导演式创作体验。

  • Stars: ⭐️ 1.2k
  • Tags: Video Editing LLM LangChain
  • 最后活动时间: 2026-03-20

MagicDrive

ICLR 2024 论文实现,基于扩散模型的街景视图生成,支持多样化3D几何控制,为自动驾驶提供数据增强和仿真环境。

  • Stars: ⭐️ 1.2k
  • Tags: Autonomous Driving Street View Video Generation
  • 最后活动时间: 2025-04-21

Hotshot-XL

最先进的文本转GIF AI模型,专为与Stable Diffusion XL协同工作而训练,可轻松生成高质量动态图像。

  • Stars: ⭐️ 1.1k
  • Tags: Text-to-GIF Text-to-Video SDXL
  • 最后活动时间: 2024-01-23

MotionDirector

ECCV 2024 Oral论文,实现文本到视频扩散模型的动作定制化,支持精准运动控制。

  • Stars: ⭐️ 1.1k
  • Tags: Video Generation Motion Control ECCV 2024
  • 最后活动时间: 2024-08-21

speech-driven-animation

基于语音驱动的面部动画生成工具,可根据语音输入自动生成逼真的口型和面部表情动画。

  • Stars: ⭐️ 964
  • Tags: Lip-sync Animation Avatar
  • 最后活动时间: 2023-09-10

ControlVideo

ICLR 2024论文实现,无需训练的可控文本到视频生成方案。

  • Stars: ⭐️ 862
  • Tags: Video Generation Diffusion Text-to-Video
  • 最后活动时间: 2023-10-12

instruct-nerf2nerf

ICCV 2023论文,基于指令的3D场景编辑工具,支持文本引导的3D内容修改。

  • Stars: ⭐️ 850
  • Tags: 3D NeRF Scene Editing
  • 最后活动时间: 2024-02-12

MOVA

面向可扩展的同步视频-音频生成模型,基于扩散模型实现高质量多模态内容生成。

  • Stars: ⭐️ 840
  • Tags: Video Generation Audio Generation Multimodal
  • 最后活动时间: 2026-03-14

ConsisID

CVPR 2025 Highlight项目,通过频率分解实现身份保持的文本到视频生成。

  • Stars: ⭐️ 835
  • Tags: Text-to-Video Identity Preserving Diffusion
  • 最后活动时间: 2026-03-08

MOFA-Video

ECCV 2024 论文,通过生成式运动场适配实现可控图像动画,在冻结的图像到视频扩散模型中实现高质量视频生成。

  • Stars: ⭐️ 767
  • Tags: Image-to-Video Controllable Generation ECCV 2024
  • 最后活动时间: 2024-12-05

MPP-LLaVA

支持视频/图像多模态的LLaVA风格训练框架,可在消费级显卡上训练8B/14B多模态大模型。

  • Stars: ⭐️ 658
  • Tags: MLLM Fine-tuning Multimodal
  • 最后活动时间: 2025-03-10

NOVA

ICLR 2025论文项目,提出无需向量量化的自回归视频生成方法,结合扩散模型实现高质量视频生成。

  • Stars: ⭐️ 636
  • Tags: Video Generation Autoregressive Diffusion
  • 最后活动时间: 2025-10-29

radial-attention

NeurIPS 2025论文,提出O(nlogn)稀疏注意力机制,支持长视频高效生成和主流视频模型。

  • Stars: ⭐️ 587
  • Tags: Sparse Attention Video Generation Efficient ML
  • 最后活动时间: 2025-11-11

Ditto

基于高质量合成数据集的指令驱动视频编辑方法,利用扩散模型实现精准视频编辑。

  • Stars: ⭐️ 586
  • Tags: Video Editing Diffusion Models Synthetic Data
  • 最后活动时间: 2025-10-29

kimodo

NVIDIA官方运动扩散模型,专注于生成高质量的人形角色动作序列。

  • Stars: ⭐️ 558
  • Tags: 运动生成 扩散模型 角色动画
  • 最后活动时间: 2026-03-19

EDGE

斯坦福大学提出的舞蹈动作生成模型,基于扩散模型实现高质量音乐驱动舞蹈生成,发表于CVPR 2023。

  • Stars: ⭐️ 552
  • Tags: Dance Generation Diffusion Models CVPR 2023
  • 最后活动时间: 2024-01-05

未分类 (Others)

mediapipe

Google开源的跨平台机器学习框架,提供人脸检测、手势识别、姿态估计等实时ML解决方案,支持多平台部署。

  • Stars: ⭐️ 34.2k
  • Tags: 计算机视觉 机器学习 跨平台
  • 最后活动时间: 2026-03-20

MetaTransformer

统一的多模态学习框架,支持文本、图像、音频等多种模态的跨模态特征对齐与融合。

  • Stars: ⭐️ 1.7k
  • Tags: Multimodal Transformer Foundation Model
  • 最后活动时间: 2023-12-05

Multimodal-GPT

基于Flamingo架构的多模态对话模型,融合视觉编码器与大语言模型实现图文理解与对话。

  • Stars: ⭐️ 1.5k
  • Tags: Multimodal Vision-Language LLaMA
  • 最后活动时间: 2023-06-04

Ovis

新颖的多模态大语言模型架构,通过结构化设计实现视觉与文本嵌入对齐,支持Llama3和Qwen等主流模型。

  • Stars: ⭐️ 1.4k
  • Tags: Multimodal Vision-Language Model MLLM
  • 最后活动时间: 2026-02-11

PointLLM

ECCV 2024最佳论文候选,赋能大语言模型理解3D点云数据的多模态模型。

  • Stars: ⭐️ 985
  • Tags: Point Cloud Multimodal LLM 3D
  • 最后活动时间: 2026-03-17