Skip to content

👁️ 多模态与音视频

Computer vision, image generation, audio, text-to-speech.

当前分类已收录 840 个相关项目。

Audio & Speech (TTS/STT)

Real-Time-Voice-Cloning

5秒实时语音克隆工具,可生成任意语音内容。

  • Stars: ⭐️ 59.9k
  • Tags: Voice Cloning TTS Real-time
  • 最后活动时间: 2026-03-09

GPT-SoVITS

少样本语音克隆TTS模型,仅需1分钟语音数据即可训练高质量语音合成模型。

  • Stars: ⭐️ 58.6k
  • Tags: TTS Voice Cloning Few-shot
  • 最后活动时间: 2026-04-30

whisper.cpp

OpenAI Whisper模型的C/C++高性能移植版本,支持本地CPU/GPU推理,适用于语音识别和语音转文字场景。

  • Stars: ⭐️ 50.7k
  • Tags: speech-recognition speech-to-text whisper inference
  • 最后活动时间: 2026-06-09

VibeVoice

开源的前沿语音AI项目,专注于语音识别与合成技术。

  • Stars: ⭐️ 49.3k
  • Tags: voice-ai speech-synthesis speech-recognition
  • 最后活动时间: 2026-05-06

ChatTTS

专为日常对话优化的生成式语音合成模型,支持中英双语,适合对话场景。

  • Stars: ⭐️ 39.4k
  • Tags: TTS Speech Dialogue
  • 最后活动时间: 2026-04-10

MockingBird

5秒内克隆任意声音并实时生成语音的AI语音合成工具,支持中文和多语言。

  • Stars: ⭐️ 36.9k
  • Tags: TTS Voice Cloning Deep Learning
  • 最后活动时间: 2026-03-03

fish-speech

开源SOTA级文本转语音项目,基于LLaMA和Transformer架构,支持高质量语音合成与克隆。

  • Stars: ⭐️ 30.8k
  • Tags: TTS 语音合成 Transformer
  • 最后活动时间: 2026-06-09

voicebox

开源语音合成工作室,支持语音克隆和文本转语音,提供可视化界面操作。

  • Stars: ⭐️ 29.8k
  • Tags: voice-ai voice-clone tts whisper
  • 最后活动时间: 2026-04-26

VoxCPM

无分词器的文本转语音模型,支持上下文感知的语音生成和高保真声音克隆。

  • Stars: ⭐️ 28.6k
  • Tags: TTS 声音克隆 语音合成
  • 最后活动时间: 2026-06-10

chatterbox

开源SoTA文本转语音模型,提供高质量语音合成能力。

  • Stars: ⭐️ 25.0k
  • Tags: TTS Speech Synthesis
  • 最后活动时间: 2026-06-10

MiniCPM-o

达到Gemini 2.5 Flash级别的多模态大语言模型,支持视觉、语音和全双工多模态实时流媒体,可在手机端运行。

  • Stars: ⭐️ 24.5k
  • Tags: multimodal llm vision speech mobile
  • 最后活动时间: 2026-05-07

audiocraft

Meta推出的深度学习音频处理与生成库,包含业界领先的EnCodec音频压缩器和MusicGen音乐生成模型,支持文本和旋律条件控制。

  • Stars: ⭐️ 23.3k
  • Tags: audio-generation music-generation deep-learning musicgen encodec
  • 最后活动时间: 2026-03-03

Handy

免费开源的离线语音转文字应用,支持完全离线运行保护隐私,基于Tauri v2跨平台构建。

  • Stars: ⭐️ 22.6k
  • Tags: 语音识别 离线 无障碍
  • 最后活动时间: 2026-05-23

CosyVoice

多语言大语音生成模型,提供推理、训练和部署全栈能力。

  • Stars: ⭐️ 21.6k
  • Tags: TTS Multi-lingual Voice Cloning
  • 最后活动时间: 2026-05-25

whisperX

基于Whisper的自动语音识别工具,支持词级时间戳和说话人分离,提供快速准确的语音转文字能力。

  • Stars: ⭐️ 21.5k
  • Tags: ASR Speech-to-Text Whisper Diarization
  • 最后活动时间: 2026-04-04

index-tts

工业级可控高效零样本文本转语音系统,支持跨语言语音合成。

  • Stars: ⭐️ 21.1k
  • Tags: TTS Zero-shot Industrial
  • 最后活动时间: 2026-06-12

buzz

基于OpenAI Whisper的离线音频转录与翻译工具,支持在本地电脑上运行,无需联网即可实现高质量的语音转文字。

  • Stars: ⭐️ 19.4k
  • Tags: whisper speech-to-text transcription offline-ai
  • 最后活动时间: 2026-05-16

FunASR

阿里达摩院开源的端到端语音识别工具包,提供SOTA预训练模型。

  • Stars: ⭐️ 17.9k
  • Tags: speech-recognition asr pytorch pretrained-model vad
  • 最后活动时间: 2026-06-11

VideoLingo

Netflix级AI视频字幕处理工具,支持一键自动切割、翻译、对齐和配音,实现全自动视频本地化。

  • Stars: ⭐️ 17.2k
  • Tags: video-translation ai-translation dubbing voice-cloning subtitle
  • 最后活动时间: 2026-03-24

pyvideotrans

AI驱动的视频翻译工具,支持跨语言翻译并自动生成配音与字幕,集成语音识别与合成技术。

  • Stars: ⭐️ 17.0k
  • Tags: video-translation speech-to-text text-to-speech subtitle
  • 最后活动时间: 2026-04-24

VideoCaptioner

基于LLM的智能字幕助手,支持视频字幕生成、断句、校正和翻译全流程处理,提升视频内容创作效率。

  • Stars: ⭐️ 15.0k
  • Tags: 字幕生成 视频处理 LLM应用 翻译
  • 最后活动时间: 2026-06-06

vosk-api

离线语音识别API,支持Android、iOS、树莓派和服务器,提供Python、Java、C#和Node.js多语言SDK。

  • Stars: ⭐️ 14.8k
  • Tags: Speech Recognition Offline Deep Learning
  • 最后活动时间: 2026-06-04

F5-TTS

基于流匹配的高质量文本转语音模型,生成流畅自然的语音。

  • Stars: ⭐️ 14.6k
  • Tags: TTS Flow Matching Research
  • 最后活动时间: 2026-05-18

KittenTTS

体积小于25MB的SOTA文本转语音模型,适合边缘设备部署。

  • Stars: ⭐️ 14.0k
  • Tags: text-to-speech tts lightweight edge-deployment
  • 最后活动时间: 2026-05-13

sherpa-onnx

离线语音处理神器,支持语音识别、语音合成、说话人分离、语音增强等功能,覆盖嵌入式设备到服务器的全平台部署。

  • Stars: ⭐️ 12.9k
  • Tags: Speech-to-Text Text-to-Speech ONNX Embedded
  • 最后活动时间: 2026-06-12

PaddleSpeech

易用语音工具包,涵盖ASR、TTS、语音翻译、声纹识别等全栈能力,获NAACL2022最佳Demo奖。

  • Stars: ⭐️ 12.6k
  • Tags: ASR TTS Speech Toolkit
  • 最后活动时间: 2026-06-12

Qwen3-TTS

阿里云Qwen团队开源的文本转语音模型,支持稳定流式语音生成、自由语音设计和生动的语音克隆功能。

  • Stars: ⭐️ 11.9k
  • Tags: TTS Speech Synthesis Voice Cloning
  • 最后活动时间: 2026-03-17

speechbrain

基于PyTorch的开源语音处理工具包,涵盖语音识别、说话人识别、语音增强等多种任务。

  • Stars: ⭐️ 11.6k
  • Tags: Speech PyTorch ASR Speaker-Recognition
  • 最后活动时间: 2026-05-27

supertonic

闪电般快速的设备端多语言TTS引擎,通过ONNX原生运行,支持跨平台离线语音合成。

  • Stars: ⭐️ 11.5k
  • Tags: TTS ONNX On-Device
  • 最后活动时间: 2026-05-22

edge-tts

无需Microsoft Edge或Windows即可使用Edge在线TTS服务的Python库,无需API密钥。

  • Stars: ⭐️ 11.2k
  • Tags: text-to-speech tts speech-synthesis
  • 最后活动时间: 2026-03-22

ACE-Step-1.5

强大的本地音乐生成模型,性能超越多数商业替代品,支持Mac、AMD、Intel和CUDA设备。

  • Stars: ⭐️ 10.7k
  • Tags: music-generation text-to-music generative-ai local-inference
  • 最后活动时间: 2026-05-27

Whisper

OpenAI Whisper语音识别模型的高性能GPGPU推理实现,支持快速ASR处理。

  • Stars: ⭐️ 10.4k
  • Tags: whisper speech-recognition asr gpgpu audio-processing
  • 最后活动时间: 2026-05-24

KrillinAI

基于LLM的视频翻译配音工具,支持100种语言双向翻译和一键部署。

  • Stars: ⭐️ 10.3k
  • Tags: Video Translation TTS
  • 最后活动时间: 2026-06-09

pyannote-audio

说话人分离神经网络工具包,支持语音活动检测、说话人识别与嵌入。

  • Stars: ⭐️ 10.1k
  • Tags: speaker-diarization speech-processing pytorch
  • 最后活动时间: 2026-06-06

moshi

语音-文本基础模型和全双工口语对话框架,支持实时流式对话,采用Mimi编解码器实现高质量神经音频压缩。

  • Stars: ⭐️ 10.1k
  • Tags: Speech Dialogue Voice AI Real-time
  • 最后活动时间: 2026-04-23

RealtimeSTT

高性能实时语音转文本库,支持高级语音活动检测、唤醒词激活和即时转录。

  • Stars: ⭐️ 9.9k
  • Tags: speech-to-text realtime voice-activity-detection transcription
  • 最后活动时间: 2026-06-09

espnet

端到端语音处理工具包,支持语音识别、合成、翻译和说话人分离等多种任务,基于PyTorch构建并提供丰富的预训练模型。

  • Stars: ⭐️ 9.9k
  • Tags: 语音识别 语音合成 PyTorch
  • 最后活动时间: 2026-06-11

Amphion

音频、音乐和语音生成工具包,支持TTS、语音转换、音乐生成等多种生成任务,助力可复现研究。

  • Stars: ⭐️ 9.8k
  • Tags: Audio Generation TTS Music Generation
  • 最后活动时间: 2026-03-25

so-vits-svc-fork

实时语音转换项目,支持歌声转换与变声功能。

  • Stars: ⭐️ 9.3k
  • Tags: voice-conversion speech-synthesis pytorch
  • 最后活动时间: 2026-06-12

silero-vad

企业级预训练语音活动检测器,轻量高效,支持ONNX运行时,适用于语音识别前端处理。

  • Stars: ⭐️ 9.3k
  • Tags: VAD Speech-Processing ONNX
  • 最后活动时间: 2026-03-26

speech_recognition

Python语音识别模块,支持多种引擎和API,可在线或离线进行语音转文字。

  • Stars: ⭐️ 9.0k
  • Tags: speech-recognition speech-to-text python
  • 最后活动时间: 2026-04-24

Bert-VITS2

基于VITS2与多语言BERT的高质量语音合成项目,支持多语言文本转语音,生成自然流畅的语音效果。

  • Stars: ⭐️ 8.8k
  • Tags: TTS 语音合成 BERT
  • 最后活动时间: 2026-06-08

SenseVoice

多语言语音理解模型,支持语音识别、情感识别和音频事件分类等多种语音理解任务。

  • Stars: ⭐️ 8.5k
  • Tags: ASR Multilingual Speech Emotion-Recognition
  • 最后活动时间: 2026-06-09

librosa

Python音频与音乐分析核心库,提供丰富的音频特征提取和信号处理功能,广泛应用于AI音频领域。

  • Stars: ⭐️ 8.5k
  • Tags: 音频分析 信号处理 Python库
  • 最后活动时间: 2026-06-12

moonshine

专为边缘设备设计的快速精准自动语音识别(ASR)模型,适合资源受限环境下的实时语音转文字应用。

  • Stars: ⭐️ 8.4k
  • Tags: ASR Speech Recognition Edge AI
  • 最后活动时间: 2026-06-02

ASRT_SpeechRecognition

基于深度学习的中文语音识别系统,采用CNN和CTC架构实现语音转文字。

  • Stars: ⭐️ 8.4k
  • Tags: Speech Recognition Chinese Deep Learning
  • 最后活动时间: 2026-04-10

higgs-audio

Boson AI开发的文本-音频基础模型,支持高质量音频生成与理解任务,在语音合成和多模态交互方面表现出色。

  • Stars: ⭐️ 8.1k
  • Tags: Audio Generation Foundation Model Multimodal
  • 最后活动时间: 2026-01-18

audiblez

从电子书生成有声书的工具,支持EPUB格式转换为音频。

  • Stars: ⭐️ 7.5k
  • Tags: audiobooks text-to-speech tts epub
  • 最后活动时间: 2026-02-27

mlx-audio

基于Apple MLX框架的语音处理库,支持TTS、STT和STS全流程语音能力,专为Apple Silicon优化。

  • Stars: ⭐️ 7.3k
  • Tags: TTS STT Apple Silicon MLX
  • 最后活动时间: 2026-06-06

OmniVoice-Studio

开源的 ElevenLabs 替代方案,支持本地语音克隆、TTS/STT 和影视级配音功能。

  • Stars: ⭐️ 6.9k
  • Tags: voice-cloning text-to-speech speech-recognition voice-ai local-ai
  • 最后活动时间: 2026-06-12

OmniVoice

支持600多种语言的高质量语音克隆TTS系统,实现多语言语音合成与克隆功能。

  • Stars: ⭐️ 6.7k
  • Tags: tts voice-cloning speech-synthesis multilingual
  • 最后活动时间: 2026-05-28

espeak-ng

开源语音合成引擎,支持超过100种语言和口音的文本转语音系统。

  • Stars: ⭐️ 6.6k
  • Tags: text-to-speech speech-synthesis open-source
  • 最后活动时间: 2026-04-27

wav2letter

Meta AI Research开源的端到端自动语音识别工具包。

  • Stars: ⭐️ 6.4k
  • Tags: speech-recognition asr deep-learning meta
  • 最后活动时间: 2026-01-12

vibe

基于 Whisper 的本地语音转录工具,支持跨平台桌面使用,让你完全掌控自己的语音识别流程。

  • Stars: ⭐️ 6.4k
  • Tags: whisper transcribe audio rust desktop
  • 最后活动时间: 2026-05-01

mediabunny

纯TypeScript媒体处理工具包,支持在浏览器中直接读取、写入和转换音视频文件,适用于多模态AI应用的媒体预处理。

  • Stars: ⭐️ 6.4k
  • Tags: audio video webcodecs media-processing
  • 最后活动时间: 2026-05-24

podcastfy

开源的NotebookLM播客功能替代方案,可将多种模态内容转换为引人入胜的多语言音频对话。

  • Stars: ⭐️ 6.3k
  • Tags: Podcast Generation Text-to-Speech GenAI
  • 最后活动时间: 2026-05-04

argmax-oss-swift

专为Apple Silicon设计的端侧语音AI工具包,支持语音识别、语音合成、说话人分离等功能。

  • Stars: ⭐️ 6.2k
  • Tags: speech-recognition text-to-speech whisper swift on-device
  • 最后活动时间: 2026-06-10

pedalboard

Spotify开源的Python音频处理库,支持VST3插件和音频增强,适用于机器学习音频数据预处理。

  • Stars: ⭐️ 6.2k
  • Tags: audio-processing python machine-learning vst3
  • 最后活动时间: 2026-05-21

tts-vue

基于微软语音服务的桌面端TTS工具,支持文本转语音合成,使用Electron+Vue构建。

  • Stars: ⭐️ 6.1k
  • Tags: TTS Speech Synthesis Desktop
  • 最后活动时间: 2026-04-24

WhisperKit

专为Apple Silicon优化的端侧语音识别框架,支持iOS、macOS等平台。

  • Stars: ⭐️ 6.0k
  • Tags: speech-recognition whisper swift on-device apple-silicon
  • 最后活动时间: 2026-04-14

neutts

Neuphonic开发的设备端TTS模型,优化本地推理性能。

  • Stars: ⭐️ 6.0k
  • Tags: text-to-speech tts on-device edge-ai
  • 最后活动时间: 2026-06-11

silero-models

预训练文本转语音模型库,支持俄语、乌克兰语等10多种语言,可通过PyTorch Hub快速集成。

  • Stars: ⭐️ 6.0k
  • Tags: TTS 预训练模型 多语言
  • 最后活动时间: 2026-06-04

FunClip

开源视频语音识别与剪辑工具,集成LLM智能剪辑功能。支持语音转文字、字幕生成,简化视频处理流程。

  • Stars: ⭐️ 5.8k
  • Tags: 语音识别 视频剪辑 AI字幕
  • 最后活动时间: 2026-06-12

Recorder

功能强大的HTML5录音库,支持多格式音频录制并集成ASR语音识别,适用于语音交互和实时通话场景。

  • Stars: ⭐️ 5.6k
  • Tags: 音频录制 ASR WebRTC
  • 最后活动时间: 2026-04-27

whisper-diarization

基于OpenAI Whisper的自动语音识别与说话人分离工具,支持多说话人场景下的语音转文字和身份识别。

  • Stars: ⭐️ 5.5k
  • Tags: ASR Speaker Diarization Whisper
  • 最后活动时间: 2026-02-23

VoiceInk

macOS开源语音转文字应用,Superwhisper的免费替代方案,无需订阅。

  • Stars: ⭐️ 5.2k
  • Tags: speech-to-text voice-recognition macos
  • 最后活动时间: 2026-06-12

wenet

生产级端到端语音识别工具包,支持Conformer和Transformer架构,专为工业部署优化。

  • Stars: ⭐️ 5.1k
  • Tags: ASR E2E Production Ready
  • 最后活动时间: 2026-05-11

Kokoro-FastAPI

Kokoro-82M语音合成模型的FastAPI封装服务,支持CPU ONNX和GPU PyTorch推理,提供OpenAI兼容API。

  • Stars: ⭐️ 5.0k
  • Tags: TTS FastAPI ONNX Docker
  • 最后活动时间: 2026-06-06

speech-to-speech

基于开源模型构建的本地语音代理工具,支持语音识别、合成和翻译全流程。

  • Stars: ⭐️ 4.9k
  • Tags: 语音识别 语音合成 本地部署
  • 最后活动时间: 2026-06-11

porcupine

基于深度学习的端上唤醒词检测引擎,支持自定义唤醒词。

  • Stars: ⭐️ 4.9k
  • Tags: wake-word-detection keyword-spotting voice-activation on-device
  • 最后活动时间: 2026-06-10

abogen

将EPUB、PDF和文本转换为有声书的开源工具,支持同步字幕和多种TTS引擎。

  • Stars: ⭐️ 4.8k
  • Tags: TTS Audiobook Kokoro
  • 最后活动时间: 2026-05-25

WhisperSpeech

开源文本转语音系统,基于Whisper模型逆向构建。

  • Stars: ⭐️ 4.6k
  • Tags: text-to-speech speech-synthesis whisper
  • 最后活动时间: 2025-12-14

pocket-tts

可在CPU上运行的轻量级TTS系统,适合资源受限环境。

  • Stars: ⭐️ 4.5k
  • Tags: text-to-speech tts lightweight cpu-inference
  • 最后活动时间: 2026-05-27

ultravox

开源实时语音多模态大模型,实现低延迟的语音到语音对话交互,适用于构建智能语音助手。

  • Stars: ⭐️ 4.4k
  • Tags: Multimodal LLM Real-time Voice Speech AI
  • 最后活动时间: 2025-12-12

pocketsphinx

轻量级语音识别引擎,适用于嵌入式设备和离线语音识别场景。

  • Stars: ⭐️ 4.3k
  • Tags: speech-recognition offline-speech lightweight-stt
  • 最后活动时间: 2026-05-06

ace-step-ui

开源AI音乐生成专业UI界面,作为ACE-Step 1.5的前端,支持本地免费无限生成音乐。

  • Stars: ⭐️ 4.1k
  • Tags: ai ai-music music-generation local-first open-source
  • 最后活动时间: 2026-06-04

WhisperLive

OpenAI Whisper的近实时实现,支持语音识别、翻译和听写功能。

  • Stars: ⭐️ 4.1k
  • Tags: 语音识别 Whisper 实时转录
  • 最后活动时间: 2026-06-04

LuxTTS

高质量快速TTS语音克隆模型,推理速度可达150倍实时。

  • Stars: ⭐️ 4.0k
  • Tags: text-to-speech tts voice-cloning fast-inference
  • 最后活动时间: 2026-03-12

SmartSub

跨平台AI字幕生成工具,支持批量处理视频音频生成字幕并翻译,集成多家AI服务。

  • Stars: ⭐️ 4.0k
  • Tags: 字幕生成 Whisper 翻译
  • 最后活动时间: 2026-06-11

RealtimeTTS

实时文本转语音库,支持多种TTS引擎,可实现低延迟的语音合成输出。

  • Stars: ⭐️ 3.9k
  • Tags: text-to-speech speech-synthesis realtime python
  • 最后活动时间: 2026-05-25

Qwen3-Omni

阿里云Qwen团队开发的全模态端到端大模型,支持文本、音频、图像、视频理解及实时语音生成。

  • Stars: ⭐️ 3.8k
  • Tags: Omni-Modal TTS Qwen
  • 最后活动时间: 2026-04-23

OpenUtau

开源歌声合成平台,UTAU的现代化继任者。支持多种歌声合成引擎,提供直观的歌声编辑体验。

  • Stars: ⭐️ 3.8k
  • Tags: singing-synthesis voice-synthesis vocaloid utau open-source
  • 最后活动时间: 2026-05-02

aubio

音频与音乐分析库,提供音符检测、音高追踪、节拍检测和MFCC特征提取功能,广泛应用于音频机器学习和音乐信息检索领域。

  • Stars: ⭐️ 3.7k
  • Tags: audio music-analysis mfcc pitch-detection onset-detection
  • 最后活动时间: 2026-04-10

stable-audio-tools

用于条件音频生成的生成模型工具集,支持高质量音频合成与处理。

  • Stars: ⭐️ 3.7k
  • Tags: audio-generation generative-models diffusion-models
  • 最后活动时间: 2026-02-14

auto-subs

本地 AI 字幕生成工具,支持 DaVinci Resolve 集成和说话人分离。

  • Stars: ⭐️ 3.6k
  • Tags: subtitles whisper speech-to-text transcription davinci
  • 最后活动时间: 2026-06-10

essentia

专业的C++音频与音乐分析库,支持音乐信息检索、音频特征提取与合成,提供Python绑定接口。

  • Stars: ⭐️ 3.6k
  • Tags: audio-analysis music-information-retrieval dsp python
  • 最后活动时间: 2026-05-20

sam-audio

Meta官方音频分割模型SAM-Audio的推理代码和预训练权重,支持音频分割任务的完整示例和Jupyter笔记本。

  • Stars: ⭐️ 3.5k
  • Tags: audio-processing segment-anything meta-ai audio-model
  • 最后活动时间: 2026-05-26

MOSS-TTS-Nano

开源多语言轻量级语音生成模型,仅0.1B参数即可实现实时语音合成,支持CPU运行。

  • Stars: ⭐️ 3.5k
  • Tags: tts speech-synthesis multilingual realtime voice-clone
  • 最后活动时间: 2026-06-02

Applio

简单易用的高质量语音转换工具,专注于性能优化和用户体验。

  • Stars: ⭐️ 3.4k
  • Tags: Voice Conversion RVC TTS
  • 最后活动时间: 2026-06-11

Linly-Talker

数字人对话系统,融合大语言模型与视觉模型,集成语音识别、合成与说话人头像生成技术。

  • Stars: ⭐️ 3.4k
  • Tags: Digital Avatar Multimodal TTS
  • 最后活动时间: 2026-02-10

speaches

基于Whisper的语音转文字服务,支持Docker部署和OpenAI API兼容接口,提供高效的音频转录能力。

  • Stars: ⭐️ 3.3k
  • Tags: Whisper Speech-to-Text Docker Transcription
  • 最后活动时间: 2026-05-28

audioFlux

音频与音乐分析特征提取库,支持深度学习和机器学习应用,涵盖频谱分析、MFCC、音高检测等功能。

  • Stars: ⭐️ 3.3k
  • Tags: Audio Analysis Machine Learning Signal Processing
  • 最后活动时间: 2026-03-06

TTS-WebUI

集成多种TTS模型的统一WebUI,支持GPT-SoVITS、XTTS、Bark等20+语音合成引擎。

  • Stars: ⭐️ 3.2k
  • Tags: TTS Audio Generation Gradio
  • 最后活动时间: 2026-05-14

speakr

自托管的音频转录Web应用,支持将录音文件自动转换为文字,注重隐私保护。

  • Stars: ⭐️ 3.1k
  • Tags: transcription speech-to-text self-hosted audio
  • 最后活动时间: 2026-05-09

stemroller

基于深度学习的音源分离工具,可从任意歌曲中提取人声、鼓点、贝斯等独立音轨。

  • Stars: ⭐️ 3.1k
  • Tags: source-separation deep-learning audio-processing demucs
  • 最后活动时间: 2026-02-25

LiveCaptions-Translator

基于Windows LiveCaptions的轻量级实时语音翻译工具,支持音频转文字和实时翻译。

  • Stars: ⭐️ 3.1k
  • Tags: speech-to-text audio-to-text real-time-translation livecaptions
  • 最后活动时间: 2026-04-22

willow

开源、本地自托管的智能语音助手,可作为 Amazon Echo/Google Home 的替代方案。支持 Whisper 语音识别,注重隐私保护。

  • Stars: ⭐️ 3.1k
  • Tags: voice-assistant speech-recognition whisper esp32 home-automation
  • 最后活动时间: 2026-02-13

suno-api

Suno AI 音乐生成 API 封装,支持轻松集成到 GPTs 等 AI 智能体中。

  • Stars: ⭐️ 3.0k
  • Tags: music suno ai api typescript
  • 最后活动时间: 2026-03-06

Bark-Voice-Cloning

基于Bark的语音克隆项目,支持中文语音合成与声音克隆功能。

  • Stars: ⭐️ 3.0k
  • Tags: Voice Cloning TTS Bark Chinese Speech
  • 最后活动时间: 2025-12-19

delayed-streams-modeling

Kyutai开发的语音识别与合成模型框架,采用延迟流建模技术实现高质量语音转文本和文本转语音功能。

  • Stars: ⭐️ 2.9k
  • Tags: Speech-to-Text Text-to-Speech Kyutai
  • 最后活动时间: 2026-01-26

deepjazz

基于Keras和Theano的深度学习爵士乐生成项目。

  • Stars: ⭐️ 2.9k
  • Tags: deep-learning music-generation lstm jazz
  • 最后活动时间: 2026-03-19

lingvo

Google开源的序列建模框架,专注于语音识别、机器翻译和NLP任务,支持大规模分布式训练。

  • Stars: ⭐️ 2.9k
  • Tags: Speech Recognition Machine Translation NLP
  • 最后活动时间: 2026-05-20

openai-fm

OpenAI Speech API 的官方演示项目,展示语音合成与识别能力的交互式示例。

  • Stars: ⭐️ 2.9k
  • Tags: openai speech-api tts demo
  • 最后活动时间: 2026-03-03

jarvis

离线语音助手,注重隐私保护,基于Rust和Tauri构建。无需联网即可运行,适合注重隐私的用户。

  • Stars: ⭐️ 2.8k
  • Tags: voice-assistant rust offline privacy
  • 最后活动时间: 2026-02-18

Whisper-WebUI

基于Whisper模型的字幕生成Web界面,支持轻松将音频转换为字幕文本。

  • Stars: ⭐️ 2.8k
  • Tags: whisper speech-to-text gradio subtitle
  • 最后活动时间: 2025-12-29

Qwen3-ASR

Qwen团队开源的语音识别模型,支持多语言语音/音乐/歌曲识别及时间戳预测。

  • Stars: ⭐️ 2.8k
  • Tags: ASR Speech-Recognition Qwen
  • 最后活动时间: 2026-01-30

Scriberr

自托管的AI音频转录工具,支持本地部署以保护数据隐私,提供高质量的语音转文字服务。

  • Stars: ⭐️ 2.7k
  • Tags: Audio Transcription Self-hosted Privacy
  • 最后活动时间: 2026-05-12

neural-amp-modeler

神经网络吉他放大器模拟器,使用深度学习精确还原放大器音色。

  • Stars: ⭐️ 2.6k
  • Tags: neural-network audio-processing guitar-amp deep-learning
  • 最后活动时间: 2026-05-23

NeuralAmpModelerPlugin

基于神经网络的吉他放大器建模插件,利用AI技术精准模拟真实放大器的音色特性。

  • Stars: ⭐️ 2.6k
  • Tags: Neural Network Audio Plugin
  • 最后活动时间: 2026-04-20

DDSP-SVC

基于DDSP的实时端到端歌声转换系统,支持高质量声音克隆。

  • Stars: ⭐️ 2.6k
  • Tags: Voice Conversion DDSP Real-time
  • 最后活动时间: 2026-02-22

AI-Video-Transcriber

开源AI视频转录与摘要工具,支持多语言视频和播客内容转录。跨平台支持,可处理YouTube、TikTok等平台视频。

  • Stars: ⭐️ 2.6k
  • Tags: transcribe ai video speech-to-text summarization
  • 最后活动时间: 2026-04-30

asteroid

PyTorch音频源分离工具包,提供预训练模型用于语音增强和分离研究。

  • Stars: ⭐️ 2.6k
  • Tags: audio-separation speech-enhancement pytorch
  • 最后活动时间: 2026-05-13

kokoro-onnx

基于Kokoro模型和ONNX Runtime的高效TTS推理实现。

  • Stars: ⭐️ 2.6k
  • Tags: kokoro onnxruntime tts text-to-speech
  • 最后活动时间: 2026-01-30

pyttsx3

离线文本转语音合成库,支持多种语音引擎,无需网络连接即可运行。适用于语音助手、无障碍应用等场景。

  • Stars: ⭐️ 2.5k
  • Tags: text-to-speech tts python offline speech-synthesis
  • 最后活动时间: 2026-05-27

alltalk_tts

基于Coqui TTS引擎的高级TTS系统,支持DeepSpeed加速、模型微调、低显存模式及JSON API调用。

  • Stars: ⭐️ 2.4k
  • Tags: tts coqui deepspeed text-to-speech voice-synthesis
  • 最后活动时间: 2026-01-09

FluidVoice

macOS上最快的离线语音转文字应用,完全本地运行,无需联网即可实现高精度语音识别。

  • Stars: ⭐️ 2.4k
  • Tags: speech-to-text dictation offline macos voice-recognition
  • 最后活动时间: 2026-06-12

MOSS-TTS

开源语音和声音生成模型家族,支持高保真长语音、多说话人对话、声音克隆和实时流式TTS。

  • Stars: ⭐️ 2.3k
  • Tags: TTS Voice Cloning Multimodal
  • 最后活动时间: 2026-05-27

awesome-digital-human-live2d

数字人技术资源合集,涵盖Live2D虚拟形象、语音合成、面部动画等AI驱动的数字人相关技术与工具。

  • Stars: ⭐️ 2.3k
  • Tags: digital-human live2d avatar tts animation
  • 最后活动时间: 2026-05-18

awesome-whisper

OpenAI Whisper语音识别模型精选资源列表,汇集工具、模型、教程和应用案例。

  • Stars: ⭐️ 2.3k
  • Tags: Whisper 语音识别 Speech-to-Text
  • 最后活动时间: 2026-03-17

Hex

基于Whisper的macOS语音转文字应用,支持实时语音转录为文字,简洁高效的本地化语音识别工具。

  • Stars: ⭐️ 2.3k
  • Tags: whisper speech-to-text transcription macos swiftui
  • 最后活动时间: 2026-06-04

IMS-Toucan

支持7000多种语言的快速可控文本转语音工具包,基于深度学习和PyTorch构建。

  • Stars: ⭐️ 2.2k
  • Tags: text-to-speech speech-synthesis deep-learning pytorch
  • 最后活动时间: 2026-01-25

MMAudio

CVPR 2025接收的高质量视频到音频合成模型,通过多模态联合训练实现音视频同步生成,支持视频或文本生成音频。

  • Stars: ⭐️ 2.2k
  • Tags: Video-to-Audio Audio Synthesis Multimodal
  • 最后活动时间: 2026-02-23

FluidAudio

基于CoreML的前沿音频模型库,支持TTS、STT、语音活动检测和说话人分离,专为iOS/macOS设计。

  • Stars: ⭐️ 2.2k
  • Tags: CoreML Speech AI iOS
  • 最后活动时间: 2026-06-11

voice

React Native 语音识别库,支持 iOS 和 Android 平台,可在线离线使用。

  • Stars: ⭐️ 2.2k
  • Tags: speech-recognition voice-recognition react-native ios android
  • 最后活动时间: 2026-01-31

magenta-js

浏览器端机器学习音乐与艺术生成库,支持实时音频创作和视觉艺术生成。

  • Stars: ⭐️ 2.1k
  • Tags: music-generation art-generation tensorflow-js
  • 最后活动时间: 2026-05-19

ten-vad

高性能、低延迟的轻量级语音活动检测器,适用于实时对话AI和语音识别场景。

  • Stars: ⭐️ 2.1k
  • Tags: VAD Speech Processing Real-time
  • 最后活动时间: 2026-02-02

epub_to_audiobook

EPUB电子书转有声书工具,支持Audiobookshelf,带WebUI界面。

  • Stars: ⭐️ 2.0k
  • Tags: audiobook tts epub openai
  • 最后活动时间: 2026-03-24

vad

基于ONNX Runtime的高精度浏览器端语音活动检测器,提供简洁API实现实时语音识别。

  • Stars: ⭐️ 2.0k
  • Tags: voice-activity-detection silero-vad onnxruntime web-audio
  • 最后活动时间: 2026-01-30

FireRedASR

开源工业级语音识别模型,支持普通话、方言和英语,在公开中文ASR基准上达到SOTA水平,同时具备出色的歌词识别能力。

  • Stars: ⭐️ 1.9k
  • Tags: ASR Speech Recognition LLM Multimodal
  • 最后活动时间: 2026-02-25

SongRec

开源的Shazam客户端,使用音频指纹识别技术识别歌曲,支持Linux平台。

  • Stars: ⭐️ 1.8k
  • Tags: audio-fingerprinting shazam music-recognition rust
  • 最后活动时间: 2026-05-27

Montreal-Forced-Aligner

基于Kaldi的强制对齐命令行工具,用于语音音频与文本的精确对齐。

  • Stars: ⭐️ 1.8k
  • Tags: forced-alignment kaldi speech acoustic-model
  • 最后活动时间: 2026-06-11

RHVoice

免费开源的多语言语音合成引擎,支持俄语、英语、乌克兰语等多种语言,跨平台运行于Windows、Linux和Android。

  • Stars: ⭐️ 1.8k
  • Tags: TTS 语音合成 开源
  • 最后活动时间: 2026-06-12

descript-audio-codec

最先进音频编解码器,支持90倍压缩率,适用于高质量音频生成与传输。

  • Stars: ⭐️ 1.8k
  • Tags: audio-codec deep-learning audio-compression pytorch gan
  • 最后活动时间: 2026-01-26

parlor

本地实时多模态AI助手,支持语音和视觉对话。基于Gemma 4 E2B和Kokoro,完全在设备端运行。

  • Stars: ⭐️ 1.8k
  • Tags: multimodal voice-assistant local-llm on-device-ai text-to-speech
  • 最后活动时间: 2026-05-16

RAVE

实时音频变分自编码器,可实现高质量音频生成与风格迁移,支持实时处理。

  • Stars: ⭐️ 1.7k
  • Tags: Audio Deep Learning Generative Model
  • 最后活动时间: 2026-03-07

VieNeu-TTS

越南语实时文本转语音系统,支持即时语音克隆和端侧CPU实时推理,输出24kHz高质量音频。

  • Stars: ⭐️ 1.7k
  • Tags: TTS 语音克隆 端侧推理
  • 最后活动时间: 2026-06-10

bailing

类似GPT-4o的低延迟语音对话机器人,集成DeepSeek R1等大模型,响应时延低至800ms,支持打断和低配置设备运行。

  • Stars: ⭐️ 1.7k
  • Tags: 语音助手 TTS ASR DeepSeek
  • 最后活动时间: 2026-04-06

WhisperJAV

基于Qwen3-ASR和Whisper的日语语音识别字幕生成工具,集成TEN-VAD和本地LLM,抗噪能力强。

  • Stars: ⭐️ 1.7k
  • Tags: ASR Whisper 字幕生成 语音识别
  • 最后活动时间: 2026-05-10

awesome-python-scientific-audio

Python音频科学研究资源精选,涵盖音频分析、处理和机器学习相关工具包。

  • Stars: ⭐️ 1.7k
  • Tags: audio python speech-processing scientific-computing
  • 最后活动时间: 2026-06-11

read-aloud

一款优秀的浏览器扩展,一键朗读网页内容,支持多种语音引擎和语言,提升无障碍访问体验。

  • Stars: ⭐️ 1.7k
  • Tags: text-to-speech browser-extension accessibility tts
  • 最后活动时间: 2026-05-03

voxtral.c

纯C语言实现的Mistral Voxtral Realtime 4B语音转文字模型推理引擎,专注于高性能实时语音识别。

  • Stars: ⭐️ 1.7k
  • Tags: speech-to-text inference mistral c-language
  • 最后活动时间: 2026-02-15

subsai

基于 Whisper 的字幕生成工具,支持 Web-UI、命令行和 Python 包多种使用方式。

  • Stars: ⭐️ 1.7k
  • Tags: whisper subtitles speech-to-text video
  • 最后活动时间: 2026-04-20

madmom

Python音频与音乐信号处理库,支持音乐信息检索。

  • Stars: ⭐️ 1.7k
  • Tags: audio-analysis signal-processing music-information-retrieval
  • 最后活动时间: 2026-03-20

ComfyUI-Qwen-TTS

Qwen3-TTS的ComfyUI插件实现,方便在ComfyUI中使用语音合成功能。

  • Stars: ⭐️ 1.6k
  • Tags: TTS ComfyUI Qwen
  • 最后活动时间: 2026-06-03

uLipSync

基于MFCC的Unity口型同步插件,利用Job System和Burst Compiler实现高性能音频驱动的角色口型动画,支持VRM虚拟形象。

  • Stars: ⭐️ 1.6k
  • Tags: Lip-Sync Unity VRM Audio Processing
  • 最后活动时间: 2026-01-06

SongGeneration

LeVo高质量歌曲生成模型官方代码,采用多偏好对齐技术提升生成效果。

  • Stars: ⭐️ 1.6k
  • Tags: song-generation music-generation audio-synthesis deep-learning
  • 最后活动时间: 2026-03-12

BirdNET-Analyzer

基于深度学习的鸟类声音识别与分析工具,可用于科学音频数据处理和生态监测。

  • Stars: ⭐️ 1.6k
  • Tags: deep-learning audio-classification bioacoustics acoustic-monitoring
  • 最后活动时间: 2026-05-22

obs-localvocal

OBS Studio本地语音识别与字幕生成插件,基于Whisper AI实现实时语音转文字和翻译功能,支持离线运行。

  • Stars: ⭐️ 1.5k
  • Tags: 语音识别 Whisper OBS插件
  • 最后活动时间: 2026-05-20

VibeVoice-ComfyUI

微软VibeVoice TTS模型的ComfyUI集成节点,支持高质量单/多说话人语音合成。

  • Stars: ⭐️ 1.5k
  • Tags: comfyui text-to-speech tts voice-cloning ai-audio
  • 最后活动时间: 2026-02-18

pianotrans

ByteDance 钢琴转录工具的简洁 GUI,支持踏板检测。

  • Stars: ⭐️ 1.5k
  • Tags: ai piano transcription audio
  • 最后活动时间: 2026-06-07

yap

基于 macOS Speech.framework 的本地语音转录命令行工具,支持设备端离线语音识别转文字。

  • Stars: ⭐️ 1.5k
  • Tags: speech-to-text macos cli transcription speech-recognition
  • 最后活动时间: 2026-02-15

Step-Audio2

端到端多模态大语言模型,专为工业级音频理解与语音对话设计。

  • Stars: ⭐️ 1.5k
  • Tags: audio-llm multimodal speech-conversation
  • 最后活动时间: 2026-03-16

SALMONN

字节跳动与清华联合开发的多模态大语言模型,支持音频、语音、音乐和视频理解,入选ICLR/ICML 2024。

  • Stars: ⭐️ 1.4k
  • Tags: 多模态 音频处理 视频理解
  • 最后活动时间: 2026-05-26

video-analyzer

结合LLM、计算机视觉和语音识别的视频分析工具,支持多模态内容理解。

  • Stars: ⭐️ 1.4k
  • Tags: 视频分析 ASR 多模态
  • 最后活动时间: 2026-04-19

OuteTTS

OuteTTS 模型的推理接口,支持 GGUF 格式和 Transformers 框架。

  • Stars: ⭐️ 1.4k
  • Tags: text-to-speech llama gguf
  • 最后活动时间: 2026-03-23

Speech-AI-Forge

一站式语音AI平台,集成ChatTTS、CosyVoice、Fish-Speech等多种模型,提供API服务器和Gradio WebUI界面。

  • Stars: ⭐️ 1.4k
  • Tags: TTS ASR 语音合成 WebUI
  • 最后活动时间: 2026-05-21

elevenlabs-mcp

ElevenLabs官方MCP服务器,为AI应用提供高质量的语音合成和语音克隆能力。

  • Stars: ⭐️ 1.4k
  • Tags: elevenlabs elevenlabs-api mcp tts voice-ai
  • 最后活动时间: 2026-06-10

SoniTranslate

视频同步翻译与自动配音工具,结合ASR、TTS和翻译技术实现跨语言视频内容转换。

  • Stars: ⭐️ 1.4k
  • Tags: 视频配音 翻译 TTS ASR
  • 最后活动时间: 2026-04-27

ThinkSound

NeurIPS 2025论文实现,基于思维链推理的多模态音频生成框架,支持文本、视频等输入生成音频。

  • Stars: ⭐️ 1.4k
  • Tags: text-to-audio video-to-audio multimodal audio-generation pytorch
  • 最后活动时间: 2026-04-03

subgen

基于 OpenAI Whisper 模型的自动字幕生成工具,支持 Jellyfin、Plex、Emby 等媒体服务器集成。

  • Stars: ⭐️ 1.4k
  • Tags: whisper subtitle speech-to-text media-server
  • 最后活动时间: 2026-05-09

MOSS-TTSD

支持长上下文建模、多说话人合成和零样本语音克隆的语音对话生成模型。

  • Stars: ⭐️ 1.4k
  • Tags: text-to-speech speech-synthesis voice-cloning streaming
  • 最后活动时间: 2026-03-23

k2

可微分的FSA/FST算法库,与PyTorch兼容,专为语音识别等序列建模任务设计。

  • Stars: ⭐️ 1.3k
  • Tags: speech-recognition fst differentiable pytorch
  • 最后活动时间: 2026-05-20

dicio-android

开源Android离线语音助手,基于Vosk实现本地语音识别与唤醒词检测,支持多种技能扩展。

  • Stars: ⭐️ 1.3k
  • Tags: 语音助手 离线STT Android Vosk
  • 最后活动时间: 2026-04-23

wespeaker

面向研究和生产的说话人验证、识别和分割工具包。

  • Stars: ⭐️ 1.3k
  • Tags: speaker-verification speaker-recognition speaker-diarization pytorch
  • 最后活动时间: 2026-04-10

unmute

让文本大语言模型具备听和说的能力,实现语音交互功能。为LLM添加语音输入输出接口,使其能够进行自然对话。

  • Stars: ⭐️ 1.3k
  • Tags: TTS STT Voice AI LLM
  • 最后活动时间: 2026-06-05

Matcha-TTS

ICASSP 2024发表的快速文本转语音架构,采用条件流匹配技术实现高质量语音合成。

  • Stars: ⭐️ 1.3k
  • Tags: TTS 流匹配 语音合成
  • 最后活动时间: 2026-05-25

whisper-ctranslate2

基于CTranslate2的Whisper语音识别命令行工具,兼容OpenAI官方客户端,提供高效的语音转文字能力。

  • Stars: ⭐️ 1.3k
  • Tags: whisper speech-recognition speech-to-text ctranslate2 openai
  • 最后活动时间: 2026-02-14

TalkingHead

一个JavaScript类库,用于实现3D虚拟形象的实时口型同步和语音驱动动画。支持文本转语音和全身3D头像的唇形同步。

  • Stars: ⭐️ 1.3k
  • Tags: 3d-avatar lip-sync talking-avatar text-to-speech animation
  • 最后活动时间: 2026-05-08

Chatterbox-TTS-Server

强大的TTS语音合成服务器,支持Web UI、OpenAI兼容API、声音克隆,可在NVIDIA/AMD/CPU上运行。

  • Stars: ⭐️ 1.3k
  • Tags: TTS 语音合成 声音克隆 API服务
  • 最后活动时间: 2026-05-26

VoiceprintRecognition-Pytorch

声纹识别工具库,支持EcapaTdnn、ResNetSE、CAM++等先进模型,适用于说话人识别和验证场景。

  • Stars: ⭐️ 1.3k
  • Tags: voiceprint-recognition speaker-recognition arcface pytorch
  • 最后活动时间: 2025-12-17

birdnet-go

实时鸟类声音识别分析系统,支持树莓派等边缘设备部署。

  • Stars: ⭐️ 1.3k
  • Tags: birdnet audio-recognition wildlife edge-ai
  • 最后活动时间: 2026-06-12

Fun-ASR

通义实验室推出的端到端语音识别大模型,支持说话人分离等功能。

  • Stars: ⭐️ 1.3k
  • Tags: ASR Speech Recognition Audio
  • 最后活动时间: 2026-06-12

transcribe-anything

多后端Whisper语音转文字工具,支持本地文件和URL输入,Mac ARM优化,完全私密免费。

  • Stars: ⭐️ 1.3k
  • Tags: whisper speech-to-text transcription audio
  • 最后活动时间: 2026-03-24

soprano

即时、超逼真的文本转语音系统,提供高质量语音合成能力。

  • Stars: ⭐️ 1.2k
  • Tags: text-to-speech realistic-voice tts
  • 最后活动时间: 2026-01-15

ASR-LLM-TTS

基于开源模型构建的语音交互系统,串联集成ASR语音识别、LLM大语言模型和TTS语音合成,实现完整的语音对话功能。

  • Stars: ⭐️ 1.2k
  • Tags: ASR LLM TTS 语音交互 Qwen
  • 最后活动时间: 2026-06-03

speech-trident

精选语音/音频大语言模型、表示学习和编解码模型资源合集。

  • Stars: ⭐️ 1.2k
  • Tags: speech-llm audio-models codec representation-learning
  • 最后活动时间: 2026-04-04

ekho

开源中文文本转语音引擎,支持粤语、藏语等多种中文方言。

  • Stars: ⭐️ 1.2k
  • Tags: chinese cantonese tts text-to-speech
  • 最后活动时间: 2026-04-29

quillman

基于无服务器架构的 AI 语音聊天应用,支持语音识别和自然对话。

  • Stars: ⭐️ 1.2k
  • Tags: voice-chat speech-recognition serverless python
  • 最后活动时间: 2026-05-28

python-audio-separator

基于预训练模型的音频分离工具,支持从音乐中提取人声、伴奏等音轨,提供命令行和Python API两种使用方式。

  • Stars: ⭐️ 1.2k
  • Tags: audio-separation stem-separation music-processing deep-learning
  • 最后活动时间: 2026-05-18

GMTalker

由光明实验室打造的3D数字人系统,集成语音识别、语音合成、自然语言理解和嘴型动画驱动,支持多平台快速部署。

  • Stars: ⭐️ 1.2k
  • Tags: 3d-avatar digital-human speech-recognition text-to-speech lip-sync
  • 最后活动时间: 2026-01-08

Mousai

开源歌曲识别应用,类似Shazam,可在数秒内识别正在播放的歌曲。基于GNOME/GTK的Linux桌面应用。

  • Stars: ⭐️ 1.2k
  • Tags: music-recognition shazam-like audio-fingerprinting linux gnome
  • 最后活动时间: 2026-04-22

my-translator

实时语音翻译工具,支持macOS和Windows,本地运行无需服务器,使用用户自己的API密钥实现语音转文字和文字转语音。

  • Stars: ⭐️ 1.1k
  • Tags: speech-translation stt tts real-time tauri
  • 最后活动时间: 2026-06-02

aTrain

离线语音转录GUI工具,支持说话人分离,基于最新机器学习模型。

  • Stars: ⭐️ 1.1k
  • Tags: speech-recognition transcription speaker-diarization
  • 最后活动时间: 2026-05-28

lhotse

机器学习多模态数据处理工具集,专注于语音识别和音频数据处理。

  • Stars: ⭐️ 1.1k
  • Tags: audio speech-recognition pytorch deep-learning
  • 最后活动时间: 2026-05-28

nnAudio

基于PyTorch的音频处理库,使用1D卷积网络实现高效的频谱图转换。

  • Stars: ⭐️ 1.1k
  • Tags: audio-processing spectrogram pytorch neural-network
  • 最后活动时间: 2026-05-21

conformer

INTERSPEECH 2020论文非官方实现,卷积增强的Transformer语音识别模型,结合CNN局部建模与Transformer全局建模优势。

  • Stars: ⭐️ 1.1k
  • Tags: conformer speech-recognition asr transformer
  • 最后活动时间: 2026-01-05

MusicRecognizer

开源Android音乐识别应用,集成AudD、ACRCloud和Shazam等多种识别服务,实现快速歌曲识别。

  • Stars: ⭐️ 1.1k
  • Tags: music-recognition shazam audd acrcloud android audio-fingerprinting
  • 最后活动时间: 2026-05-23

faster-qwen3-tts

基于Qwen3-TTS的实时文本转语音工具,提供高效的语音合成能力。

  • Stars: ⭐️ 1.1k
  • Tags: TTS Qwen3 Real-time
  • 最后活动时间: 2026-06-10

A-Hackers-AI-Voice-Assistant

基于 Python 和 PyTorch 构建的 AI 语音助手,适合开发者学习和定制。

  • Stars: ⭐️ 1.1k
  • Tags: voice-assistant pytorch speech-recognition python
  • 最后活动时间: 2025-12-15

vits-simple-api

一个简洁的VITS语音合成HTTP API,支持BERT-VITS2和GPT-SoVITS等多种模型,方便快速部署TTS服务。

  • Stars: ⭐️ 1.0k
  • Tags: tts vits tts-api bert-vits2
  • 最后活动时间: 2026-05-18

AVA-AI-Voice-Agent-for-Asterisk

集成Asterisk/FreePBX的开源AI语音智能体,使用Audiosocket/RTP技术。

  • Stars: ⭐️ 1.0k
  • Tags: voice-agent asterisk freepbx voip
  • 最后活动时间: 2026-05-28

MiMo-Audio

音频语言模型项目,展示音频模型在少样本学习场景下的强大能力。

  • Stars: ⭐️ 1.0k
  • Tags: audio-language-model multimodal few-shot-learning
  • 最后活动时间: 2026-03-03

ms-ra-forwarder

免费的在线文本转语音API服务,提供便捷的TTS接口。

  • Stars: ⭐️ 1.0k
  • Tags: text-to-speech tts tts-api
  • 最后活动时间: 2026-01-21

SLAM-LLM

统一的多模态处理框架,支持语音、语言、音频和音乐处理的大语言模型集成。

  • Stars: ⭐️ 1.0k
  • Tags: audio-processing speech-processing multimodal-llm music-processing
  • 最后活动时间: 2026-01-15

Whisperboard

开源iOS语音转文字应用,让高质量语音转录在移动设备上触手可及。基于Whisper.cpp实现,支持离线转录。

  • Stars: ⭐️ 1.0k
  • Tags: iOS 语音转录 Whisper
  • 最后活动时间: 2025-12-18

GLM-TTS

可控情感表达的零样本TTS模型,支持多奖励强化学习优化。

  • Stars: ⭐️ 1.0k
  • Tags: tts speech-synthesis zero-shot emotion
  • 最后活动时间: 2026-04-10

Cognitive-Speech-TTS

微软认知服务TTS API的多语言示例代码,支持自定义神经语音。

  • Stars: ⭐️ 1.0k
  • Tags: azure-tts text-to-speech speech-sdk neural-voice
  • 最后活动时间: 2026-02-28

tada

开源语音语言模型,将语音处理与大语言模型能力相结合。

  • Stars: ⭐️ 991
  • Tags: speech-language-model audio speech llm open-source
  • 最后活动时间: 2026-05-11

TTS-Audio-Suite

ComfyUI多引擎TTS集成节点,支持10+主流语音合成引擎,提供角色配音和时间轴功能。

  • Stars: ⭐️ 974
  • Tags: TTS ComfyUI Voice Cloning Audio Generation
  • 最后活动时间: 2026-06-12

Fun-Audio-Chat

大型音频语言模型,专为自然、低延迟的语音交互而设计,支持流畅的实时对话体验。

  • Stars: ⭐️ 966
  • Tags: audio-language-model voice-interaction speech-ai low-latency
  • 最后活动时间: 2026-02-27

voquill

开源的语音听写工具,WisprFlow的免费替代方案。支持本地AI语音转文字,基于Whisper技术构建。

  • Stars: ⭐️ 960
  • Tags: speech-to-text whisper local-ai dictation
  • 最后活动时间: 2026-06-05

kapre

Keras音频预处理库,提供可GPU加速的声谱图计算层。

  • Stars: ⭐️ 946
  • Tags: audio-processing keras spectrogram
  • 最后活动时间: 2026-05-17

Step-Audio-EditX

30亿参数的LLM音频编辑模型,支持情感、风格编辑及零样本语音合成。

  • Stars: ⭐️ 929
  • Tags: audio-editing tts voice-cloning reinforcement-learning
  • 最后活动时间: 2026-04-09

Irodori-TTS

基于Flow Matching的文本转语音模型,支持Emoji表情驱动的风格控制,实现富有表现力的语音合成。

  • Stars: ⭐️ 929
  • Tags: text-to-speech tts flow-matching voice-cloning speech-synthesis
  • 最后活动时间: 2026-06-04

parakeet-mlx

Nvidia Parakeet语音模型的Apple Silicon优化实现,基于MLX框架提供高效语音识别。

  • Stars: ⭐️ 926
  • Tags: parakeet mlx speech-recognition apple-silicon
  • 最后活动时间: 2026-02-21

whisper.net

基于Whisper模型的.NET语音识别库,支持跨平台语音转文字和翻译功能,简单易用。

  • Stars: ⭐️ 919
  • Tags: speech-recognition speech-to-text whisper dotnet
  • 最后活动时间: 2026-05-28

sokuji

实时语音翻译工具,支持本地 AI 和多种云端服务商,提供 Chrome 扩展和桌面应用。

  • Stars: ⭐️ 898
  • Tags: Translation Speech-to-Speech Real-time
  • 最后活动时间: 2026-05-31

inaSpeechSegmenter

基于CNN的音频分割工具包,可检测语音、音乐、噪声和说话人性别。

  • Stars: ⭐️ 894
  • Tags: audio-segmentation speech-detection gender-classification cnn
  • 最后活动时间: 2026-03-12

ccextractor

强大的字幕提取工具,支持从视频流中提取隐藏字幕,集成OCR技术识别图像字幕。

  • Stars: ⭐️ 889
  • Tags: 字幕提取 OCR 视频处理
  • 最后活动时间: 2026-05-31

MidiTok

为深度学习模型设计的MIDI/符号音乐标记器,支持音乐生成与信息检索任务。

  • Stars: ⭐️ 877
  • Tags: deep-learning midi music-generation tokenization
  • 最后活动时间: 2026-06-08

Easy-Voice-Toolkit

用户友好的音频工具包,支持语音识别、转录、转换等多种功能,简化音频处理流程。

  • Stars: ⭐️ 876
  • Tags: 语音识别 TTS 音频处理
  • 最后活动时间: 2026-05-25

PPASR

基于PaddlePaddle的端到端中文语音识别项目,支持DeepSpeech2、Conformer等主流模型,提供完整教程。

  • Stars: ⭐️ 875
  • Tags: 中文ASR PaddlePaddle Conformer
  • 最后活动时间: 2025-12-17

TypeNo

一款免费开源、隐私优先的macOS语音输入应用,支持本地语音转文字功能。

  • Stars: ⭐️ 871
  • Tags: speech-to-text macos privacy voice-input swift
  • 最后活动时间: 2026-05-26

speech-swift

专为 Apple Silicon 设计的 AI 语音工具包,支持语音识别、语音合成、语音增强和说话人分离等功能。

  • Stars: ⭐️ 868
  • Tags: speech-recognition text-to-speech apple-silicon mlx coreml
  • 最后活动时间: 2026-06-09

TangoFlux

基于Flow Matching的超快速文本转音频生成模型,ICLR 2026论文项目。

  • Stars: ⭐️ 866
  • Tags: text-to-audio flow-matching generative-ai audio-synthesis
  • 最后活动时间: 2026-01-28

murmure

完全本地化、隐私优先的跨平台语音转文字工具,集成LLM后处理功能。

  • Stars: ⭐️ 862
  • Tags: Speech-to-Text Privacy Local AI
  • 最后活动时间: 2026-06-11

local-talking-llm

完全离线运行的语音对话LLM应用,集成语音识别与语音合成功能,无需联网即可使用。

  • Stars: ⭐️ 862
  • Tags: speech-recognition speech-synthesis local-llm chatbot
  • 最后活动时间: 2026-04-04

micro-wake-word

基于TensorFlow的唤醒词检测训练框架,支持合成样本生成,适用于微控制器部署。

  • Stars: ⭐️ 859
  • Tags: wake-word keyword-spotting tensorflow embedded-ai audio
  • 最后活动时间: 2025-12-21

subvert

视频字幕生成工具,秒级生成字幕、摘要和章节标记。结合ChatGPT和Whisper,自动化视频内容处理流程。

  • Stars: ⭐️ 856
  • Tags: 字幕生成 视频处理 Whisper
  • 最后活动时间: 2026-05-15

offline-translator

基于Firefox翻译模型的Android离线翻译工具,支持设备端本地翻译,无需网络连接。

  • Stars: ⭐️ 852
  • Tags: translation android offline machine-translation
  • 最后活动时间: 2026-05-28

auditok

音频活动检测与分割工具,支持语音活动检测(VAD),是语音识别预处理的重要组件。

  • Stars: ⭐️ 849
  • Tags: audio vad voice-activity-detection audio-segmentation
  • 最后活动时间: 2026-05-14

whoBIRD

基于BirdNET的Android实时鸟类声音识别应用,支持全球6000+种鸟类的声音识别。

  • Stars: ⭐️ 844
  • Tags: audio-recognition birdnet android real-time
  • 最后活动时间: 2026-05-09

pdf-to-podcast

将PDF文档转换为AI生成的播客音频,基于NVIDIA NIM构建,支持随时随地收听文档内容。

  • Stars: ⭐️ 843
  • Tags: PDF TTS 播客 音频生成
  • 最后活动时间: 2026-05-04

BS-RoFormer

Band Split Roformer实现,ByteDance AI Labs的SOTA音乐源分离注意力网络。

  • Stars: ⭐️ 842
  • Tags: music-source-separation transformers attention pytorch
  • 最后活动时间: 2026-02-01

CTCDecoder

CTC解码算法Python实现,包含beam search、lexicon search、prefix search等多种解码策略。

  • Stars: ⭐️ 836
  • Tags: ctc speech-recognition handwriting-recognition beam-search decoder
  • 最后活动时间: 2026-01-31

violin

开源视频翻译技能,集成ASR语音识别与配音功能,支持多语言视频内容转换。

  • Stars: ⭐️ 836
  • Tags: video-translation asr dubbing agent-skills
  • 最后活动时间: 2026-05-19

TheWhisper

优化版Whisper模型,专为流式和端设备语音识别设计,支持多平台硬件加速。

  • Stars: ⭐️ 828
  • Tags: whisper speech-recognition streaming on-device-ai
  • 最后活动时间: 2026-04-23

opensmile

慕尼黑开源大规模多媒体特征提取工具,广泛用于语音识别、情感计算等音频机器学习任务。

  • Stars: ⭐️ 819
  • Tags: audio feature-extraction speech-processing
  • 最后活动时间: 2026-01-26

voxtype

基于Whisper的Wayland语音转文字工具,支持按键说话和离线语音识别。

  • Stars: ⭐️ 803
  • Tags: speech-to-text whisper wayland rust offline
  • 最后活动时间: 2026-05-28

GLM-ASR

开源鲁棒性语音识别模型,15亿参数,支持边缘设备部署。

  • Stars: ⭐️ 799
  • Tags: asr speech-recognition speech-to-text on-device
  • 最后活动时间: 2026-03-06

voxtral-mini-realtime-rs

基于Rust和Burn ML框架实现的Mistral Voxtral Mini 4B实时语音识别模型,支持本地运行和浏览器WASM部署。

  • Stars: ⭐️ 792
  • Tags: speech-recognition rust mistral asr wasm realtime
  • 最后活动时间: 2026-04-02

lobe-tts

高质量文本转语音与语音识别库,同时支持服务端和浏览器端,提供统一 API 接口。

  • Stars: ⭐️ 790
  • Tags: TTS STT Speech Recognition React
  • 最后活动时间: 2026-03-02

TTS-Voice-Wizard

强大的语音转换工具,支持语音识别、TTS和实时翻译,可集成VRChat虚拟形象显示,适合VTuber使用。

  • Stars: ⭐️ 788
  • Tags: TTS STT VRChat VTuber
  • 最后活动时间: 2026-05-28

Kokoros

基于Kokoro模型的Rust高性能TTS实现,提供极速、高质量的实时语音合成能力。

  • Stars: ⭐️ 785
  • Tags: TTS Rust 语音合成
  • 最后活动时间: 2026-06-01

translate

实时手语翻译工具,利用计算机视觉技术实现无障碍沟通,支持Android、iOS和Web多平台。

  • Stars: ⭐️ 764
  • Tags: sign-language sign-language-recognition computer-vision translation
  • 最后活动时间: 2026-03-18

AlphaAvatar

基于LiveKit的实时交互式全能虚拟化身平台,支持无缝集成各类开源虚拟角色组件,包括实时模型、视觉、语音、记忆和搜索功能。

  • Stars: ⭐️ 761
  • Tags: Avatar Real-time LiveKit
  • 最后活动时间: 2026-05-28

PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的中文语音识别系统,支持DeepSpeech2模型,可在Windows、Linux及Jetson上运行。

  • Stars: ⭐️ 761
  • Tags: speech-recognition asr paddlepaddle deepspeech speech-to-text
  • 最后活动时间: 2025-12-17

whisper-flow

基于OpenAI Whisper的实时音频转录框架,支持流式音频处理和增量转录输出。

  • Stars: ⭐️ 752
  • Tags: speech-to-text whisper real-time transcription
  • 最后活动时间: 2026-04-20

vocotype-cli

本地端侧隐私安全语音输入工具,支持语音实时转文字、MCP集成、AI文本优化及自定义词典功能。

  • Stars: ⭐️ 748
  • Tags: asr speech-to-text voice-input mcp funasr
  • 最后活动时间: 2026-05-16

dla

音频深度学习综合工具库,涵盖语音识别、说话人验证、语音合成等多种音频处理任务。

  • Stars: ⭐️ 747
  • Tags: Deep Learning Speech Recognition TTS Voice Conversion
  • 最后活动时间: 2025-12-15

fish-diffusion

易于理解的 TTS/SVS/SVC 统一框架,基于扩散模型实现语音合成与转换。

  • Stars: ⭐️ 745
  • Tags: diffusion tts voice-conversion pytorch
  • 最后活动时间: 2026-06-01

sgmse

基于扩散模型的语音增强与去混响工具,利用分数生成模型实现高质量语音处理。

  • Stars: ⭐️ 740
  • Tags: Diffusion 语音增强 音频处理
  • 最后活动时间: 2026-02-01

audio-dataset

用于训练CLAP等音频-语言多模态模型的大规模音频数据集。

  • Stars: ⭐️ 739
  • Tags: audio dataset clap multimodal
  • 最后活动时间: 2026-01-08

ttsfm

镜像OpenAI TTS服务的开源实现,提供兼容的文本转语音接口,支持多种语音选项。

  • Stars: ⭐️ 727
  • Tags: tts openai-api text-to-speech self-hosted
  • 最后活动时间: 2026-05-20

tts

Inworld TTS 语音合成引擎,提供高质量文本转语音服务。

  • Stars: ⭐️ 725
  • Tags: tts text-to-speech voice-synthesis
  • 最后活动时间: 2026-04-14

MASR

流式与非流式自动语音识别框架,支持Conformer、Squeezeformer等模型,兼容在线和离线识别场景。

  • Stars: ⭐️ 723
  • Tags: asr speech-recognition conformer streaming
  • 最后活动时间: 2025-12-17

Thorsten-Voice

高质量德语 TTS 语音数据集,免费离线使用,无许可证限制。

  • Stars: ⭐️ 720
  • Tags: german-tts speech-dataset open-source
  • 最后活动时间: 2026-05-03

ZerolanLiveRobot

集成LLM、ASR、TTS、OCR、CV等技术的AI虚拟主播,支持直播和Minecraft互动。

  • Stars: ⭐️ 714
  • Tags: ai-vtuber llm tts asr multimodal
  • 最后活动时间: 2026-04-14

ComfyUI-Index-TTS

ComfyUI 的 IndexTTS 自定义节点,支持中英文文本转语音和声音克隆。

  • Stars: ⭐️ 704
  • Tags: comfyui index-tts voice-cloning
  • 最后活动时间: 2026-04-14

rhino

基于深度学习的端上语音意图识别引擎,用于语音助手和命令控制。

  • Stars: ⭐️ 701
  • Tags: speech-recognition nlu voice-assistant intent-recognition on-device
  • 最后活动时间: 2026-05-28

vui

1亿参数轻量级对话式 TTS 模型,支持呼吸声、笑声、多说话人对话、声音克隆和流式推理。

  • Stars: ⭐️ 700
  • Tags: lightweight-tts llama voice-cloning on-device
  • 最后活动时间: 2026-06-12

CloneTTS

轻量级离线Android TTS引擎,支持系统级语音克隆和高保真朗读。

  • Stars: ⭐️ 690
  • Tags: text-to-speech voice-cloning android offline-tts
  • 最后活动时间: 2026-05-18

SoulX-Singer

零样本歌唱语音合成项目,支持高质量歌声生成与推理。

  • Stars: ⭐️ 684
  • Tags: singing-voice-synthesis zero-shot audio-generation tts
  • 最后活动时间: 2026-04-13

alexandria-audiobook

AI驱动的多语音有声书生成器,支持LLM脚本标注、语音克隆、LoRA训练,基于Qwen3-TTS构建,可导出MP3、M4B等多格式。

  • Stars: ⭐️ 677
  • Tags: audiobook-generator text-to-speech voice-cloning tts ai
  • 最后活动时间: 2026-06-04

whisper_android

基于OpenAI Whisper的Android离线语音识别方案,使用TensorFlow Lite实现本地化部署,无需网络即可运行。

  • Stars: ⭐️ 668
  • Tags: 语音识别 Android 离线推理
  • 最后活动时间: 2026-03-18

BiBi-Keyboard

基于Kotlin的Android语音输入法键盘,集成LLM与ASR语音识别,支持智能语音输入。

  • Stars: ⭐️ 666
  • Tags: Android ASR Keyboard Speech-to-Text
  • 最后活动时间: 2026-06-11

voice-ai

端到端语音AI编排平台,支持构建实时对话语音智能体,集成STT、TTS、VAD和多通道能力。

  • Stars: ⭐️ 664
  • Tags: Voice AI STT/TTS Voice Agents Real-time Audio
  • 最后活动时间: 2026-06-11

cheetah

基于深度学习的端上流式语音转文字引擎,支持实时转录。

  • Stars: ⭐️ 663
  • Tags: speech-recognition asr speech-to-text on-device streaming
  • 最后活动时间: 2026-05-28

LLaSA_training

基于LLaMA的语音合成模型,通过扩展训练与推理计算提升效果。

  • Stars: ⭐️ 660
  • Tags: text-to-speech llama llm speech-synthesis
  • 最后活动时间: 2026-01-21

openlrc

使用Whisper和LLM进行语音转录与翻译,自动生成LRC字幕文件。

  • Stars: ⭐️ 658
  • Tags: Whisper Transcription Subtitle
  • 最后活动时间: 2026-05-25

hear

undefined

  • Stars: ⭐️ 657
  • Tags: speech-recognition transcription macos cli
  • 最后活动时间: 2026-05-19

mlx-audio-swift

基于Apple Silicon的模块化Swift音频处理SDK,支持语音识别、语音合成和端到端语音处理。

  • Stars: ⭐️ 634
  • Tags: mlx speech-to-text text-to-speech swift apple-silicon
  • 最后活动时间: 2026-05-19

tts

基于Go语言开发的文本转语音(TTS)服务,提供语音合成能力。

  • Stars: ⭐️ 625
  • Tags: tts go speech-synthesis
  • 最后活动时间: 2026-04-28

expo-speech-recognition

React Native Expo 语音识别库,支持语音转文字功能,适用于移动端语音交互应用开发。

  • Stars: ⭐️ 620
  • Tags: speech-recognition speech-to-text react-native expo voice-recognition
  • 最后活动时间: 2026-05-17

chatterbox-tts-api

本地OpenAI兼容的文本转语音API,支持语音克隆,可无缝集成到各类AI应用中。

  • Stars: ⭐️ 613
  • Tags: TTS Voice Clone OpenAI API
  • 最后活动时间: 2025-12-23

aiavatarkit

快速构建 AI 驱动的对话虚拟形象工具包。

  • Stars: ⭐️ 612
  • Tags: ai-avatar chatgpt voicevox vrchat
  • 最后活动时间: 2026-05-23

WenetSpeech

超万小时大规模中文语音识别数据集,涵盖多种场景和说话人,适用于中文语音识别模型训练。

  • Stars: ⭐️ 612
  • Tags: speech-recognition chinese asr dataset
  • 最后活动时间: 2026-01-09

AudioClassification-Pytorch

PyTorch音频分类工具,支持EcapaTdnn、PANNS、TDNN等多种模型,适用于环境声音识别和语音分类。

  • Stars: ⭐️ 597
  • Tags: audio-classification panns ecapa-tdnn sound-recognition
  • 最后活动时间: 2025-12-17

MimikaStudio

macOS本地优先应用,集成MCP智能体支持、TTS语音合成与声音克隆功能。

  • Stars: ⭐️ 585
  • Tags: tts voice-cloning mcp qwen agent
  • 最后活动时间: 2026-04-01

room-impulse-responses

房间冲激响应数据集汇总,提供公开数据集列表及下载脚本,适用于语音识别、声学模拟等音频AI研究。

  • Stars: ⭐️ 583
  • Tags: acoustics room-impulse-response speech audio-dataset
  • 最后活动时间: 2026-05-11

CTCWordBeamSearch

带字典和语言模型的CTC解码器,专为手写文字识别和语音识别任务优化。

  • Stars: ⭐️ 577
  • Tags: ctc speech-recognition handwriting-recognition language-model decoder
  • 最后活动时间: 2026-01-31

Pandrator

将PDF、EPUB转换为有声书,支持视频配音和翻译。使用本地模型XTTS实现语音克隆,提供友好的GUI界面。

  • Stars: ⭐️ 570
  • Tags: text-to-speech voice-cloning audiobook xtts llm
  • 最后活动时间: 2026-06-11

offmute

利用LLM实现会议转录和说话人分离的实验性工具,探索纯LLM进行音频处理的可行性。

  • Stars: ⭐️ 567
  • Tags: transcription diarization llm meeting
  • 最后活动时间: 2026-04-08

Qwen3-Audiobook-Converter

基于Qwen3 TTS语音模型的有声书转换工具,支持PDF、EPUB、DOCX等多种格式转换为高质量有声书。

  • Stars: ⭐️ 564
  • Tags: tts audiobook qwen3 voice-synthesis document-converter
  • 最后活动时间: 2026-04-07

qwen-asr

基于C语言实现的Qwen3-ASR语音识别模型推理引擎,支持0.6B和1.7B参数量的转录模型,提供高效轻量的本地部署方案。

  • Stars: ⭐️ 554
  • Tags: asr speech-recognition qwen c-inference transcription
  • 最后活动时间: 2026-02-17

GigaAM

强大的语音识别基础模型,支持语音识别、情感识别等任务,采用自监督学习方法训练。

  • Stars: ⭐️ 552
  • Tags: speech-recognition foundation-models self-supervised-learning emotion-recognition
  • 最后活动时间: 2026-04-15

SenseVoice.cpp

FunASR SenseVoice语音识别模型的C/C++移植版本,提供高效的本地语音转文字能力。

  • Stars: ⭐️ 549
  • Tags: speech-recognition asr funasr cpp
  • 最后活动时间: 2025-12-19

spleeter-web

可自托管的Web应用,用于分离歌曲中的人声、伴奏、贝斯和鼓声。支持Spleeter、Demucs、BS-RoFormer等多种AI分离模型。

  • Stars: ⭐️ 546
  • Tags: source-separation vocal-remover spleeter demucs audio-processing
  • 最后活动时间: 2026-05-28

FireRedASR2S

工业级全功能ASR语音识别系统,支持ASR、VAD、语言识别和标点预测,覆盖中文方言、英文及代码切换场景。

  • Stars: ⭐️ 544
  • Tags: asr speech-recognition vad multimodal llm
  • 最后活动时间: 2026-06-02

easy-whisper-ui

Whisper 语音识别模型的易用图形界面,针对各类 GPU 进行优化。

  • Stars: ⭐️ 539
  • Tags: whisper speech-recognition transcription gpu
  • 最后活动时间: 2026-02-15

FlashLabs-Chroma

首个开源的实时端到端语音对话模型,支持个性化声音克隆。

  • Stars: ⭐️ 536
  • Tags: speech-to-speech voice-cloning real-time-audio
  • 最后活动时间: 2026-04-17

pindrop

一款原生 macOS 菜单栏听写应用,使用 WhisperKit 实现本地语音转文字,保护隐私的同时提供高质量的语音识别体验。

  • Stars: ⭐️ 536
  • Tags: speech-to-text whisperkit macos dictation local-ai
  • 最后活动时间: 2026-04-21

CleanS2S

单文件实现的流式全双工语音交互智能体,支持高质量实时语音对话。

  • Stars: ⭐️ 527
  • Tags: speech-to-speech streaming gpt-4o
  • 最后活动时间: 2026-04-07

muesli

macOS本地会议转录与听写工具,可作为Granola和WisprFlow的替代方案。支持实时语音转文字,保护隐私的离线处理。

  • Stars: ⭐️ 521
  • Tags: speech-to-text transcription macos dictation local-ai
  • 最后活动时间: 2026-05-27

e2-tts-pytorch

E2-TTS的PyTorch实现,一种简单高效的零样本文本转语音模型。

  • Stars: ⭐️ 517
  • Tags: text-to-speech deep-learning pytorch tts
  • 最后活动时间: 2025-12-20

muspy

符号音乐生成工具包,支持音乐信息检索和机器学习驱动的音乐创作。

  • Stars: ⭐️ 516
  • Tags: Music Generation Symbolic Music Python
  • 最后活动时间: 2026-03-11

knn-vc

基于最近邻匹配的语音转换方法,无需训练即可实现任意说话人之间的声音转换。

  • Stars: ⭐️ 516
  • Tags: voice-conversion speech-synthesis knn pytorch
  • 最后活动时间: 2026-01-16

MiraTTS

高质量快速 TTS 语音合成仓库,提供高效的文本转语音解决方案。

  • Stars: ⭐️ 512
  • Tags: tts text-to-speech voice-synthesis
  • 最后活动时间: 2025-12-22

subaligner

基于深度神经网络和Transformer的字幕自动同步、翻译与转录工具,支持多种字幕格式和语音活动检测。

  • Stars: ⭐️ 504
  • Tags: subtitle transcription transformers voice-activity-detection dnn
  • 最后活动时间: 2026-03-17

Mediapipe4u-plugin

Unreal Engine的MediaPipe插件,支持面部、手部、姿态追踪及TTS功能。

  • Stars: ⭐️ 504
  • Tags: mediapipe motion-capture tts unreal-engine
  • 最后活动时间: 2025-12-29

aspeak

Azure TTS API 的简洁命令行客户端,支持高质量语音合成。可快速将文本转换为自然流畅的语音输出。

  • Stars: ⭐️ 500
  • Tags: text-to-speech tts azure-cognitive-services cli
  • 最后活动时间: 2026-04-23

whisper

语音笔记应用,支持语音录制并利用AI进行智能转换和处理。

  • Stars: ⭐️ 500
  • Tags: speech-to-text voice-notes ai-assistant productivity
  • 最后活动时间: 2026-05-23

Image Generation

stable-diffusion-webui

最受欢迎的Stable Diffusion Web UI,提供完整的图像生成界面。支持文生图、图生图、图像放大等多种功能。

  • Stars: ⭐️ 163.6k
  • Tags: stable-diffusion image-generation gradio ai-art
  • 最后活动时间: 2026-03-02

ComfyUI

最强大的模块化扩散模型GUI工具,基于节点的工作流界面,灵活构建复杂图像生成流程。

  • Stars: ⭐️ 116.7k
  • Tags: Stable-Diffusion GUI Image-Generation
  • 最后活动时间: 2026-06-12

tesseract

开源OCR引擎,使用LSTM神经网络进行光学字符识别,支持多种语言。

  • Stars: ⭐️ 74.6k
  • Tags: ocr machine-learning lstm tesseract
  • 最后活动时间: 2026-06-04

upscayl

免费开源的AI图像放大工具,基于ESRGAN模型实现高质量图像超分辨率重建,支持跨平台使用。

  • Stars: ⭐️ 46.0k
  • Tags: AI图像放大 ESRGAN 开源工具
  • 最后活动时间: 2026-05-15

diffusers

Hugging Face推出的扩散模型库,支持图像、视频和音频生成,是生成式AI领域的核心工具。

  • Stars: ⭐️ 33.8k
  • Tags: Diffusion PyTorch HuggingFace
  • 最后活动时间: 2026-06-12

insightface

业界领先的2D/3D人脸分析项目,支持人脸检测、识别、属性分析等任务。

  • Stars: ⭐️ 29.0k
  • Tags: face-recognition face-detection pytorch
  • 最后活动时间: 2026-05-23

facefusion

业界领先的人脸处理平台,支持换脸、对口型等多种AI面部操作功能。

  • Stars: ⭐️ 28.8k
  • Tags: 人脸处理 换脸 深度学习
  • 最后活动时间: 2026-06-11

InvokeAI

领先的Stable Diffusion创意引擎,提供专业级WebUI界面。支持txt2img、img2img、inpainting等多种图像生成与编辑功能。

  • Stars: ⭐️ 27.4k
  • Tags: Stable Diffusion 图像生成 AI艺术
  • 最后活动时间: 2026-06-12

generative-models

Stability AI官方生成模型库,包含Stable Diffusion等先进图像生成模型的实现。

  • Stars: ⭐️ 27.2k
  • Tags: stable-diffusion generative-models diffusion
  • 最后活动时间: 2025-12-16

rembg

基于深度学习的图像背景移除工具,支持多种AI模型快速精准去除图片背景。

  • Stars: ⭐️ 23.3k
  • Tags: 背景移除 图像处理 计算机视觉
  • 最后活动时间: 2026-06-03

DeepSeek-OCR

DeepSeek推出的光学字符识别(OCR)工具,支持上下文感知的文档压缩与识别。

  • Stars: ⭐️ 23.2k
  • Tags: ocr deepseek computer-vision document-processing
  • 最后活动时间: 2026-01-27

deepface

轻量级人脸分析库,支持年龄、性别、情绪等多属性识别。

  • Stars: ⭐️ 22.9k
  • Tags: face-recognition deep-learning face-analysis python
  • 最后活动时间: 2026-06-10

Awesome-Nano-Banana-images

基于Gemini-2.5-flash-image模型的图像生成示例集合,展示Nano Banana系列模型的创意生成能力,并开源Nano-consistent-150K数据集支持社区开发。

  • Stars: ⭐️ 22.9k
  • Tags: image-generation gemini multimodal generative-art
  • 最后活动时间: 2025-12-12

blender-mcp

MCP服务器,实现AI与Blender 3D建模软件的集成控制。

  • Stars: ⭐️ 22.1k
  • Tags: mcp blender 3d creative-tools
  • 最后活动时间: 2026-01-23

surya

支持90+语言的OCR工具,提供版面分析、阅读顺序识别和表格识别功能。

  • Stars: ⭐️ 19.8k
  • Tags: ocr layout-analysis table-recognition multilingual
  • 最后活动时间: 2026-05-27

Qwen3-VL

阿里云Qwen团队开发的多模态大语言模型系列,支持图像理解与视觉语言任务。

  • Stars: ⭐️ 19.3k
  • Tags: Multimodal Vision-Language Qwen
  • 最后活动时间: 2026-01-30

sam2

Meta第二代图像分割模型,支持图像和视频的实时分割,性能显著提升。

  • Stars: ⭐️ 19.2k
  • Tags: segmentation video-segmentation computer-vision meta
  • 最后活动时间: 2026-05-27

Open-Generative-AI

开源AI图像生成与视频创作工作室,支持Flux、SDXL、Midjourney等20+模型,可自托管部署。

  • Stars: ⭐️ 18.9k
  • Tags: ai-image-generation ai-video-generation generative-ai flux-1 text-to-video
  • 最后活动时间: 2026-06-11

instant-ngp

NVIDIA开源的即时神经图形原语库,实现超快速NeRF三维重建与渲染。

  • Stars: ⭐️ 17.4k
  • Tags: nerf computer-vision 3d-reconstruction
  • 最后活动时间: 2026-02-02

awesome-gpt-image-2-API-and-Prompts

GPT-Image-2 API 和提示词资源合集,涵盖图像生成、图像到图像转换等功能,帮助开发者快速上手 OpenAI 图像生成技术。

  • Stars: ⭐️ 16.6k
  • Tags: gpt-image-2 image-generation openai prompts text-to-image
  • 最后活动时间: 2026-06-10

Waifu2x-Extension-GUI

强大的AI图像视频超分辨率工具,集成多种AI模型,支持图片/视频放大与帧插值。

  • Stars: ⭐️ 16.4k
  • Tags: 超分辨率 图像放大 视频处理
  • 最后活动时间: 2026-04-19

engine

强大的Web图形运行时,支持WebGL、WebGPU、WebXR和3D高斯泼溅神经渲染技术。

  • Stars: ⭐️ 16.0k
  • Tags: 3d-gaussian-splatting webgl webgpu game-engine
  • 最后活动时间: 2026-06-12

ddddocr

通用验证码识别OCR工具,支持多种验证码类型的自动识别。

  • Stars: ⭐️ 14.2k
  • Tags: ocr captcha python
  • 最后活动时间: 2026-03-10

open_clip

OpenAI CLIP模型的开源实现,支持多模态对比学习和零样本分类任务。

  • Stars: ⭐️ 13.9k
  • Tags: clip multi-modal zero-shot pytorch
  • 最后活动时间: 2026-06-11

Pillow

Python图像处理库,支持多种图像格式操作。是AI图像处理和计算机视觉任务的基础依赖库。

  • Stars: ⭐️ 13.6k
  • Tags: image-processing python pil
  • 最后活动时间: 2026-06-09

vggt

CVPR 2025最佳论文奖获奖项目,视觉几何基础Transformer,在3D视觉理解与几何推理方面取得突破性进展。

  • Stars: ⭐️ 13.2k
  • Tags: computer-vision transformer 3d-reconstruction cvpr2025
  • 最后活动时间: 2026-05-19

ImageToolbox

功能强大的Android图像处理应用,集成AI背景移除、OCR文字识别、图像放大等智能功能。

  • Stars: ⭐️ 13.1k
  • Tags: 图像处理 OCR 背景移除
  • 最后活动时间: 2026-06-11

Meshroom

基于节点的视觉编程工具箱,用于3D重建和摄影测量,支持计算机视觉工作流自动化。

  • Stars: ⭐️ 12.8k
  • Tags: Computer Vision 3D Reconstruction Photogrammetry
  • 最后活动时间: 2026-06-11

chineseocr_lite

超轻量级中文OCR识别引擎,支持竖排文字,总模型仅4.7M,支持多种推理框架。

  • Stars: ⭐️ 12.3k
  • Tags: ocr ncnn pytorch chinese
  • 最后活动时间: 2026-05-18

DiffSynth-Studio

一站式扩散模型创作工作室,支持图像生成、视频合成等多种AI生成任务,轻松体验扩散模型的魔力。

  • Stars: ⭐️ 12.3k
  • Tags: 扩散模型 图像生成 视频合成
  • 最后活动时间: 2026-04-24

colmap

经典的运动恢复结构与多视图立体视觉系统,用于3D重建与视觉计算研究。

  • Stars: ⭐️ 11.9k
  • Tags: structure-from-motion multi-view-stereo 3d-reconstruction computer-vision
  • 最后活动时间: 2026-06-11

chandra

强大的OCR模型,支持复杂表格、表单和手写内容的完整版面识别。

  • Stars: ⭐️ 11.2k
  • Tags: ocr document-processing handwriting-recognition
  • 最后活动时间: 2026-04-22

denoising-diffusion-pytorch

去噪扩散概率模型的PyTorch实现,生成模型领域核心算法库。简洁易用的扩散模型训练框架。

  • Stars: ⭐️ 10.6k
  • Tags: diffusion-models generative-model pytorch
  • 最后活动时间: 2026-02-11

openFrameworks

跨平台创意编程工具包,支持图形、音频、计算机视觉等多媒体应用开发。

  • Stars: ⭐️ 10.4k
  • Tags: creative-coding computer-vision opencv cpp
  • 最后活动时间: 2026-05-28

easydiffusion

一键式AI艺术创作工具,无需技术背景即可在本地生成精美图像。提供简洁的浏览器界面,支持文本生成图像。

  • Stars: ⭐️ 10.4k
  • Tags: Stable Diffusion Image Generation GUI
  • 最后活动时间: 2026-06-12

sam3

Meta Segment Anything Model 3 (SAM 3) 的官方仓库,提供模型推理、微调代码及预训练权重下载,支持图像分割任务。

  • Stars: ⭐️ 10.2k
  • Tags: segment-anything image-segmentation computer-vision meta-ai sam
  • 最后活动时间: 2026-05-23

krita-ai-diffusion

Krita图像编辑器的AI扩散插件,支持文生图、内补和外补功能。

  • Stars: ⭐️ 10.2k
  • Tags: stable-diffusion krita-plugin image-generation generative-ai
  • 最后活动时间: 2026-06-08

manga-image-translator

基于深度学习的漫画/图片文字翻译工具,集成OCR文字检测、机器翻译和图像修复功能,支持一键翻译各类图片内文字。

  • Stars: ⭐️ 10.0k
  • Tags: ocr machine-translation image-processing inpainting neural-network
  • 最后活动时间: 2026-05-24

moondream

轻量级视觉语言模型,专为边缘设备优化的多模态AI解决方案。

  • Stars: ⭐️ 9.7k
  • Tags: vision-language-model tiny-llm multimodal edge-ai
  • 最后活动时间: 2026-04-20

supersplat

基于浏览器的3D高斯泼溅编辑器,支持编辑AI生成的3D场景重建结果。

  • Stars: ⭐️ 9.1k
  • Tags: gaussian-splatting 3d webgpu editor
  • 最后活动时间: 2026-06-04

awesome-3D-gaussian-splatting

3D高斯泼溅技术资源精选,涵盖神经渲染、NeRF相关的前沿论文与实现,是3D视觉与AI交叉领域的热门方向。

  • Stars: ⭐️ 8.7k
  • Tags: 3d-gaussian-splatting nerf neural-rendering computer-vision
  • 最后活动时间: 2026-06-10

nnUNet

医学图像分割领域的顶级深度学习框架,自动配置网络架构和预处理流程,在多个医学分割挑战中取得SOTA成绩。

  • Stars: ⭐️ 8.5k
  • Tags: medical-imaging segmentation deep-learning
  • 最后活动时间: 2026-06-07

ml-sharp

快速单目视图合成技术,可在不到一秒内生成高质量的新视角图像。

  • Stars: ⭐️ 8.4k
  • Tags: computer-vision view-synthesis monocular deep-learning
  • 最后活动时间: 2025-12-19

TRELLIS.2

用于3D内容生成的原生紧凑结构化潜变量模型,支持高质量3D资产生成与编辑。

  • Stars: ⭐️ 8.3k
  • Tags: 3d-generation latent-models image-generation deep-learning
  • 最后活动时间: 2026-06-05

MONAI

医疗影像AI工具包,基于PyTorch提供高性能GPU加速的医学图像计算框架。

  • Stars: ⭐️ 8.3k
  • Tags: deep-learning healthcare-imaging medical-imaging pytorch
  • 最后活动时间: 2026-06-11

Sana

基于线性扩散Transformer的高效高分辨率图像合成模型,支持文本到图像生成。

  • Stars: ⭐️ 8.2k
  • Tags: 文生图 扩散模型 Transformer
  • 最后活动时间: 2026-06-10

imaginAIry

Pythonic AI图像和视频生成工具,提供简洁的Python接口进行AI内容创作。

  • Stars: ⭐️ 8.2k
  • Tags: ai-image-generation ai-video python
  • 最后活动时间: 2026-02-24

backgroundremover

基于AI的背景移除工具,支持图片和视频背景一键去除,提供简洁的命令行界面,免费开源。

  • Stars: ⭐️ 7.9k
  • Tags: AI Background Removal Image Processing Video Editing
  • 最后活动时间: 2026-06-09

face-alignment

基于PyTorch构建的2D和3D人脸对齐库,支持人脸检测与关键点定位,适用于人脸识别预处理。

  • Stars: ⭐️ 7.5k
  • Tags: face-alignment face-detection deep-learning pytorch
  • 最后活动时间: 2026-04-06

awesome-gpt-image-2

全球最大的 GPT Image 2 提示词库,包含 2000+ 精选提示词和预览图,支持 16 种语言,涵盖像素级文本渲染和商业级插画。

  • Stars: ⭐️ 7.4k
  • Tags: gpt-image-2 ai-image-generation prompt-engineering openai
  • 最后活动时间: 2026-06-12

ccv

基于C语言的高性能计算机视觉库,提供现代化的CV功能实现,无外部依赖。

  • Stars: ⭐️ 7.2k
  • Tags: computer-vision c-library image-processing
  • 最后活动时间: 2026-05-28

Open-Higgsfield-AI

开源免费的AI图像生成与电影工作室,支持Flux、SDXL等20+模型。可自托管部署,提供完整的图像与视频创作功能。

  • Stars: ⭐️ 7.2k
  • Tags: AI图像生成 视频创作 开源替代
  • 最后活动时间: 2026-04-24

lingbot-map

前馈式3D基础模型,用于从流数据中重建场景,支持实时3D场景理解与生成。

  • Stars: ⭐️ 7.2k
  • Tags: 3d-reconstruction foundation-model scene-understanding deep-learning
  • 最后活动时间: 2026-06-02

civitai

AI 模型分享平台,汇集 Stable Diffusion 模型、文本反转等生成式 AI 资源。

  • Stars: ⭐️ 7.1k
  • Tags: stable-diffusion models image-generation ai
  • 最后活动时间: 2026-06-12

sdnext

全能型AI图像视频生成WebUI,支持Stable Diffusion、Flux等多种模型。集成图像生成、视频创作、字幕生成等功能。

  • Stars: ⭐️ 7.1k
  • Tags: Stable Diffusion Flux WebUI Video Generation
  • 最后活动时间: 2026-06-12

sam-3d-objects

基于 Segment Anything Model (SAM) 的3D物体分割项目,将2D分割能力扩展到3D空间。

  • Stars: ⭐️ 6.9k
  • Tags: segment-anything 3d-segmentation computer-vision sam
  • 最后活动时间: 2026-06-02

TripoSR

从单张图像快速生成3D物体模型的高效重建模型,支持快速高质量3D内容创建。

  • Stars: ⭐️ 6.6k
  • Tags: 3d-reconstruction single-image text-to-3d
  • 最后活动时间: 2026-06-04

scikit-image

Python生态核心图像处理库,提供丰富的图像处理算法和科学计算工具。

  • Stars: ⭐️ 6.5k
  • Tags: computer-vision image-processing python scipy
  • 最后活动时间: 2026-06-10

VLM-R1

基于强化学习的视觉语言模型项目,将R1方法应用于多模态场景,实现视觉理解能力的突破性提升。

  • Stars: ⭐️ 6.0k
  • Tags: VLM Reinforcement Learning Multimodal DeepSeek-R1
  • 最后活动时间: 2026-03-12

AR.js

轻量级Web增强现实框架,支持图像追踪、位置定位和标记追踪,完全在浏览器端运行。

  • Stars: ⭐️ 5.9k
  • Tags: augmented-reality webar threejs computer-vision
  • 最后活动时间: 2026-05-08

Chinese-CLIP

中文版CLIP模型,实现跨模态图文检索与表示生成。

  • Stars: ⭐️ 5.9k
  • Tags: clip chinese multi-modal computer-vision image-text-retrieval
  • 最后活动时间: 2026-03-31

inpaint-web

基于WebGPU和WASM的免费开源图像修复与超分辨率工具,纯浏览器端运行。

  • Stars: ⭐️ 5.8k
  • Tags: inpainting image-upscaling webgpu super-resolution
  • 最后活动时间: 2025-12-23

chaiNNer

基于节点的图像处理 GUI 工具,支持 AI 图像放大和处理任务的灵活编排。

  • Stars: ⭐️ 5.8k
  • Tags: image-processing ai-upscaling gui node-based
  • 最后活动时间: 2026-05-13

MobileSAM

官方MobileSAM项目,将Segment Anything Model轻量化以适配移动端应用,实现高效的图像分割能力。

  • Stars: ⭐️ 5.7k
  • Tags: segment-anything image-segmentation mobile-ai computer-vision
  • 最后活动时间: 2025-12-19

BLIP

Salesforce BLIP模型,统一视觉-语言理解与生成的预训练框架。

  • Stars: ⭐️ 5.7k
  • Tags: vision-language image-captioning multimodal
  • 最后活动时间: 2026-03-03

mmf

Meta AI开发的模块化多模态视觉-语言研究框架,支持VQA、图像描述、对话等多种任务,提供预训练模型。

  • Stars: ⭐️ 5.6k
  • Tags: Multimodal Vision-Language VQA PyTorch
  • 最后活动时间: 2026-05-14

neural-style

TensorFlow实现的经典神经风格迁移算法,将艺术风格应用到普通图像上。

  • Stars: ⭐️ 5.5k
  • Tags: neural-style style-transfer tensorflow image-generation
  • 最后活动时间: 2026-04-18

opencv-python

OpenCV 的 Python 预编译包,提供强大的计算机视觉和图像处理能力,是 AI 视觉应用开发的基础库。

  • Stars: ⭐️ 5.3k
  • Tags: opencv computer-vision image-processing python
  • 最后活动时间: 2026-06-09

gsplat

CUDA加速的3D Gaussian Splatting光栅化库,支持高效神经渲染和3D重建。

  • Stars: ⭐️ 5.1k
  • Tags: gaussian-splatting cuda 3d-reconstruction neural-rendering
  • 最后活动时间: 2026-05-12

trace.moe

基于向量数据库的动漫场景反向图片搜索引擎,通过截图快速追溯动漫来源。

  • Stars: ⭐️ 5.0k
  • Tags: anime image-search vector-database reverse-search
  • 最后活动时间: 2026-04-06

unet

U-Net图像分割网络的Keras实现。经典的编码器-解码器架构,广泛应用于医学图像分割和语义分割任务。

  • Stars: ⭐️ 4.9k
  • Tags: unet image-segmentation keras deep-learning
  • 最后活动时间: 2026-03-27

deep-person-reid

基于PyTorch的行人重识别深度学习库,支持跨域度量学习与重排序。

  • Stars: ⭐️ 4.8k
  • Tags: person-reid computer-vision metric-learning pytorch
  • 最后活动时间: 2026-01-09

pollinations

开源生成式AI平台,提供友好的AI创作体验,支持多种生成模型。

  • Stars: ⭐️ 4.7k
  • Tags: Gen-AI Open Source Platform
  • 最后活动时间: 2026-06-12

brush

基于高斯溅射技术的通用3D重建工具,支持快速高质量场景重建。

  • Stars: ⭐️ 4.6k
  • Tags: gaussian-splatting 3d-reconstruction nerf
  • 最后活动时间: 2026-05-28

watermark-removal

基于深度学习的图像水印去除工具,使用图像修复技术自动移除水印。

  • Stars: ⭐️ 4.6k
  • Tags: image-inpainting deep-learning computer-vision
  • 最后活动时间: 2026-06-05

Depixelization_poc

从像素化截图中恢复原始文本的AI技术演示,展示了一种逆向图像处理方法。

  • Stars: ⭐️ 4.5k
  • Tags: image-processing depixelization security image-recovery deep-learning
  • 最后活动时间: 2026-04-14

flow_matching

基于PyTorch的流匹配算法库,支持连续与离散流匹配,提供文本与图像生成的实战示例。

  • Stars: ⭐️ 4.5k
  • Tags: pytorch flow-matching generative-ai
  • 最后活动时间: 2026-01-05

gemini-watermark-remover

高性能纯浏览器端Gemini AI水印去除工具,使用数学精确的反向Alpha混合算法实现无损去水印。

  • Stars: ⭐️ 4.4k
  • Tags: watermark-removal gemini-ai image-processing javascript
  • 最后活动时间: 2026-06-12

diffusion-models-class

Hugging Face扩散模型课程,深入讲解图像生成模型原理与实践。

  • Stars: ⭐️ 4.3k
  • Tags: diffusion-models image-generation huggingface generative-ai
  • 最后活动时间: 2026-04-17

SwarmUI

模块化的Stable Diffusion Web界面,支持ComfyUI后端,提供高性能图像生成和强大的扩展能力。

  • Stars: ⭐️ 4.2k
  • Tags: stable-diffusion image-generation ai comfyui
  • 最后活动时间: 2026-06-10

OmniGen2

探索高级多模态生成的统一模型,支持多种生成任务的统一架构。

  • Stars: ⭐️ 4.1k
  • Tags: multimodal-generation image-generation unified-model
  • 最后活动时间: 2026-03-20

White-box-Cartoonization

CVPR2020论文实现,基于白盒卡通表示学习的图像卡通化转换工具。

  • Stars: ⭐️ 4.0k
  • Tags: cartoonization image-processing cvpr tensorflow
  • 最后活动时间: 2026-01-19

modly

桌面应用程序,利用本地AI从图像生成3D模型,完全在GPU上运行,支持离线使用。

  • Stars: ⭐️ 3.9k
  • Tags: 3d-generation image-to-3d local-ai desktop-app gpu
  • 最后活动时间: 2026-06-11

triangula

使用进化算法和遗传算法将图像转换为高质量三角剖分艺术作品,支持多边形艺术生成。

  • Stars: ⭐️ 3.9k
  • Tags: generative-art genetic-algorithm evolutionary-algorithms image-processing
  • 最后活动时间: 2026-03-21

photon

高性能的Rust/WebAssembly图像处理库,支持多种图像操作和滤镜效果,适用于Web端和AI图像处理管道。

  • Stars: ⭐️ 3.8k
  • Tags: image-processing webassembly rust computer-vision
  • 最后活动时间: 2026-05-29

ComfyUI-3D-Pack

ComfyUI的3D处理扩展节点套件,支持3DGS、NeRF等前沿算法处理3D网格和纹理。

  • Stars: ⭐️ 3.8k
  • Tags: comfyui 3dgs nerf machine-learning 3d-processing
  • 最后活动时间: 2025-12-29

ComfyUI-GGUF

为ComfyUI原生模型提供GGUF量化支持,降低显存占用并加速图像生成推理。

  • Stars: ⭐️ 3.5k
  • Tags: GGUF ComfyUI Quantization
  • 最后活动时间: 2026-01-12

roop

Stable Diffusion WebUI的人脸替换扩展插件,支持一键换脸功能。

  • Stars: ⭐️ 3.5k
  • Tags: stable-diffusion face-swap image-generation
  • 最后活动时间: 2026-03-13

sd-webui-roop

Stable Diffusion WebUI 的 Roop 换脸扩展插件。

  • Stars: ⭐️ 3.5k
  • Tags: stable-diffusion face-swap webui-plugin
  • 最后活动时间: 2026-03-13

map-anything

通用前馈度量3D重建模型,支持深度估计、多视角立体视觉和机器人应用场景。

  • Stars: ⭐️ 3.5k
  • Tags: 3d-reconstruction depth-estimation image-to-3d robotics
  • 最后活动时间: 2026-06-03

waifu2x-ncnn-vulkan

基于ncnn的waifu2x图像超分辨率工具,利用Vulkan实现跨平台GPU加速,适用于动漫图像放大降噪。

  • Stars: ⭐️ 3.4k
  • Tags: Image Upscaling Vulkan Anime
  • 最后活动时间: 2026-04-13

remove-ai-watermarks

用于移除AI生成图像水印的CLI工具,支持可见和不可见水印类型。

  • Stars: ⭐️ 3.3k
  • Tags: ai computer-vision image-processing watermark-removal synthid
  • 最后活动时间: 2026-06-11

IQA-PyTorch

基于PyTorch的图像质量评估工具箱,支持PSNR、SSIM、LPIPS、FID等多种评估指标,涵盖全参考和无参考图像质量评估方法。

  • Stars: ⭐️ 3.3k
  • Tags: image-quality-assessment pytorch deep-learning computer-vision
  • 最后活动时间: 2026-05-31

nunif

waifu2x最新版本及2D视频转立体3D视频转换工具集。

  • Stars: ⭐️ 3.2k
  • Tags: waifu2x super-resolution stereo-3d video-processing
  • 最后活动时间: 2026-05-04

LichtFeld-Studio

3D高斯泼溅场景的完整解决方案,支持训练、编辑、自动化处理与导出。

  • Stars: ⭐️ 3.2k
  • Tags: gaussian-splatting 3d-reconstruction computer-vision cuda
  • 最后活动时间: 2026-06-12

Saber-Translator

AI驱动的漫画翻译工具,智能检测气泡、识别日文文本并翻译成流畅中文。

  • Stars: ⭐️ 3.2k
  • Tags: manga-translation ocr ai-translation image-processing
  • 最后活动时间: 2026-05-22

Skywork-R1V

Skywork AI开发的高级多模态模型系列,专注于视觉语言推理任务。

  • Stars: ⭐️ 3.2k
  • Tags: Multimodal VLM Vision-Language
  • 最后活动时间: 2025-12-15

HunyuanImage-3.0

腾讯混元图像生成模型3.0版本,强大的原生多模态图像生成模型,支持高质量图像创作。

  • Stars: ⭐️ 3.1k
  • Tags: image-generation multimodal-model text-to-image diffusion-model
  • 最后活动时间: 2026-02-03

awesome-virtual-try-on

虚拟试穿领域精选资源列表,汇集论文、代码、数据集,涵盖2D/3D试穿与多姿态引导技术。

  • Stars: ⭐️ 3.1k
  • Tags: 虚拟试穿 图像生成 计算机视觉
  • 最后活动时间: 2026-06-04

QualityScaler

基于AI的图像和视频超分辨率放大应用,支持降噪和压缩伪影消除,可运行于NVIDIA/AMD/Intel GPU。

  • Stars: ⭐️ 3.1k
  • Tags: Super Resolution Image Enhancement Video Upscaling
  • 最后活动时间: 2026-04-05

Pointcept

点云感知研究代码库,包含PTv3、Sonata等最新3D视觉研究成果。

  • Stars: ⭐️ 3.1k
  • Tags: point-cloud 3d-vision pytorch
  • 最后活动时间: 2026-05-21

spark

基于THREE.js的高级3D高斯泼溅渲染器,支持神经辐射场风格的实时3D重建与渲染。

  • Stars: ⭐️ 3.1k
  • Tags: 3d-gaussian-splatting nerf threejs webgl
  • 最后活动时间: 2026-05-26

GPT-Image2-Skill

GPT Image 2 提示词库与智能体技能工具,提供图像生成/编辑的CLI工具和丰富的提示词模板。

  • Stars: ⭐️ 3.0k
  • Tags: gpt-image image-generation openai agent-skills prompt-library
  • 最后活动时间: 2026-05-23

sam-3d-body

SAM 3D人体模型推理代码,提供预训练模型和数据集,支持3D人体建模。

  • Stars: ⭐️ 3.0k
  • Tags: 3d-body-model segment-anything computer-vision
  • 最后活动时间: 2026-02-19

swift-coreml-diffusers

基于Core ML的Stable Diffusion Swift实现,支持在Apple设备上本地运行图像生成。

  • Stars: ⭐️ 2.9k
  • Tags: stable-diffusion coreml swift image-generation apple
  • 最后活动时间: 2026-05-27

DeepSeek-OCR-2

DeepSeek推出的视觉因果流OCR模型,专注于文档理解和文字识别任务。

  • Stars: ⭐️ 2.9k
  • Tags: ocr deepseek visual-ai document-understanding
  • 最后活动时间: 2026-02-03

SimpleTuner

面向图像、视频和音频扩散模型的通用微调工具包,支持Stable Diffusion、Flux等主流模型的高效训练。

  • Stars: ⭐️ 2.9k
  • Tags: Diffusion Fine-tuning Stable Diffusion
  • 最后活动时间: 2026-06-11

ComfyUI-nunchaku

Nunchaku的ComfyUI插件,提供高效的扩散模型量化推理能力。

  • Stars: ⭐️ 2.9k
  • Tags: ComfyUI 扩散模型 量化
  • 最后活动时间: 2026-02-19

a1111-sd-webui-tagcomplete

Stable Diffusion WebUI标签自动补全扩展,提供Booru风格的智能提示词补全功能。

  • Stars: ⭐️ 2.8k
  • Tags: stable-diffusion autocompletion prompt-engineering webui-extension
  • 最后活动时间: 2026-05-17

tribev2

TRIBE v2多模态模型,用于脑响应预测的研究项目,结合神经科学与深度学习技术。

  • Stars: ⭐️ 2.7k
  • Tags: multimodal brain-response neuroscience deep-learning
  • 最后活动时间: 2026-05-11

voxelmorph

基于无监督学习的医学图像配准框架,支持变形场估计与图像对齐。

  • Stars: ⭐️ 2.7k
  • Tags: image-registration medical-imaging unsupervised-learning deep-learning
  • 最后活动时间: 2026-05-18

Stable-Diffusion

全面的Stable Diffusion学习资源库,涵盖FLUX、SDXL、SD3等模型的训练教程、WebUI工具指南及多模态AI应用实践。

  • Stars: ⭐️ 2.7k
  • Tags: Stable Diffusion LoRA ComfyUI Image Generation
  • 最后活动时间: 2026-06-07

agent-sprite-forge

一个用于生成2D精灵图、透明PNG帧和动画GIF的智能体技能工具,支持从文本提示创建游戏像素艺术资源。

  • Stars: ⭐️ 2.6k
  • Tags: agent-skills pixel-art sprite-generator image-generation game-assets
  • 最后活动时间: 2026-05-05

local-dream

在Android设备上运行Stable Diffusion,支持骁龙NPU加速及CPU/GPU推理。

  • Stars: ⭐️ 2.6k
  • Tags: stable-diffusion android npu image-generation
  • 最后活动时间: 2026-06-10

xDiT

可扩展的Diffusion Transformers推理引擎,支持大规模并行计算,显著提升DiT模型推理性能。

  • Stars: ⭐️ 2.6k
  • Tags: Diffusion Inference Parallelism
  • 最后活动时间: 2026-06-08

stitching

Python图像拼接包,提供快速鲁棒的全景图像拼接功能。

  • Stars: ⭐️ 2.6k
  • Tags: image-stitching panorama computer-vision python
  • 最后活动时间: 2026-05-25

k-diffusion

Karras等人扩散模型PyTorch实现,高质量图像生成库。

  • Stars: ⭐️ 2.6k
  • Tags: diffusion-models image-generation pytorch
  • 最后活动时间: 2026-02-12

Stable-Diffusion-Webui-Civitai-Helper

Civitai助手扩展,简化模型下载和管理流程,自动获取模型信息和预览图。

  • Stars: ⭐️ 2.5k
  • Tags: stable-diffusion civitai model-management webui-extension
  • 最后活动时间: 2026-04-16

OmniSVG

首个端到端多模态SVG生成器,基于预训练视觉语言模型,可生成从图标到动漫角色的复杂SVG。

  • Stars: ⭐️ 2.5k
  • Tags: SVG Generation VLM NeurIPS 2025
  • 最后活动时间: 2026-03-01

conditional-flow-matching

条件流匹配库TorchCFM,用于生成模型训练。

  • Stars: ⭐️ 2.5k
  • Tags: flow-matching generative-models optimal-transport
  • 最后活动时间: 2026-04-20

3DCellForge

AI驱动的交互式3D模型生成、检查和展示工作室,支持智能建模与可视化。

  • Stars: ⭐️ 2.5k
  • Tags: 3d-generation ai-3d interactive visualization
  • 最后活动时间: 2026-05-22

PartCrafter

NeurIPS 2025论文,通过组合潜变量扩散Transformer生成结构化3D网格。

  • Stars: ⭐️ 2.4k
  • Tags: 3d-generation mesh-generation image-to-3d neurips
  • 最后活动时间: 2026-04-16

Eagle

前沿视觉语言模型项目,采用以数据为中心的策略训练,支持多种主流大模型架构。

  • Stars: ⭐️ 2.4k
  • Tags: Vision-Language LMM LLaVA
  • 最后活动时间: 2026-06-08

gpt_image_playground

基于 OpenAI gpt-image-2 API 的图片生成与编辑工具,支持多种图像处理功能,提供直观的 Web 界面。

  • Stars: ⭐️ 2.4k
  • Tags: gpt-image image-generation openai react typescript
  • 最后活动时间: 2026-06-11

flux2

FLUX.2图像生成模型的官方推理仓库。

  • Stars: ⭐️ 2.3k
  • Tags: flux image-generation diffusion-model inference
  • 最后活动时间: 2026-03-12

gpupixel

基于GPU的实时图像滤镜引擎,支持人脸检测、美颜、瘦脸等AI图像处理功能。

  • Stars: ⭐️ 2.3k
  • Tags: image-processing gpu face-detection filter
  • 最后活动时间: 2026-02-13

bgslibrary

C++背景减除库,提供多种背景建模算法,支持Python、MATLAB和Java绑定。

  • Stars: ⭐️ 2.3k
  • Tags: background-subtraction computer-vision opencv
  • 最后活动时间: 2026-05-28

3dgrut

高斯粒子的光线追踪与混合光栅化渲染技术,用于3D场景重建。

  • Stars: ⭐️ 2.3k
  • Tags: gaussian-splatting ray-tracing 3d-reconstruction computer-vision
  • 最后活动时间: 2026-06-11

gowall

多功能图像处理工具,支持VLM视觉语言模型OCR识别、对抗网络图像超分辨率放大、色彩提取与主题转换等功能。

  • Stars: ⭐️ 2.3k
  • Tags: image-processing ocr upscale color-palette cli
  • 最后活动时间: 2026-06-10

cellpose

通用细胞分割算法,支持人机交互标注,广泛应用于生物医学图像分析领域。

  • Stars: ⭐️ 2.2k
  • Tags: cell-segmentation bioimage deep-learning
  • 最后活动时间: 2026-06-11

Step1X-Edit

SOTA级开源图像编辑模型,性能媲美GPT-4o和Gemini 2 Flash等闭源模型。

  • Stars: ⭐️ 2.2k
  • Tags: image-editing multimodal visual-reasoning open-source
  • 最后活动时间: 2026-04-29

MambaVision

CVPR 2025论文,混合Mamba-Transformer视觉骨干网络,支持图像分类、检测和分割。

  • Stars: ⭐️ 2.2k
  • Tags: mamba vision-transformer image-classification object-detection
  • 最后活动时间: 2026-03-11

Awesome-Image-Inpainting

图像修复与视频修复领域的精选论文和资源合集,涵盖人脸补全、图像修复等前沿研究方向。

  • Stars: ⭐️ 2.2k
  • Tags: image-inpainting video-inpainting computer-vision deep-learning
  • 最后活动时间: 2026-02-09

JoyAI-Image

统一的多模态基础模型,支持图像理解、文本生成图像和指令引导的图像编辑功能。

  • Stars: ⭐️ 2.2k
  • Tags: multimodal image-generation image-editing text-to-image
  • 最后活动时间: 2026-05-09

mflux

基于Apple MLX框架的原生生成图像模型实现,针对Apple Silicon优化。

  • Stars: ⭐️ 2.1k
  • Tags: mlx flux apple-silicon image-generation
  • 最后活动时间: 2026-06-07

ICEdit

高效图像编辑工具,仅需单个LoRA即可实现高质量图像编辑。

  • Stars: ⭐️ 2.1k
  • Tags: image-editing lora diffusion
  • 最后活动时间: 2025-12-19

ViTPose

NeurIPS 2022论文,基于Vision Transformer的人体姿态估计模型。

  • Stars: ⭐️ 2.1k
  • Tags: pose-estimation vision-transformer self-supervised pytorch
  • 最后活动时间: 2025-12-25

leptonica

开源图像处理与分析库,广泛应用于OCR和计算机视觉领域,提供图像增强、形态学运算、边缘检测等核心功能。

  • Stars: ⭐️ 2.0k
  • Tags: image-processing computer-vision ocr c
  • 最后活动时间: 2026-06-05

OpenSplat

生产级3D高斯泼溅重建工具,支持CPU/GPU跨平台运行,适用于神经辐射场和3D场景重建。

  • Stars: ⭐️ 2.0k
  • Tags: 3d gaussian-splatting radiance-field neural-rendering
  • 最后活动时间: 2026-05-31

DreamOmni2

多模态指令驱动的图像编辑与生成统一模型,支持基于自然语言指令的图像处理任务。

  • Stars: ⭐️ 2.0k
  • Tags: 图像编辑 图像生成 多模态
  • 最后活动时间: 2026-04-11

ml-hypersim

用于室内场景理解的光真实感合成数据集,提供高质量的3D场景渲染数据。

  • Stars: ⭐️ 2.0k
  • Tags: dataset synthetic-data indoor-scene computer-vision
  • 最后活动时间: 2026-01-09

custom-diffusion

CVPR 2023论文实现,专注于文本到图像扩散模型的多概念定制化微调,支持少样本学习。

  • Stars: ⭐️ 2.0k
  • Tags: diffusion-models text-to-image fine-tuning computer-vision
  • 最后活动时间: 2026-05-24

WorldGen

基于生成式AI的3D场景生成工具,支持文本和图像快速生成任意3D场景,实现秒级高质量三维内容创作。

  • Stars: ⭐️ 2.0k
  • Tags: 3D Generation Text-to-3D Scene Generation
  • 最后活动时间: 2026-04-12

Show-o

统一多模态理解和生成的单一Transformer模型,ICLR/NeurIPS 2025接收,融合扩散模型与大语言模型。

  • Stars: ⭐️ 1.9k
  • Tags: 多模态 扩散模型 大语言模型
  • 最后活动时间: 2026-01-08

ComfyUI-Prompt-Assistant

ComfyUI提示词助手插件,支持多LLM服务的提示词翻译、扩写和图片反推功能。

  • Stars: ⭐️ 1.9k
  • Tags: ComfyUI Prompt Image Generation
  • 最后活动时间: 2026-04-25

mar

MAR+DiffLoss 的 PyTorch 实现,用于自回归图像生成的创新方法。

  • Stars: ⭐️ 1.9k
  • Tags: autoregressive-model image-generation diffusion pytorch
  • 最后活动时间: 2026-02-20

pymatting

Python图像Alpha抠图库,用于前景提取和图像处理任务。

  • Stars: ⭐️ 1.9k
  • Tags: alpha-matting image-processing computer-vision
  • 最后活动时间: 2026-04-07

OpenSeeFace

实时人脸与面部关键点追踪库,支持CPU运行并提供Unity集成,适用于虚拟主播等应用场景。

  • Stars: ⭐️ 1.9k
  • Tags: face-tracking face-detection onnx pytorch unity
  • 最后活动时间: 2025-12-28

GlobalMLBuildingFootprints

从卫星图像提取的全球建筑物轮廓数据集,支持地理空间AI应用开发。

  • Stars: ⭐️ 1.9k
  • Tags: satellite-imagery building-detection dataset geospatial
  • 最后活动时间: 2026-03-11

minimind-o

从零训练的0.1B全模态Omni模型,支持听、说、看多模态能力,适合学习多模态模型架构与训练。

  • Stars: ⭐️ 1.8k
  • Tags: multimodal omni-model training audio vision
  • 最后活动时间: 2026-06-08

deepseek_ocr_app

基于DeepSeek模型构建的OCR文字识别应用,支持图像到文本的快速转换。

  • Stars: ⭐️ 1.8k
  • Tags: ocr deepseek image-to-text
  • 最后活动时间: 2026-03-31

ComfyUI_frontend

ComfyUI官方前端实现,为节点式AI图像生成工作流提供现代化可视化界面,支持拖拽式构建复杂的Stable Diffusion处理流程。

  • Stars: ⭐️ 1.8k
  • Tags: Stable Diffusion Image Generation Node Editor
  • 最后活动时间: 2026-05-29

OnnxOCR

基于PaddleOCR重构的轻量级OCR系统,脱离PaddlePaddle框架,推理速度极快。

  • Stars: ⭐️ 1.8k
  • Tags: ocr onnx deep-learning computer-vision
  • 最后活动时间: 2026-06-11

gpt_image_2_skill

GPT Image 2 提示词库与 CLI 工具,支持图像生成、编辑及智能体技能集成。

  • Stars: ⭐️ 1.8k
  • Tags: gpt-image-2 image-generation prompt-library openai agent-skills
  • 最后活动时间: 2026-05-08

Emu

BAAI推出的多模态生成基础模型系列,支持上下文学习和指令微调。

  • Stars: ⭐️ 1.8k
  • Tags: multimodal foundation-model generative-ai
  • 最后活动时间: 2026-01-12

CatVTON

ICLR 2025论文,轻量级虚拟试穿扩散模型,仅需8G显存支持1024x768分辨率。

  • Stars: ⭐️ 1.7k
  • Tags: virtual-try-on diffusion-models fashion image-generation
  • 最后活动时间: 2025-12-16

pupil

开源眼动追踪项目,利用计算机视觉技术实现眼球检测与追踪,可应用于人机交互、心理学研究等领域。

  • Stars: ⭐️ 1.7k
  • Tags: eye-tracking computer-vision open-source
  • 最后活动时间: 2026-05-25

lightweight-gan

ICLR 2021轻量级GAN实现,支持快速训练高分辨率图像生成模型。

  • Stars: ⭐️ 1.7k
  • Tags: gan image-generation deep-learning pytorch
  • 最后活动时间: 2026-04-26

ComfyUI-Florence2

ComfyUI的Microsoft Florence2视觉语言模型推理节点。

  • Stars: ⭐️ 1.7k
  • Tags: comfyui florence2 vlm vision-language-model
  • 最后活动时间: 2026-05-06

BrickGPT

基于文本提示生成物理稳定的积木模型,支持NeurIPS 2025论文实现。

  • Stars: ⭐️ 1.7k
  • Tags: 3d-generation text-to-3d lego
  • 最后活动时间: 2026-05-21

HunyuanOCR

腾讯混元 OCR 文字识别模型,提供高精度的光学字符识别能力。

  • Stars: ⭐️ 1.6k
  • Tags: ocr tencent hunyuan chinese-ocr
  • 最后活动时间: 2026-06-02

MMaDA

开源多模态大扩散语言模型,融合块扩散、混合思维链和统一强化学习技术。

  • Stars: ⭐️ 1.6k
  • Tags: diffusion-models multimodal-llm reasoning
  • 最后活动时间: 2026-02-14

Sa2VA

像素级大语言模型代码库,融合视觉与语言的多模态研究项目。

  • Stars: ⭐️ 1.6k
  • Tags: MLLM computer-vision pixel-llm
  • 最后活动时间: 2026-06-11

Infinity

CVPR 2025 Oral论文,用于高分辨率图像合成的自回归模型。

  • Stars: ⭐️ 1.6k
  • Tags: text-to-image autoregressive image-generation transformers
  • 最后活动时间: 2026-04-16

3d-ken-burns

基于PyTorch的单图3D Ken Burns效果实现,从静态图像生成动态运镜视频。

  • Stars: ⭐️ 1.6k
  • Tags: deep-learning computer-vision 3D PyTorch
  • 最后活动时间: 2026-06-01

Pixal3D

SIGGRAPH 2026 论文项目,实现从图像生成像素对齐的3D模型,属于前沿的图像到3D生成技术。

  • Stars: ⭐️ 1.6k
  • Tags: 3d-generation image-to-3d generative-ai computer-vision
  • 最后活动时间: 2026-05-24

ComfyUI-Docker

ComfyUI的Docker容器化部署方案,支持Stable Diffusion图像生成工作流,开箱即用。

  • Stars: ⭐️ 1.5k
  • Tags: comfyui stable-diffusion docker
  • 最后活动时间: 2026-06-08

ml-mobileclip

MobileCLIP官方实现,CVPR 2024发表的轻量级视觉-语言模型。

  • Stars: ⭐️ 1.5k
  • Tags: mobileclip vision-language clip efficient-ml
  • 最后活动时间: 2026-04-15

SAM-Adapter-PyTorch

通过适配器和提示将Segment Anything模型迁移到下游分割任务的PyTorch实现。

  • Stars: ⭐️ 1.5k
  • Tags: Segment Anything Adapter Fine-tuning
  • 最后活动时间: 2026-05-17

splatviz

基于3D Gaussian Splatting技术的实时交互式3D查看器,支持实时编辑和分析高斯溅射场景。

  • Stars: ⭐️ 1.5k
  • Tags: 3d-gaussian-splatting 3dgs viewer python real-time
  • 最后活动时间: 2026-05-20

ComfyUI_UltimateSDUpscale

ComfyUI的高质量图像放大节点扩展,支持多种放大算法,显著提升Stable Diffusion生成图像的分辨率和细节。

  • Stars: ⭐️ 1.5k
  • Tags: ComfyUI 图像放大 Stable Diffusion
  • 最后活动时间: 2026-04-08

pyntcloud

3D点云处理Python库,支持点云可视化与深度学习应用。

  • Stars: ⭐️ 1.5k
  • Tags: 3d-point-clouds deep-learning python 3d-graphics
  • 最后活动时间: 2026-01-28

DDColor

ICCV 2023论文,通过双解码器实现照片级真实的图像着色效果。

  • Stars: ⭐️ 1.5k
  • Tags: image-colorization computer-vision deep-learning
  • 最后活动时间: 2026-01-17

realesrgan-gui

跨平台AI图像超分辨率放大工具GUI,支持Real-ESRGAN和Real-CUGAN模型,提供美观易用的图形界面。

  • Stars: ⭐️ 1.5k
  • Tags: real-esrgan super-resolution image-upscaling gui
  • 最后活动时间: 2026-05-02

yomitoku

专为日语设计的 AI 文档图像分析 Python 包,集成深度学习 OCR 和版面分析功能,支持 PyTorch 框架。

  • Stars: ⭐️ 1.5k
  • Tags: OCR 文档分析 日语 PyTorch
  • 最后活动时间: 2026-06-08

MeiGen-AI-Design-MCP

基于MCP协议的AI图像生成工具,集成ComfyUI与1400+提示词库,支持多方向并行生成。

  • Stars: ⭐️ 1.4k
  • Tags: ai-image-generation mcp comfyui claude-code prompt-engineering
  • 最后活动时间: 2026-05-19

ComfyUI-Easy-Install

跨平台便携式ComfyUI安装器,支持Nvidia GPU,简化Stable Diffusion工作流部署。

  • Stars: ⭐️ 1.4k
  • Tags: comfyui stable-diffusion image-generation installer
  • 最后活动时间: 2026-05-28

DLSS

NVIDIA 深度学习超级采样技术,利用神经网络提升游戏帧率并生成高质量图像。

  • Stars: ⭐️ 1.3k
  • Tags: dlss nvidia image-upscaling gaming
  • 最后活动时间: 2026-04-21

TinyGPT-V

高效轻量级多模态大语言模型,采用小型骨干网络实现视觉语言理解与生成。

  • Stars: ⭐️ 1.3k
  • Tags: multimodal-llm vision-language efficient-model
  • 最后活动时间: 2026-02-05

image-matching-webui

基于Gradio的图像匹配Web界面,集成多种深度学习模型如SuperGlue、LightGlue、LoFTR等,支持特征匹配和位姿估计。

  • Stars: ⭐️ 1.3k
  • Tags: image-matching deep-learning feature-matching gradio
  • 最后活动时间: 2026-05-25

LucidFlux

ICLR 2026论文,基于大规模扩散Transformer实现无需标注的高质量图像修复。

  • Stars: ⭐️ 1.3k
  • Tags: diffusion image-restoration transformer iclr
  • 最后活动时间: 2026-05-26

sprite-sheet-creator

基于fal.ai的2D角色和地图精灵图生成工具,支持创建可玩的像素风格游戏素材。

  • Stars: ⭐️ 1.3k
  • Tags: sprite-sheet game-assets ai-generation fal-ai
  • 最后活动时间: 2026-04-22

FireRed-Image-Edit

开源SOTA图像编辑基础模型,支持精确指令跟随、高保真生成和优异身份一致性。

  • Stars: ⭐️ 1.3k
  • Tags: Image Editing Diffusion AIGC
  • 最后活动时间: 2026-04-03

mvsplat

ECCV'24 Oral论文,从稀疏多视角图像高效实现3D高斯泼溅重建。

  • Stars: ⭐️ 1.3k
  • Tags: gaussian-splatting 3d-reconstruction novel-view-synthesis deep-learning
  • 最后活动时间: 2026-05-06

ComfyUI-ReActor

ComfyUI的快速人脸替换扩展节点,支持SFW内容,简单易用的AI换脸工具。

  • Stars: ⭐️ 1.2k
  • Tags: comfyui face-swapping image-generation ai
  • 最后活动时间: 2026-05-12

sceneview

跨平台3D与AR SDK,支持Android、iOS、Web、Desktop等多端部署,集成Filament和RealityKit渲染引擎。

  • Stars: ⭐️ 1.2k
  • Tags: 3d ar arcore arkit kotlin swift webxr
  • 最后活动时间: 2026-06-11

flyimg

基于Docker的即时图像处理服务,支持AVIF、WebP等现代格式,内置人脸检测功能,可自动优化图像裁剪。

  • Stars: ⭐️ 1.2k
  • Tags: image-processing face-detection docker imagemagick
  • 最后活动时间: 2026-05-20

Stable-Diffusion-Android

Android平台上的Stable Diffusion AI客户端应用,支持连接Automatic1111 WebUI进行AI图像生成。

  • Stars: ⭐️ 1.2k
  • Tags: stable-diffusion android ai-image-generation kotlin
  • 最后活动时间: 2026-06-12

comfyui-inpaint-nodes

ComfyUI专业图像修复节点集合,支持Fooocus SDXL、LaMa、MAT等多种算法,提供强大的图像修复功能。

  • Stars: ⭐️ 1.2k
  • Tags: ComfyUI 图像修复 Inpainting
  • 最后活动时间: 2026-05-31

comfyui-portrait-master

ComfyUI 节点插件,帮助 AI 图像创作者快速生成人物肖像的提示词,简化人像生成工作流。

  • Stars: ⭐️ 1.2k
  • Tags: ComfyUI 人像生成 提示词
  • 最后活动时间: 2026-02-09

ComfyUI-qwenmultiangle

ComfyUI 自定义节点,提供交互式 Three.js 视口控制相机角度,用于多角度 AI 图像生成。

  • Stars: ⭐️ 1.2k
  • Tags: comfyui image-generation 3d-camera stable-diffusion
  • 最后活动时间: 2026-05-02

CityGaussian

ECCV 2024 & ICLR 2025 系列,基于高斯泼溅的大规模场景高质量重建方法。

  • Stars: ⭐️ 1.2k
  • Tags: gaussian-splatting large-scale neural-rendering scene-reconstruction
  • 最后活动时间: 2026-02-07

joycaption

开源免费的图像描述视觉语言模型,专为训练扩散模型而设计。

  • Stars: ⭐️ 1.2k
  • Tags: vlm image-captioning multimodal diffusion
  • 最后活动时间: 2026-02-24

samila

基于数学算法的生成艺术工具,可创建独特的NFT艺术作品。支持多种参数配置,生成风格多样的视觉艺术。

  • Stars: ⭐️ 1.2k
  • Tags: generative-art python3 nft matplotlib
  • 最后活动时间: 2026-05-01

SiT

探索流模型和扩散模型的可扩展插值Transformer生成模型。

  • Stars: ⭐️ 1.2k
  • Tags: diffusion-model transformer generative-model
  • 最后活动时间: 2025-12-22

LanPaint

高质量免训练图像修复工具,支持所有Stable Diffusion模型和ComfyUI。

  • Stars: ⭐️ 1.2k
  • Tags: inpainting stable-diffusion comfyui
  • 最后活动时间: 2026-05-21

MeanFlow

一步生成建模的PyTorch实现,探索流匹配和扩散模型的高效生成方法。

  • Stars: ⭐️ 1.1k
  • Tags: Diffusion Flow Matching Generative Model
  • 最后活动时间: 2025-12-17

HunyuanWorld-Mirror

腾讯混元团队开发的快速通用3D重建模型,支持图像到3D、场景生成等多种任务。

  • Stars: ⭐️ 1.1k
  • Tags: 3d-reconstruction aigc image-to-3d scene-generation
  • 最后活动时间: 2026-05-27

biniou

一个自托管的生成式AI WebUI,支持30多种AI模型,包括Stable Diffusion、FLUX、AnimateDiff、Bark、Whisper等,覆盖图像、音频、视频多模态生成。

  • Stars: ⭐️ 1.1k
  • Tags: Generative AI WebUI Stable Diffusion Multimodal
  • 最后活动时间: 2026-06-11

Fastest_Image_Pattern_Matching

高性能图像模板匹配算法实现,基于归一化互相关算法优化。

  • Stars: ⭐️ 1.1k
  • Tags: pattern-matching template-matching opencv image-alignment
  • 最后活动时间: 2026-01-20

vertex-ai-creative-studio

Google Cloud Vertex AI生成媒体创意工作室,集成Imagen、Veo、Gemini TTS、Chirp等多模态AI能力。提供图像、视频、音频生成的完整解决方案。

  • Stars: ⭐️ 1.1k
  • Tags: Vertex AI Imagen Veo Gemini Multimodal
  • 最后活动时间: 2026-06-11

Awesome-Image-Composition

图像合成与物体插入领域的论文、代码和资源精选列表,涵盖图像融合、和谐化、阴影生成等生成式AI技术。

  • Stars: ⭐️ 1.1k
  • Tags: image-composition image-harmonization generative-ai computer-vision
  • 最后活动时间: 2026-04-30

Uni-MoE

大规模多模态模型家族,基于混合专家架构实现多模态理解与生成能力。

  • Stars: ⭐️ 1.1k
  • Tags: multimodal moe large-language-model image-generation
  • 最后活动时间: 2025-12-22

ComfyUI-Lora-Manager

ComfyUI 的 LoRA 模型管理扩展,支持模型组织、预览和元数据管理,提升工作流效率。

  • Stars: ⭐️ 1.1k
  • Tags: ComfyUI LoRA Manager Image Generation
  • 最后活动时间: 2026-04-23

FastGS

CVPR 2026论文官方代码,将3D高斯泼溅训练时间缩短至100秒的革命性加速方法。

  • Stars: ⭐️ 1.1k
  • Tags: 3dgs gaussian-splatting cvpr2026 acceleration
  • 最后活动时间: 2026-03-23

PowerPaint

ECCV 2024多功能图像修复模型,支持物体插入、移除、扩展等多种功能。

  • Stars: ⭐️ 1.1k
  • Tags: inpainting image-editing stable-diffusion
  • 最后活动时间: 2025-12-20

gaussian-splatting-lightning

基于PyTorch Lightning的3D高斯泼溅框架,集成多种衍生算法与交互式Web查看器。

  • Stars: ⭐️ 1.1k
  • Tags: gaussian-splatting 3d-reconstruction pytorch-lightning nerf deep-learning
  • 最后活动时间: 2026-05-25

TimeGAN

NeurIPS 2019论文代码,时间序列生成对抗网络,用于时序数据生成。

  • Stars: ⭐️ 1.1k
  • Tags: time-series gan neurips data-generation
  • 最后活动时间: 2026-02-05

3dgs-render-blender-addon

KIRI Engine 出品的 3D Gaussian Splatting 渲染器 Blender 插件,支持神经渲染技术在 3D 建模中的应用。

  • Stars: ⭐️ 1.1k
  • Tags: 3d-gaussian-splatting blender neural-rendering 3d-reconstruction
  • 最后活动时间: 2026-04-10

CNNGestureRecognizer

基于CNN的手势识别项目,使用Keras和TensorFlow实现,支持实时手势检测。

  • Stars: ⭐️ 1.0k
  • Tags: gesture-recognition cnn tensorflow keras
  • 最后活动时间: 2026-05-21

Pixelle-MCP

基于ComfyUI + MCP + LLM的开源多模态AIGC解决方案,支持图像生成与编辑。

  • Stars: ⭐️ 1.0k
  • Tags: multimodal comfyui mcp aigc image-generation
  • 最后活动时间: 2025-12-17

splat-transform

3D高斯泼溅格式转换与变换的CLI工具,支持多种格式互转和3D场景处理。

  • Stars: ⭐️ 1.0k
  • Tags: 3d-gaussian-splatting gaussian-splatting 3d cli
  • 最后活动时间: 2026-05-27

ian-handdrawn-ppt

AI智能体技能,用于生成中文手绘风格的技术PPT图像,支持封面和正文配图。

  • Stars: ⭐️ 1.0k
  • Tags: ai-agent image-generation ppt handdrawn codex-skill
  • 最后活动时间: 2026-04-25

PatchFusion

CVPR 2024高分辨率单目度量深度估计的端到端分块框架。

  • Stars: ⭐️ 1.0k
  • Tags: Depth Estimation Computer Vision CVPR 2024
  • 最后活动时间: 2026-02-21

ConsistentID

多模态细粒度身份保持的人像生成模型,发表于TPAMI 2026。

  • Stars: ⭐️ 1.0k
  • Tags: portrait-generation identity-preserving multimodal image-generation
  • 最后活动时间: 2026-01-02

muapi-cli

muapi.ai官方CLI工具,支持终端生成图像、视频和音频,集成MCP服务器。

  • Stars: ⭐️ 1.0k
  • Tags: ai cli image-generation video-generation mcp
  • 最后活动时间: 2026-06-02

GaussianAvatars

CVPR 2024 Highlight 论文,基于3D高斯泼溅的逼真头部头像生成技术,支持实时渲染与动画驱动。

  • Stars: ⭐️ 1.0k
  • Tags: 3d-gaussian-splatting avatar-generation computer-vision neural-rendering
  • 最后活动时间: 2026-02-11

Lumina-DiMOO

开源多模态大扩散语言模型,支持统一的多模态理解与生成能力。

  • Stars: ⭐️ 998
  • Tags: diffusion-model multimodal-llm image-generation
  • 最后活动时间: 2026-05-19

DiffusionToolkit

专为AI生成图像设计的元数据索引器和查看器,支持Stable Diffusion等生成工具的PNG信息管理。

  • Stars: ⭐️ 994
  • Tags: Stable Diffusion 图像管理 元数据
  • 最后活动时间: 2026-02-27

LLaVA-OneVision-2

完全开放的多模态训练框架,支持视觉语言模型的民主化训练与部署。

  • Stars: ⭐️ 977
  • Tags: llava llm mllm vision-language-model multimodal
  • 最后活动时间: 2026-05-28

Lance

一个30亿活跃参数的原生统一多模态模型,支持图像和视频的理解、生成与编辑。

  • Stars: ⭐️ 977
  • Tags: multimodal image-generation video-generation image-understanding
  • 最后活动时间: 2026-05-27

PillOCR-python

基于大模型API的OCR工具,提供智能文字识别能力。

  • Stars: ⭐️ 968
  • Tags: ocr llm python
  • 最后活动时间: 2026-05-01

Image-processing-algorithm

图像处理算法论文实现集合,包含Retinex、去雾等经典算法。

  • Stars: ⭐️ 967
  • Tags: image-processing retinex dehazing opencv
  • 最后活动时间: 2026-05-20

cube

Roblox开源的3D智能基础模型,支持文本到3D生成和形状生成,为3D内容创作提供AI能力。

  • Stars: ⭐️ 960
  • Tags: 3d-generation text-to-3d foundation-model shape-generation
  • 最后活动时间: 2026-05-28

story-iter

ICLR 2026论文项目,提供无需训练的迭代框架用于长故事可视化,基于扩散模型实现高质量图像生成。

  • Stars: ⭐️ 958
  • Tags: diffusion-models image-generation storytelling visual-storytelling
  • 最后活动时间: 2026-04-02

NoPoSplat

ICLR 2025 Oral论文,从稀疏无位姿图像生成3D高斯溅射的简单高效方法。

  • Stars: ⭐️ 956
  • Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision nerf
  • 最后活动时间: 2026-02-25

Awesome-diffusion-model-for-image-processing

基于扩散模型的图像处理资源汇总,涵盖图像修复、增强、编码和质量评估等方向。

  • Stars: ⭐️ 947
  • Tags: diffusion-models image-processing image-restoration image-enhancement
  • 最后活动时间: 2026-04-08

OpenStereo

立体匹配领域的综合基准测试工具,用于评估和比较各种立体匹配算法的性能表现。

  • Stars: ⭐️ 904
  • Tags: stereo-matching computer-vision benchmark depth-estimation
  • 最后活动时间: 2026-05-25

api-llm-ocr

基于视觉大模型的PDF转Markdown工具,支持表格、布局和结构保留,适用于文档AI处理场景。

  • Stars: ⭐️ 894
  • Tags: OCR Vision-LLM Document-AI PDF
  • 最后活动时间: 2026-02-21

GLM-Image

基于自回归的高保真图像生成模型,支持文本到图像和图像到图像的生成任务。

  • Stars: ⭐️ 891
  • Tags: Text-to-Image Image Generation Auto-regressive
  • 最后活动时间: 2026-03-20

PhysX-Anything

CVPR 2026论文,从单张图像生成具备物理仿真属性的3D资产。

  • Stars: ⭐️ 886
  • Tags: image-to-3d physical-modeling 3d-generation cvpr
  • 最后活动时间: 2026-04-28

UpscalerJS

浏览器端AI图像增强库,支持超分辨率、去噪、修复等功能,无需后端服务。

  • Stars: ⭐️ 886
  • Tags: image-enhancement super-resolution tensorflow-js esrgan
  • 最后活动时间: 2026-06-10

Skyfall-GS

从卫星图像合成沉浸式3D城市场景,结合3D高斯泼溅与扩散模型技术实现高质量三维重建。

  • Stars: ⭐️ 878
  • Tags: 3D重建 卫星图像 高斯泼溅
  • 最后活动时间: 2026-03-18

UniPic

开源SOTA多图像编辑模型,支持高质量图像理解与编辑生成。

  • Stars: ⭐️ 868
  • Tags: Image Editing Diffusion VLM
  • 最后活动时间: 2026-01-24

UniWorld

高分辨率语义编码器,统一视觉理解与生成能力,支持图像编辑与文本生成图像。

  • Stars: ⭐️ 866
  • Tags: Image Generation Diffusion VLM
  • 最后活动时间: 2025-12-23

Image-Generation-CoT

CVPR 2025 论文,首次探索图像生成中的 Chain-of-Thought 推理,涵盖强化学习与反思机制。

  • Stars: ⭐️ 865
  • Tags: image-generation chain-of-thought diffusion reasoning
  • 最后活动时间: 2026-03-19

stirling-image

类似Stirling-PDF的图像处理工具箱,集成30多种本地AI功能,包括调整大小、压缩、背景移除、图像放大、OCR等,完全离线运行,无云服务依赖。

  • Stars: ⭐️ 860
  • Tags: ai image-processing ocr image-upscale self-hosted
  • 最后活动时间: 2026-04-24

spz

Niantic开源的3D高斯泼溅文件格式,压缩率比PLY格式高约10倍,几乎无视觉质量损失。

  • Stars: ⭐️ 851
  • Tags: gaussian-splatting 3dgs compression 3d-reconstruction
  • 最后活动时间: 2026-05-18

AnySplat

SIGGRAPH Asia 2025论文,实现从无约束视角进行前馈3D高斯泼溅渲染,无需逐场景优化即可重建3D场景。

  • Stars: ⭐️ 851
  • Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction feed-forward
  • 最后活动时间: 2025-12-22

Open-DiffusionGS

ICCV 2025论文,融合高斯泼溅与扩散模型,实现快速单阶段图像到3D生成与重建。

  • Stars: ⭐️ 849
  • Tags: 3D生成 高斯泼溅 扩散模型
  • 最后活动时间: 2026-01-28

PoinTr

ICCV 2021 Oral论文,基于几何感知Transformer的点云补全模型,从部分点云重建完整3D几何结构。

  • Stars: ⭐️ 845
  • Tags: 3D Vision Point Cloud Transformer
  • 最后活动时间: 2025-12-15

mesh2splat

快速将3D网格模型转换为高斯泼溅格式的工具,支持神经渲染和实时新视角合成。

  • Stars: ⭐️ 845
  • Tags: 3d-gaussian-splatting neural-rendering 3d-reconstruction
  • 最后活动时间: 2026-04-22

jimeng-free-api-all

即梦AI免费API服务,支持文生图、图生图、视频生成等功能,兼容OpenAI接口格式,支持多账号接入与零配置Docker部署。

  • Stars: ⭐️ 839
  • Tags: ai-image-generation video-generation openai-compatible docker
  • 最后活动时间: 2026-04-13

JarvisArt

NeurIPS 2025智能照片修图代理,基于多模态大语言模型释放人类艺术创造力。

  • Stars: ⭐️ 826
  • Tags: multimodal image-processing vision-language-models agent
  • 最后活动时间: 2026-04-04

HVI-CIDNet

CVPR2025低光照图像增强方法,提出新型HVI颜色空间实现高质量暗光图像恢复。

  • Stars: ⭐️ 816
  • Tags: image-enhancement low-light transformer cvpr2025
  • 最后活动时间: 2026-03-09

StableGen

强大的Blender插件,集成Stable Diffusion、ControlNet和Flux1-dev,实现智能3D纹理生成。

  • Stars: ⭐️ 814
  • Tags: Blender Stable Diffusion 3D纹理
  • 最后活动时间: 2026-04-13

MonoScene

CVPR 2022论文,单目3D语义场景补全,从单张图像预测3D语义占用。

  • Stars: ⭐️ 810
  • Tags: 3d-scene-completion monocular semantic-segmentation pytorch
  • 最后活动时间: 2026-03-25

RoseTTAFold-All-Atom

基于深度学习的蛋白质全原子结构预测模型,能够预测蛋白质及其配体的三维结构。

  • Stars: ⭐️ 809
  • Tags: protein-structure deep-learning bioinformatics structural-biology
  • 最后活动时间: 2026-05-18

gemini-nanobanana-pro

基于 Google Gemini 2.5 Flash 模型构建的 AI 图像生成与编辑 Web 应用,使用 Next.js 开发。

  • Stars: ⭐️ 798
  • Tags: gemini image-generation image-editing nextjs web-app
  • 最后活动时间: 2026-04-01

zotero-ocr

Zotero文献管理软件的OCR插件,基于Tesseract实现文档文字识别功能。

  • Stars: ⭐️ 795
  • Tags: ocr zotero tesseract
  • 最后活动时间: 2026-06-04

SSRS

遥感图像语义分割工具箱,支持Mamba、多模态融合、Segment Anything及无监督域适应等前沿方法。

  • Stars: ⭐️ 793
  • Tags: semantic-segmentation remote-sensing transformer mamba
  • 最后活动时间: 2026-03-14

CnSTD

基于PyTorch/MXNet的中文场景文字检测工具包,支持OCR、数学公式检测和版面分析。

  • Stars: ⭐️ 792
  • Tags: ocr text-detection deep-learning pytorch scene-text-detection
  • 最后活动时间: 2026-05-01

midjourney-proxy

全球最大的Midjourney绘图API。日生成超百万张图,支持Discord集成。

  • Stars: ⭐️ 792
  • Tags: midjourney image-generation api-proxy discord-bot
  • 最后活动时间: 2026-06-09

FlashWorld

ICLR 2026 Oral论文官方代码,实现秒级高质量3D场景生成的创新方法。

  • Stars: ⭐️ 791
  • Tags: 3d-generation scene-generation iclr2026
  • 最后活动时间: 2026-03-24

scribeocr

基于Web的OCR文档识别与校对工具,支持创建完整数字化文档。

  • Stars: ⭐️ 785
  • Tags: ocr tesseract web-interface
  • 最后活动时间: 2026-05-28

FastVGGT

ICLR 2026 论文实现,快速视觉几何Transformer模型,用于高效的视觉几何理解与重建。

  • Stars: ⭐️ 783
  • Tags: computer-vision transformer visual-geometry deep-learning
  • 最后活动时间: 2026-01-28

ocean

Meta开源的跨平台计算机视觉与增强现实框架,C++实现,支持CV和AR应用开发。

  • Stars: ⭐️ 778
  • Tags: computer-vision augmented-reality meta cpp
  • 最后活动时间: 2026-06-05

Awesome-AIGC-3D

精选的AI生成3D内容论文合集,涵盖最新的文本到3D、图像到3D等前沿研究方向。

  • Stars: ⭐️ 776
  • Tags: aigc 3d-generation text-to-3d image-to-3d neural-rendering
  • 最后活动时间: 2026-05-04

ComfyUI-QwenVL

ComfyUI自定义节点,集成Qwen-VL系列视觉语言模型,支持GGUF格式,提供文本生成、图像理解和视频分析能力。

  • Stars: ⭐️ 771
  • Tags: ComfyUI Qwen-VL Multimodal
  • 最后活动时间: 2026-02-10

ImageJ

开源科学图像处理软件,广泛应用于生物医学图像分析和科研领域。

  • Stars: ⭐️ 765
  • Tags: computer-vision image-processing scientific-imaging
  • 最后活动时间: 2026-06-01

sapiens2

ICLR 26论文实现,在10亿人类图像上预训练的1K分辨率视觉Transformer模型,专注于人体视觉理解任务。

  • Stars: ⭐️ 758
  • Tags: vision-transformer computer-vision human-centric pretrained-model
  • 最后活动时间: 2026-05-24

Infinite-Canvas

支持ComfyUI和ModelScope调用的无限画布工具,适用于AI图像生成工作流。

  • Stars: ⭐️ 757
  • Tags: comfyui image-generation canvas modelscope
  • 最后活动时间: 2026-05-27

FG-CLIP

新一代CLIP模型,具备强大的细粒度识别能力,支持跨模态检索和图文匹配任务。

  • Stars: ⭐️ 752
  • Tags: clip cross-modal-retrieval fine-grained-classification text-image-retrieval
  • 最后活动时间: 2026-05-08

UltraShape-1.0

基于可扩展几何细化方法的高保真3D形状生成模型,支持高质量三维内容创建。

  • Stars: ⭐️ 747
  • Tags: 3d-generation shape-generation generative-ai
  • 最后活动时间: 2026-01-06

pexo-skills

开源Agent技能集合,专注于图像、音频和视频等多模态内容创作。

  • Stars: ⭐️ 730
  • Tags: agent-skills multimodal content-creation
  • 最后活动时间: 2026-05-27

aitviewer

用于可视化和交互3D数据序列的工具集,支持SMPL人体模型、网格渲染和计算机视觉数据可视化。

  • Stars: ⭐️ 728
  • Tags: 3d-visualization computer-vision smpl meshes rendering
  • 最后活动时间: 2026-05-07

PaddleMIX

飞桨多模态开发工具箱,支持主流多模态任务及扩散模型,提供高性能实现。

  • Stars: ⭐️ 724
  • Tags: multimodal paddlepaddle diffusion
  • 最后活动时间: 2026-03-06

DeepMesh

ICCV 2025论文官方实现,基于强化学习的自回归3D网格生成模型。

  • Stars: ⭐️ 724
  • Tags: 3d mesh-generation generative-model aigc
  • 最后活动时间: 2025-12-17

prope

将相机参数作为相对位置编码的研究项目,用于多视角视觉任务。

  • Stars: ⭐️ 715
  • Tags: multi-view positional-encoding transformer
  • 最后活动时间: 2025-12-18

FastGen

NVIDIA推出的扩散模型加速生成技术,通过蒸馏方法显著提升图像生成速度,提供高效推理优化方案。

  • Stars: ⭐️ 713
  • Tags: Diffusion Distillation NVIDIA
  • 最后活动时间: 2026-03-19

uniface

基于ONNX Runtime的统一人脸分析Python库,支持人脸检测、识别、表情分析、年龄性别估计等多种功能。

  • Stars: ⭐️ 712
  • Tags: face-detection face-recognition face-analysis onnx computer-vision
  • 最后活动时间: 2026-05-27

Awesome-Sketch-Based-Applications

基于草图的应用论文合集,涵盖草图到图像生成、草图检索、草图建模等AI相关研究方向。

  • Stars: ⭐️ 706
  • Tags: sketch-to-image sketch-based-retrieval generative-ai computer-vision
  • 最后活动时间: 2026-06-04

paz

Python层级感知库,支持姿态估计、目标检测、实例分割、人脸识别等多种计算机视觉任务。

  • Stars: ⭐️ 705
  • Tags: pose-estimation object-detection face-recognition instance-segmentation
  • 最后活动时间: 2026-05-20

MHR

Meta开发的参数化全身数字人体模型,包含骨骼模型、3D网格、姿态校正和面部混合变形,专为计算机视觉和图形学社区设计。

  • Stars: ⭐️ 704
  • Tags: human-model 3d-body computer-vision parametric-model
  • 最后活动时间: 2026-05-25

Fast-SRGAN

轻量级实时超分辨率模型,可在30fps下将低分辨率视频实时上采样为高分辨率。

  • Stars: ⭐️ 695
  • Tags: real-time srgan video-super-resolution tensorflow
  • 最后活动时间: 2026-02-11

OmniLottie

CVPR 2026 论文项目,开源的多模态向量动画生成器,可通过指令生成 Lottie JSON 动画文件,支持 VLM 视觉语言模型驱动。

  • Stars: ⭐️ 694
  • Tags: generative-ai multi-modal vlm lottie-animation vector-graphics
  • 最后活动时间: 2026-04-06

EDGS

3D高斯泼溅高效收敛方法PyTorch实现,消除密集化步骤。3D重建新方法。

  • Stars: ⭐️ 692
  • Tags: 3dgs 3d-reconstruction gaussian-splatting
  • 最后活动时间: 2026-03-25

micro-sam

Segment Anything模型在显微图像领域的适配应用,支持细胞与细胞器分割。

  • Stars: ⭐️ 689
  • Tags: segment-anything microscopy cell-segmentation bioimage
  • 最后活动时间: 2026-06-10

NextStep-1

StepFun团队开发的SOTA自回归图像生成模型,采用连续token技术实现高质量图像生成。

  • Stars: ⭐️ 689
  • Tags: image-generation autoregressive multimodal diffusion
  • 最后活动时间: 2026-02-27

AI生成内容展示平台,汇集有趣的AI生成作品,基于Next.js 14和React构建。

  • Stars: ⭐️ 688
  • Tags: ai-generated showcase nextjs visualization
  • 最后活动时间: 2026-05-07

YOLOv11-RGBT

全面的多光谱目标检测框架,支持YOLOv3至YOLOv13全系列的RGBT检测。

  • Stars: ⭐️ 686
  • Tags: multispectral-detection yolo rgbt object-detection
  • 最后活动时间: 2025-12-15

NanoBananaEditor

基于Gemini 2.5 Flash的AI图像生成与编辑应用,支持参考图、蒙版编辑和版本历史。

  • Stars: ⭐️ 683
  • Tags: image-generation image-editing gemini-api
  • 最后活动时间: 2026-05-14

ComfyScript

ComfyUI的Python前端库,支持将工作流编写为Python脚本,在Jupyter中实现自动化图像生成。

  • Stars: ⭐️ 682
  • Tags: ComfyUI Stable Diffusion Python
  • 最后活动时间: 2026-02-17

FLAME-Universe

FLAME 3D头部模型的公开资源汇总,包含代码、数据集和学术论文,适用于人脸生成和表情动画。

  • Stars: ⭐️ 675
  • Tags: 3d-face face-model computer-vision generative-ai
  • 最后活动时间: 2026-03-03

Uni3D

ICLR 2024 Spotlight论文,BAAI推出的3D视觉表征基础模型,支持多种3D理解任务。

  • Stars: ⭐️ 670
  • Tags: 3d-representation foundation-model vision-transformer 3d-vision
  • 最后活动时间: 2026-01-12

PaddleYOLO

飞桨YOLO系列全面实现,涵盖YOLOv3至YOLO11、RT-DETR等主流目标检测模型。

  • Stars: ⭐️ 667
  • Tags: object-detection yolo paddlepaddle instance-segmentation
  • 最后活动时间: 2026-01-14

spectral

Python高光谱图像处理模块,支持异常检测、图像分类和目标检测等AI功能。

  • Stars: ⭐️ 666
  • Tags: hyperspectral image-processing anomaly-detection python
  • 最后活动时间: 2026-04-12

BiomedParse

生物医学图像基础模型,支持九种模态的联合分割、检测和识别任务。

  • Stars: ⭐️ 662
  • Tags: biomedical-imaging segmentation object-detection foundation-model
  • 最后活动时间: 2026-01-22

comfyui-tooling-nodes

ComfyUI工具节点集合,支持将其作为后端服务使用,实现外部工具与ComfyUI直接图像传输。

  • Stars: ⭐️ 661
  • Tags: ComfyUI Stable Diffusion API
  • 最后活动时间: 2026-05-31

PixelDiT

CVPR 2026 Oral 论文项目,提出像素级扩散 Transformer 用于高质量图像生成,代表了图像生成领域的前沿研究进展。

  • Stars: ⭐️ 661
  • Tags: diffusion-models image-generation transformer computer-vision
  • 最后活动时间: 2026-04-09

immich-automated-selfie-timelapse

自动化人脸提取、调整和对齐工具,适合制作自拍延时视频。基于Immich平台实现的人脸识别与处理工作流。

  • Stars: ⭐️ 658
  • Tags: immich face-detection timelapse self-hosted
  • 最后活动时间: 2026-03-30

Ming

基于Ling大模型构建的多模态理解与生成框架,支持高级多模态任务处理。

  • Stars: ⭐️ 656
  • Tags: multimodal llm vision-language
  • 最后活动时间: 2026-03-17

ComfyUI-Trellis2

Microsoft Trellis 3D生成模型的ComfyUI封装,支持从图像生成高质量3D模型。

  • Stars: ⭐️ 656
  • Tags: 3d-generation comfyui text-to-3d image-to-3d
  • 最后活动时间: 2026-06-02

yolov7-object-tracking

基于YOLOv7的目标检测与跟踪项目,结合PyTorch、OpenCV和SORT算法实现实时多目标跟踪。

  • Stars: ⭐️ 652
  • Tags: yolo object-detection object-tracking pytorch opencv
  • 最后活动时间: 2026-03-12

MetalSplatter

在Apple平台上使用Metal渲染高斯溅射的框架,支持iOS、macOS和visionOS,实现实时3D场景重建与渲染。

  • Stars: ⭐️ 649
  • Tags: gaussian-splatting metal 3d-rendering computer-vision
  • 最后活动时间: 2026-05-28

gpt-image-canvas

基于 tldraw 构建的本地专业 AI 画布工具,支持图像生成与编辑。

  • Stars: ⭐️ 648
  • Tags: ai ai-tools image-generation canvas
  • 最后活动时间: 2026-06-09

Prism

开源的跨平台壁纸应用,支持社区上传、精选合集以及AI壁纸生成功能,让用户轻松创建个性化壁纸。

  • Stars: ⭐️ 647
  • Tags: flutter wallpaper ai image-generation
  • 最后活动时间: 2026-06-11

Liquid

IJCV收录的多模态大语言模型,实现可扩展的统一文本到图像生成。

  • Stars: ⭐️ 643
  • Tags: Multimodal LLM Text-to-Image Generative AI
  • 最后活动时间: 2026-06-01

SeeSR

CVPR 2024论文,实现语义感知的真实世界图像超分辨率重建。

  • Stars: ⭐️ 639
  • Tags: super-resolution stable-diffusion image-enhancement
  • 最后活动时间: 2026-04-09

Comfyui-zhenzhen

ComfyUI的平价API调用节点集合,支持Seedance2.0等多种图像生成模型。

  • Stars: ⭐️ 633
  • Tags: comfyui image-generation api-nodes
  • 最后活动时间: 2026-06-11

pHash

开源感知哈希库,用于图像相似度检测和内容识别。支持图片指纹生成与匹配,广泛应用于图像去重、版权检测等场景。

  • Stars: ⭐️ 632
  • Tags: perceptual-hashing image-similarity computer-vision
  • 最后活动时间: 2026-05-26

MMIF-CDDFuse

CVPR 2023 论文官方实现,提出相关性驱动的双分支特征分解方法,用于多模态图像融合任务。

  • Stars: ⭐️ 631
  • Tags: image-fusion deep-learning cvpr2023 multi-modality
  • 最后活动时间: 2026-06-08

we-drawing

每日一句中国古诗词配AI生成图片的创意项目,融合传统文化与AI绘画技术。

  • Stars: ⭐️ 630
  • Tags: ai dalle-3 prompt image-generation
  • 最后活动时间: 2025-12-31

LHM-plusplus

高效的大型人体重建模型,可从任意姿态图像重建3D人体模型。

  • Stars: ⭐️ 629
  • Tags: 3d-reconstruction human-model computer-vision deep-learning
  • 最后活动时间: 2026-05-26

peinture

通用AI图像生成框架,支持Hugging Face、Model Scope等多个模型平台。

  • Stars: ⭐️ 619
  • Tags: Image Generation AI Art Framework
  • 最后活动时间: 2026-04-19

Awesome-Face-Restoration

人脸修复方法综合资源列表,涵盖论文、代码库等计算机视觉前沿技术。

  • Stars: ⭐️ 608
  • Tags: face-restoration computer-vision image-enhancement deep-learning
  • 最后活动时间: 2026-03-20

assets

Ultralytics官方资源库,包含YOLO系列模型权重和计算机视觉资源。

  • Stars: ⭐️ 606
  • Tags: computer-vision yolo object-detection ultralytics
  • 最后活动时间: 2026-06-05

FakeShield

ICLR 2025论文项目,基于多模态大语言模型的可解释图像伪造检测与定位系统。

  • Stars: ⭐️ 604
  • Tags: image-forensics mllm deepfake-detection iclr2025
  • 最后活动时间: 2026-02-21

FastSurfer

FastSurferCNN的PyTorch实现,用于脑部MRI图像快速分割。

  • Stars: ⭐️ 603
  • Tags: pytorch medical-imaging brain-segmentation mri cnn
  • 最后活动时间: 2026-05-27

ReconViaGen

ICLR2026论文项目,通过生成式方法实现精确的多视角3D物体重建,支持图像到3D的转换和姿态估计。

  • Stars: ⭐️ 603
  • Tags: 3d-generation 3d-reconstruction image-to-3d pose-estimation generative-ai
  • 最后活动时间: 2026-04-04

aot-benchmark

基于Transformer的视频目标分割高效模块化实现,支持多对象关联追踪。

  • Stars: ⭐️ 594
  • Tags: video-segmentation transformer object-tracking
  • 最后活动时间: 2026-04-07

huobao-canvas

无限画布工具,支持文生图、图生图、图生视频及多模型切换,兼容OpenAI标准格式。

  • Stars: ⭐️ 593
  • Tags: image-generation text-to-image video-generation
  • 最后活动时间: 2026-03-18

ComfyUI_tinyterraNodes

ComfyUI自定义节点集合,为Stable Diffusion提供扩展功能和工作流增强。

  • Stars: ⭐️ 592
  • Tags: comfyui stable-diffusion nodes
  • 最后活动时间: 2026-05-17

LLMDet

CVPR 2025亮点论文,利用大语言模型监督学习强大的开放词汇目标检测器。

  • Stars: ⭐️ 589
  • Tags: object-detection llm computer-vision cvpr
  • 最后活动时间: 2026-02-04

Awesome-Deep-Stereo-Matching

深度立体匹配资源精选合集,涵盖立体视觉、深度估计和相关深度学习算法。

  • Stars: ⭐️ 587
  • Tags: stereo-vision depth-estimation computer-vision deep-learning
  • 最后活动时间: 2026-06-08

tessera

剑桥大学开发的卫星时序图像基础模型,支持土地分类和树冠高度预测等遥感应用。

  • Stars: ⭐️ 586
  • Tags: Satellite Remote Sensing Foundation Models
  • 最后活动时间: 2026-05-20

Visual-Tracking-Development

视觉目标跟踪相关的深度学习基准测试项目,涵盖多种跟踪算法和评估方法。

  • Stars: ⭐️ 586
  • Tags: visual-tracking deep-learning computer-vision benchmark
  • 最后活动时间: 2026-05-26

fast-plate-ocr

轻量级高速车牌OCR识别模型,支持PyTorch、TensorFlow、JAX和ONNX运行时。

  • Stars: ⭐️ 585
  • Tags: ocr license-plate-recognition computer-vision onnx deep-learning
  • 最后活动时间: 2026-03-14

deepgen

轻量级统一多模态模型,专注于图像生成与编辑任务,提供高效的视觉创作能力。

  • Stars: ⭐️ 580
  • Tags: multimodal image-generation image-editing deep-learning
  • 最后活动时间: 2026-03-02

imgpilot

基于实时潜在一致性模型(LCM)的图像生成工具,将草图转化为精美艺术作品。

  • Stars: ⭐️ 577
  • Tags: AI Image Generation LCM
  • 最后活动时间: 2026-01-31

3dgsconverter

3D Gaussian Splatting 模型转换工具,支持多种格式互转及 GPU 加速滤波处理。

  • Stars: ⭐️ 568
  • Tags: gaussian-splatting 3d-reconstruction neural-rendering converter
  • 最后活动时间: 2026-05-22

TRIDENT

大规模全切片图像处理工具包,支持病理学基础模型,用于组织病理学图像的深度学习分析和处理。

  • Stars: ⭐️ 566
  • Tags: deep-learning pathology whole-slide-image foundation-model
  • 最后活动时间: 2026-05-27

Awesome-Sketch-Synthesis

草图生成与合成领域的论文合集,涵盖矢量草图生成、笔画级处理等研究方向。

  • Stars: ⭐️ 566
  • Tags: sketch-generation sketch-synthesis vector-sketch generative-ai
  • 最后活动时间: 2026-05-17

WildDet3D

Allen AI开源的可提示3D目标检测模型,支持在开放场景中进行可扩展的3D检测。

  • Stars: ⭐️ 563
  • Tags: 3d-detection computer-vision object-detection promptable
  • 最后活动时间: 2026-05-21

MistoLine

专为SDXL设计的ControlNet模型,支持多样化的线稿条件控制,生成高质量艺术图像。

  • Stars: ⭐️ 555
  • Tags: controlnet sdxl stable-diffusion line-art
  • 最后活动时间: 2026-01-06

character_select_stand_alone_app

角色选择独立应用,支持AI提示词和ComfyUI/WebUI API,用于AI图像生成工作流。

  • Stars: ⭐️ 548
  • Tags: comfyui image-generation electron stable-diffusion
  • 最后活动时间: 2026-05-20

ComfyUI-OpenClaw

基于ComfyUI的个人AIGC工厂,支持多平台机器人集成,可生成任意图片和视频内容。

  • Stars: ⭐️ 546
  • Tags: comfyui image-generation agent bot aigc
  • 最后活动时间: 2026-05-13

segmenteverygrain

基于SAM的颗粒图像实例分割模型,适用于地质和材料科学领域。

  • Stars: ⭐️ 543
  • Tags: sam instance-segmentation grain-analysis geoscience
  • 最后活动时间: 2026-06-03

FaceLift

ICCV 2025论文,从单张图像学习可泛化的3D人脸重建方法,基于合成头部数据训练。

  • Stars: ⭐️ 542
  • Tags: 3d-face-reconstruction computer-vision iccv2025
  • 最后活动时间: 2026-03-25

facefusion-docker

业界领先的人脸处理平台,支持人脸替换、唇形同步等多种AI视频处理功能。

  • Stars: ⭐️ 538
  • Tags: ai face-swap lip-sync docker deepfake
  • 最后活动时间: 2026-04-21

mmdit

Stable Diffusion 3中MMDiT(多模态扩散Transformer)层的PyTorch实现。

  • Stars: ⭐️ 537
  • Tags: stable-diffusion multimodal attention diffusion
  • 最后活动时间: 2026-01-18

gemini-image-editing-nextjs-quickstart

基于Gemini 2.0和Next.js的图像生成与编辑快速入门项目,演示原生多模态能力。

  • Stars: ⭐️ 537
  • Tags: gemini gemini-api image-generation nextjs
  • 最后活动时间: 2026-05-29

Awesome-Object-Insertion

图像合成与物体插入领域的精选资源合集,涵盖论文、代码和工具,帮助生成逼真的合成图像。

  • Stars: ⭐️ 535
  • Tags: image-composition object-insertion image-generation computer-vision
  • 最后活动时间: 2026-04-30

VistaDream

ICCV 2025论文,从单视图重建多视角一致的场景图像。

  • Stars: ⭐️ 534
  • Tags: diffusion-models novel-view-synthesis 3d-reconstruction
  • 最后活动时间: 2026-04-25

YOLO-Master

CVPR2026论文官方代码,基于MOE加速和专业Transformer增强的实时目标检测模型,支持分类、检测和分割任务。

  • Stars: ⭐️ 534
  • Tags: yolo object-detection moe computer-vision transformers
  • 最后活动时间: 2026-06-12

ll3m

基于大语言模型的3D资产生成工具,可自动编写Python代码在Blender中创建3D模型。

  • Stars: ⭐️ 532
  • Tags: llm 3d-generation blender code-generation
  • 最后活动时间: 2026-03-07

FFHQ-UV

CVPR 2023 论文,提供归一化面部UV纹理数据集,用于高质量3D人脸重建。

  • Stars: ⭐️ 530
  • Tags: face-texture uv-mapping 3d-face cvpr2023
  • 最后活动时间: 2026-04-16

ptlflow

基于 PyTorch Lightning 的光流估计模型库,提供多种预训练模型和权重。

  • Stars: ⭐️ 530
  • Tags: optical-flow pytorch-lightning pretrained-models computer-vision
  • 最后活动时间: 2026-05-20

Awesome-Image-Harmonization

图像和谐化领域的论文与代码资源合集,专注于使合成图像前景与背景光照色彩协调一致。

  • Stars: ⭐️ 528
  • Tags: image-harmonization image-composition computer-vision generative-ai
  • 最后活动时间: 2026-02-24

3D-RE-GEN

基于生成式框架的室内场景3D重建项目,利用AI技术从视觉数据生成高质量的三维网格模型。

  • Stars: ⭐️ 526
  • Tags: 3d-reconstruction generative-ai computer-vision mesh
  • 最后活动时间: 2026-02-09

handwritten-text-recognition-for-apache-mxnet

基于Apache MXNet的端到端手写文本识别神经网络训练框架,支持IAM数据集上的全页面手写识别。

  • Stars: ⭐️ 525
  • Tags: OCR Handwriting Recognition MXNet Deep Learning
  • 最后活动时间: 2026-02-05

Concerto

NeurIPS'25 论文官方仓库,提出联合2D-3D自监督学习方法,能够自主学习空间表征,适用于计算机视觉和3D理解任务。

  • Stars: ⭐️ 525
  • Tags: self-supervised-learning 3d-vision spatial-representation neurips
  • 最后活动时间: 2026-04-07

WiLoR

端到端的3D手部定位与重建模型,可在自然场景中实现高精度的手部姿态估计和3D重建。

  • Stars: ⭐️ 524
  • Tags: hand-pose 3d-reconstruction computer-vision deep-learning
  • 最后活动时间: 2026-04-07

DrivAerNet

大规模多模态汽车数据集,包含计算流体动力学仿真和深度学习基准。支持图神经网络和生成式AI进行气动性能预测与设计优化。

  • Stars: ⭐️ 522
  • Tags: deep-learning generative-ai graph-neural-networks cfd surrogate-models
  • 最后活动时间: 2026-05-14

DiffiT

ECCV 2024 论文官方实现,提出 Diffusion Vision Transformers 用于高质量图像生成,创新性地将扩散模型与视觉 Transformer 架构相结合。

  • Stars: ⭐️ 521
  • Tags: diffusion-model vision-transformer image-generation deep-learning
  • 最后活动时间: 2026-03-09

SOTS

单目标跟踪与分割项目,结合目标检测与语义分割技术,适用于视频分析场景。

  • Stars: ⭐️ 518
  • Tags: object-tracking segmentation computer-vision
  • 最后活动时间: 2026-04-14

XPretrain

多模态预训练框架,支持视觉与语言的联合表示学习。

  • Stars: ⭐️ 512
  • Tags: multimodal-learning pre-training deep-learning
  • 最后活动时间: 2026-03-27

SAM2-UNet

基于SAM2的强大编码器,用于自然图像和医学图像分割的U-Net架构,支持多种分割任务如伪装目标检测、息肉分割等。

  • Stars: ⭐️ 511
  • Tags: segment-anything-model medical-image-segmentation u-net computer-vision
  • 最后活动时间: 2026-01-16

visionary

基于WebGPU的高斯泼溅平台,支持3D/4D高斯泼溅、神经渲染和扩散模型的世界模型载体。

  • Stars: ⭐️ 509
  • Tags: gaussian-splatting webgpu neural-rendering diffusion-models computer-vision
  • 最后活动时间: 2026-04-17

DiffSplat

ICLR 2025论文官方实现,将图像扩散模型应用于可扩展的3D高斯溅射生成,实现高质量3D内容创建。

  • Stars: ⭐️ 508
  • Tags: diffusion-model 3d-generation gaussian-splatting image-to-3d
  • 最后活动时间: 2026-03-19

pixel3dmm

单图像3D人脸重建的官方实现,利用屏幕空间先验技术实现高保真面部3D模型生成。

  • Stars: ⭐️ 505
  • Tags: 3d-face-reconstruction computer-vision 3dmm face-tracking
  • 最后活动时间: 2026-01-12

visionworkbench

NASA开发的通用图像处理与计算机视觉库,用于自主系统和机器人研究。

  • Stars: ⭐️ 502
  • Tags: computer-vision nasa image-processing robotics
  • 最后活动时间: 2026-06-08

photo2pixel

将照片转换为像素风格(8-bit)艺术的算法实现,支持在线工具 photo2pixel.co。

  • Stars: ⭐️ 501
  • Tags: image-processing pixel-art pytorch style-transfer
  • 最后活动时间: 2026-05-07

IMAGHarmony

可控图像编辑框架,在复杂多对象编辑中保持对象数量和布局一致性,实现高保真连贯的图像生成。

  • Stars: ⭐️ 316
  • Tags: Image Editing Diffusion Controllable
  • 最后活动时间: 2026-03-24

Video Generation

Deep-Live-Cam

实时AI换脸工具,仅需单张图片即可实现一键视频深度伪造和实时摄像头换脸。

  • Stars: ⭐️ 93.7k
  • Tags: deepfake face-swap real-time video-generation gan
  • 最后活动时间: 2026-05-31

MoneyPrinterTurbo

利用AI大模型一键生成高清短视频的自动化工具,支持批量创作和多种视频风格。

  • Stars: ⭐️ 86.5k
  • Tags: AI视频生成 短视频 自动化
  • 最后活动时间: 2026-06-12

faceswap

开源深度学习换脸软件,支持多种模型和训练方式,适合学习和研究深度伪造技术。

  • Stars: ⭐️ 55.3k
  • Tags: 深度伪造 人脸替换 深度学习 视频处理
  • 最后活动时间: 2026-05-29

Open-Sora

开源视频生成模型,致力于让高效视频创作技术普及化,类似Sora的视频生成方案。

  • Stars: ⭐️ 28.9k
  • Tags: video-generation open-source ai sora
  • 最后活动时间: 2026-04-09

Pixelle-Video

AI全自动短视频生成引擎,支持从文本到视频的端到端创作。

  • Stars: ⭐️ 22.1k
  • Tags: video-generation aigc comfyui short-video
  • 最后活动时间: 2026-06-08

video2x

基于机器学习的视频超分辨率与帧插值框架,提升视频画质。

  • Stars: ⭐️ 20.0k
  • Tags: video-upscaling super-resolution machine-learning frame-interpolation
  • 最后活动时间: 2026-03-07

Wan2.1

阿里开源的大规模视频生成模型,支持高质量视频内容生成,是先进的AI视频生成解决方案。

  • Stars: ⭐️ 15.9k
  • Tags: Video Generation AIGC Open Source
  • 最后活动时间: 2026-03-05

Wan2.2

开源的大规模视频生成模型,支持高质量视频内容创作与生成。

  • Stars: ⭐️ 15.4k
  • Tags: Video Generation AIGC Open Source
  • 最后活动时间: 2026-03-17

Duix-Avatar

开源AI数字人工具包,支持离线视频生成与数字人克隆,适用于虚拟主播与内容创作场景。

  • Stars: ⭐️ 13.6k
  • Tags: ai-avatar digital-human video-generation open-source
  • 最后活动时间: 2026-04-21

MoneyPrinter

使用MoviePy自动化创建YouTube短视频,结合AI生成内容。

  • Stars: ⭐️ 13.5k
  • Tags: video-generation automation youtube moviepy ai-video
  • 最后活动时间: 2026-03-26

waoowaoo

工业级全流程AI影视生产平台,支持从短剧到真人实拍的好莱坞标准工作流,实现可控的视频内容生成。

  • Stars: ⭐️ 12.7k
  • Tags: ai-agent video-generation generative-ai film-production
  • 最后活动时间: 2026-06-10

huobao-drama

基于AI的一站式短剧生成平台,一句话即可生成完整短剧,实现从剧本到成片的全自动化流程。

  • Stars: ⭐️ 12.4k
  • Tags: video-generation ai-video drama-generator multimodal-ai
  • 最后活动时间: 2026-05-21

Open-Sora-Plan

开源复现OpenAI Sora视频生成模型的项目,旨在通过社区协作实现文本到视频的生成能力。

  • Stars: ⭐️ 12.2k
  • Tags: video-generation text-to-video sora open-source
  • 最后活动时间: 2026-03-08

waoowaoo

工业级全流程 AI 影视生产平台,支持从短视频到长片的可控视频生成与好莱坞标准工作流。

  • Stars: ⭐️ 12.0k
  • Tags: ai-agent video-generation generative-ai film-production
  • 最后活动时间: 2026-05-04

video-subtitle-remover

基于AI的视频/图片硬字幕和文本水印去除工具,本地运行无需第三方API,支持无损分辨率输出。

  • Stars: ⭐️ 11.4k
  • Tags: ai video-processing subtitle-removal deep-learning
  • 最后活动时间: 2026-04-11

LTX-Video

LTX-Video官方仓库,提供高质量的文本到视频生成能力。

  • Stars: ⭐️ 10.1k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-01-05

Toonflow-app

AI 短剧漫剧创作工具,自动将小说转化为剧本并生成图片和视频内容。

  • Stars: ⭐️ 9.9k
  • Tags: ai-video story-generation content-creation multimodal
  • 最后活动时间: 2026-06-08

NarratoAI

AI驱动的视频解说与剪辑工具,一键生成视频解说并自动完成剪辑处理。

  • Stars: ⭐️ 9.8k
  • Tags: Video AI Agent LLM Python
  • 最后活动时间: 2026-06-10

ViMax

智能体驱动的视频生成平台,集成导演、编剧、制片和视频生成全流程。

  • Stars: ⭐️ 9.8k
  • Tags: video-generation agentic-aigc ai-video
  • 最后活动时间: 2026-06-12

AI4Animation

Unity中基于AI的角色动画系统,利用计算机大脑让角色栩栩如生。

  • Stars: ⭐️ 8.7k
  • Tags: animation unity ai-animation game-development character-ai
  • 最后活动时间: 2026-04-17

LTX-2

LTX-2音频-视频生成模型的官方推理和LoRA训练工具包。

  • Stars: ⭐️ 7.0k
  • Tags: generative-ai video-generation audio-video
  • 最后活动时间: 2026-05-28

SkyReels-V2

无限长度电影生成模型,支持长视频内容的AI生成与创作。

  • Stars: ⭐️ 6.8k
  • Tags: video-generation generative-models film-generation
  • 最后活动时间: 2026-01-29

Awesome-Video-Diffusion

视频扩散模型的精选资源列表,涵盖视频生成、编辑及运动定制等前沿应用。

  • Stars: ⭐️ 5.7k
  • Tags: video-diffusion video-generation diffusion-models generative-ai
  • 最后活动时间: 2026-05-26

autoclip

AI驱动的智能视频剪辑工具,自动识别并提取视频高光片段,助力二创内容快速生成。

  • Stars: ⭐️ 5.6k
  • Tags: AI视频 自动剪辑 高光提取
  • 最后活动时间: 2026-06-03

mmaction2

OpenMMLab新一代视频理解工具箱,支持动作识别、时序动作检测、视频分类等任务。

  • Stars: ⭐️ 5.1k
  • Tags: action-recognition video-understanding deep-learning pytorch openmmlab
  • 最后活动时间: 2026-03-18

VideoCrafter

高质量视频扩散模型,旨在克服数据限制以生成高质量视频内容。

  • Stars: ⭐️ 5.1k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-01-09

aigcpanel

一站式 AI 数字人系统,支持视频合成、声音克隆、本地模型管理。

  • Stars: ⭐️ 5.0k
  • Tags: aigc digital-human video-synthesis voice-cloning
  • 最后活动时间: 2026-05-22

stable-diffusion-videos

利用Stable Diffusion探索潜在空间,在文本提示词之间实现平滑过渡,生成创意AI视频。

  • Stars: ⭐️ 4.7k
  • Tags: Stable Diffusion Video Generation AI Art
  • 最后活动时间: 2025-12-16

OpenMontage

全球首个开源智能体视频生产系统,包含11条流水线、49个工具和400+智能体技能,将AI编程助手转变为完整的视频制作工作室。

  • Stars: ⭐️ 4.7k
  • Tags: agentic-ai video-generation ffmpeg open-source python
  • 最后活动时间: 2026-05-07

HunyuanVideo-1.5

腾讯开源的领先轻量级视频生成模型,支持文本到视频和图像到视频的高质量生成。

  • Stars: ⭐️ 4.4k
  • Tags: text-to-video video-generation image-to-video generative-ai
  • 最后活动时间: 2026-04-10

vjepa2

Meta发布的视频自监督学习模型VJEPA2的PyTorch官方实现。

  • Stars: ⭐️ 4.1k
  • Tags: video self-supervised pytorch meta
  • 最后活动时间: 2026-03-23

short-video-factory

AI驱动的短视频批量生成工具,支持一键生成产品营销视频,跨平台桌面应用。

  • Stars: ⭐️ 4.1k
  • Tags: AI视频 短视频 自动剪辑
  • 最后活动时间: 2026-06-04

lingbot-world

推进开源世界模型发展的项目,专注于视频生成与AIGC。

  • Stars: ⭐️ 3.8k
  • Tags: world-models video-generation aigc
  • 最后活动时间: 2026-05-22

Jellyfish

一站式AI短剧生产工具,从剧本输入到AI视频生成、后期剪辑、一键导出成片全流程覆盖。

  • Stars: ⭐️ 3.8k
  • Tags: ai-video short-drama video-generation ai-production
  • 最后活动时间: 2026-04-20

moyin-creator

AI影视生产级工具,支持Seedance 2.0,实现从剧本到成片的全流程批量化生产。

  • Stars: ⭐️ 3.6k
  • Tags: 视频生成 影视制作 AI工具
  • 最后活动时间: 2026-05-25

pytorchvideo

Meta开源的视频理解深度学习库,提供视频分类、检测等预训练模型。

  • Stars: ⭐️ 3.6k
  • Tags: video-understanding pytorch deep-learning computer-vision
  • 最后活动时间: 2026-05-05

flownet2-pytorch

FlowNet 2.0 PyTorch实现,用于深度学习光流估计。

  • Stars: ⭐️ 3.3k
  • Tags: optical-flow computer-vision flownet
  • 最后活动时间: 2026-03-30

SysMocap

面向3D虚拟角色的实时动作捕捉系统,支持AR应用和VTuber动画制作。

  • Stars: ⭐️ 3.1k
  • Tags: motion-capture vtuber augmented-reality 3d-animation
  • 最后活动时间: 2026-06-10

FireRed-OpenStoryline

AI视频编辑智能体,通过自然语言交互和LLM驱动的规划,实现意图驱动的导演式创作体验。

  • Stars: ⭐️ 2.9k
  • Tags: Video Editing LLM LangChain
  • 最后活动时间: 2026-05-07

HunyuanWorld-1.0

混元3D世界模型,从文本或像素生成沉浸式、可探索的交互3D世界。

  • Stars: ⭐️ 2.8k
  • Tags: world-model text-to-3d scene-generation hunyuan3d
  • 最后活动时间: 2026-04-15

VideoPipe

跨平台视频结构化分析框架,支持目标检测、人脸识别、行为分析等多种AI能力。

  • Stars: ⭐️ 2.8k
  • Tags: Video Analysis Computer Vision DeepStream
  • 最后活动时间: 2026-02-25

GeminiWatermarkTool

VEO和Gemini Nano视频生成模型的水印维护工具,支持CLI和GUI界面操作。

  • Stars: ⭐️ 2.6k
  • Tags: gemini veo3 watermark video-generation
  • 最后活动时间: 2026-05-28

ArcReel

AI Agent 驱动的开源视频生成工作台,支持从小说到视频的全流程自动化,实现跨镜头角色与场景一致性。

  • Stars: ⭐️ 2.5k
  • Tags: ai-video-generator ai-agent storyboard video-generation veo
  • 最后活动时间: 2026-06-12

ComfyUI-SeedVR2_VideoUpscaler

ComfyUI官方SeedVR2视频超分辨率节点,支持AI驱动的视频画质增强。

  • Stars: ⭐️ 2.5k
  • Tags: comfyui video-upscaling ai-upscaler
  • 最后活动时间: 2025-12-24

ttt-video-dit

测试时训练实现一分钟视频生成,官方PyTorch实现。

  • Stars: ⭐️ 2.4k
  • Tags: video-generation test-time-training diffusion
  • 最后活动时间: 2026-02-25

HY-Motion-1.0

用于3D人体动作和角色动画生成的AI模型,支持高质量运动合成。

  • Stars: ⭐️ 2.4k
  • Tags: 3d-motion character-animation human-motion deep-learning
  • 最后活动时间: 2026-05-25

LightX2V

轻量级图像到视频生成推理框架,支持自回归扩散模型和多种视频生成模型的高效推理部署。

  • Stars: ⭐️ 2.3k
  • Tags: Video Generation Diffusion Inference Framework
  • 最后活动时间: 2026-05-28

InternVideo

视频基础模型与多模态理解研究项目,支持动作识别、视频检索、问答等任务。

  • Stars: ⭐️ 2.3k
  • Tags: video-understanding multimodal foundation-models video-retrieval
  • 最后活动时间: 2026-05-26

HY-World-2.0

多模态世界模型,能够重建、生成和模拟3D世界,支持场景理解和物理仿真。

  • Stars: ⭐️ 2.2k
  • Tags: world-model 3d-generation multimodal simulation
  • 最后活动时间: 2026-05-27

Matrix-Game

开源的实时流式交互世界模型,支持长视频生成和交互式视频应用。

  • Stars: ⭐️ 2.2k
  • Tags: World Model Video Generation Interactive
  • 最后活动时间: 2026-03-30

REAL-Video-Enhancer

基于AI的视频增强工具,支持插帧、超分辨率、去噪和压缩修复,使用Real-ESRGAN和RIFE等模型。

  • Stars: ⭐️ 2.1k
  • Tags: video-enhancement upscaling interpolation real-esrgan rife
  • 最后活动时间: 2026-06-12

lyra

ICLR 2026论文,通过视频扩散模型自蒸馏实现3D场景重建。

  • Stars: ⭐️ 2.1k
  • Tags: 3d-reconstruction video-diffusion generative-model
  • 最后活动时间: 2026-06-11

VideoX-Fun

灵活的视频生成框架,支持任意分辨率视频生成及图像到视频转换。

  • Stars: ⭐️ 2.0k
  • Tags: Video Generation Image-to-Video AI Framework
  • 最后活动时间: 2026-04-24

kimodo

NVIDIA官方运动扩散模型,专注于生成高质量的人形角色动作序列。

  • Stars: ⭐️ 2.0k
  • Tags: 运动生成 扩散模型 角色动画
  • 最后活动时间: 2026-04-15

Anime4KCPP

基于CNN的高性能动漫视频超分辨率放大工具,支持GPU加速和多种视频处理框架插件。

  • Stars: ⭐️ 2.0k
  • Tags: Upscaling CNN Video Processing
  • 最后活动时间: 2026-06-07

videoeditor

AI驱动的视频编辑创意助手,基于React和Remotion构建的开源视频编辑器。

  • Stars: ⭐️ 2.0k
  • Tags: video-editor video-editing ai react remotion typescript
  • 最后活动时间: 2026-05-27

tapnet

任意点追踪(TAP)深度学习模型,用于计算机视觉中的视频点跟踪任务。

  • Stars: ⭐️ 1.9k
  • Tags: point-tracking computer-vision deep-learning video
  • 最后活动时间: 2026-03-30

awesome-talking-head-generation

数字人说话头像生成技术资源合集,涵盖人脸重演、图像动画、运动迁移等前沿方向。

  • Stars: ⭐️ 1.9k
  • Tags: talking-head face-reenactment image-animation motion-transfer deep-learning
  • 最后活动时间: 2026-04-27

ai4animationpy

基于神经网络的AI驱动角色动画框架,支持智能生成角色动作与运动序列。

  • Stars: ⭐️ 1.9k
  • Tags: animation neural-networks character-animation deep-learning
  • 最后活动时间: 2026-05-28

seedance-prompt-skill

Seedance 2.0视频生成提示词技能,帮助用户快速生成高质量AI视频提示词。

  • Stars: ⭐️ 1.9k
  • Tags: video-generation prompt-engineering seedance ai-video
  • 最后活动时间: 2026-02-12

awesome-seedance

Seedance 2.0 AI视频生成资源的精选合集,包含高质量提示词、API指南和高级视频生成工作流程。

  • Stars: ⭐️ 1.8k
  • Tags: ai video-generation seedance prompt-engineering
  • 最后活动时间: 2026-05-28

HunyuanVideo-I2V

腾讯混元推出的可定制图像到视频生成模型,基于扩散模型实现高质量视频生成,支持将静态图像转换为动态视频。

  • Stars: ⭐️ 1.8k
  • Tags: Image-to-Video Diffusion Models Tencent
  • 最后活动时间: 2026-04-07

Code2Video

通过代码自动生成视频的工具,结合多智能体技术实现视频内容的自动化创作。

  • Stars: ⭐️ 1.8k
  • Tags: Video Generation Multi-Agent Education
  • 最后活动时间: 2026-05-01

clipsketch-ai

将视频片段转化为手绘风格故事的AI工具,支持视频到艺术画作的智能转换。

  • Stars: ⭐️ 1.7k
  • Tags: video-to-image sketch style-transfer video-processing
  • 最后活动时间: 2026-01-14

Auto-Synced-Translated-Dubs

自动翻译视频字幕并利用AI语音服务生成同步配音的工具,结合翻译、TTS与字幕时间轴同步技术实现一键视频配音。

  • Stars: ⭐️ 1.7k
  • Tags: 视频配音 TTS 字幕翻译
  • 最后活动时间: 2026-05-11

Helios

北大团队开源的实时长视频生成模型,支持文本/图像/视频到视频生成,具备世界模拟能力。

  • Stars: ⭐️ 1.7k
  • Tags: 视频生成 扩散模型 世界模型
  • 最后活动时间: 2026-04-16

SystemAnimatorOnline

基于AI的全身动作捕捉和扩展现实(XR)解决方案,支持VTuber和WebXR应用。

  • Stars: ⭐️ 1.7k
  • Tags: motion-capture mediapipe tensorflowjs threejs vtuber webxr
  • 最后活动时间: 2026-04-13

LTX-Desktop

开源桌面应用,用于使用LTX模型生成视频,支持非线性编辑功能。

  • Stars: ⭐️ 1.6k
  • Tags: video-generation generative-ai ltx desktop-app
  • 最后活动时间: 2026-04-27

stable-virtual-camera

基于扩散模型的新视角合成生成模型,实现高质量视角生成。

  • Stars: ⭐️ 1.6k
  • Tags: diffusion-model novel-view-synthesis generative-ai
  • 最后活动时间: 2026-03-03

HunyuanWorld-Voyager

交互式RGBD视频生成模型,支持相机输入条件下的实时3D重建。

  • Stars: ⭐️ 1.6k
  • Tags: world-model image-to-video 3d-generation hunyuan3d
  • 最后活动时间: 2026-04-15

video-search-and-summarization

大规模视频检索与摘要蓝图,支持实时或存档视频的智能分析、摘要生成和交互式问答,结合LLM、RAG和VLM技术。

  • Stars: ⭐️ 1.5k
  • Tags: video-search video-summarization rag vlm llm
  • 最后活动时间: 2026-06-12

Video-Materials-AutoGEN-Workstation

集成内容策划、AI文案生成、TTS配音、图片合成、ASR字幕提取于一体的短视频生成工作站。

  • Stars: ⭐️ 1.5k
  • Tags: video-generation tts ai-content asr
  • 最后活动时间: 2026-06-02

HY-WorldPlay

交互式世界建模系统框架,支持实时延迟和几何一致性的3D世界生成。

  • Stars: ⭐️ 1.5k
  • Tags: world-model 3d-generation hunyuan image-to-3d
  • 最后活动时间: 2026-04-15

Awesome-Talking-Head-Synthesis

数字人说话头像生成领域的精选资源合集,涵盖音频驱动的人脸合成、论文及实现方法。

  • Stars: ⭐️ 1.5k
  • Tags: talking-head audio-driven face-synthesis video-generation
  • 最后活动时间: 2026-05-20

deep-printfilm

AI驱动的短剧与动态漫画生成平台,提供工业级视频创作工作台。

  • Stars: ⭐️ 1.5k
  • Tags: ai video-generation motion-comic
  • 最后活动时间: 2026-05-07

claude-code-video-toolkit

AI原生视频生产工具包,集成Claude Code、ElevenLabs、Qwen-TTS等,支持程序化视频编辑与生成。

  • Stars: ⭐️ 1.4k
  • Tags: ai-video-generator claude-code video-production text-to-speech remotion
  • 最后活动时间: 2026-06-10

MotionBERT

ICCV 2023论文实现,用于学习人体运动表示的统一框架,支持3D姿态估计、骨骼动作识别等任务。

  • Stars: ⭐️ 1.4k
  • Tags: motion-analysis 3d-pose-estimation transformer computer-vision
  • 最后活动时间: 2026-03-14

VideoClaw

AI 全自动化视频生成智能体,通过对话即可生成完整视频作品。

  • Stars: ⭐️ 1.4k
  • Tags: video-generation aigc multi-agent tts image-generation
  • 最后活动时间: 2026-06-11

PhysGaussian

CVPR 2024 Highlight项目,将物理模拟集成到3D高斯表示中,实现生成式动态场景建模。

  • Stars: ⭐️ 1.4k
  • Tags: 3d-gaussian-splatting physics-simulation generative-ai computer-vision neural-rendering
  • 最后活动时间: 2026-01-21

DepthFlow

基于深度估计的图像转3D视差视频工具,可将静态图片转换为沉浸式动态效果。

  • Stars: ⭐️ 1.4k
  • Tags: depth-estimation parallax image-to-video 3d-effect
  • 最后活动时间: 2026-04-13

vid2avatar

CVPR 2023 论文,通过自监督场景分解技术从野外视频中重建高质量3D人体化身。

  • Stars: ⭐️ 1.3k
  • Tags: 3d-avatar human-reconstruction self-supervised cvpr2023
  • 最后活动时间: 2025-12-17

Seedance2-Storyboard-Generator

基于Seedance 2.0的AI剧本生成工具,可将小说故事一键转化为多集视频剧本。帮助创作者快速制作短剧内容。

  • Stars: ⭐️ 1.3k
  • Tags: video-generation storyboard ai-script
  • 最后活动时间: 2026-05-22

awesome-seedance-2-prompts

Seedance 2.0视频生成提示词精选合集,包含500+电影、动漫、UGC、广告等风格提示词及API使用指南。

  • Stars: ⭐️ 1.3k
  • Tags: ai-video video-generation prompt-engineering seedance
  • 最后活动时间: 2026-06-12

MagicTime

基于扩散模型的延时视频生成模型,能够模拟物体随时间变化的形态演变。

  • Stars: ⭐️ 1.3k
  • Tags: text-to-video diffusion-models video-generation
  • 最后活动时间: 2026-04-14

narrator-ai-cli-skill

AI 视频解说技能封装,支持 Claude/Codex 等工具调用,可自动生成短视频解说内容。

  • Stars: ⭐️ 1.3k
  • Tags: claude-code-skill ai-video narration agent-skills
  • 最后活动时间: 2026-06-03

VideoChat

实时交互数字人系统,支持自定义形象与音色、语音克隆,对话延迟低至3秒,集成ASR、TTS、唇形同步等多模态能力。

  • Stars: ⭐️ 1.3k
  • Tags: digital-human multimodal tts asr lip-sync real-time llm
  • 最后活动时间: 2025-12-18

Tora

CVPR2025论文,面向轨迹的视频生成Diffusion Transformer,实现精确运动控制。

  • Stars: ⭐️ 1.2k
  • Tags: video-generation diffusion-transformer trajectory-control
  • 最后活动时间: 2026-04-14

StableAvatar

首个端到端视频扩散Transformer,可生成无限长度的高质量音频驱动虚拟人视频。

  • Stars: ⭐️ 1.2k
  • Tags: video-generation diffusion avatar transformer
  • 最后活动时间: 2026-01-20

ai-moive-studio

AI电影生成工作流Agent,输入剧本即可自动完成分镜生成、画面与音频素材生成、视频合成全流程,让个人创作者也能制作电影级作品。

  • Stars: ⭐️ 1.2k
  • Tags: AI视频 电影生成 工作流Agent
  • 最后活动时间: 2026-04-06

BigBanana-AI-Director

工业级 AI 短剧/漫剧导演平台,实现从剧本到成片的全自动化生产,精准控制角色一致性与镜头运动。

  • Stars: ⭐️ 1.2k
  • Tags: ai-video ai-short-drama ai-comic video-generation
  • 最后活动时间: 2026-04-15

EvTexture

ICML 2024 & TPAMI 2026 论文实现,利用事件相机驱动视频超分辨率纹理增强,显著提升视频质量。

  • Stars: ⭐️ 1.2k
  • Tags: video-super-resolution event-camera pytorch computational-photography
  • 最后活动时间: 2026-06-11

handcrafted-persona-engine

AI 驱动的交互式虚拟形象引擎,集成 Live2D、LLM、ASR、TTS 和 RVC,适合 VTuber 和虚拟助手应用。

  • Stars: ⭐️ 1.2k
  • Tags: ai-vtuber live2d avatar tts asr
  • 最后活动时间: 2026-04-23

seedance2-skill

专为 Seedance 2.0 视频生成模型设计的提示词技能库,帮助用户创建高质量的视频生成提示词。

  • Stars: ⭐️ 1.2k
  • Tags: prompt video-generation seedance ai-video
  • 最后活动时间: 2026-02-18

capcut-mate

开源剪映自动化工具包,支持生成和下载草稿文件,可作为Coze插件使用。

  • Stars: ⭐️ 1.2k
  • Tags: capcut video-automation coze jianying
  • 最后活动时间: 2026-06-12

SoulX-LiveAct

实时人体动画生成推理代码,支持小时级别动画生成。

  • Stars: ⭐️ 1.1k
  • Tags: human-animation video-generation real-time
  • 最后活动时间: 2026-05-27

cosmos-predict2.5

NVIDIA Cosmos 世界基础模型,专注于通过视频形式模拟和预测世界未来状态。

  • Stars: ⭐️ 1.1k
  • Tags: world-models video-generation foundational-models
  • 最后活动时间: 2026-04-17

OC_SORT

CVPR2023多目标跟踪算法,对遮挡和非线性运动具有强鲁棒性,简单高效的在线跟踪方案。

  • Stars: ⭐️ 1.1k
  • Tags: object-tracking computer-vision deep-learning tracking
  • 最后活动时间: 2026-04-21

torchcodec

PyTorch媒体编解码库,提供视频和音频的解码与编码功能。

  • Stars: ⭐️ 1.1k
  • Tags: pytorch video audio codec media-processing
  • 最后活动时间: 2026-05-27

video-podcast-maker

AI驱动的视频播客创作工具,支持Bilibili和YouTube平台,集成6种TTS引擎,支持中英双语及4K Remotion渲染。

  • Stars: ⭐️ 1.0k
  • Tags: ai-video tts video-podcast remotion claude-code-skill
  • 最后活动时间: 2026-05-23

bmf

字节跳动开源的跨平台多媒体处理框架,支持GPU加速、AI推理、转码和直播视频流处理。

  • Stars: ⭐️ 1.0k
  • Tags: 视频处理 AI推理 跨平台
  • 最后活动时间: 2026-03-19

MOVA

面向可扩展的同步视频-音频生成模型,基于扩散模型实现高质量多模态内容生成。

  • Stars: ⭐️ 1.0k
  • Tags: Video Generation Audio Generation Multimodal
  • 最后活动时间: 2026-05-06

hamer

基于Transformer的3D手部重建模型,实现高精度手部姿态估计与重建。

  • Stars: ⭐️ 1.0k
  • Tags: 3d-reconstruction hand-pose transformer computer-vision
  • 最后活动时间: 2026-02-07

segment-anything-video

MetaSeg是Segment Anything的封装版本,支持视频目标分割,集成YOLO系列检测器。

  • Stars: ⭐️ 983
  • Tags: segment-anything video-segmentation object-detection yolo
  • 最后活动时间: 2026-06-08

StoryToolkitAI

AI驱动的视频编辑工具,集成ChatGPT实现转录、内容理解和智能搜索功能。

  • Stars: ⭐️ 974
  • Tags: ai chatgpt video-processing speech-recognition editing
  • 最后活动时间: 2026-05-08

SCAIL

CVPR 2026论文,通过上下文学习实现工作室级别的角色动画生成。

  • Stars: ⭐️ 972
  • Tags: character-animation video-generation in-context-learning pose-estimation
  • 最后活动时间: 2026-05-06

SpaTrackerV2

ICCV 2025论文,简化高效的3D点追踪方法,适用于视频理解和重建任务。

  • Stars: ⭐️ 960
  • Tags: 3d-tracking point-tracking computer-vision video-understanding
  • 最后活动时间: 2026-02-27

brainrot.js

文本转视频生成器,可将任意主题转化为流行风格的短视频内容。支持多种个性化风格,适合快速创作教育或娱乐内容。

  • Stars: ⭐️ 955
  • Tags: Text-to-Video ChatGPT Content Generation
  • 最后活动时间: 2026-04-25

EGVSR

高效通用的视频超分辨率框架,支持实时视频增强处理。

  • Stars: ⭐️ 951
  • Tags: video-super-resolution real-time video-enhancement
  • 最后活动时间: 2026-03-25

generative-manim

基于GPT的视频生成工具,利用Manim将文本提示转换为动画视频,支持Streamlit界面。

  • Stars: ⭐️ 875
  • Tags: gpt-4 manim video-generation animation streamlit
  • 最后活动时间: 2026-05-30

JoyVASA

基于扩散模型的人物与动物动画生成工具,支持音频驱动的说话头像生成。

  • Stars: ⭐️ 870
  • Tags: audio-driven talking-head portrait-animation diffusion
  • 最后活动时间: 2026-04-16

ai-fusion-video

基于Agent的全流程AI短剧/漫剧/视频创作平台,支持自动化视频内容生成。

  • Stars: ⭐️ 864
  • Tags: video-generation agents automation creative
  • 最后活动时间: 2026-06-12

ConsisID

CVPR 2025 Highlight项目,通过频率分解实现身份保持的文本到视频生成。

  • Stars: ⭐️ 837
  • Tags: Text-to-Video Identity Preserving Diffusion
  • 最后活动时间: 2026-04-14

4DNeX

前馈式4D生成建模框架,简化4D内容生成流程。

  • Stars: ⭐️ 835
  • Tags: 4d-generation generative-model 3d-dynamic
  • 最后活动时间: 2025-12-14

ai_story

AI视频、动漫、短剧自动化生成工具,支持AI漫剧内容创作。

  • Stars: ⭐️ 825
  • Tags: ai-video ai-animation video-generation ai-storytelling
  • 最后活动时间: 2026-05-25

DiT-Extrapolation

视频扩散Transformer的长度外推方法,支持长视频生成和位置嵌入优化。

  • Stars: ⭐️ 809
  • Tags: diffusion-transformer video-generation position-embedding
  • 最后活动时间: 2026-03-08

VideoWorld

CVPR 2025 论文项目,一种从无标注视频中学习的生成模型,模拟婴儿通过观察环境学习的方式。

  • Stars: ⭐️ 790
  • Tags: video-generation generative-model self-supervised-learning cvpr2025
  • 最后活动时间: 2026-02-25

LongSplat

ICCV 2025论文实现,针对长视频的鲁棒3D高斯泼溅重建方法。

  • Stars: ⭐️ 788
  • Tags: 3d-gaussian-splatting 3d-reconstruction computer-vision
  • 最后活动时间: 2026-01-19

kandinsky-5

Kandinsky 5.0 扩散模型,支持高质量的视频与图像生成。

  • Stars: ⭐️ 749
  • Tags: diffusion text-to-video image-generation
  • 最后活动时间: 2026-03-31

Text-To-Video-AI

利用AI技术实现文本到视频生成的工具集合。

  • Stars: ⭐️ 749
  • Tags: text-to-video ai-video-generator video-generation
  • 最后活动时间: 2026-02-05

Causal-Forcing

自回归扩散蒸馏方案,实现高质量实时交互式视频生成。

  • Stars: ⭐️ 719
  • Tags: diffusion-models video-generation autoregressive
  • 最后活动时间: 2026-05-26

YumCut

免费AI视频生成器,可将文本提示转换为适合TikTok、Reels和YouTube Shorts的竖屏视频。支持自动脚本、场景、配音、字幕生成,本地优先且支持多语言输出。

  • Stars: ⭐️ 717
  • Tags: ai-video-generator shorts tiktok ffmpeg nextjs
  • 最后活动时间: 2026-05-19

comfy_mtb

面向动画制作的ComfyUI节点扩展包,支持人脸替换和插值功能。

  • Stars: ⭐️ 710
  • Tags: comfyui animation faceswap stable-diffusion
  • 最后活动时间: 2026-03-19

MoCha

端到端视频角色替换系统,无需结构引导即可实现高质量视频人物替换。

  • Stars: ⭐️ 701
  • Tags: Video Character Replacement End-to-End
  • 最后活动时间: 2026-03-02

ComfyUI_Yvann-Nodes

ComfyUI音频响应节点插件,支持创建AI生成的音频驱动动画,让静态图像随音乐节奏律动。

  • Stars: ⭐️ 694
  • Tags: comfyui audio-reactive video-generation animation
  • 最后活动时间: 2026-02-21

SparkVSR

基于稀疏关键帧传播的交互式视频超分辨率工具,利用AI实现高质量视频增强和修复。

  • Stars: ⭐️ 675
  • Tags: video-super-resolution generative-ai video-processing vlm
  • 最后活动时间: 2026-05-26

Sparse-VideoGen

通过稀疏注意力机制加速视频扩散Transformer的创新方法,显著提升视频生成效率。ICML 2025和NeurIPS 2025 Spotlight论文。

  • Stars: ⭐️ 672
  • Tags: Video Generation Diffusion Model Sparse Attention Efficient ML
  • 最后活动时间: 2026-03-06

infinite-zoom-automatic1111-webui

AUTOMATIC1111 WebUI的无限缩放效果扩展,支持文生视频创作。

  • Stars: ⭐️ 670
  • Tags: stable-diffusion automatic1111 infinite-zoom animation
  • 最后活动时间: 2026-02-08

VisoMaster-Fusion

强大易用的视频人脸替换与编辑软件,支持AI驱动的面部交换和视频处理功能。

  • Stars: ⭐️ 666
  • Tags: face-swap computer-vision video-editing deepfake
  • 最后活动时间: 2026-06-11

forge-film

基于DAG驱动的多模型并行AI电影生成引擎,利用关键路径法(CPM)实现场景并行调度,大幅提升生成效率。

  • Stars: ⭐️ 657
  • Tags: ai-video-generation text-to-video dag-scheduling multi-modal
  • 最后活动时间: 2026-03-26

mpv-upscale-2x_animejanai

基于 Real-ESRGAN 模型的实时动漫视频超分辨率工具,可在 mpv 播放器中将动漫视频实时放大至 4K。

  • Stars: ⭐️ 652
  • Tags: real-esrgan super-resolution anime-upscaling tensorrt video
  • 最后活动时间: 2026-04-18

YUME

基于世界模型的实时交互式视频生成系统官方代码。

  • Stars: ⭐️ 652
  • Tags: world-model text-to-video interactive-generation
  • 最后活动时间: 2026-01-14

DreamID-V

基于扩散Transformer的高保真视频换脸方法,实现图像到视频的跨模态生成。

  • Stars: ⭐️ 642
  • Tags: face-swapping diffusion-transformer video-generation
  • 最后活动时间: 2026-05-22

pose2sim

基于任意摄像头的无标记运动捕捉系统,从2D姿态估计到3D OpenSim运动学分析。

  • Stars: ⭐️ 635
  • Tags: pose-estimation motion-capture 3d-kinematics biomechanics
  • 最后活动时间: 2026-05-27

vidi

Vidi 大型多模态模型官方仓库,专注于视频理解与编辑任务。

  • Stars: ⭐️ 633
  • Tags: video-understanding video-editing multimodal-llm
  • 最后活动时间: 2026-03-04

Diffuman4D

ICCV 2025论文实现,利用时空扩散模型从稀疏视角视频生成4D一致性人体视图合成。

  • Stars: ⭐️ 610
  • Tags: 4d-synthesis diffusion human-avatar novel-view-synthesis
  • 最后活动时间: 2026-04-10

sleap

多动物姿态追踪深度学习框架,支持行为分析和姿态估计,广泛应用于神经科学和动物行为研究。

  • Stars: ⭐️ 588
  • Tags: pose-estimation deep-learning animal-tracking computer-vision
  • 最后活动时间: 2026-05-29

DigiHuman

使用姿态估计和地标生成技术实现3D角色自动动画化。

  • Stars: ⭐️ 571
  • Tags: 3d-animation pose-estimation digital-human unity
  • 最后活动时间: 2026-05-05

Magic-TryOn

基于大规模视频扩散Transformer的视频虚拟试穿框架,支持高质量服装替换与视频编辑。

  • Stars: ⭐️ 548
  • Tags: virtual-tryon video-diffusion transformer video-editing
  • 最后活动时间: 2026-04-30

streamv2v

StreamV2V官方PyTorch实现,支持流式视频到视频转换,适用于实时视频编辑和生成场景。

  • Stars: ⭐️ 540
  • Tags: video-generation video-to-video streaming pytorch
  • 最后活动时间: 2025-12-29

ffmpeg-sidecar

FFmpeg Rust封装库,提供直观的迭代器接口,简化视频音频处理流程,适用于多模态AI系统的媒体预处理与后处理。

  • Stars: ⭐️ 529
  • Tags: ffmpeg video-processing audio-processing rust
  • 最后活动时间: 2026-05-02

AlayaRenderer

面向游戏与虚拟世界的AI原生渲染引擎,基于扩散模型实现神经渲染和视频生成。

  • Stars: ⭐️ 507
  • Tags: neural-rendering diffusion-model video-generation game-rendering ai-renderer
  • 最后活动时间: 2026-05-05

Open-OmniVCus

NeurIPS 2025论文,支持多模态控制条件的主体驱动视频定制。

  • Stars: ⭐️ 505
  • Tags: video-generation diffusion-models customization
  • 最后活动时间: 2026-01-03

未分类 (Others)

mediapipe

Google开源的跨平台机器学习框架,提供人脸检测、手势识别、姿态估计等实时ML解决方案,支持多平台部署。

  • Stars: ⭐️ 35.6k
  • Tags: 计算机视觉 机器学习 跨平台
  • 最后活动时间: 2026-06-12

sharp

高性能Node.js图像处理库,适用于多模态AI图像预处理

  • Stars: ⭐️ 32.3k
  • Tags: image-processing nodejs performance
  • 最后活动时间: 2026-06-11

moondream

轻量级视觉语言模型,专为边缘设备优化部署设计。

  • Stars: ⭐️ 9.6k
  • Tags: VLM Tiny Model Edge AI
  • 最后活动时间: 2026-04-20

minimind-v

1小时从零训练26M参数视觉多模态VLM的轻量级框架,适合快速入门和学习VLM架构原理。

  • Stars: ⭐️ 8.1k
  • Tags: VLM 多模态 训练框架
  • 最后活动时间: 2026-05-19

GLM-OCR

基于GLM的高精度OCR模型,支持快速全面的文字识别能力。

  • Stars: ⭐️ 6.9k
  • Tags: ocr glm image-to-text deep-learning
  • 最后活动时间: 2026-04-21

pytesseract

Google Tesseract OCR的Python封装库,提供强大的光学字符识别能力,支持多种语言和图片格式。

  • Stars: ⭐️ 6.3k
  • Tags: ocr tesseract computer-vision python
  • 最后活动时间: 2026-05-25

Bagel

开源统一多模态模型,支持多种模态的理解与生成任务。

  • Stars: ⭐️ 6.0k
  • Tags: Multimodal Model Open Source Unified Model
  • 最后活动时间: 2026-05-04

PySceneDetect

基于OpenCV的视频场景检测工具,自动识别视频中的转场与切割点。

  • Stars: ⭐️ 4.9k
  • Tags: video-processing scene-detection opencv
  • 最后活动时间: 2026-06-09

LightGlue

ICCV 2023论文实现,轻量级局部特征匹配模型,实现高速图像匹配与姿态估计。

  • Stars: ⭐️ 4.6k
  • Tags: Image Matching Computer Vision Deep Learning
  • 最后活动时间: 2026-02-18

VILA

NVIDIA推出的前沿视觉语言模型家族,支持边缘设备、数据中心和云端的多模态AI任务。

  • Stars: ⭐️ 3.8k
  • Tags: vision-language-model multimodal vlm
  • 最后活动时间: 2026-03-12

OpenSfM

开源的三维重建流水线库,用于从图像序列中恢复相机位姿和三维结构。

  • Stars: ⭐️ 3.8k
  • Tags: sfm 3d-reconstruction photogrammetry
  • 最后活动时间: 2026-06-12

TransUNet

医学图像分割Transformer模型,将Transformer作为编码器用于医学影像分析。

  • Stars: ⭐️ 3.2k
  • Tags: medical-imaging segmentation transformer
  • 最后活动时间: 2026-02-25

Pix2Text

开源Python工具,支持布局分析、表格、数学公式(LaTeX)和文字识别,输出Markdown格式。

  • Stars: ⭐️ 3.1k
  • Tags: ocr math-formula table-recognition markdown
  • 最后活动时间: 2026-02-07

Segment-and-Track-Anything

开源视频目标分割与跟踪工具,结合SAM和AOT实现交互式视频对象分割。

  • Stars: ⭐️ 3.1k
  • Tags: segment-anything video-segmentation object-tracking sam
  • 最后活动时间: 2026-03-13

pytorch-3dunet

基于PyTorch的3D U-Net模型,用于体数据语义分割,支持医学影像等应用。

  • Stars: ⭐️ 2.4k
  • Tags: 3d-segmentation unet pytorch volumetric-data
  • 最后活动时间: 2025-12-16

GLM-V

智谱GLM系列多模态推理模型,通过可扩展强化学习实现通用多模态推理能力。

  • Stars: ⭐️ 2.3k
  • Tags: vlm multimodal reasoning video-understanding
  • 最后活动时间: 2026-05-16

perception_models

最先进的图像与视频CLIP模型及多模态大语言模型集合。

  • Stars: ⭐️ 2.3k
  • Tags: multimodal clip vision-language llm
  • 最后活动时间: 2026-04-13

deepseek-ocr.rs

Rust多后端OCR/VLM引擎,支持DeepSeek-OCR、PaddleOCR-VL等模型,提供OpenAI兼容服务器和CLI,无需Python即可本地运行。

  • Stars: ⭐️ 2.2k
  • Tags: ocr vlm deepseek rust openai-compatible
  • 最后活动时间: 2026-02-21

RAE

扩散Transformer与表示自编码器的官方PyTorch实现,用于高质量图像生成。

  • Stars: ⭐️ 1.9k
  • Tags: diffusion transformer autoencoder
  • 最后活动时间: 2026-02-25

4D-Humans

基于Transformer的4D人体重建与跟踪方法,用于动态人体运动捕捉。

  • Stars: ⭐️ 1.6k
  • Tags: 3d-reconstruction human-pose transformer
  • 最后活动时间: 2026-02-07

HealthGPT

ICML 2025 Spotlight医学视觉语言模型,统一理解与生成能力。

  • Stars: ⭐️ 1.6k
  • Tags: Medical AI VLM Healthcare
  • 最后活动时间: 2026-05-07

PytorchOCR

基于PyTorch的OCR工具库,支持多种文字检测和识别算法,适用于文档数字化和场景文字识别。

  • Stars: ⭐️ 1.5k
  • Tags: ocr text-detection text-recognition pytorch
  • 最后活动时间: 2026-01-04

Retinexformer

ICCV 2023论文,基于Retinex理论的单阶段Transformer低光照图像增强方法。

  • Stars: ⭐️ 1.5k
  • Tags: low-light-enhancement transformer image-restoration
  • 最后活动时间: 2026-05-23

Ovis

新颖的多模态大语言模型架构,通过结构化设计实现视觉与文本嵌入对齐,支持Llama3和Qwen等主流模型。

  • Stars: ⭐️ 1.5k
  • Tags: Multimodal Vision-Language Model MLLM
  • 最后活动时间: 2026-02-11

Awesome_Think_With_Images

大型视觉语言模型(LVLM)视觉思维资源与论文清单,涵盖如何利用视觉信息进行复杂推理、规划和生成的研究综述。

  • Stars: ⭐️ 1.4k
  • Tags: large-vision-language-models multimodal-reasoning visual-reasoning LVLM
  • 最后活动时间: 2026-03-09

Rex-Omni

CVPR2026论文项目,基于下一帧点预测实现通用目标检测,结合MLLM实现开放集检测能力。

  • Stars: ⭐️ 1.4k
  • Tags: mllm object-detection open-set computer-vision
  • 最后活动时间: 2026-02-22

tr

离线中文文本检测与识别SDK,支持弯曲文本、CRNN、CTPN等多种技术。

  • Stars: ⭐️ 1.4k
  • Tags: ocr chinese offline text-recognition
  • 最后活动时间: 2026-01-12

transfusion-pytorch

MetaAI Transfusion模型PyTorch实现,单模型实现下一token预测与图像扩散。

  • Stars: ⭐️ 1.4k
  • Tags: multimodal transformers diffusion flow-matching
  • 最后活动时间: 2026-01-27

audio-flamingo

Audio Flamingo系列音频理解语言模型PyTorch实现,支持音频描述、问答和推理等多模态任务。

  • Stars: ⭐️ 1.1k
  • Tags: audio-language-models multimodal-llm audio-understanding pytorch
  • 最后活动时间: 2025-12-15

PointLLM

ECCV 2024最佳论文候选,赋能大语言模型理解3D点云数据的多模态模型。

  • Stars: ⭐️ 1.0k
  • Tags: Point Cloud Multimodal LLM 3D
  • 最后活动时间: 2026-05-15

superpoint_transformer

ICCV'23和3DV'24 Oral论文官方实现,用于高效3D语义分割和全景分割的超点Transformer。

  • Stars: ⭐️ 1.0k
  • Tags: 3d point-cloud semantic-segmentation transformer
  • 最后活动时间: 2026-04-21

MocapNET

实时3D人体姿态估计系统,从单目RGB图像直接生成BVH格式的动作捕捉数据,支持显著遮挡情况下的姿态恢复。

  • Stars: ⭐️ 940
  • Tags: Pose Estimation Computer Vision 3D Animation TensorFlow
  • 最后活动时间: 2026-04-23

Face-X

面部识别算法与操作演示集合,涵盖人脸检测、识别、动画等多种技术。

  • Stars: ⭐️ 848
  • Tags: face-recognition opencv deep-learning
  • 最后活动时间: 2026-02-15

MultimodalOCR

研究大型多模态模型中OCR能力的隐藏奥秘,提供OCRBench基准测试。

  • Stars: ⭐️ 844
  • Tags: OCR Multimodal Benchmark
  • 最后活动时间: 2026-05-20

handpose_x

手部21关键点检测与手势识别工具,支持二维手势姿态估计,适用于人机交互和手势控制场景。

  • Stars: ⭐️ 809
  • Tags: hand-pose gesture-recognition keypoint-detection pytorch
  • 最后活动时间: 2026-01-10

LLaVA-OneVision-1.5

完全开源的多模态训练框架,致力于降低VLM训练门槛,支持Qwen3等模型。

  • Stars: ⭐️ 806
  • Tags: LLaVA 多模态训练 开源框架
  • 最后活动时间: 2025-12-27

Hulu-Med

面向整体医学视觉语言理解的透明通用模型。

  • Stars: ⭐️ 736
  • Tags: medical-ai vision-language-model multimodal
  • 最后活动时间: 2026-05-25

OmniVinci

全模态大语言模型,支持视觉、音频和语言的联合理解。

  • Stars: ⭐️ 672
  • Tags: multimodal vision-language-model audio-language-model
  • 最后活动时间: 2026-02-26

VLM2Vec

ICLR 2025论文,训练视觉语言模型用于大规模多模态嵌入任务。

  • Stars: ⭐️ 655
  • Tags: embedding vision-language-model multimodal
  • 最后活动时间: 2026-05-25

Vision-DeepResearch

首个长周期多模态深度研究MLLM,支持数十轮推理和数百次搜索引擎交互。

  • Stars: ⭐️ 643
  • Tags: multimodal deep-research reasoning benchmark
  • 最后活动时间: 2026-06-08

Seg-Zero

基于认知强化学习的推理链引导分割方法,实现图像分割与推理的深度融合。

  • Stars: ⭐️ 629
  • Tags: segmentation reasoning reinforcement-learning multimodal
  • 最后活动时间: 2026-01-17

Multimodal-Toolkit

基于HuggingFace Transformers的多模态工具包,支持文本和表格数据的联合建模。

  • Stars: ⭐️ 620
  • Tags: multimodal-learning transformers tabular-data huggingface
  • 最后活动时间: 2026-05-04

mvdust3r

Meta Reality Labs开源的MV-DUSt3R实现,可在2秒内从稀疏视图完成单阶段场景重建,支持3D视觉与深度学习应用。

  • Stars: ⭐️ 587
  • Tags: 3d-reconstruction computer-vision deep-learning scene-understanding
  • 最后活动时间: 2026-04-20

Emotion-LLaMA

基于指令微调的多模态情感识别与推理模型,能够理解和分析图像中的情感表达。

  • Stars: ⭐️ 582
  • Tags: Emotion Recognition Multimodal LLM Instruction Tuning
  • 最后活动时间: 2026-05-15

molmo2

Molmo2是由Allen AI研究所开发的开源视觉-语言模型,支持图像理解、视觉问答等多模态任务,性能优异。

  • Stars: ⭐️ 553
  • Tags: vision-language-model multimodal open-source vlm
  • 最后活动时间: 2026-03-18

Senna

连接大型视觉语言模型与端到端自动驾驶的桥梁项目。

  • Stars: ⭐️ 552
  • Tags: autonomous-driving vision-language-model end-to-end
  • 最后活动时间: 2026-03-15

cambrian-s

面向视频空间超感知的视觉语言模型,实现视频场景的深度空间理解。

  • Stars: ⭐️ 546
  • Tags: 视频理解 空间感知 多模态
  • 最后活动时间: 2026-04-03

Robust-R1

AAAI 2026口头报告论文,实现退化感知推理的鲁棒视觉理解模型。

  • Stars: ⭐️ 531
  • Tags: multimodal robustness visual-understanding reasoning
  • 最后活动时间: 2026-01-20

GPT4Scene-and-VLN-R1

利用视觉语言模型从视频中理解3D场景的研究项目,结合VLN导航任务实现场景理解。

  • Stars: ⭐️ 524
  • Tags: vision-language-models 3d-scene-understanding video-understanding vln
  • 最后活动时间: 2026-03-02

MeViS

ICCV 2023 & TPAMI 2025 大规模视频分割基准数据集,支持运动表达的视频目标分割任务。

  • Stars: ⭐️ 524
  • Tags: video-segmentation multimodal benchmark referring-expression
  • 最后活动时间: 2026-01-08

opennsfw2

Yahoo Open-NSFW 模型的 Keras 实现,用于检测图像中的不雅内容,支持 TensorFlow2 和 JAX 后端。

  • Stars: ⭐️ 505
  • Tags: image-classification nsfw-detection keras tensorflow content-moderation
  • 最后活动时间: 2026-05-05

SD-VLM

NeurIPS 2025论文,探索深度编码视觉语言模型的空间测量与理解能力。

  • Stars: ⭐️ 503
  • Tags: NeurIPS 2025 空间理解 VLM
  • 最后活动时间: 2025-12-29