🧠 基础大模型

Core large language models and foundation models.

当前分类已收录 148 个相关项目。

Foundation Models

nucleotide-transformer

基因组学和转录组学基础模型，利用Transformer架构理解DNA序列，推动生物信息学AI应用。

Stars: ⭐️ 874
Tags: foundation-models genomics transformer deep-learning dna
最后活动时间: 2026-02-24

Model Architecture

transformers

Hugging Face官方深度学习模型框架，支持文本、视觉、音频和多模态模型的推理与训练，提供数千个预训练模型API。

Stars: ⭐️ 161.5k
Tags: PyTorch Transformers 预训练模型
最后活动时间: 2026-06-12

minimind

从零开始训练26M参数GPT模型的完整教程，仅需2小时即可完成。适合学习大模型底层原理的开发者。

Stars: ⭐️ 51.6k
Tags: large-language-model gpt training-from-scratch
最后活动时间: 2026-06-01

heretic

全自动LLM审查移除工具，通过abliteration技术解除语言模型的安全限制。适用于模型行为研究和安全测试场景。

Stars: ⭐️ 22.3k
Tags: LLM Abliteration Safety
最后活动时间: 2026-05-28

RWKV-LM

结合RNN和Transformer优势的创新架构，支持并行训练、线性时间复杂度、无限上下文长度，无需KV缓存。

Stars: ⭐️ 14.6k
Tags: RNN Transformer LLM
最后活动时间: 2026-06-08

OpenMythos

基于研究文献从第一性原理重构Claude模型架构的理论研究项目，探索注意力机制和Transformer架构。

Stars: ⭐️ 13.7k
Tags: claude attention transformers ml pytorch
最后活动时间: 2026-05-23

HRM

分层推理模型官方发布版本，专注于深度学习和类脑AI推理能力研究。探索大语言模型的高级推理架构。

Stars: ⭐️ 12.5k
Tags: Reasoning Deep Learning Research
最后活动时间: 2026-03-31

dinov3

Meta DINOv3官方PyTorch实现，先进的自监督视觉模型。

Stars: ⭐️ 10.7k
Tags: self-supervised vision-transformer pytorch
最后活动时间: 2026-06-03

TabPFN

面向表格数据的基础模型，可在几秒内完成分类任务，无需传统训练过程。

Stars: ⭐️ 7.3k
Tags: foundation-models tabular-data machine-learning
最后活动时间: 2026-06-11

x-transformers

简洁完整的Transformer实现，集成多篇论文的实验性特性，适合研究和开发使用。

Stars: ⭐️ 5.9k
Tags: transformers attention deep-learning pytorch
最后活动时间: 2026-06-08

flash-linear-attention

高效实现最先进的线性注意力模型，为大规模语言模型提供更高效的注意力机制。

Stars: ⭐️ 5.2k
Tags: linear-attention large-language-models transformers efficient-attention
最后活动时间: 2026-06-11

Engram

通过可扩展查找实现条件记忆，为大语言模型提供新的稀疏性维度。

Stars: ⭐️ 4.4k
Tags: llm-architecture memory sparse-models
最后活动时间: 2026-01-14

simpletransformers

基于 Hugging Face Transformers 的简化库，提供简洁 API 实现文本分类、NER、问答等 NLP 任务。

Stars: ⭐️ 4.2k
Tags: Transformers NLP Text Classification NER
最后活动时间: 2026-05-31

TransformerLens

专注于GPT风格大语言模型机制可解释性的研究库，支持神经元和注意力头的深入分析与可视化，助力理解模型内部工作原理。

Stars: ⭐️ 3.5k
Tags: interpretability transformer mechanistic
最后活动时间: 2026-05-28

LimiX

面向通用智能的结构化数据建模基础模型研究项目。

Stars: ⭐️ 3.4k
Tags: foundation-models structured-data machine-learning
最后活动时间: 2026-06-10

dllm

基于扩散机制的语言模型新范式，探索离散扩散在文本生成中的应用。

Stars: ⭐️ 2.6k
Tags: diffusion llm nlp
最后活动时间: 2026-06-12

DeepMatch

用于推荐系统和广告的深度匹配模型库，支持向量导出用于ANN搜索。

Stars: ⭐️ 2.4k
Tags: deep-learning recommendation matching collaborative-filtering
最后活动时间: 2026-04-18

xlstm

xLSTM官方仓库，扩展LSTM架构的新型深度学习模型，挑战Transformer架构的创新尝试。

Stars: ⭐️ 2.2k
Tags: deep-learning llm rnn nlp
最后活动时间: 2026-05-28

titans-pytorch

Titans架构的PyTorch实现，为Transformer提供SOTA长期记忆能力。

Stars: ⭐️ 2.0k
Tags: transformers memory deep-learning pytorch
最后活动时间: 2026-06-06

BitNet

BitNet论文的PyTorch实现，探索1-bit量化Transformer在大语言模型中的扩展能力，为模型压缩和高效推理提供创新方案。

Stars: ⭐️ 1.9k
Tags: artificial-intelligence deep-neural-networks transformers quantization pytorch
最后活动时间: 2026-04-27

TimeCapsuleLLM

一种仅使用特定时期数据训练的大语言模型，旨在减少现代偏见对模型的影响。

Stars: ⭐️ 1.9k
Tags: llm bias-reduction time-period
最后活动时间: 2026-06-11

symbolicai

神经符号化AI框架，将符号推理与LLMs结合，提供概率编程能力。

Stars: ⭐️ 1.7k
Tags: Neurosymbolic AI LLM Probabilistic Programming
最后活动时间: 2026-06-11

llm2vec

将大语言模型转化为强大文本编码器的论文代码实现。

Stars: ⭐️ 1.7k
Tags: llm text-encoder embeddings representation-learning
最后活动时间: 2026-04-04

MiniOneRec

OneRec生成式推荐系统的最小复现版本，探索大模型在推荐系统中的应用。

Stars: ⭐️ 1.6k
Tags: generative-recommendation llm recommender-system
最后活动时间: 2026-05-14

coconut

训练大语言模型在连续潜在空间中进行推理的研究项目。

Stars: ⭐️ 1.6k
Tags: latent-reasoning llm-research continuous-space
最后活动时间: 2026-06-10

mamba.py

简洁高效的Mamba状态空间模型实现，支持纯PyTorch和MLX框架，便于研究和应用。

Stars: ⭐️ 1.5k
Tags: mamba pytorch mlx state-space-model
最后活动时间: 2026-05-03

KBLaM

知识库增强语言模型的官方实现，将结构化知识融入大语言模型。

Stars: ⭐️ 1.4k
Tags: knowledge-base language-model rag augmented-lm
最后活动时间: 2026-04-20

MobileLLM

ICML 2024论文项目，专注于优化十亿参数以下的轻量级语言模型，适用于移动端和边缘设备部署。

Stars: ⭐️ 1.4k
Tags: llm mobile on-device optimization sub-billion
最后活动时间: 2026-04-30

bert4torch

优雅的PyTorch版Transformers实现，支持BERT、LLaMA、ChatGLM等主流模型，涵盖NLP各类任务如文本分类、命名实体识别、关系抽取等。

Stars: ⭐️ 1.3k
Tags: Transformers PyTorch NLP LLM
最后活动时间: 2026-05-16

e3nn

一个支持欧几里得对称性的模块化神经网络框架，专为处理几何深度学习任务而设计。

Stars: ⭐️ 1.3k
Tags: neural-network geometric-deep-learning euclidean-symmetry
最后活动时间: 2026-02-13

OLMo-core

OLMo生态系统的PyTorch核心构建模块，用于大语言模型开发。

Stars: ⭐️ 1.2k
Tags: pytorch llm olmo open-source transformers
最后活动时间: 2026-05-28

OpenTSLM

面向多变量医疗文本和时序数据推理的时间序列语言模型，支持医疗领域的复杂时序分析任务。

Stars: ⭐️ 1.2k
Tags: time-series medical-ai language-model healthcare
最后活动时间: 2026-05-05

fairseq2

Meta AI推出的序列建模工具包，fairseq继任者，支持训练和部署翻译、摘要等序列到序列模型。

Stars: ⭐️ 1.1k
Tags: PyTorch 序列建模 深度学习
最后活动时间: 2026-06-10

z80ai

极简2位量化语言模型，可在8位Z80处理器上运行，支持在复古计算机上进行对话交互。

Stars: ⭐️ 1.1k
Tags: tinyml quantization language-model retrocomputing
最后活动时间: 2026-04-29

tab-transformer-pytorch

TabTransformer的PyTorch实现，专为表格数据设计的注意力网络架构。

Stars: ⭐️ 1.1k
Tags: tabular-data transformer attention pytorch
最后活动时间: 2026-01-08

FlagGems

基于Triton语言实现的大语言模型算子库，提供高性能GPU内核优化。

Stars: ⭐️ 1.0k
Tags: triton llm kernels gpu
最后活动时间: 2026-06-12

marin

开源基础模型研究与开发框架，支持大语言模型的训练和实验。

Stars: ⭐️ 1.0k
Tags: foundation-models llm training-framework open-source
最后活动时间: 2026-05-29

turboquant-pytorch

Google TurboQuant的PyTorch实现，用于LLM KV缓存压缩，实现5倍压缩率和99.5%注意力保真度。

Stars: ⭐️ 1.0k
Tags: llm kv-cache compression pytorch quantization
最后活动时间: 2026-04-23

gated_attention

NeurIPS 2025 Oral论文官方实现，提出门控注意力机制，实现非线性、稀疏性和无注意力汇聚点，显著提升大语言模型性能。

Stars: ⭐️ 961
Tags: attention-mechanism large-language-models transformers neurips
最后活动时间: 2025-12-20

multiwoz

MultiWOZ端到端对话模型源码，支持多领域任务型对话系统。

Stars: ⭐️ 950
Tags: dialogue-system nlp seq2seq machine-learning
最后活动时间: 2026-04-18

recurrent-pretraining

大规模深度循环语言模型的预训练与推理代码，探索新型模型架构。

Stars: ⭐️ 888
Tags: pretraining recurrent-model llm-architecture reasoning
最后活动时间: 2025-12-29

DeepHypergraph

PyTorch图与超图神经网络计算库，支持复杂关系建模，适用于社交网络、推荐系统等场景。

Stars: ⭐️ 869
Tags: hypergraph graph-neural-networks pytorch deep-learning
最后活动时间: 2026-06-12

NEO

原生视觉语言模型系列，从第一性原理构建的编码器自由VLM架构。

Stars: ⭐️ 825
Tags: VLM Multimodal Native
最后活动时间: 2026-05-28

rotary-embedding-torch

RoFormer论文中旋转位置编码的PyTorch实现，提升Transformer位置表示能力。

Stars: ⭐️ 812
Tags: rotary-embedding positional-encoding transformers pytorch
最后活动时间: 2026-01-30

R-Zero

ICLR论文项目，实现从零数据开始的自进化推理大语言模型。

Stars: ⭐️ 806
Tags: llm reasoning self-evolving zero-data
最后活动时间: 2026-02-04

calm

连续自回归语言模型的官方实现，探索新型LLM架构的前沿研究项目。

Stars: ⭐️ 806
Tags: autoregressive language-model architecture research
最后活动时间: 2026-05-07

OpenOneRec

开源推荐系统基础模型与基准测试，加速生成式推荐领域发展。

Stars: ⭐️ 792
Tags: Recommendation Foundation Models Benchmark
最后活动时间: 2026-05-18

moment

开源时间序列基础模型家族，支持异常检测、分类、预测和插值任务(ICML'24)。

Stars: ⭐️ 769
Tags: time-series foundation-model transformers anomaly-detection
最后活动时间: 2026-02-10

levanter

基于JAX和命名张量的可扩展、可复现基础模型训练框架，提供清晰的模型架构实现。

Stars: ⭐️ 702
Tags: jax foundation-models deep-learning transformers
最后活动时间: 2026-01-26

progen

蛋白质生成模型的官方发布版本，用于蛋白质序列设计和生成。

Stars: ⭐️ 701
Tags: protein-generation language-model bioinformatics generative-ai
最后活动时间: 2026-06-02

recurrentgemma

基于Griffin架构的开源语言模型，结合循环神经网络实现高效推理。

Stars: ⭐️ 677
Tags: LLM Recurrent Griffin
最后活动时间: 2026-02-06

WeDLM

最快的扩散语言模型，采用标准因果注意力机制并原生支持KV缓存，相比vLLM优化基线实现真正的加速效果。

Stars: ⭐️ 644
Tags: diffusion-model language-model inference-optimization
最后活动时间: 2026-03-03

EBT

能量基Transformer的PyTorch实现，实现可泛化推理和可扩展学习。

Stars: ⭐️ 631
Tags: energy-based-model transformer reasoning deep-learning generative-ai
最后活动时间: 2026-04-21

GatedDeltaNet

ICLR 2025论文官方实现：门控Delta网络，使用Delta规则改进Mamba2架构。

Stars: ⭐️ 598
Tags: pytorch mamba transformers iclr2025 state-space-models
最后活动时间: 2026-03-13

zeta

使用模块化构建块创建高性能 AI 模型的框架。

Stars: ⭐️ 594
Tags: transformers pytorch llms attention
最后活动时间: 2026-05-19

Transformers.jl

Julia语言实现的Transformer模型库，基于Flux深度学习框架。

Stars: ⭐️ 572
Tags: transformer julia flux deep-learning
最后活动时间: 2026-06-11

CodeRL

NeurIPS 2022论文官方代码，通过预训练模型和深度强化学习掌握代码生成技术。

Stars: ⭐️ 571
Tags: code-generation reinforcement-learning language-model program-synthesis
最后活动时间: 2026-06-02

microgpt-c

纯C语言实现的最小化GPT训练与推理框架，零依赖，适合学习大模型底层原理。

Stars: ⭐️ 571
Tags: gpt llm deep-learning c machine-learning
最后活动时间: 2026-05-03

eb_jepa

联合嵌入预测架构(JEPA)开源实现库，提供图像、视频及动作条件视频的表征学习示例与规划模型。

Stars: ⭐️ 566
Tags: jepa representation-learning self-supervised vision
最后活动时间: 2026-04-15

CL-bench

上下文学习基准测试工具，用于评估大语言模型的上下文学习能力。

Stars: ⭐️ 556
Tags: benchmark context-learning language-model llm-evaluation
最后活动时间: 2026-05-12

recursive-llm

递归语言模型实现无界上下文处理，通过变量存储上下文处理10万+token。

Stars: ⭐️ 542
Tags: recursive long-context llm
最后活动时间: 2026-01-31

treequest

灵活API的树搜索库，专为LLM推理时扩展设计，支持多种搜索策略。

Stars: ⭐️ 536
Tags: tree-search llm-inference inference-scaling search-algorithms
最后活动时间: 2026-02-05

recursive-llm

递归语言模型实现无界上下文处理，通过变量存储上下文而非提示词处理10万+token。

Stars: ⭐️ 533
Tags: llm context recursive
最后活动时间: 2026-01-31

Open Source Models

FastChat

开源的大语言模型训练、服务和评估平台，Vicuna和Chatbot Arena的发布仓库。

Stars: ⭐️ 39.5k
Tags: llm chatbot vicuna training evaluation
最后活动时间: 2026-05-01

CLIP

OpenAI的对比语言-图像预训练模型，实现图像与文本的联合理解。

Stars: ⭐️ 33.8k
Tags: deep-learning multimodal clip openai
最后活动时间: 2026-03-25

Qwen3

阿里云通义千问团队开发的大型语言模型系列，支持多种任务和场景，是领先的开源大模型之一。

Stars: ⭐️ 27.3k
Tags: LLM Open Source Alibaba
最后活动时间: 2026-01-09

unilm

微软开源的大规模自监督预训练项目，涵盖多任务、多语言、多模态基础模型，包括BEiT、BitNet、Kosmos等前沿模型。

Stars: ⭐️ 22.1k
Tags: Foundation Models Multimodal Microsoft
最后活动时间: 2026-01-23

Qwen

阿里云通义千问官方大语言模型，支持中英双语及多模态能力。提供预训练和对话模型，广泛应用于自然语言处理任务。

Stars: ⭐️ 21.3k
Tags: LLM Alibaba Chinese
最后活动时间: 2026-03-05

timesfm

Google Research开发的时间序列基础模型，用于时间序列预测的预训练大模型。

Stars: ⭐️ 20.3k
Tags: time-series forecasting foundation-model google-research
最后活动时间: 2026-05-19

gpt-oss

OpenAI发布的开源权重语言模型，包含120B和20B两个版本。

Stars: ⭐️ 20.2k
Tags: open-source llm openai language-model
最后活动时间: 2026-06-09

Chinese-LLaMA-Alpaca

中文LLaMA和Alpaca大语言模型项目，支持本地CPU/GPU训练与部署，提供量化与LoRA微调方案。

Stars: ⭐️ 18.9k
Tags: Chinese LLM LLaMA LoRA
最后活动时间: 2026-04-19

llama-cookbook

Meta官方Llama模型开发指南，涵盖推理、微调、RAG等核心场景的端到端示例，是构建Llama应用的权威参考。

Stars: ⭐️ 18.3k
Tags: Llama 微调 RAG 教程
最后活动时间: 2026-05-19

NeMo

NVIDIA开源的生成式AI框架，支持大语言模型、多模态和语音AI的开发与训练。

Stars: ⭐️ 17.4k
Tags: LLM Multimodal Speech AI NVIDIA
最后活动时间: 2026-06-12

tfjs-models

TensorFlow.js预训练模型库，可在浏览器中直接运行的目标检测、姿态估计、文本分类等AI模型。

Stars: ⭐️ 14.8k
Tags: tensorflow-js pretrained-models browser-ai machine-learning
最后活动时间: 2026-05-27

PaddleFormers

基于飞桨框架的大语言模型库，提供丰富的预训练模型集合，支持多种主流LLM架构的快速部署与应用。

Stars: ⭐️ 13.0k
Tags: llm paddlepaddle pretrained-models transformers
最后活动时间: 2026-05-28

dinov2

Meta AI开源的自监督视觉模型，提供强大的视觉特征提取能力。

Stars: ⭐️ 12.9k
Tags: self-supervised-learning vision pytorch transformer
最后活动时间: 2026-04-08

MOSS

复旦大学开源的工具增强型对话语言模型，支持多轮对话和工具调用。

Stars: ⭐️ 12.1k
Tags: llm chatbot open-source dialogue-system
最后活动时间: 2026-05-27

Kimi-K2

月之暗面团队开发的大型语言模型系列，提供强大的中文理解与生成能力。

Stars: ⭐️ 10.8k
Tags: llm moonshot-ai kimi language-model chinese
最后活动时间: 2026-01-21

llama-cpp-python

llama.cpp的Python绑定库，支持在本地高效运行LLaMA等大语言模型，支持CPU/GPU推理。

Stars: ⭐️ 10.3k
Tags: llama llm inference python-bindings
最后活动时间: 2026-05-24

Chinese-BERT-wwm

中文BERT预训练模型，采用全词掩码技术优化中文NLP任务效果。

Stars: ⭐️ 10.2k
Tags: bert chinese-bert nlp pretrained-models pytorch
最后活动时间: 2026-04-19

models

ONNX格式预训练模型集合，提供多种最先进模型的开箱即用版本。

Stars: ⭐️ 9.7k
Tags: ONNX Pre-trained Models Deep Learning
最后活动时间: 2026-05-01

ChatRWKV

基于RWKV（100% RNN）语言模型的开源聊天机器人，类似ChatGPT的替代方案。

Stars: ⭐️ 9.5k
Tags: rwkv llm chatbot rnn open-source
最后活动时间: 2026-05-29

MiniCPM

面向端侧设备的超高效大语言模型，在推理任务上实现3倍以上的生成加速，适合移动端和边缘设备部署。

Stars: ⭐️ 9.4k
Tags: Edge AI Efficient LLM Mobile
最后活动时间: 2026-06-12

alphafold3

DeepMind AlphaFold 3蛋白质结构预测模型的推理管道，用于生物分子结构预测。

Stars: ⭐️ 8.1k
Tags: protein-folding biology deepmind structural-biology
最后活动时间: 2026-05-22

ERNIE

百度文心大模型4.5官方仓库，包含ERNIEKit工业级开发工具包，基于PaddlePaddle。

Stars: ⭐️ 7.7k
Tags: ERNIE LLM VLM PaddlePaddle
最后活动时间: 2026-01-04

Chinese-LLaMA-Alpaca-2

中文LLaMA-2和Alpaca-2大模型项目，支持64K超长上下文。专为中文优化，适合各类NLP任务。

Stars: ⭐️ 7.1k
Tags: 中文大模型 LLaMA-2 长上下文
最后活动时间: 2026-04-19

chronos-forecasting

基于预训练Transformer的时间序列预测模型，支持零样本预测能力，适用于多种时序预测场景。

Stars: ⭐️ 5.5k
Tags: Time Series Forecasting Foundation Models
最后活动时间: 2026-06-12

gemma

Google DeepMind开源的轻量级大语言模型库，提供高效且可商用的基础模型。

Stars: ⭐️ 5.3k
Tags: LLM Google DeepMind Open Source
最后活动时间: 2026-05-29

CodeGen

Salesforce开源的代码生成模型家族，TPU-v4训练，性能媲美OpenAI Codex。

Stars: ⭐️ 5.2k
Tags: Code Generation Program Synthesis TPU Open Source
最后活动时间: 2026-06-02

Huatuo-Llama-Med-Chinese

基于中文医学知识的大语言模型，专注于医疗问答与诊断辅助场景。

Stars: ⭐️ 5.0k
Tags: 医疗AI 中文LLM 指令微调
最后活动时间: 2026-04-14

GLM-4.5

智谱AI推出的新一代基础大模型，具备智能体、推理和编程(ARC)能力，采用MoE架构。

Stars: ⭐️ 4.4k
Tags: LLM MoE Agent Reasoning
最后活动时间: 2026-02-01

llama3-Chinese-chat

Llama3/Llama3.1中文后训练版，提供微调权重、训练推理教程及部署文档，助力中文大模型开发。

Stars: ⭐️ 4.2k
Tags: Llama3 中文微调 大语言模型
最后活动时间: 2026-02-21

Fengshenbang-LM

IDEA研究院开源的中文AIGC和认知智能大模型体系，提供多种预训练模型。

Stars: ⭐️ 4.1k
Tags: LLM AIGC Chinese
最后活动时间: 2026-06-08

nixtla

TimeGPT-1首个生产级时间序列基础模型，基于1000亿数据点训练，支持预测和异常检测。

Stars: ⭐️ 3.9k
Tags: Time Series Forecasting Foundation Model
最后活动时间: 2026-06-12

evo2

Arc Institute发布的基因组建模与设计大模型，覆盖所有生命领域，可用于基因组序列分析与生成。

Stars: ⭐️ 3.8k
Tags: genomics foundation-model biology AI-for-science
最后活动时间: 2026-03-20

Qwen3.6

阿里巴巴通义团队开发的大型语言模型系列，提供强大的文本生成和理解能力。

Stars: ⭐️ 3.5k
Tags: llm qwen language-model alibaba
最后活动时间: 2026-06-03

GLM-5

智谱AI开源的第五代大语言模型，专注于从代码生成到智能体工程的全栈AI能力。支持复杂推理、代码编写和自主智能体任务执行。

Stars: ⭐️ 3.4k
Tags: LLM Agentic AI Coding
最后活动时间: 2026-05-15

guppylm

一个约9M参数的小型语言模型，以小鱼的风格进行对话。轻量级开源LLM，适合学习和实验。

Stars: ⭐️ 3.2k
Tags: llm small-language-model open-source
最后活动时间: 2026-04-15

CodeT5

开源代码大语言模型，专注于代码理解与生成任务，支持多种编程语言。

Stars: ⭐️ 3.1k
Tags: Code LLM Open Source Code Generation
最后活动时间: 2026-06-02

Step-3.5-Flash

阶跃星辰推出的高效智能体模型，具备快速、精准的 Agentic Intelligence 能力。

Stars: ⭐️ 2.0k
Tags: LLM Agentic AI StepFun
最后活动时间: 2026-04-03

NitroGen

专为通用游戏智能体设计的基础模型，旨在提升游戏环境中的决策与交互能力。

Stars: ⭐️ 2.0k
Tags: Foundation Model Game AI Reinforcement Learning
最后活动时间: 2026-01-25

Chinese-LLaMA-Alpaca-3

基于Meta Llama 3开发的中文大语言模型，提供完整的预训练和指令微调模型，适合中文NLP任务。

Stars: ⭐️ 2.0k
Tags: Llama-3 Chinese LLM Open Source
最后活动时间: 2026-04-19

Magma

CVPR 2025 论文项目，一个用于多模态 AI 智能体的基础模型，支持复杂任务规划与执行。

Stars: ⭐️ 1.9k
Tags: Foundation Model Multimodal AI Autonomous Agents
最后活动时间: 2026-03-03

spacy-models

spaCy自然语言处理库的预训练统计模型集合。

Stars: ⭐️ 1.9k
Tags: spacy nlp models machine-learning
最后活动时间: 2026-03-20

history-llms

专注于训练历史领域大语言模型的信息中心，致力于构建最大规模的历史领域LLM。

Stars: ⭐️ 1.8k
Tags: llm history domain-specific training
最后活动时间: 2025-12-22

mattergen

微软开源的生成式AI模型，专注于无机材料设计，覆盖整个元素周期表，加速新材料发现。

Stars: ⭐️ 1.7k
Tags: 材料科学 生成模型 科学AI
最后活动时间: 2026-02-27

Chinese-XLNet

中文XLNet预训练模型，提供PyTorch和TensorFlow实现，适用于各类中文NLP任务。

Stars: ⭐️ 1.6k
Tags: xlnet chinese pretrained-model nlp
最后活动时间: 2026-04-19

bumblebee

Elixir语言的预训练神经网络模型库，集成Hugging Face模型，支持Transformer架构。

Stars: ⭐️ 1.6k
Tags: elixir pretrained-models hugging-face transformer nx
最后活动时间: 2026-05-18

scGPT

单细胞分析基础模型，将Transformer应用于生物信息学领域。

Stars: ⭐️ 1.6k
Tags: single-cell foundation-model bioinformatics llm
最后活动时间: 2026-04-29

Marco-o1

面向现实世界解决方案的开放大型推理模型。

Stars: ⭐️ 1.5k
Tags: llm reasoning-model open-source
最后活动时间: 2026-02-13

Emu3.5

Emu3.5 原生多模态模型，作为世界学习者探索通用智能。

Stars: ⭐️ 1.5k
Tags: multimodal-llm world-model foundation-model
最后活动时间: 2025-12-30

evo

从分子到基因组规模的生物学基础模型，能够预测和生成DNA、RNA和蛋白质序列。

Stars: ⭐️ 1.5k
Tags: Biology Genomics Foundation Model
最后活动时间: 2026-03-20

Chinese-ELECTRA

中文ELECTRA预训练模型，采用生成器-判别器架构，训练效率高于传统BERT。

Stars: ⭐️ 1.4k
Tags: electra chinese pretrained-model nlp
最后活动时间: 2026-04-19

Large-Time-Series-Model

ICML 2024论文官方代码，时间序列领域的大型生成预训练Transformer模型。

Stars: ⭐️ 985
Tags: time-series foundation-model transformer
最后活动时间: 2026-03-22

keras-hub

Keras 3官方预训练模型中心，支持JAX、TensorFlow、PyTorch后端，涵盖LLM、CV等多种模型。

Stars: ⭐️ 984
Tags: Keras 预训练模型 多后端
最后活动时间: 2026-06-10

Time-MoE

ICLR 2025 Spotlight论文官方实现，十亿级时间序列基础模型，采用混合专家架构。

Stars: ⭐️ 975
Tags: deep-learning foundation-models time-series mixture-of-experts
最后活动时间: 2026-03-21

tabicl

最先进的表格数据基础模型，为结构化数据提供强大的深度学习能力。

Stars: ⭐️ 952
Tags: deep-learning foundation-models tabular-data machine-learning
最后活动时间: 2026-06-08

cosmos-reason1

NVIDIA推出的物理常识推理模型，通过长链式思维推理理解物理世界并生成具身决策。

Stars: ⭐️ 950
Tags: embodied-ai reasoning nvidia multimodal
最后活动时间: 2026-06-07

MiniGPT-4-ZH

MiniGPT-4中文部署指南与翻译，完善了本地化部署细节。

Stars: ⭐️ 862
Tags: minigpt-4 deployment chinese
最后活动时间: 2026-05-09

Opus-MT

开源神经机器翻译模型和Web服务，支持多语言翻译。

Stars: ⭐️ 825
Tags: machine-translation nlp neural-machine-translation translation
最后活动时间: 2026-02-23

Intern-S1

面向科学领域的多模态基础模型，支持科学任务的视觉语言理解。

Stars: ⭐️ 803
Tags: scientific-ai multimodal-foundation-model open-source
最后活动时间: 2026-05-19

CodeGen

Meta AI Research的代码生成模型工具包，包含预训练模型和完整训练评估流程。

Stars: ⭐️ 774
Tags: code-generation llm facebook-research
最后活动时间: 2026-03-12

DNABERT

基于BERT架构的DNA序列预训练模型，将NLP技术应用于基因组分析，支持DNA序列分类和预测任务。

Stars: ⭐️ 757
Tags: Genomics Transformer Bio-AI
最后活动时间: 2026-01-22

openfold-3

基于AlphaFold3的完全开源生物分子结构预测模型，用于蛋白质和分子结构的高精度预测。

Stars: ⭐️ 739
Tags: alphafold protein-folding biomolecular deep-learning structural-biology
最后活动时间: 2026-05-27

xgen

Salesforce开源LLM系列，支持8K长上下文，适合长文本任务。

Stars: ⭐️ 727
Tags: salesforce long-context open-source llm
最后活动时间: 2026-06-02

MacBERT

改进的中文BERT预训练模型，采用掩码语言模型纠错策略，在多项中文NLP任务上表现优异。

Stars: ⭐️ 714
Tags: bert macbert chinese pretrained-model
最后活动时间: 2026-04-19

Falcon-Perception

Falcon-Perception 和 Falcon-OCR 模型的推理仓库，支持早期融合的原生多模态密集自回归 Transformer 模型。

Stars: ⭐️ 689
Tags: transformer multimodal ocr perception inference
最后活动时间: 2026-04-27

mlx-swift-lm

基于Apple MLX框架的Swift语言大语言模型和视觉语言模型实现。

Stars: ⭐️ 640
Tags: mlx swift llm vlm apple-silicon
最后活动时间: 2026-06-11

Open-dLLM

开源扩散语言模型，专注于代码生成任务。

Stars: ⭐️ 631
Tags: diffusion-models large-language-models code-generation
最后活动时间: 2026-05-31

Chinese-Mixtral

中文Mixtral混合专家大模型，支持32K/64K上下文，适用于长文本处理场景。

Stars: ⭐️ 613
Tags: mixtral moe chinese llm
最后活动时间: 2026-04-19

SaProt

基于结构字母表(AA+3Di)的蛋白质语言模型，融合FoldSeek结构信息实现结构感知的蛋白质序列表征学习。

Stars: ⭐️ 601
Tags: protein-language-model alphafold2 foldseek representation-learning
最后活动时间: 2026-03-08

legalbench

开放科学项目，用于评估基础模型在法律推理任务上的能力，涵盖多种法律场景。

Stars: ⭐️ 593
Tags: legal-ai llm-benchmark legal-reasoning foundation-models
最后活动时间: 2026-03-30

protein_bert

基于BERT架构的蛋白质序列预训练模型，用于蛋白质结构预测和功能分析。

Stars: ⭐️ 575
Tags: bert protein bioinformatics deep-learning transformers
最后活动时间: 2026-04-07

OpenLTM

大型时间序列模型的实现、预训练代码和数据集集合。

Stars: ⭐️ 545
Tags: deep-learning large-model time-series foundation-model
最后活动时间: 2026-03-22

MiniMax-M2.1

MiniMax 推出的 SOTA 大模型，专为实际开发和智能体应用优化。

Stars: ⭐️ 544
Tags: llm agent large-language-models ai-coding-models
最后活动时间: 2026-01-28

unitable

统一的表格基础模型，专注于表格结构识别与理解任务。

Stars: ⭐️ 527
Tags: foundation-model table-understanding document-ai
最后活动时间: 2026-04-21

Text Models

gpt4free

免费访问多种强大语言模型的集合，包括GPT、DeepSeek、Gemini等主流模型。

Stars: ⭐️ 66.3k
Tags: GPT Free API Language Models
最后活动时间: 2026-06-12

Qwen3-Coder

Qwen团队推出的代码专用大语言模型，专为编程任务优化。

Stars: ⭐️ 16.6k
Tags: Code-LLM Qwen Programming
最后活动时间: 2026-03-24

text-to-text-transfer-transformer

Google T5模型官方实现，探索迁移学习极限的统一文本到文本Transformer框架。

Stars: ⭐️ 6.5k
Tags: t5 transformer transfer-learning nlp
最后活动时间: 2026-01-14

Synonyms

中文近义词工具包，支持聊天机器人和智能问答系统。

Stars: ⭐️ 5.1k
Tags: nlp synonyms chatbot chinese-nlp
最后活动时间: 2026-02-01

Qwen3.5

Qwen团队开发的大语言模型系列，提供强大的文本生成与理解能力。

Stars: ⭐️ 3.1k
Tags: LLM Qwen Open-Source
最后活动时间: 2026-04-22

model2vec

快速高效的静态词嵌入模型，提供业界领先的嵌入质量和推理速度。

Stars: ⭐️ 2.1k
Tags: embeddings nlp sentence-transformers word-embeddings
最后活动时间: 2026-06-06

ModernBERT

现代化BERT架构升级，结合架构改进与规模扩展，提升嵌入表示能力。

Stars: ⭐️ 1.7k
Tags: bert embeddings nlp
最后活动时间: 2026-03-01

detoxify

基于PyTorch Lightning和Transformers构建的毒性评论检测模型，支持多种语言的仇恨言论和有害内容分类。

Stars: ⭐️ 1.3k
Tags: NLP Toxicity Detection BERT
最后活动时间: 2026-04-06

vec2text

将深度学习表示（如句子嵌入）解码回文本的工具库，支持嵌入向量的逆向还原。

Stars: ⭐️ 1.1k
Tags: embeddings nlp text-decoding sentence-embeddings
最后活动时间: 2025-12-27

HRM-Text

基于HRM架构的10亿参数文本生成模型，支持任务完成和潜在空间推理能力。

Stars: ⭐️ 879
Tags: large-language-models hierarchical-reasoning-model pretraining
最后活动时间: 2026-05-27

Bert-In-Relation-Extraction

基于BERT的中文实体关系抽取项目，用于从文本中识别和提取实体之间的语义关系。

Stars: ⭐️ 757
Tags: bert relation-extraction nlp chinese
最后活动时间: 2026-05-24

CodeFuse-Embeddings

CodeFuse团队推出的文本与代码嵌入模型研究项目，包含C2LLM、D2LLM、E2LLM、F2LLM、ML-Embed等多种嵌入模型。

Stars: ⭐️ 523
Tags: embeddings code-embeddings text-embeddings llm
最后活动时间: 2026-05-22

🧠 基础大模型 ​

Foundation Models ​

Model Architecture ​

Open Source Models ​

Text Models ​

🧠 基础大模型

Foundation Models

Model Architecture

Open Source Models

Text Models