Skip to content

🧠 基础大模型

Core large language models and foundation models.

Model Architecture

transformers

Hugging Face官方深度学习模型框架,支持文本、视觉、音频和多模态模型的推理与训练,提供数千个预训练模型API。

  • Stars: ⭐️ 158.1k
  • Tags: PyTorch Transformers 预训练模型
  • 最后活动时间: 2026-03-20

simpletransformers

基于 Hugging Face Transformers 的简化库,提供简洁 API 实现文本分类、NER、问答等 NLP 任务。

  • Stars: ⭐️ 4.2k
  • Tags: Transformers NLP Text Classification NER
  • 最后活动时间: 2025-08-25

transformer-xl

Transformer-XL官方实现,突破固定上下文长度限制,支持超长依赖关系学习。

  • Stars: ⭐️ 3.7k
  • Tags: Transformer Language-Model NLP
  • 最后活动时间: 2022-09-21

LLaDA

大语言扩散模型的官方PyTorch实现,创新性地将扩散模型应用于语言建模领域。

  • Stars: ⭐️ 3.7k
  • Tags: Diffusion Models LLM PyTorch
  • 最后活动时间: 2025-11-12

TransformerLens

专注于GPT风格大语言模型机制可解释性的研究库,支持神经元和注意力头的深入分析与可视化,助力理解模型内部工作原理。

  • Stars: ⭐️ 3.2k
  • Tags: interpretability transformer mechanistic
  • 最后活动时间: 2026-03-20

Functionary

支持工具调用和结果解释的聊天语言模型,让 LLM 能够执行函数调用,是构建 AI 智能体的核心能力。

  • Stars: ⭐️ 1.6k
  • Tags: function-calling agents llm
  • 最后活动时间: 2025-12-03

fairseq2

Meta AI推出的序列建模工具包,fairseq继任者,支持训练和部署翻译、摘要等序列到序列模型。

  • Stars: ⭐️ 1.1k
  • Tags: PyTorch 序列建模 深度学习
  • 最后活动时间: 2026-03-20

OpenOneRec

开源推荐系统基础模型与基准测试,加速生成式推荐领域发展。

  • Stars: ⭐️ 678
  • Tags: Recommendation Foundation Models Benchmark
  • 最后活动时间: 2026-03-18

Open Source Models

DeepSeek-V3

DeepSeek推出的突破性混合专家(MoE)大语言模型,具备卓越性能表现,是国产开源大模型的重要里程碑。

  • Stars: ⭐️ 42.0k
  • Tags: LLM MoE DeepSeek
  • 最后活动时间: 2024-12-26

llama3

Meta官方发布的Llama 3大语言模型,目前最先进的开源基础模型之一,支持多种参数规模。

  • Stars: ⭐️ 29.3k
  • Tags: LLM Foundation Model Meta Open Source
  • 最后活动时间: 2025-01-26

llama-cookbook

Meta官方Llama模型开发指南,涵盖推理、微调、RAG等核心场景的端到端示例,是构建Llama应用的权威参考。

  • Stars: ⭐️ 18.3k
  • Tags: Llama 微调 RAG 教程
  • 最后活动时间: 2026-03-03

dolly

Databricks开源的指令跟随大语言模型,证明仅需少量高质量数据即可获得出色的对话能力。

  • Stars: ⭐️ 10.8k
  • Tags: LLM Instruction-Tuning Chatbot
  • 最后活动时间: 2023-06-30

GLM-4

智谱AI开源的GLM-4系列多语言多模态对话大模型,支持文本、图像等多种模态输入。

  • Stars: ⭐️ 7.1k
  • Tags: ChatGLM GLM-4 Multimodal LLM
  • 最后活动时间: 2025-07-04

llama3-Chinese-chat

Llama3/Llama3.1中文后训练版,提供微调权重、训练推理教程及部署文档,助力中文大模型开发。

  • Stars: ⭐️ 4.2k
  • Tags: Llama3 中文微调 大语言模型
  • 最后活动时间: 2026-02-21

nixtla

TimeGPT-1首个生产级时间序列基础模型,基于1000亿数据点训练,支持预测和异常检测。

  • Stars: ⭐️ 3.8k
  • Tags: Time Series Forecasting Foundation Model
  • 最后活动时间: 2026-03-20

CogVLM2

基于Llama3-8B的开源多模态大模型,性能对标GPT-4V,支持图像理解和视觉问答任务。

  • Stars: ⭐️ 2.4k
  • Tags: 多模态 Llama3 视觉语言模型
  • 最后活动时间: 2025-03-03

Chinese-LLaMA-Alpaca-3

基于Meta Llama 3开发的中文大语言模型,提供完整的预训练和指令微调模型,适合中文NLP任务。

  • Stars: ⭐️ 2.0k
  • Tags: Llama-3 Chinese LLM Open Source
  • 最后活动时间: 2024-09-23

CDial-GPT

大规模中文短文本对话数据集(LCCC)及预训练对话模型,为中文对话系统研究提供重要基础资源。

  • Stars: ⭐️ 1.9k
  • Tags: Dialogue Model Chinese NLP GPT Dataset
  • 最后活动时间: 2023-06-12

mattergen

微软开源的生成式AI模型,专注于无机材料设计,覆盖整个元素周期表,加速新材料发现。

  • Stars: ⭐️ 1.6k
  • Tags: 材料科学 生成模型 科学AI
  • 最后活动时间: 2026-02-27

Text Models

LongCite

使LLM能够在长上下文问答中生成细粒度引用的研究项目。提升长文本问答的可信度和可追溯性。

  • Stars: ⭐️ 519
  • Tags: LLM Citation Long-context QA
  • 最后活动时间: 2024-12-31