🧠 基础大模型
Core large language models and foundation models.
Model Architecture
transformers
Hugging Face官方深度学习模型框架,支持文本、视觉、音频和多模态模型的推理与训练,提供数千个预训练模型API。
- Stars: ⭐️ 158.1k
- Tags:
PyTorchTransformers预训练模型 - 最后活动时间: 2026-03-20
simpletransformers
基于 Hugging Face Transformers 的简化库,提供简洁 API 实现文本分类、NER、问答等 NLP 任务。
- Stars: ⭐️ 4.2k
- Tags:
TransformersNLPText ClassificationNER - 最后活动时间: 2025-08-25
transformer-xl
Transformer-XL官方实现,突破固定上下文长度限制,支持超长依赖关系学习。
- Stars: ⭐️ 3.7k
- Tags:
TransformerLanguage-ModelNLP - 最后活动时间: 2022-09-21
LLaDA
大语言扩散模型的官方PyTorch实现,创新性地将扩散模型应用于语言建模领域。
- Stars: ⭐️ 3.7k
- Tags:
Diffusion ModelsLLMPyTorch - 最后活动时间: 2025-11-12
TransformerLens
专注于GPT风格大语言模型机制可解释性的研究库,支持神经元和注意力头的深入分析与可视化,助力理解模型内部工作原理。
- Stars: ⭐️ 3.2k
- Tags:
interpretabilitytransformermechanistic - 最后活动时间: 2026-03-20
Functionary
支持工具调用和结果解释的聊天语言模型,让 LLM 能够执行函数调用,是构建 AI 智能体的核心能力。
- Stars: ⭐️ 1.6k
- Tags:
function-callingagentsllm - 最后活动时间: 2025-12-03
fairseq2
Meta AI推出的序列建模工具包,fairseq继任者,支持训练和部署翻译、摘要等序列到序列模型。
- Stars: ⭐️ 1.1k
- Tags:
PyTorch序列建模深度学习 - 最后活动时间: 2026-03-20
OpenOneRec
开源推荐系统基础模型与基准测试,加速生成式推荐领域发展。
- Stars: ⭐️ 678
- Tags:
RecommendationFoundation ModelsBenchmark - 最后活动时间: 2026-03-18
Open Source Models
DeepSeek-V3
DeepSeek推出的突破性混合专家(MoE)大语言模型,具备卓越性能表现,是国产开源大模型的重要里程碑。
- Stars: ⭐️ 42.0k
- Tags:
LLMMoEDeepSeek - 最后活动时间: 2024-12-26
llama3
Meta官方发布的Llama 3大语言模型,目前最先进的开源基础模型之一,支持多种参数规模。
- Stars: ⭐️ 29.3k
- Tags:
LLMFoundation ModelMetaOpen Source - 最后活动时间: 2025-01-26
llama-cookbook
Meta官方Llama模型开发指南,涵盖推理、微调、RAG等核心场景的端到端示例,是构建Llama应用的权威参考。
- Stars: ⭐️ 18.3k
- Tags:
Llama微调RAG教程 - 最后活动时间: 2026-03-03
dolly
Databricks开源的指令跟随大语言模型,证明仅需少量高质量数据即可获得出色的对话能力。
- Stars: ⭐️ 10.8k
- Tags:
LLMInstruction-TuningChatbot - 最后活动时间: 2023-06-30
GLM-4
智谱AI开源的GLM-4系列多语言多模态对话大模型,支持文本、图像等多种模态输入。
- Stars: ⭐️ 7.1k
- Tags:
ChatGLMGLM-4MultimodalLLM - 最后活动时间: 2025-07-04
llama3-Chinese-chat
Llama3/Llama3.1中文后训练版,提供微调权重、训练推理教程及部署文档,助力中文大模型开发。
- Stars: ⭐️ 4.2k
- Tags:
Llama3中文微调大语言模型 - 最后活动时间: 2026-02-21
nixtla
TimeGPT-1首个生产级时间序列基础模型,基于1000亿数据点训练,支持预测和异常检测。
- Stars: ⭐️ 3.8k
- Tags:
Time SeriesForecastingFoundation Model - 最后活动时间: 2026-03-20
CogVLM2
基于Llama3-8B的开源多模态大模型,性能对标GPT-4V,支持图像理解和视觉问答任务。
- Stars: ⭐️ 2.4k
- Tags:
多模态Llama3视觉语言模型 - 最后活动时间: 2025-03-03
Chinese-LLaMA-Alpaca-3
基于Meta Llama 3开发的中文大语言模型,提供完整的预训练和指令微调模型,适合中文NLP任务。
- Stars: ⭐️ 2.0k
- Tags:
Llama-3Chinese LLMOpen Source - 最后活动时间: 2024-09-23
CDial-GPT
大规模中文短文本对话数据集(LCCC)及预训练对话模型,为中文对话系统研究提供重要基础资源。
- Stars: ⭐️ 1.9k
- Tags:
Dialogue ModelChinese NLPGPTDataset - 最后活动时间: 2023-06-12
mattergen
微软开源的生成式AI模型,专注于无机材料设计,覆盖整个元素周期表,加速新材料发现。
- Stars: ⭐️ 1.6k
- Tags:
材料科学生成模型科学AI - 最后活动时间: 2026-02-27
Text Models
LongCite
使LLM能够在长上下文问答中生成细粒度引用的研究项目。提升长文本问答的可信度和可追溯性。
- Stars: ⭐️ 519
- Tags:
LLMCitationLong-contextQA - 最后活动时间: 2024-12-31
