大语言模型框架
随着 ChatGPT 的出现,研究人员对大语言模型 (Large Language Model) 的关注不断增加,针对它的方方面面展开研究。目前已经形成一定的研究框架,本文对各个方向做一个简单汇总,方便理清不同工作的分类。
基础模型(Base Model)
基础模型泛指基于 Transformer 结构的预训练大模型,使用各种文本数据训练得到,通常参数量能达到十亿至千亿规模。根据其结构设计,可以分为 Only-Decoder,Only Encoder 和 Encoder-Decoder 系列。
Decoder 系列
- GPTs
Encoder 系列
- T5
Encoder-Decoder 系列
- GLM
特征(Features)
提示词(Prompts)
训练框架
数据并行
模型并行
- 流水线并行
- 数据并行
- 张量并行
适配器 (Adapter)
LoRA
AdaLoRA
模型参数
RoPE scaling
训练方式
Fine-tuning
In-context Learning
生成
生成策略
参考文献
https://ludwig.ai/latest/configuration/large_language_model/