大语言模型框架

随着 ChatGPT 的出现,研究人员对大语言模型 (Large Language Model) 的关注不断增加,针对它的方方面面展开研究。目前已经形成一定的研究框架,本文对各个方向做一个简单汇总,方便理清不同工作的分类。

基础模型(Base Model)

基础模型泛指基于 Transformer 结构的预训练大模型,使用各种文本数据训练得到,通常参数量能达到十亿至千亿规模。根据其结构设计,可以分为 Only-Decoder,Only Encoder 和 Encoder-Decoder 系列。

Decoder 系列

  • GPTs

Encoder 系列

  • T5

Encoder-Decoder 系列

  • GLM

特征(Features)

提示词(Prompts)

训练框架

数据并行

模型并行

  • 流水线并行
  • 数据并行
  • 张量并行

适配器 (Adapter)

LoRA

AdaLoRA

模型参数

RoPE scaling

训练方式

Fine-tuning

In-context Learning

生成

生成策略

参考文献

https://ludwig.ai/latest/configuration/large_language_model/