关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露
日期:2023-07-12 14:39:35 / 人气:309
7月11日,根据Twitter博主Yam Peleg的推文,发布了一条关于GPT-4的技术信息,包括GPT-4的结构、参数编号、训练成本和训练数据集。
参数个数:GPT-4比GPT-3大10倍,估计参数个数约120层,1.8万亿。MoE架构:即专家混合架构。这部分信息已经得到证实。OpenAI通过使用MoE架构来维持一定的成本,包括16个专家,每个专家都是一个MLP.2,大约有1110亿个参数。每个前向传播被路由到这些专家。MoE路由:虽然公开的技术文档中提到了很多高级路由功能,包括如何为每个令牌选择每个专家等。但是现有的GPT-4实际上非常简单,这是关于为每个注意力共享550亿个参数的方式。推理:每次正向传播推理(生成一个令牌)需要2800亿个参数和560 TFLOPS,与纯密集模型形成鲜明对比,纯密集模型每次正向传输大约需要1.8万亿个参数和3700 TFLOPS。训练数据集:GPT-4在大约13万亿个令牌上进行训练。这不是指不同的令牌数,而是指根据历元计算使用的令牌数。基于文本的数据集在epoch中训练了两次,基于代码的数据集在epoch中训练了四次。GPT-4 32K:每个预训练阶段是8K长。32K的版本是经过8K预训练模型后微调的。批量大小:批量大小逐渐增加,在集群中达到一个值需要几天时间。最终OpenAI的批量达到了6000万!也就是说,每个专家大约有750万个代币,但并不是每个专家都能看到所有的代币。并行策略:由于NVLink的限制,OpenAI训练GPT-4做8路张量并行和15路流水线并行。训练费用:OpenAI训练的GPT-4的FLOPS大概是2.15e25,在25000台a100上训练时间大概是90-100天(MFU大概是32%到36%)。如果一架A100大约1美元,训练费用大约6300万美元(如果现在使用H100,可能只需要2150万美元)。MoE的选择:用了MoE之后,做了很多选择,包括推理的难度,因为每个模型都是用来生成文本的。这意味着生成时有些可以使用,有些闲置,对于使用来说是非常浪费的。研究表明,64-128名专家的损失比16名专家的损失要好。GPT-4的推理成本比戴维奇(GPT-3/3.5系列)的1750亿高3倍,主要是GPT-4的集群太大,利用率有点低。据估计,约1k令牌的成本为0.0049美元(128 A100)。moa:多问关注和大家一样,正常使用MOA。因为只需要一个头,显存大大减少,但是32K还是跑不了A100 40G。连续配料:OpenAI使用可变批量和连续浴法。推理成本和推理速度可以平衡。视觉多模态:GPT-4的多模态部分是具有交叉注意的单视觉编码器。1.8万亿GPT-4的参数扩展到2万亿左右。VisionModel是从零开始训练的,不够成熟。视觉部分的功能之一是让代理制作每月网页,然后转换成图片和视频。部分数据基于Latex和截屏训练。还有YouTube视频,包括whisper翻译的脚本和帧提取结果。推理架构:推理运行在128个GPU集群上,不同区域有不同的集群。每个节点有8个GPU,包括一个有1300亿个参数的模型。或者每个GPU小于30GB的FP16,小于15GB的FP8/int8。"

参数个数:GPT-4比GPT-3大10倍,估计参数个数约120层,1.8万亿。MoE架构:即专家混合架构。这部分信息已经得到证实。OpenAI通过使用MoE架构来维持一定的成本,包括16个专家,每个专家都是一个MLP.2,大约有1110亿个参数。每个前向传播被路由到这些专家。MoE路由:虽然公开的技术文档中提到了很多高级路由功能,包括如何为每个令牌选择每个专家等。但是现有的GPT-4实际上非常简单,这是关于为每个注意力共享550亿个参数的方式。推理:每次正向传播推理(生成一个令牌)需要2800亿个参数和560 TFLOPS,与纯密集模型形成鲜明对比,纯密集模型每次正向传输大约需要1.8万亿个参数和3700 TFLOPS。训练数据集:GPT-4在大约13万亿个令牌上进行训练。这不是指不同的令牌数,而是指根据历元计算使用的令牌数。基于文本的数据集在epoch中训练了两次,基于代码的数据集在epoch中训练了四次。GPT-4 32K:每个预训练阶段是8K长。32K的版本是经过8K预训练模型后微调的。批量大小:批量大小逐渐增加,在集群中达到一个值需要几天时间。最终OpenAI的批量达到了6000万!也就是说,每个专家大约有750万个代币,但并不是每个专家都能看到所有的代币。并行策略:由于NVLink的限制,OpenAI训练GPT-4做8路张量并行和15路流水线并行。训练费用:OpenAI训练的GPT-4的FLOPS大概是2.15e25,在25000台a100上训练时间大概是90-100天(MFU大概是32%到36%)。如果一架A100大约1美元,训练费用大约6300万美元(如果现在使用H100,可能只需要2150万美元)。MoE的选择:用了MoE之后,做了很多选择,包括推理的难度,因为每个模型都是用来生成文本的。这意味着生成时有些可以使用,有些闲置,对于使用来说是非常浪费的。研究表明,64-128名专家的损失比16名专家的损失要好。GPT-4的推理成本比戴维奇(GPT-3/3.5系列)的1750亿高3倍,主要是GPT-4的集群太大,利用率有点低。据估计,约1k令牌的成本为0.0049美元(128 A100)。moa:多问关注和大家一样,正常使用MOA。因为只需要一个头,显存大大减少,但是32K还是跑不了A100 40G。连续配料:OpenAI使用可变批量和连续浴法。推理成本和推理速度可以平衡。视觉多模态:GPT-4的多模态部分是具有交叉注意的单视觉编码器。1.8万亿GPT-4的参数扩展到2万亿左右。VisionModel是从零开始训练的,不够成熟。视觉部分的功能之一是让代理制作每月网页,然后转换成图片和视频。部分数据基于Latex和截屏训练。还有YouTube视频,包括whisper翻译的脚本和帧提取结果。推理架构:推理运行在128个GPU集群上,不同区域有不同的集群。每个节点有8个GPU,包括一个有1300亿个参数的模型。或者每个GPU小于30GB的FP16,小于15GB的FP8/int8。"
作者:银豹娱乐
新闻资讯 News
- 不一定要从零开始才有大的模型!07-12
- 微软正式推出Dev Box服务,帮助...07-12
- PixivFANBOX更新运营规则...07-12
- 关于GPT-4的参数数量、架构、...07-12