Chuan Wang

Beihang University

【LLM】x-transformer 训练Speed UP!

"时间是金"

地址 https://github.com/lucidrains/x-transformers#flash-attention HBM 和 SRAM分别是什么? ChatGPT: 1 2 3 4 5 6 7 HBM和SRAM都是计算机内存类型,但它们在构造和用途上有很大的不同。 HBM是“High Bandwidth Memory”的缩写,它是一种3D堆叠内存技术,它将高速DRAM...

【LLM】chatGLM6B的不同版本

"时间是金"

背景 ChatGLM-6B 原版 介绍 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经...

【LLM】GLM论文解读

"时间是金"

论文标题:General Language Model Pretraining with Autoregressive Blank Infilling 一 预训练的范式 序号 类型 图示 介绍 代表性模型 点评 1 AutoEncoding ...

LLM 大模型工作

"时间是金"

Chuan & LLM 自去年11月OpenAI公布chatGPT以来,大模型持续被推到热度的顶点,我从研究生时期就持续保持对预训练大模型的研究与关注。 终于有一天,pretrain和RL再一次以Emergent Ability的方式涌现到大众眼前,基于A100的加持我也开展了大量的LLM工作。 这里对于LLM工作做简介以及demo做展示。 LLM 工作 175B参数...

LLM涌现能力《Are Emergent Abilities of Large Language Models a Mirage?》论文思考

"Code is cheap, show me the talk."

论文:Are Emergent Abilities of Large Language Models a Mirage? 论文地址:https://arxiv.org/pdf/2304.15004.pdf 思考 以往关于LLM涌现能力的具备与否,往往倾向于寻找一个模型参数量的临界值,例如但模型参数量大于65B后,模型具备涌现能力的潜质。上述言论是否过于直觉? 论文给出一个量化...