Chuan Wang

Beihang University

多模态:Qwen-VL/Qwen-VL-Chat MultiNode Finetune Note

"时间是金"

背景 美团AI社交Wow APP已在LLM文本对话方面有稳定成果,为拓展更丰富更具吸引力的玩法,自研多模态能力的建设成为高优方向。 本文主要Focus 开源Qwen-VL以及Qwen-VL-Chat的多机多卡全参数微调。 实验报告 实验SOP 实验依赖官方的Code修改,使得能够在多机多卡运行,如8机8卡 共64卡运行。* git clone (code and model...

Moe Note

MoE 笔记 Illustration Mixtral MoE DeepSeek MoE 看了下设置还是有点非主流,跟Mistral-MOE差别比较大 激活参数量跟总参数量差别比较大 2.8B/16.4B,一般4倍左右 激活experts比例比较小 6/64,一般是1/4左右 没有做top k expert的weights normalization,一般都会做,让权重...

GPT generate output fix Note

"时间是金"

目的 为了让GPT在每次生成时都保持一致的结果,需要使用CUDNN的设置,仅使用torch.seed是不生效的。 code 1 2 3 4 5 6 os.environ["CUDA_LAUNCH_BLOCKING"] = "1" os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8" torch.use_deterministic_algorit...

GPT-probability of output Note

"时间是金"

discuss https://discuss.huggingface.co/t/announcement-generation-get-probabilities-for-generated-output/30075 color https://huggingface.co/spaces/joaogante/color-coded-text-generation generate ...

Flash-Attention Note

"时间是金"

https://zhuanlan.zhihu.com/p/626079753 Flash-Attention原理 FA与MHA在算法原理上无差异,FA是MHA的计算效率优化版,其核心在于通过拆分QKV矩阵与按行计算Softmax在SRAM上,通过内外双循环的方式将计算不断的从HBM读取到SRAM上计算再存在HBM上,从而充分加速运算效率,提高Attention的计算速度,这一切对于用户是...

MoE Mixture of Experts

"时间是金"

传言GPT4基于MoE架构,由16个Experts构成,每个Expert有220B参数 MoE 当谈到”Mixture of Experts”(MoE)时,通常是指一种在机器学习领域中使用的模型架构。Mixture of Experts是一种集成学习方法,它旨在将多个专家模型的预测结果结合在一起,以获得更好的整体预测性能。这种方法通常用于处理复杂的非线性问题,尤其在涉及多个子领域或子任务...

RMS Norm

"时间是金"

RMS Norm 在深度学习中,”RMS NORM”通常指的是”Root Mean Square Norm”,即”均方根范数”。它是一种用于计算张量(例如神经网络中的权重或梯度)范数的方法。范数是一个向量或矩阵的长度或大小度量,它可以帮助了解张量的重要性或稳定性,并在优化算法中用于控制参数更新的速度或幅度。 Root Mean Square Norm的计算过程如下: 计...

DeepSpeed ZeRo Stage的介绍

"时间是金"

deepspeed中,zero 1/2/3 的区别是什么? DeepSpeed是由微软开发的优化库,用于训练深度学习模型,旨在提高大规模分布式训练的性能和可扩展性。DeepSpeed的一个关键特性是Zero优化,专注于在分布式训练期间进行内存优化和减少通信开销。 DeepSpeed的Zero优化分为三个阶段:Zero1、Zero2和Zero3。每个阶段引入了额外的内存和通信优化。我们来详...

Activation SWIGLU的介绍

"时间是金"

https://zhuanlan.zhihu.com/p/621058772 activation functions SWISH(或称为SWIGLU)是一种激活函数,而GLU(Gated Linear Unit)、ReLU(Rectified Linear Unit)、Sigmoid和Tanh也都是深度学习中常见的激活函数。它们在神经网络中用于引入非线性性,使得模型可以学习复杂的非线性...

Loss

"时间是金"

** 训练过程中每个epoch结束时,loss会有明显下降的解释 ** https://github.com/huggingface/transformers/issues/18730