LLM NLP llama SFT

【LLM】LLAMA-sft记录

"时间是金"

Posted by 王川 on June 6, 2023

一、背景目标

LLaMA是开源社区的主要研究模型，中文社区中LLaMA因为预训练阶段仅包含700个中文token导致中文预训练的匮乏，因此通常的做法是在LLaMA原生模型的基础上铜鼓哦扩充中文词表的方式做继续预训练。
基于中文继续预训练后得到的模型，可以参与后续SFT/RM/RL stage的训练。
目前中文继续预训练包括：崔一鸣的Chinese-LLaMA和封神榜的Ziya模型和Belle的13B-EXT
特殊的：在原生LLaMA7B的基础上直接做中英文的SFT，在中文和英文的评测中获得非常好的效果（选择题），即在跨语言的理解层面得到了很强的对齐效果。

– 关于子牙 –

没有提供预训练的学习率以及LR_Sceduler

二、下载

export http_proxy=http://10.22.139.49:6666
export https_proxy=http://10.22.139.49:6666

三、代码

基于Deepspeed-Chat进行多机多卡的训练

四、数据

2294 merged
1891 multiturn_chat
1199 t0_fs_noopt.jsonlnew
0884 search_jiaqi.txtnew
0762 firefly
0566 school_math
0393 instruct
0393 alpaca_data
0391 instinwild
0254 COIG_exam_instructions.jsonl
0197 HC3_Human
0191 HC3_Chinese_Human
0191 HC3_Chinese_ChatGPT
0173 alpaca_gpt4_data
0164 alpaca_gpt4
0047 COIG_leetcode_instructions.jsonl
0012 COIG_human_value_alignment_instructions_part1.jsonl