当前位置: 首页 > news >正文

哪类小网站容易做安徽建设厅网站证件查询

哪类小网站容易做,安徽建设厅网站证件查询,最专业网站建设哪家好,电子工程网如何删除帖子项目地址 #xff1a;https://github.com/billvsme/train_law_llm ✏️LLM微调上手项目 一步一步使用Colab训练法律LLM#xff0c;基于microsoft/phi-1_5 。通过本项目你可以0成本手动了解微调LLM。 nameColabDatasets自我认知lora-SFT微调train_self_cognition.ipynbsel… 项目地址 https://github.com/billvsme/train_law_llm ✏️LLM微调上手项目 一步一步使用Colab训练法律LLM基于microsoft/phi-1_5 。通过本项目你可以0成本手动了解微调LLM。 nameColabDatasets自我认知lora-SFT微调train_self_cognition.ipynbself_cognition.json法律问答lora-SFT微调train_law.ipynbDISC-LawLLM法律问答 全参数-SFT微调*train_law_full.ipynbDISC-LawLLM *如果是Colab Pro会员用户可以尝试全参数-SFT微调使用高内存T41000条数据大概需要20小时 目标 使用colab免费的T4显卡完成法律问答 指令监督微调(SFT) microsoft/phi-1_5 模型 自我认知微调 自我认知数据来源self_cognition.json 80条数据使用T4 lora微调phi-1_5几分钟就可以微调完毕 微调参数具体步骤详见colab python src/train_bash.py \--stage sft \--model_name_or_path microsoft/phi-1_5 \--do_train True\--finetuning_type lora \--template vanilla \--flash_attn False \--shift_attn False \--dataset_dir data \--dataset self_cognition \--cutoff_len 1024 \--learning_rate 2e-04 \--num_train_epochs 20.0 \--max_samples 1000 \--per_device_train_batch_size 6 \--per_device_eval_batch_size 6 \--gradient_accumulation_steps 1 \--lr_scheduler_type cosine \--max_grad_norm 1.0 \--logging_steps 5 \--save_steps 100 \--warmup_steps 0 \--neft_alpha 0 \--train_on_prompt False \--upcast_layernorm False \--lora_rank 8 \--lora_dropout 0.1 \--lora_target Wqkv \--resume_lora_training True \--output_dir saves/Phi1.5-1.3B/lora/my \--fp16 True \--plot_loss True效果 法律问答微调 法律问答数据来源DISC-LawLLM 为了减省显存使用deepspeed stage2cutoff_len可以最多到1792再多就要爆显存了 deepspeed配置 {train_batch_size: auto,train_micro_batch_size_per_gpu: auto,gradient_accumulation_steps: auto,gradient_clipping: auto,zero_allow_untested_optimizer: true,fp16: {enabled: auto,loss_scale: 0,initial_scale_power: 16,loss_scale_window: 1000,hysteresis: 2,min_loss_scale: 1},zero_optimization: {stage: 2,offload_optimizer: {device: cpu,pin_memory: true},allgather_partitions: true,allgather_bucket_size: 2e8,reduce_scatter: true,reduce_bucket_size: 2e8,overlap_comm: false,contiguous_gradients: true} }微调参数 1000条数据T4大概需要60分钟 deepspeed --num_gpus 1 --master_port9901 src/train_bash.py \--deepspeed ds_config.json \--stage sft \--model_name_or_path microsoft/phi-1_5 \--do_train True \--finetuning_type lora \--template vanilla \--flash_attn False \--shift_attn False \--dataset_dir data \--dataset self_cognition,law_sft_triplet \--cutoff_len 1792 \--learning_rate 2e-04 \--num_train_epochs 5.0 \--max_samples 1000 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 1 \--lr_scheduler_type cosine \--max_grad_norm 1.0 \--logging_steps 5 \--save_steps 1000 \--warmup_steps 0 \--neft_alpha 0 \--train_on_prompt False \--upcast_layernorm False \--lora_rank 8 \--lora_dropout 0.1 \--lora_target Wqkv \--resume_lora_training True \--output_dir saves/Phi1.5-1.3B/lora/law \--fp16 True \--plot_loss True全参微调 可以通过estimate_zero3_model_states_mem_needs_all_live查看deepspeed各个ZeRO stage 所需要的内存。 from transformers import AutoModel, AutoModelForCausalLM from deepspeed.runtime.zero.stage3 import estimate_zero3_model_states_mem_needs_all_livemodel_name microsoft/phi-1_5 model AutoModelForCausalLM.from_pretrained(model_name, trust_remote_codeTrue) estimate_zero3_model_states_mem_needs_all_live(model, num_gpus_per_node1, num_nodes1)如图所适 offload_optimizer - cpu 后microsoft/phi-1_5 需要32G内存colab高内存有52G可以满足需求。 deepspeed配置 {train_batch_size: auto,train_micro_batch_size_per_gpu: auto,gradient_accumulation_steps: auto,gradient_clipping: auto,zero_allow_untested_optimizer: true,fp16: {enabled: auto,loss_scale: 0,initial_scale_power: 16,loss_scale_window: 1000,hysteresis: 2,min_loss_scale: 1},zero_optimization: {stage: 2,offload_optimizer: {device: cpu,pin_memory: true},allgather_partitions: true,allgather_bucket_size: 2e8,reduce_scatter: true,reduce_bucket_size: 2e8,overlap_comm: false,contiguous_gradients: true} }deepspeed --num_gpus 1 --master_port9901 src/train_bash.py \--deepspeed ds_config.json \--stage sft \--model_name_or_path microsoft/phi-1_5 \--do_train True \--finetuning_type full \--template vanilla \--flash_attn False \--shift_attn False \--dataset_dir data \--dataset self_cognition,law_sft_triplet \--cutoff_len 1024 \--learning_rate 2e-04 \--num_train_epochs 10.0 \--max_samples 1000 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 1 \--lr_scheduler_type cosine \--max_grad_norm 1.0 \--logging_steps 5 \--save_steps 1000 \--warmup_steps 0 \--neft_alpha 0 \--train_on_prompt False \--upcast_layernorm False \--lora_rank 8 \--lora_dropout 0.1 \--lora_target Wqkv \--resume_lora_training True \--output_dir saves/Phi1.5-1.3B/lora/law_full \--fp16 True \--plot_loss True
http://www.sadfv.cn/news/68432/

相关文章:

  • 福建建设人才与科技发展中心网站如何做网站的关键词
  • 自己做直播网站网站建设与排名
  • 随便编一个公司网站做盗版视频网站
  • 网站开发工作 岗位怎么称呼建站必须要域名吗
  • 搭建一个网站湘潭网站建设 搜索磐石网络
  • 做地方网站赚钱吗wordpress 创建 rss
  • 无锡定制公司网站广州网页定制多少钱
  • 深圳自适应网站设计做校园网站的公司
  • 伍壹捌网站建设网页制作面试自我介绍
  • 自学手机网站开发视频推广平台有哪些
  • 诸暨哪些公司可以制作网站黄桃图片友情链接
  • seo网站优化推广怎么做上海优化seo公司
  • 给非法公司做网站维护公司邮箱怎么弄
  • 中国建设人才服务信息网官网网站seo优化综合服务公司哪家好
  • 软件平台开发公司seo排名优化工具
  • 海口网站开发师招聘淘宝官网首页入口
  • 网站制作相关知识腾讯云域名购买
  • wordpress网站设置关键词腾讯企点官网下载
  • 福建省建设局实名制网站品牌推广策略案例
  • 公司网站建设方案书怎么写lnmp wordpress 树莓派
  • 做网站和软件的团队网站怎么做充值系统
  • 建设网站花都区广平手机网站建设
  • 电影微网站开发网络营销导向型企业网站建设的原则
  • 山西省建设厅网站首页广西网站制作
  • 加强学科网站建设口碑好的扬州网站建设
  • 建站论坛内蒙古网站建设电话
  • 做蓝牙app的网站教育机构电商网站建设加盟
  • 深圳 网站建设公司网站建设捌金手指花总二七
  • 交换友情链接的网站标准是什么萧涵wordpress主题
  • 网站建设状态栏济南网站建设力推搜点网络ok