化州手机网站建设公司,正规网络推广平台,soapclient WordPress,网站的基本组成部分有哪些内容#x1f4a1; 这节课会带给你 如何选择 GPU 和云服务厂商#xff0c;追求最高性价比 如何部署自己 fine-tune 的模型#xff0c;向业务提供高可用推理服务 如何控制内容安全#xff0c;做好算法备案#xff0c;确保合规 开始上课#xff01; 硬件选型 当我们为模型训练及… 这节课会带给你 如何选择 GPU 和云服务厂商追求最高性价比 如何部署自己 fine-tune 的模型向业务提供高可用推理服务 如何控制内容安全做好算法备案确保合规 开始上课 硬件选型 当我们为模型训练及推理做硬件选型时NVIDIA 几乎是唯一选择。 这是一家全球知名的图形处理器GPU公司成立于 1993 年。 因为在 GPU 领域尤其 AI 领域芯片的垄断性优势其创始人黄仁勋被坊间称为「黄教主」。 huangrenxun 什么是 GPU Graphical Processing Units (GPUs) 图形处理单元(GPU)是一种功能强大的电子芯片用于在沉浸式视频游戏、电影和其他视觉媒体中呈现丰富的 2D/3D 图形和动画 因其超越 CPU 的并行矩阵运算性能所以也被广泛应用于人工智能相关的各种系统包括机器视觉、NLP、语音识别、自动驾驶等 nvidia gpu CUDA 核心和 Tensor 核心 CUDA 核心 是 NVIDIA 开发的并行计算平台和编程模型用于 GPU 上的通用计算就像是万能工人可以做很多不同的工作 适合游戏和图形渲染、天气预测、电影特效等场景 Tensor 核心 中文叫张量核心 专门设计用于深度学习中的矩阵运算加速深度学习算法中的关键计算过程 适合语音助手、人脸识别等场景 案例 1视频渲染 当一个电影制片公司决定制作一部具有高度视觉效果的 3D 电影时他们需要大量的计算能力来渲染每一帧。这里CUDA 核心非常有用因为它们能够处理大量的细节如光线追踪、纹理和阴影。例如当一束光从一个光源反射到一个物体上然后反射到摄像机上CUDA 核心可以用来计算这个光线路径上的所有细节确保最终的图像看起来真实并且美观。 案例 2面部识别 安全系统、智能手机和许多应用程序现在都使用面部识别技术。这需要通过深度学习模型来识别人的面部特征。Tensor 核心在这里发挥关键作用它们可以迅速地处理神经网络中的大量矩阵乘法和加法确保面部识别既准确又快速。 AI 领域常用 GPU 这个表格依据价格进行排序价格从低到高。 显卡目标市场性能应用场景价格T4企业/AI 推理适中AI 推理, 轻量级训练, 图形渲染7999(14G)4090消费者非常高通用计算, 图形渲染, 高端游戏, 4K/8K 视频编辑14599(24G)A10企业/图形适中图形渲染, 轻量级计算18999(24G)A6000企业/图形适中图形渲染, 轻量级计算3299948GV100数据中心/AI高深度学习训练/推理, 高性能计算42999(32G)A100数据中心/AI高深度学习训练/推理, 高性能计算69999(40G)A800数据中心/AI中等深度学习推理, 高性能计算, 大数据分析110000H100数据中心/AI高深度学习训练/推理, 高性能计算, 大数据分析242000 有些在京东就能买到https://item.jd.com/10065826100148.html 美国商务部限制 GPU 对华出口的算力不超过 4800 TOPS 和带宽不超过 600 GB/s导致最强的 H100 和 A100 禁售。黄教主随后推出针对中国市场的 A800 和 H800。 参考 英伟达 A100 和 H100 已被禁止向中国供货 50 亿美元算力芯片迎来狂欢腾讯字节抢购英伟达 A800 订单 H100 与 A100H100 比 A100 快多少 16-bit 推理快约 3.5 倍16-bit 训练快约 2.3 倍。 a100-h100-a 参考资料https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ 物理机 vs. 云服务 划重点 如果经常做微调实验有自己的物理机会方便很多很多提供推理服务首选云服务如果有自建机房或 IDC请随意 云服务厂商对比 国内主流 阿里云https://www.aliyun.com/product/ecs/gpu 可 申请免费试用 腾讯云https://cloud.tencent.com/act/pro/gpu-study 火山引擎https://www.volcengine.com/product/gpu 国外主流 AWS https://aws.amazon.com Vultr https://www.vultr.com TPU https://cloud.google.com/tpu TPU 是 Google 专门用于加速机器学习的硬件。它特别适合大规模深度学习任务通过高效的架构在性能和能源消耗上表现出色。 它的优点和应用场景 高性能和能效 TPU 可以更快地完成任务同时消耗较少的能源降低成本。 大规模训练 TPU 适用于大规模深度学习训练能够高效地处理大量数据。 实时推理 适合需要快速响应的任务如实时图像识别和文本分析。 云端使用 Google Cloud 提供 TPU 服务允许用户根据需求使用无需购买硬件。 适用于图像处理、自然语言处理、推荐系统等多个领域。 在国外科研机构、大公司和初创企业普遍使用 TPU。 下面是对两款 NVIDIA GPU 在他主流厂商的价格进行对比 A100在云服务中A100 是顶级的企业级 GPU适用于高性能计算需求。 T4相比之下T4 更为经济适合日常模型微调和推理任务。 NVIDIA A100 云服务提供商GPU 型号CPU 核心数内存GiB价格元/小时火山引擎A10014 核24540.39阿里云A10016 vCPU12534.742腾讯云A10016 核9628.64 NVIDIA T4 云服务提供商CPU 核心数内存GiBGPU 型号价格元/小时阿里云4 vCPU15T411.63火山引擎4 核16T411.28腾讯云8 核32T48.68 算力平台 主要用于学习和训练不适合提供服务。 Colab谷歌出品升级服务仅需 9 美金。https://colab.google.com Kaggle免费每周 30 小时 T4P100 可用。https://www.kaggle.com AutoDL价格亲民支持 Jupyter Notebook 及 ssh国内首选。https://www.autodl.com 建议若需高速下载尤其依赖于 GitHub 或 Docker 官方镜像建议选择国外服务器。 根据场景选择GPU 以下是我们为您提供的基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览 模型数据条数时长技术chatglm99991:42:46pt2chatglm393336:45:21pt2chatglm99991:31:05Lorachatglm393335:40:16Lorachatglm299991:50:27pt2chatglm2393337:26:25pt2chatglm299991:29:08Lorachatglm2393335:45:08Lora 下面是 llm-utils 上一些选型的建议 Falcon 是目前为止huggingface上排行榜第一的模型 根据不同的使用情境以下是使用的建议GPU 用例显卡要求推荐显卡Running Falcon-40B运行 Falcon-40B 所需的显卡应该有 85GB 到 100GB 或更多的显存See Falcon-40B tableRunning MPT-30B当运行 MPT-30B 时显卡应该具有80GB的显存See MPT-30B tableTraining LLaMA (65B)对于训练 LLaMA (65B)使用 8000 台 Nvidia A100 显卡。Very large H100 clusterTraining Falcon (40B)训练 Falcon (40B) 需要 384 台具有 40GB 显存的 A100 显卡。Large H100 clusterFine tuning an LLM (large scale)大规模微调 LLM 需要 64 台 40GB 显存的 A100 显卡H100 clusterFine tuning an LLM (small scale)小规模微调 LLM 则需要 4 台 80GB 显存的 A100 显卡。Multi-H100 instance 划重点 对于本地个人研发项目GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。对于公司的大规模数据和复杂模型推荐使用如 NVIDIA A100 的高性能 GPU。数据规模小时可考虑预算内的 A10 或 T4 型号。如果追求性价比可以选择把 4090 显卡搭建服务器使用也可以选择市面的第三方服务比如AutoDL 的 4090 服务 参考资料 https://gpus.llm-utils.org/cloud-gpu-guide/ https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/ 后记 博客主页https://manor.blog.csdn.net 欢迎点赞 收藏 ⭐留言 如有错误敬请指正 本文由 Maynor 原创首发于 CSDN博客 不能老盯着手机屏幕要不时地抬起头看看老板的位置⭐ 专栏持续更新,欢迎订阅https://blog.csdn.net/xianyu120/category_12471942.html 本文由 mdnice 多平台发布