河北建设厅录入业绩的网站,国内时事新闻2023最新,什么是电子商务网站建设的基本要求,东莞seo代理随着越来越多的企业将人工智能应用于其产品#xff0c;AI芯片需求快速增长#xff0c;市场规模增长显著。因此#xff0c;本文主要针对目前市场上的AI芯片厂商及其产品进行简要概述。
简介
AI芯片也被称为AI加速器或计算卡#xff0c;从广义上讲只要能够运行人工智能算法…随着越来越多的企业将人工智能应用于其产品AI芯片需求快速增长市场规模增长显著。因此本文主要针对目前市场上的AI芯片厂商及其产品进行简要概述。
简介
AI芯片也被称为AI加速器或计算卡从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。
技术交流群
建了技术答疑、交流群想要进交流群、资料的同学可以直接加微信号mlc2060。加的时候备注一下研究方向 学校/公司CSDN即可。然后就可以拉你进群了。
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~ 方式①、添加微信号mlc2060备注技术交流 方式②、微信搜索公众号机器学习社区后台回复技术交流 AI芯片分类
按技术架构分类
GPUGraphics Processing Unit图形处理单元在传统的冯·诺依曼结构中 CPU 每执行一条指令都需要从存储器中读取数据 根据指令对数据进行相应的操作。从这个特点可以看出 CPU 的主要职责并不只是数据运算 还需要执行存储读取、 指令分析、 分支跳转等命令。深度学习算法通常需要进行海量的数据处理用 CPU 执行算法时 CPU 将花费大量的时间在数据/指令的读取分析上 而 CPU 的频率、 内存的带宽等条件又不可能无限制提高 因此限制了处理器的性能。而 GPU 的控制相对简单大部分的晶体管可以组成各类专用电路、多条流水线使得 GPU 的计算速度远高于 CPU同时GPU 拥有了更加强大的浮点运算能力可以缓解深度学习算法的训练难题释放人工智能的潜能。但 GPU 无法单独工作必须由 CPU 进行控制调用才能工作 而且功耗比较高。
半定制化的 FPGAField Programmable Gate Array现场可编程门阵列其基本原理是在FPGA芯片内集成大量的基本门电路以及存储器用户可以通过更新 FPGA 配置文件来定义这些门电路以及存储器之间的连线。与 GPU 不同 FPGA 同时拥有硬件流水线并行和数据并行处理能力 适用于以硬件流水线方式处理一条数据且整数运算性能更高因此常用于深度学习算法中的推理阶段。不过 FPGA 通过硬件的配置实现软件算法因此在实现复杂算法方面有一定的难度。将 FPGA 和 CPU 对比可以发现两个特点 一是 FPGA 没有内存和控制所带来的存储和读取部分速度更快 二是 FPGA 没有读取指令操作所以功耗更低。劣势是价格比较高、编程复杂、整体运算能力不是很高。目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解决方案。
全定制化 ASICApplication-Specific Integrated Circuit专用集成电路是专用定制芯片即为实现特定要求而定制的芯片。定制的特性有助于提高 ASIC 的性能功耗比缺点是电路设计需要定制相对开发周期长 功能难以扩展。但在功耗、可靠性、 集成度等方面都有优势尤其在要求高性能、低功耗的移动应用端体现明显。谷歌的 TPU、寒武纪的 GPU地平线的 BPU 都属于 ASIC 芯片。谷歌的 TPU 比 CPU 和 GPU 的方案快 30 至 80 倍与 CPU 和 GPU 相比 TPU 把控制电路进行了简化因此减少了芯片的面积降低了功耗。
神经拟态芯片神经拟态计算是模拟生物神经网络的计算机制。神经拟态计算从结构层面去逼近大脑其研究工作还可进一步分为两个层次一是神经网络层面与之相应的是神经拟态架构和处理器如 IBM 的 TrueNorth 芯片这种芯片把定制化的数字处理内核当作神经元把内存作为突触。其逻辑结构与传统冯·诺依曼结构不同它的内存、CPU 和通信部件完全集成在一起因此信息的处理在本地进行克服了传统计算机内存与 CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通只要接收到其他神经元发过来的脉冲(动作电位) 这些神经元就会同时做动作。二是神经元与神经突触层面与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元可实现高速无监督学习。
按功能分类
根据AI算法步骤可分为训练training和推理inference两个环节。
训练环节通常需要通过大量的数据输入训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构 运算量巨大需要庞大的计算规模 对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU 集群来完成 Google 的 TPU 系列 、华为昇腾 910 等 AI 芯片也支持训练环节的深度网络加速。
推理环节是指利用训练好的模型使用新的数据去“推理”出各种结果。与训练阶段不同推理阶段通常就不涉及参数的调整优化和反向传播了它主要关注如何高效地将输入映射到输出。这个环节的计算量相对训练环节少很多但仍然会涉及到大量的矩阵运算。在推理环节中除了使用 CPU 或 GPU 进行运算外 FPGA 以及 ASIC 均能发挥重大作用。典型的推理卡包括NVIDIA Tesla T4、NVIDIA Jetson Xavier NX、Intel Nervana NNP-T、AMD Radeon Instinct MI系列、Xilinx AI Engine系列等。
训练卡和推理卡的区别
训练卡一般都可以作为推理卡使用而推理卡努努力不在乎时间成本的情况下大部分也能作为训练卡使用但通常不这么做。
主要原因在于二者在架构上就有很大的差别推理芯片通常针对前向传播过程进行了高度优化以实现高效的预测和分类任务。因此它们的架构和指令集对于训练过程所需的大量参数更新和反向传播操作支持能力就弱了很多。
此外训练芯片通常拥有更高的计算能力和内存带宽以支持训练过程中的大量计算和数据处理。相比之下推理芯片通常会在计算资源和内存带宽方面受到一定的限制。同时二者支持的计算精度也通常不同训练阶段需要高精度计算因此常用高精度浮点数如fp32而推理阶段一般只需要int8就可以保证推理精度。
除了高带宽高并行度外就片内片外的存储空间而言训练芯片通常比较“大”这是训练过程中通常需要大量的内存来存储训练数据、中间计算结果以及模型参数。相较而言推理芯片可能无法提供足够的存储容量来支持训练过程。
按应用场景分类
主要分为用于服务器端云端和用于移动端终端两大类。
服务器端在深度学习的训练阶段由于数据量及运算量巨大单一处理器几乎不可能独立完成一个模型的训练过程因此 负责 AI 算法的芯片采用的是高性能计算的技术路线一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力另一方面必须支持浮点数运算而且为了能够提升性能必须支持阵列式结构即可以把多块芯片组成一个计算阵列以加速运算。在推断阶段由于训练出来的深度神经网络模型仍非常复杂推理过程仍然属于计算密集型和存储密集型可以选择部署在服务器端。
移动端手机、智能家居、无人车等移动端 AI 芯片在设计思路上与服务器端 AI 芯 片有着本质的区别。首先必须保证很高的计算能效其次在高级辅助驾驶 ADAS 等设 备对实时性要求很高的场合推理过程必须在设备本身完成因此要求移动端设备具备足够的推断能力。而某些场合还会有低功耗、低延迟、低成本的要求 从而导致移动端的 AI 芯片多种多样。
下面一起来看下国内外的AI芯片厂商发布的AI芯片产品。
国外 AI 芯片
英伟达 GPU
目前主流的AI处理器无疑是NVIDIA的GPU并且英伟达针对不同的场景推出了不同的系列和型号。例如L4用于AI视频L40用于图像生成H100系列则是大模型GH200是图形推荐模型、矢量数据库和图神经网络。
目前NVIDIA的GPU产品主要有 GeForce、Data Center/Tesla 和 RTX/Quadro 三大系列如下图所示虽然从硬件角度来看它们都采用同样的架构设计也都支持用作通用计算(GPGPU)但因为它们分别面向的目标市场以及产品定位的不同这三个系列的GPU在软硬件的设计和支持上都存在许多差异。其中GeForce为消费级显卡而Tesla和Quadro归类为专业级显卡。GeForce主要应用于游戏娱乐领域而Quadro主要用于专业可视化设计和创作Tesla更偏重于深度学习、人工智能和高性能计算。 image.png
TeslaA100A800、H100H800、A30、A40、V100、P100…下图为常见型号的参数对比 image.png GeForceRTX 3090、RTX 4090 … RTX/QuadroRTX 6000、RTX 8000 …
其中A800/H800是针对中国特供版低配版相对于A100/H100主要区别 A100的Nvlink最大总网络带宽为600GB/s而A800的Nvlink最大总网络带宽为400GB/s。 H100的Nvlink最大总网络带宽为900GB/s而A800的Nvlink最大总网络带宽为400GB/s。
随着美国新一轮的芯片制裁最新针对中国特供版H20、L20和L2芯片也将推出。
近年来NVIDIA GPU 的发展路线图如下所示 image.png
GPU架构
NVIDIA GPU架构历经多次变革从起初的Tesla到Turing架构再到Ampere、Hopper发展史可分为以下时间节点 2008 - Tesla Tesla最初是给计算处理单元使用的应用于早期的CUDA系列显卡芯片中并不是真正意义上的普通图形处理芯片。 2010 - Fermi Fermi是第一个完整的GPU计算架构。首款可支持与共享存储结合纯cache层次的GPU架构支持ECC的GPU架构。 2012 - Kepler Kepler相较于Fermi更快效率更高性能更好。 2014 - Maxwell 其全新的立体像素全局光照 (VXGI) 技术首次让游戏 GPU 能够提供实时的动态全局光照效果。基于 Maxwell 架构的 GTX 980 和 970 GPU 采用了包括多帧采样抗锯齿 (MFAA)、动态超级分辨率 (DSR)、VR Direct 以及超节能设计在内的一系列新技术。 2016 - Pascal Pascal 架构将处理器和数据集成在同一个程序包内以实现更高的计算效率。1080系列、1060系列基于Pascal架构 2017 - Volta Volta 配备 640 个Tensor 核心每秒可提供超过100 兆次浮点运算(TFLOPS) 的深度学习效能比前一代的Pascal 架构快 5 倍以上。 2018 - Turing Turing 架构配备了名为 RT Core 的专用光线追踪处理器能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算。Turing 架构将实时光线追踪运算加速至上一代 NVIDIA Pascal 架构的 25 倍并能以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。2060系列、2080系列显卡也是跳过了Volta直接选择了Turing架构。 2020 - Ampere Ampere 架构以 540 亿个晶体管打造是有史以来最大的 7 纳米 (nm) 芯片。新的流式多处理器SM让 Ampere 架构的 A100 Tensor Core GPU 得到了显著的性能提升。 2022 - Hopper Hopper 采用先进的台积电 4N 工艺制造拥有超过 800 亿个晶体管采用五项突破性创新技术为 NVIDIA H100 Tensor Core 提供动力支持。 image.png
NVIDIA GPU 支持的数据类型
NVIDIA GPU 从 Volta 架构开始支持 Tensor Core专门用于矩阵乘法和累加计算其和 CUDA Core 支持的数据类型也不相同。如下图所示为不同架构 GPU Tensor Core 和 CUDA Core 支持的数据类型。
可以看出V100 是 Volta 架构其 Tensor Core 只支持 FP16而 Tensor Core 整体的算力一般是 CUDA Core 算力的几倍因此如果在 V100 上使用 INT8只能运行在 CUDA Core 上其性能可能反而比使用 FP16 还差不少。同样H100 的 Tensor Core 也不再支持 INT4 计算。 image.png
GPU 显存
NVIDIA GPU 显存有两种类型GDDR 和 HBM每种也有不同的型号。针对显存我们通常会关注两个指标显存大小和显存带宽。HBM 显存通常可以提供更高的显存带宽但是价格也更贵通常在训练卡上会使用比如H100、A100 等而 GDDR 显存通常性价比更高在推理 GPU 或游戏 GPU 更常见比如T4、RTX 4090 等。 image.png
常见训练 GPU 的显存信息 image.png
常见推理 GPU 的显存信息 image.png
显存大小和带宽的影响
传统的 CV、NLP 模型往往比较小而且基本都是 Compute bound 所以普遍对显存大小、带宽关注比较少而现在 LLM 模型很大推理除了是Compute bound也是 IO bound因此越来越多人开始关注 GPU 显存大小和显存带宽。
最近 NVIDIA 正式推出 H200 GPU相比 H100其主要的变化就是 GPU 显存从 80GB 升级到 141GB显存带宽从 3.5TB/s 增加到 4.8TB/s也就是说算力和 NVLink 没有任何提升这可能是为了进一步适配大模型推理的需求。
对于同一模型在同样数量情况下H200 相比 H100 的 LLM 推理性能对比 LLaMA2 13B性能提升为原来的 1.4 倍 1 个 H100batch size 为 64 1 个 H200batch size 为 128 LLaMA2 70B性能提升为原来的 1.9 倍 1 个 H100batch size 为 8 1 个 H200batch size 为 32 GPT-3 175B性能提升为原来的 1.6 倍 8 个 H100batch size 为 64 8 个 H200batch size 为 128
GPU 间通信
常见的 NVIDIA GPU 有两种常见的封装形式PCIe GPU 和 SXM GPU。
NVIDA GPU-SXM主要是针对英伟达的高端GPU服务器NVIDA GPU-SXM和NVIDA GPU-PCIe这两种卡都能实现服务器的通信但是实现的方式是不一样的。SXM规格的一般用在英伟达的DGX服务器中通过主板上集成的NVSwitch实现NVLink的连接不需要通过主板上的PCIe进行通信它能支持8块GPU卡的互联互通实现了GPU之间的高带宽。
这里说的NVLink技术不仅能够实现CPU和GPU直连能够提供高速带宽还能够实现交互通信大幅度提高交互效率从而满足最大视觉计算工作负载的需求。
NVIDA GPU-PCIe就是把PCIe GPU卡插到PCIe插槽上然后和CPU、同一个服务器上其他的GPU卡进行通信也可以通过网卡与其他的服务器节点上的设备进行通信这种就是PCIe的通信方式但是这种传输速度不快。如果想要和SXM一样有很快的传输速度可以使用NVlink桥接器实现GPU和CPU之间的通信但是和SXM不一样的地方就是它只能实现2块GPU卡之间的通信。也就是说如果有 2 个 PCIe GPU那么可以使用 NVLink 桥接器Bridge实现互联如果超过 2 个 PCIe GPU就无法实现 NVLink 的分组互联此时只能考虑使用 SXM GPU。 image.png
一般来讲单机内的多 GPU 之间通信分为PCIe 桥接互联通信、NVLink 部分互联通信、NVSwitch 全互联通信三种。
谷歌 TPU
Google在高性能处理器与AI芯片主要有两个系列 针对服务器端AI模型训练和推理的TPU系列主要用于Goggle云计算和数据中心 针对手机端AI模型推理的Tensor系列主要用于Pixel智能手机。
TPU 是 Google 定制开发的应用专用集成电路 (ASIC)用于加速机器学习工作负载。TPU 使用专为执行机器学习算法中常见的大型矩阵运算而设计的硬件更高效地训练模型。TPU 具有高带宽内存 (HBM)允许您使用更大的模型和批次大小。
TPU 芯片
一个 TPU 芯片包含一个或多个 TensorCore。TensorCore 的数量取决于 TPU 芯片的版本。每个 TensorCore 由一个或多个矩阵乘法单元 (MXU)、一个向量计算单元和一个标量计算单位组成。 MXU 由脉动阵列中的 128 x 128 乘法累加器组成。MXU 在 TensorCore 中提供大部分计算能力。每个 MXU 在每个周期能够执行 16K 乘法累加操作。所有乘法都采用 bfloat16 输入但所有累积都以 FP32 数字格式执行。 向量计算单元用于一般计算例如激活和 Softmax。 标量计算单位用于控制流、计算内存地址和其他维护操作。
TPU Pod
TPU Pod 是通过专用网络组合在一起的一组连续的 TPU。TPU Pod 中的 TPU 芯片的数量取决于 TPU 版本。
TPU发展史 TPUv1Google第一代TPU芯片服务器端推理芯片。 TPUv2Google第二代TPU芯片定位是服务端AI推理和训练芯片。TPUv2 平面图如下所示紫色的ICI为卡之间的链接绿色的HBM为高带宽内存。 image.png
TPUv3TPUv3是对TPUv2的重新设计采用相同的技术MXU和HBM容量增加了两倍时钟速率、内存带宽和ICI带宽增加了1.3倍。TPUv3超级计算机还可以扩展到1024个芯片。每个 v3 TPU 芯片包含两个 TensorCore。每个 TensorCore 有两个矩阵乘法计算单元MXU、一个向量计算单元和一个标量计算单元。 image.png Edge TPUGoogle发布的嵌入式TPU芯片用于在边缘设备上运行推理。 TPUv4iGoogle于2020年发布定位是服务器端推理芯片。 TPUv4Google于2020年发布服务器推理和训练芯片芯片数量是TPUv3的四倍。TPU v4 芯片如下图所示每个 TPU v4 芯片包含两个 TensorCore。每个 TensorCore 都有四个矩阵乘法计算单元MXU、一个向量计算单元和一个标量计算单元。 image.png
TPU v5e专为提升大中型模型的训练、推理性能以及成本效益所设计。与 2021 年发布的 TPU v4 相比TPU v5e 的大型语言模型提供的训练性能提高了 2 倍、推理性能提高了2.5 倍。但是TPU v5e 的成本却不到上一代的一半使企业能够以更低的成本训练和部署更大、更复杂的 AI 模型。TPU v5e 芯片如下图所示每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 都有 4 个矩阵乘法计算单元 (MXU)、一个向量计算单元和一个标量计算单元。 image.png
除此之外国外还有英特尔和AMD的GPU微软也计划推出代号为“雅典娜”的AI芯片。
国内 AI 芯片
华为昇腾
昇腾芯片是华为公司发布的两款 AI 处理器(NPU)昇腾910用于训练和昇腾310用于推理处理器采用自家的达芬奇架构。昇腾在国际上对标的主要是英伟达的GPU国内对标的包括寒武纪、海光等厂商生产的系列AI芯片产品如思元590、深算一号等。
Atlas系列产品是基于昇腾910和昇腾310打造出来的、面向不同应用场景端、边、云的系列AI硬件产品。比如 加速卡 Atlas 300T A2 训练卡双槽位全高全长PCIe卡PCIe x 16Gen5.032GB HBM带宽800GB/s支持ECC。 Atlas 300T Pro 训练卡 (型号9000)昇腾910单卡可提供最高 280 TFLOPS FP16 算力32GB HBM16GB DDR4。 Atlas 300I Pro 推理卡140 TOPS INT870 TFLOPS FP16LPDDR4X 24 GB总带宽204.8 GB/sPCIe x16 Gen4.0。 Atlas 300I Duo 推理卡280 TOPS INT8140 TFLOPS FP16LPDDR4X 48GB总带宽408GB/s支持ECC。 加速模块 Atlas 200I A220 TOPS20 TOPS INT8 10 TFLOPS FP16支持ECC。 Atlas 200I A28 TOPS8 TOPS INT8 4 TFLOPS FP16支持ECC。 服务器 Atlas 800型号9000 是训练服务器包含8个训练卡Atlas 300 T采用昇腾910300T有三种规格分别为910A、910B、910 ProB算力对应关系为910A–256、910B–256、910 ProB–280。 Atlas 800型号3000 是推理服务器包含8个推理卡Atlas 300 I采用昇腾310。 集群 Atlas 900 是训练集群由128台 Atlas 800型号9000 构成相当于是由一批训练服务器组合而成。通过华为集群通信库和作业调度平台整合HCCS、 PCIe 和 RoCE 三种高速接口充分释放昇腾训练处理器的强大性能。 image.png
昇腾910性能强大一般用于云上关键参数如下所示 640 TOPS INT8 320 TFLOPS FP16 最大功耗300W HBM 32GB 华为自研达芬奇架构 N7工艺 PCIe x16 Gen4.0 散热方式被动风冷
昇腾310主打高能效、灵活可编程关键参数如下所示 16TOPSINT8, 8TOPSFP16 最大功耗仅为 8W 华为自研达芬奇架构 12nm FFC工艺
百度昆仑芯
百度的造芯历史也相对比较悠久了最早可以追溯到2015年至今有接近十年的积累。
2018年百度推出了第一代昆仑AI芯片采用的是其自研XPU架构关键指标如下所示 采用14nm工艺 吞吐率可达256 TOPSINT864 TFLOPSFP16功耗约150W PCIe 4.0*8 HBM高速显存512GB/s内存带宽 可用于云数据中心和智能边缘支持全AI算法已落地部署数万片
2021年推出了第二代昆仑AI芯片采用新一代XPU-R架构关键指标如下所示 采用7nm工艺 INT8性能不变256 TOPSINT8浮点处理性能翻倍128 TFLOPSFP16 PCIe 4.0*16 GDDR6高性能显存
寒武纪思元
寒武纪作为国内最具代表性的AI芯片厂商之一其发布的AI加速卡有思元270、思元290、思元370。
思元270系列面向高能效比云端AI推理。思元270采用寒武纪MLUv02架构思元270集成了寒武纪在处理器架构领域的一系列创新性技术处理非稀疏人工智能模型的理论峰值性能提升至上一代思元100的4倍达到128TOPS(INT8)同时兼容INT4和INT16运算理论峰值分别达到256TOPS和64TOPS支持浮点运算和混合精度运算。其提供了两款产品
思元270-S4为高性能比AI推理设计的数据中心级加速卡产品规格如下所示 image.png
思元270-F4面向非数据中心AI推理产品规格如下所示
思元290是寒武纪首颗AI训练芯片采用创新性的MLUv02扩展架构使用台积电7nm先进制程工艺制造在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新 MLU-Link™多芯互联技术提供高带宽多链接的互连解决方案HBM2内存提供AI训练中所需的高内存带宽vMLU帮助客户实现云端虚拟化及容器级的资源隔离。其提供了一款产品
MLU290-M5智能加速卡搭载寒武纪首颗训练芯片思元290采用开放加速模块OAM设计具备64个MLU Core1.23TB/s内存带宽以及全新MLU-Link芯片间互联技术同时支持单机八卡机内互联多机多卡机间互联全面支持AI训练、推理或混合型人工智能计算加速任务。 image.png
思元370芯片基于7nm制程工艺寒武纪首款采用chiplet芯粒技术的AI芯片集成了390亿个晶体管最大算力高达256TOPS(INT8)是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片内存带宽是上一代产品的3倍访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。其提供了三款产品
MLU370-S4面向高密度云端推理支持PCIe Gen4板载24GB低功耗高带宽LPDDR5内存板卡功耗仅为75W。 image.png
MLU370-X4云端人工智能加速卡为单槽位150w全尺寸加速卡可提供高达256TOPS(INT8)推理算力和24TFLOPS(FP32)训练算力同时提供丰富的FP16、BF16等多种训练精度。 image.png
MLU370-X8训推一体人工智能加速卡采用双芯思元370配置为双槽位250w全尺寸智能加速卡提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源同时MLU370-X8搭载MLU-Link多芯互联技术每张加速卡可获得200GB/s的通讯吞吐性能是PCIe 4.0带宽的3.1倍支持单机八卡部署可高效执行多芯多卡训练和分布式推理任务。 image.png
阿里平头哥含光
阿里巴巴集团的全资半导体芯片公司平头哥也发布过AI芯片含光800。一颗高性能人工智能推理芯片基于12nm工艺 集成170亿晶体管性能峰值算力达820 TOPS。其自研神经网络处理器(NPU)架构为AI推理专门定制和创新包括专有计算引擎和执行单元、192M本地存储(SRAM)以及便于快速存取数据的核间通信从而实现了高算力、低延迟的性能体验。在业界标准的ResNet-50测试中推理性能达到78563 IPS能效比达500 IPS/W。 壁仞
壁仞科技也发布了壁仞BR100系列通用GPU芯片其包含两款产品 壁砺™100P产品形态为OAM模组凭借强大的供电和散热能力能够充分解放澎湃算力驱动包括人工智能深度学习在内的通用计算领域高速发展。 壁砺™100 UBB基于OCP UBB v1.0标准开发搭载8张壁砺™100P通用GPU支持单节点8卡全互连能够为服务器提供强大的算力。 海玄服务器性能强大的 OAM 服务器首次实现单节点峰值浮点算力达到 8PFLOPS搭载 8 个壁砺™100P OAM 模组能够为广大应用场景提供超强的云端算力。 壁砺™104系列产品形态为PCIe板卡其中壁砺™104P峰值功耗300W壁砺™104S峰值功耗150W能够为数据中心广泛应用的PCIe形态GPU服务器提供灵活部署的强大的通用算力。
燧原科技
燧原科技也发布了多款AI芯片包括云燧T1x/T2x训练系列、云燧i1x/i2x推理系列。采用其自研的 GCU-CARA架构。 image.png
除此之外还有像海光、摩尔线程、沐曦集成电路、天数智芯等发布的AI加速卡。随着美国对国内高端芯片的进一步封锁希望国产芯片早日崛起。
结语
本文简要介绍了AI芯片的种类以及一些国内外AI芯片厂商发布的AI芯片。码字不易如果觉得有帮助欢迎点赞收藏加关注。
参考文档 TPU简介https://cloud.google.com/tpu/docs/intro-to-tpu?hlzh-cn TPU架构https://cloud.google.com/tpu/docs/system-architecture-tpu-vm 训练芯片和推理芯片都是干嘛的https://mp.weixin.qq.com/s/HX6-rVqRfy3n_PwQ0FWwrA GPU 关键指标汇总算力、显存、通信https://mp.weixin.qq.com/s/KbYKAnZYQfLB2VkKQPhCVQ 浅析NVIDA GPU卡SXM和PCIe之间的差异性https://www.bilibili.com/read/cv24855760/ AI芯片第一极GPU性能、技术全方位分析https://www.ginpie.com/nd.jsp?id56