加入收藏 | 设为首页
 
您当前的位置:首页 > 公司介绍

GPU计算的新时代已经到来

时间:2018-06-05 10:48:47  来源:  作者:

 NVIDIA台湾GPU技术大会(GTC)上周在台北吸引了2200多名技术人员,开发人员,研究人员,政府官员和媒体。GTC台湾是NVIDIA今年将在全球关键技术中心举办的七次AI会议中的第二次。GTC是业内首屈一指的人工智能和深度学习活动,为开发人员和研究机构提供了分享和了解新GPU解决方案和超级计算机的机会,并可直接与NVIDIA和其他领先组织的专家进行交流。2018年的第一届GTC在三月在硅谷举办,吸引了8000多名参观者。GTC活动展示了人机交互使用案例的最新突破,从医疗保健和大数据到高性能计算和虚拟现实,

 
圣何塞GTC 2018推出了NVIDIA DGX-2 AI超级计算系统,这是AI怪胎梦想中的一项技术。功能强大的DGX-2系统是企业级云服务器,将高性能计算与人工智能要求结合在一台服务器中。它结合了16个完全互连的NVIDIA Tesla V100 Tensor Core GPU,与其2017年发布的DGX-1相比,具有10倍的深度学习性能。凭借1/2 a TB的HBM2内存和12个NVIDIA NVSwitch互连,DGX- 2系统成为第一台能够为AI系统提供2 petaFLOPS计算能力的单服务器。它由NVIDIA DGX软件堆栈和基于NVSwitch技术构建的可扩展架构提供支持。
 
在此次采访中,NVIDIA解决方案架构和工程副总裁Marc Hamilton谈到了GTC和台湾技术生态系统的发展。他和他的工程团队与客户和合作伙伴合作,提供基于NVIDIA人工智能和深度学习,专业可视化和高性能计算技术的解决方案。从对生态系统合作伙伴和开发者的多次访问中,汉密尔顿非常熟悉台湾AI开发的步伐。
 
AI正在处理HPC级别的缩放问题
 
人工智能技术通过改变我们的工作方式来提升企业,增加协作并开创人工智能驱动创新的新时代。人工智能解决方案正在迅速超越炒作并转化为现实,并已准备好成为最重要的技术领域之一。企业需要快速部署AI解决方案以应对业务需求。DGX-2系统提供了一个随时可用的服务器解决方案,提供了扩展AI性能的途径。
 
DGX-2专为AI和HPC工作负载而设计,并通过灵活的交换技术简化了扩展AI的速度,用于构建大量深度学习计算集群,并结合虚拟化功能,可在共享基础架构环境中改善用户和工作负载隔离。借助这种加速部署模型和易于扩展的开放式架构,开发团队和数据科学家可以花更多时间来提升洞察力,减少构建基础架构的时间。
 
例如,运行用于天气预报的HPC应用程序意味着处理大规模的计算节点。通过计算基于流体流量,物理学和其他参数的变化,使用地球系统模型创建预测。预测的精度和准确度取决于模型和算法的保真度,尤其取决于表示多少个数据点。计算天气预报需要安排一系列复杂的预处理作业,解算器作业和后期处理作业。由于昨天的预测没有用处,所以预测必须每次按时交付。预测应用程序在服务器节点上执行,并从分布在计算节点上的监控程序接收报告。
 
通常,这些将是大型分布式内存集群,由数千个节点和数十万个内核组成。当数据适合GPU内存时,许多HPC应用程序工作得最好。计算的本质是建立在网格上表示正在模拟的空间上的点之间的相互作用,并且及时地计算所计算的变量。事实证明,在今天的HPC技术中,数据移入和移出GPU的时间要比所执行的计算时间要求更高。为了有效运行,天气预报和气候建模系统需要高内存带宽和整个系统的快速互连。
 
NVSwitch利用NVLink最大化GPU之间的数据吞吐量
 
记忆是当今深度神经网络(DNN)中最大的挑战之一。当输入在网络中传播时,DNN中的内存需要存储输入数据,重量参数和激活。开发人员正在努力应对DRAM设备有限的内存带宽,AI系统必须使用这些内存带宽来存储DNN中的大量权重和激活。
 
长期依赖PCI Express的NVIDIA在2016年推出了采用Tesla P100 GPU的Pascal架构时,其对Pascal服务器焦点增加的一个后果是互连带宽和延迟成为问题。NVIDIA GPU平台的数据吞吐量需求超过了PCIe所能提供的水平。因此,对于他们的计算型GPU,NVIDIA推出了一种名为NVLink的新互连。
 
借助每个GPU六个NVLink,可以将这些链接组合在一起,以获得单个GPU之间更高的带宽,或更低的带宽,但仍可直接连接到更多GPU。在实践中,这将NVLink集群的大小限制为NVIDIA称为混合网格多维数据集配置的八个GPU,即使这样,它也是一个NUMA设置,并非每个GPU都能看到其他每个GPU。利用八个以上的GPU需要通过InfiniBand连接多个系统,从而失去了NVLink和紧密连接的GPU的一些共享内存和延迟优势。
 
在DGX-2系统中,一台服务器中有16个Volta GPU。因此,NVIDIA推出了NVSwitch,该设计旨在通过将GPU通过一个或多个交换机进行路由来启用更大型GPU的集群。单个NVSwitch具有18个全带宽端口,是单个Tesla V100 GPU的三倍,所有NVSwitch端口都与内部交叉开关完全连接。
 
NVSwitch的目标是增加集群中GPU的数量,该系列交换机可轻松支持16个GPU配置,并在系统中配备12个NVSwitch互连(216个端口),以最大化GPU之间的可用带宽。NVSwitch使GPU与GPU之间的通信速度达到每秒300GB,这已经是DGX-1(以及它所基于的HGX参考架构)容量的两倍。这一进步将推动GPU之间的超级连接,以便为数据科学家处理更大,更苛刻的AI项目。
 
NVIDIA希望将NVLink通道限制完全排除在外,因为使用多个交换机应该可以在理论上构建几乎任何类型的GPU拓扑。
 
由于TensorFlow和所有领先的DL框架使用NVIDIA的NCCL(NVIDIA Common Collectives Library),深度学习框架(如TensorFlow)不需要了解服务器中的底层NVLink拓扑结构。NVIDIA的AI软件堆栈经过全面优化和更新,以支持使用DGX-2和其他DGX系统的开发人员。这包括NVIDIA CUDA,TensorRT,NCCL和cuDNN的新版本,以及一个新的用于机器人的Isaac软件开发工具包。汉密尔顿强调了TensorRT 4.0的发布,该版本是NVIDIA推出的优化推理加速器的新版本。TensorRT 4.0与TensorFlow 1.7框架集成。TensorFlow仍然是当今更受欢迎的深度学习框架之一。而NVIDIA的工程师们也很了解他们的GPU,并且制造出TensorRT 4。
 
汉密尔顿提到很多TensorFlow用户将通过使用TensorRT的近乎透明的工作流程获得最高的推断性能。新集成提供了一个简单的API,该API使用强大的FP16和INT8优化功能,使用TensorRT编译TensorFlow代码,并将TensorFlow推理速度提高8倍,以实现ResNet-50基准测试的低延迟运行。
 
在边缘计算中,TensorRT可以部署在NVIDIA DRIVE自动驾驶车辆和NVIDIA Jetson嵌入式平台上。每个框架上的深度神经网络可以在数据中心的NVIDIA DGX系统上进行培训,然后部署到所有类型的边缘设备中。借助TensorRT软件,开发人员可以专注于开发高级深度学习驱动的应用程序,而不是花时间为推理部署优化性能。
 
HGX-2服务器平台作为云数据中心的参考设计
 
预计DGX-2服务器将于2018年第三季度面向客户发售。同时,汇集台湾生态系统合作伙伴和全球服务器制造商的解决方案专业知识,NVIDIA在台北GTC与台湾主要服务器厂商宣布推出HGX-2云服务器平台。NVIDIA DGX-2服务器是第一个使用HGX-2参考设计构建的系统。
 
服务器行业一直是台湾原始设备制造商保持强劲增长势头的少数几个行业之一,增加人工智能领域的机会将有助于台湾系统制造商。NVIDIA®(英伟达)工程团队与台湾ODM密切合作,帮助最大限度地缩短从设计获胜到生产部署的开发时间。HGX-2旨在满足越来越多的寻求利用HPC和AI用例的应用程序的需求。这些服务器品牌和ODM正在设计基于HGX-2的系统,为超大规模数据中心构建各种合格的GPU加速系统。
 
HGX-2服务器参考设计由两个基板组成。每台配备8个NVIDIA Tesla V100 32GB GPU。这16个GPU通过NVSwitch互连技术完全连接。通过HGX-2作为构建模块,服务器制造商将能够构建完整的服务器平台,以满足不同数据中心的需求。
 
NVIDIA在台湾的AI协作
 
汉密尔顿表示,台湾人工智能协作领域包括对3,000名开发人员进行深入学习的领先应用实践培训,并为台湾博士后学生提供高水平的实习机会,与NVIDIA工程团队合作。由科技部(MOST)支持的LEAP项目赞助的台湾第一家艾滋病医院正在使医生能够尽早发现疾病,并通过人工智能的先进突破更好地了解疾病。
 
汉密尔顿强调的另一个案例是AI帮助半导体制造商识别晶圆缺陷。该解决方案专注于使用AI来提升国内半导体市场的竞争地位。晶圆缺陷检测系统使用基于物理的仪器,通过利用基于NVIDIA GPU的光学神经网络来检查晶圆的图像。同样的想法已被修改用于印刷电路板(PCB)行业,以更准确地对PCB进行视觉检查,并使生产线经理在发现和解决产品问题方面具有重要优势。
来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门