正在阅读：推动GPU深度学习!NVIDIA媒体分享会推动GPU深度学习!NVIDIA媒体分享会

2015-04-17 10:09 出处：PConline原创作者：钰轩责任编辑：chenbaoyu

　　【PConline 资讯】2015年4月15日，NVIDIA在北京举行分体分享会，与广大媒体分享了其在GPU研发方面取得的成绩和最新的研究成果。NVIDIA为了解决当今世界最尖端的技术挑战之一，刚刚推出了全新的硬件和软件，将前所未有地提高深度学习研究的速度、易用性和功用。在人工智能领域快速成长的深度学习技术是一项创新的计算引擎，可应用在从先进医药研究到全自动驾驶汽车的多元领域。

NVIDIA联合创始人、总裁兼首席执行官黄仁勋

　　NVIDIA联合创始人、总裁兼首席执行官黄仁勋先生在 GPU技术大会的开幕主题演讲活动上，对在座的四千名与会嘉宾展示三项将推动深度学习的新技术：NVIDIA GeForce GTX TITAN X – 为训练深度神经网络而开发的最强大的处理器；DIGITS深度学习GPU训练系统 – 数据科学家与研究人员能利用这套软件便捷地开发出高品质深度神经网络；DIGITS DevBox – 全球最快的桌边型深度学习工具 – 专为相关任务而打造，采用TITAN X GPU，搭配直观易用的DIGITS训练系统。

NVIDIA中国区公关经理何京

一物两用：Titan X不仅可玩转精致的虚拟世界，也可胜任繁重的科研工作。

　　TITAN X是NVIDIA推出的全新旗舰级游戏显卡，但也特别适合用于深度学习。两周前在旧金山举办的游戏开发者大会上让各位先睹为快TITAN X的身影，它以电影《霍比特人》里的史矛戈巨龙为蓝本，播放了一段名为《暗影神偷》精彩的虚拟现实体验。

　　在TITAN X上能以4K的超高画质呈现最新AAA游戏大作的瑰丽画面，可以在开启FXAA高设定值的情况下，以每秒40帧(40fps)运行《中土世界：暗影魔多》(Middle-earth: Shadow of Mordor)游戏，而在九月发行的GeForce GTX 980上则是以30fps来运行。

　　采用NVIDIA Maxwell GPU架构的TITAN X，结合 3,072 个处理核心、单精度峰值性能为7 teraflops，加上板载的12GB显存，在性能和性能功耗比方面皆是前代产品的两倍。

　　凭借强大的处理能力和336.5GB/s 的带宽，让它能处理用于训练深度神经网络的数百万的数据。例如，TITAN X在工业标准模型AlexNet 上，花了不到三天的时间、使用120万个 ImageNet 图像数据集去训练模型，而使用16核心的CPU得花上四十多天。现已上市的GeForce GTX TITAN X售价为7999元人民币。

NVIDIA全球副总裁兼中国区总经理张建中

DIGITS：通往最佳深度神经网络的便捷之路

　　使用深度神经网络来训练电脑教自己如何分类和识别物体，是一件繁重又费时的事情。DIGITS深度学习GPU训练系统软件自始至终都将为用户提供所需数据，帮助用户建立最优的深度神经网络，改变上述的局面。访问http://developer.nvidia.com/digits即可下载DIGITS深度学习GPU训练系统，这是首套用于设计、训练和验证图像分类深度神经网络的多合一图形系统。

　　DIGITS可在安装、配置和训练深度神经网络过程中为用户提供指导 – 处理复杂的工作好让科学家能专心在研究活动和结果上。得益于其直观的用户界面和强大的工作流程管理能力，不论是在本地系统还是在网络上使用DIGITS，准备和加载训练数据集都相当简单。

　　这是同类系统中首个提供实时监控和可视化功能的系统，用户可以对工作进行微调。它还支持GPU加速版本Caffe，目前，这一框架在众多数据科学家和研究人员中都得到了广泛使用，用于构建神经网络(参见Parallel Forall博客上的《DIGITs: Deep Learning Training System》一文，有更详尽的说明)。DIGITS可在安装、配置和训练深度神经网络过程中为用户提供指导，处理繁重的任务，使科学家能够集中关注研究和成果。

NVIDIA中国区技术市场经理施澄秋

DIGITS DevBox：全球最快的桌边型深度学习机器

　　NVIDIA深度学习工程团队为了自己的研发工作而开发的DIGITS DevBox，是一套集多项功能于一身的平台，能够加快深度学习的研究活动。它采用四个TITAN X GPU、从内存到 I/O，DevBox的每个组件都进行了最佳化调试，可为最严苛的深度学习研究工作提供高效率的性能表现。

为深度学习而生：DIGIT DevBox的每个组件都针对深度学习研究活动进行了最佳化调试

　　它已经预先安装了数据科学家和研究人员在开发自己的深度神经网络时，所需要使用到的各种软件，包括DIGITS软件包、最受欢迎的深度学习架构 – Caffe、 Theano和Torch，还有 NVIDIA 完整的GPU加速深度学习库cuDNN 2.0。

　　所有这些都集结在这个高能效、静默、运行流畅且外形优美的软件包中，只需要普通的电源插座，低调安置在您的桌下即可。较早期的多GPU训练成果显示，在关键深度学习测试中，DIGITS DevBox可以提供4倍于单个TITAN X的性能。使用DIGITS DevBox来训练 AlexNet 只要13个小时就能完成，而使用最好的单GPU PC的话则是两天，单纯使用CPU系统的话则要一个月以上的时间。

　　除此之外，金洋还为媒体朋友讲述了下一代处理器架构（Pascal架构）的一些情况。相较于当前的Maxwell处理器，预计于明年推出的Pascal架构GPU将使深度学习应用中的计算速度加快十倍。

NVIDIA中国区企业传播高级经理金洋

　　深度学习指的是计算机使用神经网络自主学习的过程，这个趋势的兴起让 NVIDIA 又进一步改进了原本在去年 GTC 即公布的 Pascal 架构设计内容。Pascal 架构 GPU 的三大设计特色将大幅加快训练速度，精准地训练更丰富的深度神经网络，犹如人类大脑皮层的资料结构将成为深度学习研究的基础。

　　再加上32GB的显存(是NVIDIA 新发布的旗舰级产品GeForce GTX TITAN X 的 2.7 倍)，Pascal架构可进行混合精度的计算任务。它将配备 3D 堆叠显存，提升深度学习应用程序的速度性能多达5倍;另搭配 NVIDIA的高速互连技术NVLink来连接两个以上的GPU，可将深度学习的速度提升达十倍。

　　在关键深度学习的任务方面，Pascal架构的性能表现优于Maxwell架构。

　　混合精度计算 – 达到更精准的结果

　　混合精度计算让采用 Pascal 架构的 GPU 能够在 16 位浮点精度下拥有两倍于 32 位浮点精度下的速率的计算速度。

　　更出色的浮点计算性能特别提高了深度学习两大关键活动：分类和卷积的性能，同时又达到所需的精准度。

NVIDIA中国区高级市场总监刘念宁

3D 堆叠显存 – 更快的传输速度和优秀的省电表现

　　显存带宽限制了数据向GPU传输的速度。采用3D堆叠显存将可提高比Maxwell架构高出三倍的带宽和近三倍的容量，让开发人员能建立更大的神经网络，大大提升深度学习训练中带宽密集型部分的速度。

　　Pascal采用显存芯片逐个堆叠的技术，位置接近GPU而不是处理器板更往下的地方。如此就能把输出在显存与GPU间往返的距离从几英寸减缩到几毫米，大幅加快传输速度和拥有更好的省电表现。

NVLink – 更快的数据移动速度

　　Pascal架构加入NVLink 技术将使得GPU与CPU之间数据传输的速度，较现有的PCI-Express标准加快5到12倍，对于深度学习这些需要更高GPU间传递速度的应用程序来说是一大福音。NVLink可将系统里的GPU数量增加一倍，以共同用于深度学习计算任务上;还能以新的方式连接CPU与GPU，在服务器设计方面提供较PCI-E更出色的灵活性和省电表现。