Warning: file_exists(): File name is longer than the maximum allowed path length on this platform (260): D:\wwwroot\www.lonhun.com\wp/wp-content/themes/damenhu/single-post-%e9%87%8c%e7%a8%8b%e7%a2%91%e5%bc%8fgoogle-tpu-v4%e9%87%8d%e7%a3%85%e5%8f%91%e5%b8%83%ef%bc%81%e6%80%a7%e8%83%bd%e4%b8%a4%e5%80%8d%e4%ba%8e%e4%b8%96%e7%95%8c%e7%ac%ac%e4%b8%80%e8%b6%85%e7%ae%97.php in D:\wwwroot\www.lonhun.com\wp\wp-includes\template.php on line 663

Warning: file_exists(): File name is longer than the maximum allowed path length on this platform (260): D:\wwwroot\www.lonhun.com\wp/wp-content/themes/damenhu/single-post-%e9%87%8c%e7%a8%8b%e7%a2%91%e5%bc%8fgoogle-tpu-v4%e9%87%8d%e7%a3%85%e5%8f%91%e5%b8%83%ef%bc%81%e6%80%a7%e8%83%bd%e4%b8%a4%e5%80%8d%e4%ba%8e%e4%b8%96%e7%95%8c%e7%ac%ac%e4%b8%80%e8%b6%85%e7%ae%97.php in D:\wwwroot\www.lonhun.com\wp\wp-includes\template.php on line 666

Warning: file_exists(): File name is longer than the maximum allowed path length on this platform (260): D:\wwwroot\www.lonhun.com\wp/wp-includes/theme-compat/single-post-%e9%87%8c%e7%a8%8b%e7%a2%91%e5%bc%8fgoogle-tpu-v4%e9%87%8d%e7%a3%85%e5%8f%91%e5%b8%83%ef%bc%81%e6%80%a7%e8%83%bd%e4%b8%a4%e5%80%8d%e4%ba%8e%e4%b8%96%e7%95%8c%e7%ac%ac%e4%b8%80%e8%b6%85%e7%ae%97.php in D:\wwwroot\www.lonhun.com\wp\wp-includes\template.php on line 669
里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算 – 龙魂博客
您的位置 首页 业界动态

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

Google I/O开发者大会去年因为疫情而取消,今年采取线上形式强势回归。在没有开发者在场的Goo...阅读全文

Google I/O开发者大会去年因为疫情而取消,今年采取线上形式强势回归。

在没有开发者在场的Google园区内,Google CEO桑达尔 皮查伊(Sundar Pichai)宣布推出多项全新技术,除了能够帮助用户实现 空间瞬移 的全息视频聊天技术Project Starling让人耳目一新,还有最新一代AI芯片TPU v4。

这是我们在Google上部署的最快的系统,对我们来说是一个具有历史意义的里程碑。 皮查伊这样介绍到。

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

最强TPU,速度提升2倍,性能提升10倍

Google官方介绍,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4相较于上一代TPU v3性能平均提升2.7倍。

在实际应用中,TPU v4主要与Pod相连发挥作用,每一个TPU v4 Pod中有4096个TPU v4单芯片,得益于其独特的互连技术,能够将数百个独立的处理器转变为一个系统,互连带宽在规模上是其他任何网络技术的10倍。

每一个TPU v4 Pod就能达到1 exaFlOP级的算力,实现每秒10的18次方浮点运算。这甚至是全球最快的超级计算机 富岳 的两倍性能。

如果现在有1千万人同时使用笔记本电脑,所有这些计算机累加的计算能力,刚好就能够达到1 exaFLOP的算力,而之前要达到1 exaFLOP,可能需要专门定制一个超级计算机。 皮查伊如是说。

今年的MLPerf结果表明,GoogleTPU v4的实力不容小觑,在使用ImageNet数据集的图像分类训练测试(准确度至少75.90%),256 个TPU v4在1.82分钟内完成了这一任务,这几乎与768个NVIDIA Nvidia A100图形卡、192个AMD EPYC 7742内核(1.06分钟)、512个华为AI优化的Ascend 910芯片以及128个Intel Xeon Platinum 8168内核(1.56分钟)组合在一起的速度一样快。

当负责在大型维基百科语料库上训练基于Transform的阅读理解BERT模型时,TPU v4的得分也很高。使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU v3进行训练所需的0.39分钟要慢1分多钟。

同时,如果想要使用NVIDIA的硬件达到0.81分钟的训练时间,需要2048张A100卡和512个AMD EPYC 7742 CPU内核。

Google同样在I/O大会上展示了能够用到TPU v4的具体AI实例,包括能够同时处理网页、图像等多种数据的MUM模型(Multitask Unified Model,多任务统一模型)和专为对话打造的LaMDA都是能够用到TPU v4的场景模型,前者比阅读理解模型BERT强1000倍,适合赋能搜索引擎帮助用户更加高效地得到自己想要的信息,后者则可以与人类进行不间断的对话交流。

这一并不向外出售的TPU,很快将在被部署在Google的数据中心,而且90%左右的TPU v4 Pod都将使用绿色能源。

另外,Google也表示,将在今年晚些时候开放给Google Cloud的客户。

Google自研TPU,五年更新四代

Google最早于2016年宣布首款内部定制的AI芯片,区别于训练和部署AI模型的最常见的组合架构,即CPU和GPU组合,第一代TPU在那场世界著名的人机围棋大战助力AlphaGo打败李世石 一战成名 ,宣告并不是只有GPU才能做训练和推理。

Google第一代TPU采用28nm工艺制程,功耗大约40W,仅适用于深度学习推理,除了AlphaGo,也用在Google搜索、翻译等机器学习模型中。

2017年5月,Google发布了能够实现机器学习模型训练和推理的TPU v2,达到180TFLOPs浮点运算能力,同时内存带宽也得以提升,比同期推出的CPU AI工作负载提升30倍,比GPU AI工作负载提升15倍,被基于4块TPU v2的AlphaGo击败的世界围棋冠军柯洁最直观地感受了这一切。

2018年5月,Google又发布第三代TPU v3,性能是上一代TPU的两倍,实现420TFLOPs浮点运算,以及128GB的高带宽内存。

按照一年一次迭代更新的节奏,Google理应在2019年推出第四代TPU,不过这一年的I/O大会上,Google推出的是第二代和第三代TPU Pod,可以配置超过1000颗TPU,大大缩短了在进行复杂的模型训练时所需耗费的时间。

在AI芯片发展史上,无论是从片上内存上,还是从可编程能力来看,Google TPU都是不可多得的技术创新,打破GPU的 垄断 地位,且打开云端AI芯片的新竞争格局。

发展五年的Google TPU在今天依然保持着强劲的竞争力,未来的世界是什么样的?Google TPU已经告诉了我们一小部分答案。

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

本文来自网络,不代表龙魂博客立场,转载请注明出处:https://www.lonhun.com/wp/267213.html

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部