SEARCH SESSIONS
SEARCH SESSIONS

Search All
Refine Results:
 
Year(s)

SOCIAL MEDIA

EMAIL SUBSCRIPTION

 
 

GTC ON-DEMAND

5G & Edge
Presentation
Media
Abstract:
介绍如何用 NVIDIA 以太网 ESF 方案快速搭建智能边缘云计算网络的基础设施。本演讲介绍了 NVIDIA 对于边缘云计算网络的架构和分析,介绍如何采用业界领先的高性能,低延迟的小型以太网交换机和 ESF 解决方案为用户快速搭建小型化,灵活,基于 RoCE 高性能的边缘云网络。该方案可应用于远程办公,CDN,电信边缘,自动驾驶等基于 GPU 的边缘云网络。 ...Read More
Abstract:
介绍如何用 NVIDIA 以太网 ESF 方案快速搭建智能边缘云计算网络的基础设施。本演讲介绍了 NVIDIA 对于边缘云计算网络的架构和分析,介绍如何采用业界领先的高性能,低延迟的小型以太网交换机和 ESF 解决方案为用户快速搭建小型化,灵活,基于 RoCE 高性能的边缘云网络。该方案可应用于远程办公,CDN,电信边缘,自动驾驶等基于 GPU 的边缘云网络。  Back
 
Topics:
5G & Edge, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20150
Download:
Share:
 
Abstract:
本次演讲将介绍百度结合 NVIDIA Jetson 设备在边缘计算领域的积累和探索,主要内容包含: 1. 百度开源深度学习框架 Paddle Inference 适配 NVIDIA Jetson,结合全流程开发工具 PaddleX 为开发者提供在 NVIDIA Jetson 开发版上完整、高性能的模型预测部署能力,并提供全流程的说明文档及示例工程。 2. 百度开源边缘计算框架 baetyl 适配 NVIDIA Jetson,支持将 Jeston 设备作为边缘节点,通过调度资源实现下发 ai 服务和边缘 ai 推断加速。 3. 借助 Jetson 设备上的原生 TrustZone 功能,实现对边缘设备的认证和重要数据加密保护,与 baetyle 结合构建可信安全的边缘设备。 ...Read More
Abstract:
本次演讲将介绍百度结合 NVIDIA Jetson 设备在边缘计算领域的积累和探索,主要内容包含: 1. 百度开源深度学习框架 Paddle Inference 适配 NVIDIA Jetson,结合全流程开发工具 PaddleX 为开发者提供在 NVIDIA Jetson 开发版上完整、高性能的模型预测部署能力,并提供全流程的说明文档及示例工程。 2. 百度开源边缘计算框架 baetyl 适配 NVIDIA Jetson,支持将 Jeston 设备作为边缘节点,通过调度资源实现下发 ai 服务和边缘 ai 推断加速。 3. 借助 Jetson 设备上的原生 TrustZone 功能,实现对边缘设备的认证和重要数据加密保护,与 baetyle 结合构建可信安全的边缘设备。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20246
Download:
Share:
 
Abstract:
基于 5G 的智慧网联公交车为人民出行提供了更加安全、高效的交通方式,通过 5G 网络的大带宽和超密集连接可以使人民享受前所未有的出行娱乐体验。基于蜂窝网络的 V2X 技术可以综合路侧和车辆的信息,为公交车提供全面的感知信息,不仅可以保证行驶在道路上的车辆之间的安全,还可以避免与非机动车和行人的交通事故的发生。本次演讲主要聚焦基于 5G-V2X 的智慧公交车的综合解决方案,首先介绍 V2X 智能网联汽车产业的进展,其次介绍公司在智慧公交产业的解决方案和相关产品,在对基于摄像头和雷达的多源信息融合和处理方面,应用 GPU 可以很好的对图像和视频进行相应的处理,达到高效数据融合的目的,为后续的处理提供坚实的基础,最后介绍公司在智慧公交解决方案方面的多个成功案例。 ...Read More
Abstract:
基于 5G 的智慧网联公交车为人民出行提供了更加安全、高效的交通方式,通过 5G 网络的大带宽和超密集连接可以使人民享受前所未有的出行娱乐体验。基于蜂窝网络的 V2X 技术可以综合路侧和车辆的信息,为公交车提供全面的感知信息,不仅可以保证行驶在道路上的车辆之间的安全,还可以避免与非机动车和行人的交通事故的发生。本次演讲主要聚焦基于 5G-V2X 的智慧公交车的综合解决方案,首先介绍 V2X 智能网联汽车产业的进展,其次介绍公司在智慧公交产业的解决方案和相关产品,在对基于摄像头和雷达的多源信息融合和处理方面,应用 GPU 可以很好的对图像和视频进行相应的处理,达到高效数据融合的目的,为后续的处理提供坚实的基础,最后介绍公司在智慧公交解决方案方面的多个成功案例。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20358
Download:
Share:
 
Abstract:
虚拟化、开放化、智能化逐步成为移动通信 5G 及后 5G 时代的主要趋势,OpenAirInterface 作为最早实现 5G 端到端协议栈的开源项目,得到了业界广泛的关注。但目前 5G 全协议栈软件化方案普遍存在处理性能低下、功耗高等问题,限制了软件化 5G 解决方案的规模化、商业化应用。我们设计了基于NVIDIA GPU 加速的 OAI 开源 5G 协议栈方案,大幅提升了软件化协议栈处理速率,完美解决了传统方案算力不足以及欠缺灵活性问题,为开源 5G 协议栈商业化应用提供了一种新思路 ...Read More
Abstract:
虚拟化、开放化、智能化逐步成为移动通信 5G 及后 5G 时代的主要趋势,OpenAirInterface 作为最早实现 5G 端到端协议栈的开源项目,得到了业界广泛的关注。但目前 5G 全协议栈软件化方案普遍存在处理性能低下、功耗高等问题,限制了软件化 5G 解决方案的规模化、商业化应用。我们设计了基于NVIDIA GPU 加速的 OAI 开源 5G 协议栈方案,大幅提升了软件化协议栈处理速率,完美解决了传统方案算力不足以及欠缺灵活性问题,为开源 5G 协议栈商业化应用提供了一种新思路  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20394
Download:
Share:
 
Abstract:
随着 5G 业务的发展和部署,边缘业务和云化逐渐对网络能力提出更高要求。智能网卡技术在 5G 的应用得到了很多的关注。智能网卡提供了提供作为卸载核心网业务逻辑到硬件的加速手段,在云化 SDN 和容器场景下,智能网卡通过流表卸载和业务合作对云服务实现了智能化和高速化转型能力,此外,无损网络作为电信的高性能业务场景为存储和 AI 业务提供了更好的低时延高带宽能力。 ...Read More
Abstract:
随着 5G 业务的发展和部署,边缘业务和云化逐渐对网络能力提出更高要求。智能网卡技术在 5G 的应用得到了很多的关注。智能网卡提供了提供作为卸载核心网业务逻辑到硬件的加速手段,在云化 SDN 和容器场景下,智能网卡通过流表卸载和业务合作对云服务实现了智能化和高速化转型能力,此外,无损网络作为电信的高性能业务场景为存储和 AI 业务提供了更好的低时延高带宽能力。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20567
Download:
Share:
 
Abstract:
随着新一代信息技术与行业深度融合,数字化转型已经日趋成为企业发展的新动能。 AI 通过重构企业商业流程、用户体验、产品服务和商业模式,正成为企业数字化转型的核心。但随着 AI 向行业渗透,传统云为中心的 AI 解决方案难以实现对海量的数据存储和传输要求的处理,也难以满足诸多对实时响应要求较高的应用场景的需求。边缘智能结合边缘计算和人工智能,在边缘侧进行实时、小数据的处理,开展 AI 模型的推理,实现智能检测,回传云端结果,在云端进行长周期、大数据的处理,开展模型的训练和数据分析,形成云 — 边 — 端协同的架构,有效的解决 AI 在行业应用面临的海量数据处理、实时响应、数据安全等问题,为 AI 在更多行业应用奠定基础。尤其是在制造业、政府、电信、医疗等重点领域,敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护已经成为核心需求,边缘智能将是实现行业数字化转型的关键。 IDC 预测,到 2024 年,制造业、政府、电信、医疗四大行业在边缘智能应用上的支出将达到 133 亿美金,占整体边缘智能市场支出的 41% 。 ...Read More
Abstract:
随着新一代信息技术与行业深度融合,数字化转型已经日趋成为企业发展的新动能。 AI 通过重构企业商业流程、用户体验、产品服务和商业模式,正成为企业数字化转型的核心。但随着 AI 向行业渗透,传统云为中心的 AI 解决方案难以实现对海量的数据存储和传输要求的处理,也难以满足诸多对实时响应要求较高的应用场景的需求。边缘智能结合边缘计算和人工智能,在边缘侧进行实时、小数据的处理,开展 AI 模型的推理,实现智能检测,回传云端结果,在云端进行长周期、大数据的处理,开展模型的训练和数据分析,形成云 — 边 — 端协同的架构,有效的解决 AI 在行业应用面临的海量数据处理、实时响应、数据安全等问题,为 AI 在更多行业应用奠定基础。尤其是在制造业、政府、电信、医疗等重点领域,敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护已经成为核心需求,边缘智能将是实现行业数字化转型的关键。 IDC 预测,到 2024 年,制造业、政府、电信、医疗四大行业在边缘智能应用上的支出将达到 133 亿美金,占整体边缘智能市场支出的 41% 。  Back
 
Topics:
5G & Edge, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20572
Download:
Share:
 
Abstract:
在边缘计算的应用中,如何应对不同尺度的问题,如何解决边缘设备的性能问题,如果搜集并保护数据,如何远程对设备系统进行升级,如何远程查看设备状态,如何远程对设备应用进行管理,如何进行数据的可视化。所有的这些,都构成了边缘计算落地的障碍。在这个分享中,将分享米文动力针对客户的这些问题所提供的价值,和相应的解决方案。 ...Read More
Abstract:
在边缘计算的应用中,如何应对不同尺度的问题,如何解决边缘设备的性能问题,如果搜集并保护数据,如何远程对设备系统进行升级,如何远程查看设备状态,如何远程对设备应用进行管理,如何进行数据的可视化。所有的这些,都构成了边缘计算落地的障碍。在这个分享中,将分享米文动力针对客户的这些问题所提供的价值,和相应的解决方案。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20639
Download:
Share:
 
Abstract:
5G 和人工智能应用的普及,为云端计算产生巨大压力,越来越多的推荐系统部署到边缘计算系统中,需要边缘计算基础架构具备安全高效的处理能力。 NVIDIA 新推出的 EGX 融合了 GPU 和 DPU 的超高处理能力,实现网络接收数据到 GPU 单元的高效协同处理,同时内置的安全处理引擎,为边缘计算平台的安全可靠性提供有力支撑。本节将为大家介绍如何应用 DPU 与 GPU 融合架构的关键技术,构建高效的推荐系统 + 边缘计算基础架构 ...Read More
Abstract:
5G 和人工智能应用的普及,为云端计算产生巨大压力,越来越多的推荐系统部署到边缘计算系统中,需要边缘计算基础架构具备安全高效的处理能力。 NVIDIA 新推出的 EGX 融合了 GPU 和 DPU 的超高处理能力,实现网络接收数据到 GPU 单元的高效协同处理,同时内置的安全处理引擎,为边缘计算平台的安全可靠性提供有力支撑。本节将为大家介绍如何应用 DPU 与 GPU 融合架构的关键技术,构建高效的推荐系统 + 边缘计算基础架构  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20646
Download:
Share:
 
Abstract:
边缘计算将在 5G 时代成为现实,中国移动北京研究院在边缘计算领域的研究和探索都处在业界的最前沿,在本次演讲中,将会重点介绍中国移动在边缘计算领域的洞察、思考和积极尝试,包括边缘计算的业务场景、部署架构、设备类型、管理思路和发展战略等,以及中国移动边缘计算平台的能力开放、生态共赢策略,希望与各行业伙伴共同开拓边缘计算市场新局面。 ...Read More
Abstract:
边缘计算将在 5G 时代成为现实,中国移动北京研究院在边缘计算领域的研究和探索都处在业界的最前沿,在本次演讲中,将会重点介绍中国移动在边缘计算领域的洞察、思考和积极尝试,包括边缘计算的业务场景、部署架构、设备类型、管理思路和发展战略等,以及中国移动边缘计算平台的能力开放、生态共赢策略,希望与各行业伙伴共同开拓边缘计算市场新局面。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20665
Download:
Share:
 
Abstract:
5G 时代,智能 APP 会全面渗透到生产、生活中,网络连接数量和数据量在 5 年内会有 10 倍规模的增长,会有 75% 以上的网络数据量在边缘进行处理。网络随业务向边缘迁移是产业发展的趋势,应用的本地化、计算的边缘化、内容的分布化是 5G 边缘云网的特点,便捷、弹性、融合的边缘云网也是 5G 走向千行百业的基础。 F3 Edge 边缘云网正是基于 5G 边缘网络的发展趋势提出的边缘智能化平台解决方案,该解决方案基于NVIDIA EGX 边缘平台,形成 MEC-Server 、 MEC 网关、边缘 UPF 能力产品,通过虚拟化技术、 SDN 、能力开发等技术手段,提供多接入、边缘云计算、云边端协同的边缘云网体系和能力生态平台,构建 5G 时代面向垂直行业的 Fast 、 Flexible 、 Fusion 边缘云网。 该能力生态平台在工业动环监控、多媒体生产调度、基于 AI 识别的柔性制造等领域进行了实践和应用,为 5G 走向千行百业进行了技术、应用、与实践探索。 ...Read More
Abstract:
5G 时代,智能 APP 会全面渗透到生产、生活中,网络连接数量和数据量在 5 年内会有 10 倍规模的增长,会有 75% 以上的网络数据量在边缘进行处理。网络随业务向边缘迁移是产业发展的趋势,应用的本地化、计算的边缘化、内容的分布化是 5G 边缘云网的特点,便捷、弹性、融合的边缘云网也是 5G 走向千行百业的基础。 F3 Edge 边缘云网正是基于 5G 边缘网络的发展趋势提出的边缘智能化平台解决方案,该解决方案基于NVIDIA EGX 边缘平台,形成 MEC-Server 、 MEC 网关、边缘 UPF 能力产品,通过虚拟化技术、 SDN 、能力开发等技术手段,提供多接入、边缘云计算、云边端协同的边缘云网体系和能力生态平台,构建 5G 时代面向垂直行业的 Fast 、 Flexible 、 Fusion 边缘云网。 该能力生态平台在工业动环监控、多媒体生产调度、基于 AI 识别的柔性制造等领域进行了实践和应用,为 5G 走向千行百业进行了技术、应用、与实践探索。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20681
Download:
Share:
 
Abstract:
随着 2020 年 5G 网络的落地普及和新基建的推广,5G 边缘计算能力给传统企业的信息化转型以及人工智能转型提供了有力支持。中国电信结合自身 5G SA 网络定制化能力,和长期服务政企客户的 IT 能力,为传统行业客户打造定制化云网服务,提出了云网一体,云网协同,区域专属的三种服务模式,本次演讲将会分享中国电信边缘计算的整体架构以及在制造业、智能商超、车联网等领域的探索经验和实际案例。 ...Read More
Abstract:
随着 2020 年 5G 网络的落地普及和新基建的推广,5G 边缘计算能力给传统企业的信息化转型以及人工智能转型提供了有力支持。中国电信结合自身 5G SA 网络定制化能力,和长期服务政企客户的 IT 能力,为传统行业客户打造定制化云网服务,提出了云网一体,云网协同,区域专属的三种服务模式,本次演讲将会分享中国电信边缘计算的整体架构以及在制造业、智能商超、车联网等领域的探索经验和实际案例。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20712
Download:
Share:
 
Abstract:
本演讲介绍基于 NVIDIA Jetson Family 的边缘计算控制器在智慧交通场景中的应用,包括无人车控制器、 Sensor Box 、平行驾驶系统、车路协同 RSU 和 MEC 、轨道交通安全感知系统、无人船控制器和船舶 & 桥梁防撞预警系统等智慧交通领域的典型应用案例。 在这些应用场景中,通过 Jetson 平台提供的强大的 GPU 算力(Xavier 32TOPS/Jetson NX 21TOPS),配合 TensorRT 、 DeepStream 、 CUDA 并行计算等针对 Jetson 平台优化过的 SDK,使得目标识别、跟踪、环境感知等深度学习推理算法进一步往边缘端前移,将以往运行在云端、服务器或工控机中的推理算法部署在一个紧凑的边缘计算控制器中,具有更低的功耗、更高的可靠性和更好的实时性,使其能够更好的胜任车载、路杆、船载、桥梁等交通场景中恶劣工作环境的挑战。 ...Read More
Abstract:
本演讲介绍基于 NVIDIA Jetson Family 的边缘计算控制器在智慧交通场景中的应用,包括无人车控制器、 Sensor Box 、平行驾驶系统、车路协同 RSU 和 MEC 、轨道交通安全感知系统、无人船控制器和船舶 & 桥梁防撞预警系统等智慧交通领域的典型应用案例。 在这些应用场景中,通过 Jetson 平台提供的强大的 GPU 算力(Xavier 32TOPS/Jetson NX 21TOPS),配合 TensorRT 、 DeepStream 、 CUDA 并行计算等针对 Jetson 平台优化过的 SDK,使得目标识别、跟踪、环境感知等深度学习推理算法进一步往边缘端前移,将以往运行在云端、服务器或工控机中的推理算法部署在一个紧凑的边缘计算控制器中,具有更低的功耗、更高的可靠性和更好的实时性,使其能够更好的胜任车载、路杆、船载、桥梁等交通场景中恶劣工作环境的挑战。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20779
Download:
Share:
 
Abstract:
参会者可以了解到边缘计算云服务在云端实时设计渲染以及云游戏领域的最新进展。腾讯云边缘计算将计算能力从中心节点下沉到靠近用户的边缘节点,为各行业提供低时延、高可用、低成本的边缘计算服务。随着视频、游戏等行业的进一步发展,边缘计算也将 GPU 的计算性能下沉到边缘数据中心,结合 NVIDIA 新款 GPU 卡的发布,腾讯云边缘计算节点也可以提供 GPU 计算能力,在边缘节点通过虚拟化技术向行业客户提供边缘云服务。借助边缘节点地理位置和本地网络覆盖的优势,行业客户可以就近提供服务,新的云端服务形式开始快速发展。本次演讲中会介绍 2 个实际应用的案例,第一个是在云端进行设计并实时渲染,大大缩短了设计师等人员的设计用时,能够显著提升工作效率。第二个是云游戏在边缘 GPU 算力基础上提供服务的应用,依靠边缘时延的优势,云游戏可以为用户提供低时延的优质体验。 ...Read More
Abstract:
参会者可以了解到边缘计算云服务在云端实时设计渲染以及云游戏领域的最新进展。腾讯云边缘计算将计算能力从中心节点下沉到靠近用户的边缘节点,为各行业提供低时延、高可用、低成本的边缘计算服务。随着视频、游戏等行业的进一步发展,边缘计算也将 GPU 的计算性能下沉到边缘数据中心,结合 NVIDIA 新款 GPU 卡的发布,腾讯云边缘计算节点也可以提供 GPU 计算能力,在边缘节点通过虚拟化技术向行业客户提供边缘云服务。借助边缘节点地理位置和本地网络覆盖的优势,行业客户可以就近提供服务,新的云端服务形式开始快速发展。本次演讲中会介绍 2 个实际应用的案例,第一个是在云端进行设计并实时渲染,大大缩短了设计师等人员的设计用时,能够显著提升工作效率。第二个是云游戏在边缘 GPU 算力基础上提供服务的应用,依靠边缘时延的优势,云游戏可以为用户提供低时延的优质体验。  Back
 
Topics:
5G & Edge, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20801
Download:
Share:
 
Abstract:
当 GPU 进入到某个行业,通常意味着这个行业将发生巨大的变化。当无线接入网与 GPU 相结合,意味着我们的基站再实现无线通信信号接入的同时,被赋予了强大的边缘计算能力。我们将致力于使用 GPU 来构建一个集 IT,CT,Big Data 于一身的边缘云平台。 ...Read More
Abstract:
当 GPU 进入到某个行业,通常意味着这个行业将发生巨大的变化。当无线接入网与 GPU 相结合,意味着我们的基站再实现无线通信信号接入的同时,被赋予了强大的边缘计算能力。我们将致力于使用 GPU 来构建一个集 IT,CT,Big Data 于一身的边缘云平台。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20839
Download:
Share:
 
Abstract:
随着 5G 时代到来,网络设备追求更高的性能和灵活性。 DPU 为 5G 产品的可扩展性和通用加速转型提供了更优的选择。通过在 DPU 中实现精准时钟同步及基于高精度时钟的精准调度能力,结合 GPU 和通用服务器平台,可以支持 5G 无线 o-RAN 场景的更强 CU/DU 实现选择。此外,DPU 还支持通过多种卸载选项,加速 5G 核心网和边缘的 UPF 设备,使得在更通用的平台上运行开放的 UPF 能够支持 5G 的高性能需求。 ...Read More
Abstract:
随着 5G 时代到来,网络设备追求更高的性能和灵活性。 DPU 为 5G 产品的可扩展性和通用加速转型提供了更优的选择。通过在 DPU 中实现精准时钟同步及基于高精度时钟的精准调度能力,结合 GPU 和通用服务器平台,可以支持 5G 无线 o-RAN 场景的更强 CU/DU 实现选择。此外,DPU 还支持通过多种卸载选项,加速 5G 核心网和边缘的 UPF 设备,使得在更通用的平台上运行开放的 UPF 能够支持 5G 的高性能需求。  Back
 
Topics:
5G & Edge
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20922
Download:
Share:
AI Application, Deployment & Inference
Presentation
Media
Abstract:
在本次演讲中,我们将介绍如何基于 OPPO 品牌的 AR-Glass 构建 3D 手部跟踪和手势识别。演讲展示了 AR-Glass 上最先进的 3D 手部跟踪功能,我们将介绍对市场上成熟产品(即 Hololens 和 Oculus)的基本了解和优缺点。之后,演讲将介绍我们在构建 3D 手部跟踪和手势识别,框架,模块和性能方面的经验。我们展示了 DGX 服务器如何既可以快速又可靠地提高神经网络的训练过程。最后,我们将指出我们系统当前存在的问题,和当前市场上产品任然存在的问题。 ...Read More
Abstract:
在本次演讲中,我们将介绍如何基于 OPPO 品牌的 AR-Glass 构建 3D 手部跟踪和手势识别。演讲展示了 AR-Glass 上最先进的 3D 手部跟踪功能,我们将介绍对市场上成熟产品(即 Hololens 和 Oculus)的基本了解和优缺点。之后,演讲将介绍我们在构建 3D 手部跟踪和手势识别,框架,模块和性能方面的经验。我们展示了 DGX 服务器如何既可以快速又可靠地提高神经网络的训练过程。最后,我们将指出我们系统当前存在的问题,和当前市场上产品任然存在的问题。  Back
 
Topics:
AI Application, Deployment & Inference
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20305
Download:
Share:
 
Abstract:
本讲座介绍将深度学习与神经网络应用于实时布料物理计算、游戏 AI 、高真实度人脸动画渲染与模型制作,以提高游戏渲染效率和真实度、提升开发制作效率,最终产出高质量的游戏产品。 ...Read More
Abstract:
本讲座介绍将深度学习与神经网络应用于实时布料物理计算、游戏 AI 、高真实度人脸动画渲染与模型制作,以提高游戏渲染效率和真实度、提升开发制作效率,最终产出高质量的游戏产品。  Back
 
Topics:
AI Application, Deployment & Inference
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20825
Download:
Share:
Accelerated Data Science
Presentation
Media
Abstract:
当今深度学习社区很大程度上独立于 NumPy 之前的数据科学和机器学习社区发展而来。 尽管现在大多数深度学习框架都提供了类似于 NumPy 的数学和数组库,但是它们在操作定义上有所不同,从而给机器学习从业人员和数据科学家入门深度学习带来了额外的学习代价。 这不仅在两个不同社区的从业者技能造成鸿沟,而且还阻碍了知识交流。 Apache MXNet(孵化中)的下一个主要版本 2.0 旨在桥接零散的深度学习和机器学习生态系统。 它通过新的 Gluon 2.0 界面提供了与 NumPy 兼容的编程体验,并对 NumPy 进行了简单的增强,以进行深度学习。 兼容 NumPy 的阵列 API 还为 NumPy 生态系统带来了 GPU 加速,自动分化和高性能一键式部署方面的进步。 ...Read More
Abstract:
当今深度学习社区很大程度上独立于 NumPy 之前的数据科学和机器学习社区发展而来。 尽管现在大多数深度学习框架都提供了类似于 NumPy 的数学和数组库,但是它们在操作定义上有所不同,从而给机器学习从业人员和数据科学家入门深度学习带来了额外的学习代价。 这不仅在两个不同社区的从业者技能造成鸿沟,而且还阻碍了知识交流。 Apache MXNet(孵化中)的下一个主要版本 2.0 旨在桥接零散的深度学习和机器学习生态系统。 它通过新的 Gluon 2.0 界面提供了与 NumPy 兼容的编程体验,并对 NumPy 进行了简单的增强,以进行深度学习。 兼容 NumPy 的阵列 API 还为 NumPy 生态系统带来了 GPU 加速,自动分化和高性能一键式部署方面的进步。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20796
Download:
Share:
 
Abstract:
听众将了解推荐系统的技术演进和典型的 Wide & Deep 模型的构成,学会如何分析其训练性能,并使用 GPU 优化的方法论与工具。推荐系统是互联网公司的核心业务系统,随着业务场景对个性化推荐和实时推荐的要求越来越高,模型的发展趋势向深度化发展,而数据的广度和数量大幅增长,从而对训练的性能有巨大的需求,本演讲分享了爱奇艺 W&D 模型训练从 CPU 向 GPU 转化的过程使用的方法论和工具,可供借鉴。 ...Read More
Abstract:
听众将了解推荐系统的技术演进和典型的 Wide & Deep 模型的构成,学会如何分析其训练性能,并使用 GPU 优化的方法论与工具。推荐系统是互联网公司的核心业务系统,随着业务场景对个性化推荐和实时推荐的要求越来越高,模型的发展趋势向深度化发展,而数据的广度和数量大幅增长,从而对训练的性能有巨大的需求,本演讲分享了爱奇艺 W&D 模型训练从 CPU 向 GPU 转化的过程使用的方法论和工具,可供借鉴。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20159
Download:
Share:
 
Abstract:
金仕达将 NVIDIA Mellanox RDMA 网络技术应用于金融行业各种极速类系统中,降低了系统整体延时,提高了金融市场价格发现的整体效率。近年来,中国金融市场加速发展和创新,对外不断扩大开放,投资者的结构也在逐渐发生变化。其中机构投资者、专业投资者占比逐年提高。与传统的散户投资者不同,机构和专业投资者的资金量更大,对金融科技的接受度和使用程度更高。他们会使用程序化交易工具,基于一定的策略,对市场行情和其他信号进行综合判断后发出交易请求,因此也自然的对行情速率和交易的成功率非常看重。这就对为之服务的行情、交易、风控类系统提出了很高的性能和低延时要求。传统的金融系统,采用的还是 TCP 或者 UDP 可靠组播协议。金仕达与 NVIDIA Mellanox 合作,将 RDMA 网络技术应用于新一代的各类极速系统中,大幅提升了网络性能,减少了网络延迟,从而提高交易者捕捉市场的机会,提升整个市场价格发现的效率。 ...Read More
Abstract:
金仕达将 NVIDIA Mellanox RDMA 网络技术应用于金融行业各种极速类系统中,降低了系统整体延时,提高了金融市场价格发现的整体效率。近年来,中国金融市场加速发展和创新,对外不断扩大开放,投资者的结构也在逐渐发生变化。其中机构投资者、专业投资者占比逐年提高。与传统的散户投资者不同,机构和专业投资者的资金量更大,对金融科技的接受度和使用程度更高。他们会使用程序化交易工具,基于一定的策略,对市场行情和其他信号进行综合判断后发出交易请求,因此也自然的对行情速率和交易的成功率非常看重。这就对为之服务的行情、交易、风控类系统提出了很高的性能和低延时要求。传统的金融系统,采用的还是 TCP 或者 UDP 可靠组播协议。金仕达与 NVIDIA Mellanox 合作,将 RDMA 网络技术应用于新一代的各类极速系统中,大幅提升了网络性能,减少了网络延迟,从而提高交易者捕捉市场的机会,提升整个市场价格发现的效率。  Back
 
Topics:
Accelerated Data Science, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20252
Download:
Share:
 
Abstract:
大数据技术广泛应用与人工智能的数据处理,企业非结构化数据分析,分布式数据库等行业。目前大数据处理普遍使用集群实现分布式并行处理。如何利用业界最先进的 GPU 、网络等技术,构建高效的软、硬件体系架构,成为大数据性能提升的关键。本节将介绍如何应用 RDMA 高效网络通讯技术,结合 GPU 加速计算,为基于 SPARK 架构的数据处理实现性能加速。 ...Read More
Abstract:
大数据技术广泛应用与人工智能的数据处理,企业非结构化数据分析,分布式数据库等行业。目前大数据处理普遍使用集群实现分布式并行处理。如何利用业界最先进的 GPU 、网络等技术,构建高效的软、硬件体系架构,成为大数据性能提升的关键。本节将介绍如何应用 RDMA 高效网络通讯技术,结合 GPU 加速计算,为基于 SPARK 架构的数据处理实现性能加速。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20439
Download:
Share:
 
Abstract:
介绍了使用 GPU 加速 Spark 大数据处理的方案,包括中国电信使用 GPU 来加速其 Spark 大数据处理的测试工作。
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20440
Download:
Share:
 
Abstract:
RAPIDS 软件库提供了在 GPU 上执行端对端数据科学和分析可能性。本研讨会会全面的介绍 RAPIDS 软件库,涵盖了 RAPIDS 核心库 cuDF 、 cuML 、 cuGraph,加速 GIS 工作流的 cuSpatial,加速信号处理的 cuSignal 和用于视觉化的 cuxfilter,以及各个组件最新的软件内容和更新。最后通过本研讨会还可以了解到 RAPIDS 与头部软件库的集成情况,如 BlazingSQL 、 Dask 、 Plot.ly 、 PyTorch 、 Ray 、 SpaCy 等。 ...Read More
Abstract:
RAPIDS 软件库提供了在 GPU 上执行端对端数据科学和分析可能性。本研讨会会全面的介绍 RAPIDS 软件库,涵盖了 RAPIDS 核心库 cuDF 、 cuML 、 cuGraph,加速 GIS 工作流的 cuSpatial,加速信号处理的 cuSignal 和用于视觉化的 cuxfilter,以及各个组件最新的软件内容和更新。最后通过本研讨会还可以了解到 RAPIDS 与头部软件库的集成情况,如 BlazingSQL 、 Dask 、 Plot.ly 、 PyTorch 、 Ray 、 SpaCy 等。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20597
Download:
Share:
 
Abstract:
大规模 AI 计算平台离不开分布式系统的支持,云原生技术的普及让 AI 计算和云原生擦出了技术的火花 . 百度作为 AI 技术的领导者,在利用云原生技术构建大规模 AI 计算平台方面积累了大量的技术,这篇演讲重点分享百度结合云原生基础架构在 GPU 共享,训练和推理场景上的技术实践 . ...Read More
Abstract:
大规模 AI 计算平台离不开分布式系统的支持,云原生技术的普及让 AI 计算和云原生擦出了技术的火花 . 百度作为 AI 技术的领导者,在利用云原生技术构建大规模 AI 计算平台方面积累了大量的技术,这篇演讲重点分享百度结合云原生基础架构在 GPU 共享,训练和推理场景上的技术实践 .  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20677
Download:
Share:
 
Abstract:
在数据科学中,ETL 是从海量信息中获得关键数据并进行后续机器学习、深度学习的关键。 ETL 的处理速度直接关系到整个过程的处理能力。随着商业智能的发展及大数据的爆发,ETL 的处理速度变得越来越重要。 RAPIDS CUDA Dataframe(cuDF)将 ETL 性能提高了 60 倍。直接将数据流传输到 cuDF 中,可确保用户可以充分利用 RAPIDS 提供的性能优势,同时最大程度地减少数据准备带来的延迟。我们将介绍如何创建用户定义的 cuDF 的数据源以将数据从第三方系统直接传递到 GPU dataframe 的。我们还将介绍架构设计模式,并展示开发人员如何编写有效的代码来将数据从外部系统直接传递到 GPU 中的。 ...Read More
Abstract:
在数据科学中,ETL 是从海量信息中获得关键数据并进行后续机器学习、深度学习的关键。 ETL 的处理速度直接关系到整个过程的处理能力。随着商业智能的发展及大数据的爆发,ETL 的处理速度变得越来越重要。 RAPIDS CUDA Dataframe(cuDF)将 ETL 性能提高了 60 倍。直接将数据流传输到 cuDF 中,可确保用户可以充分利用 RAPIDS 提供的性能优势,同时最大程度地减少数据准备带来的延迟。我们将介绍如何创建用户定义的 cuDF 的数据源以将数据从第三方系统直接传递到 GPU dataframe 的。我们还将介绍架构设计模式,并展示开发人员如何编写有效的代码来将数据从外部系统直接传递到 GPU 中的。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20699
Download:
Share:
 
Abstract:
介绍如何在 TensorFlow 中,利用 CUDA Graph,降低 Kernel Launch Overhead,提高 GPU 利用率,改善系统性能。在使用 TensorFlow 的过程中,通常会遇到这样的情形 – 模型中存在较多计算量小的操作(op),由于每个操作在执行过程中,会发生一或多次 Kernel Launch,导致 Launch Kernel 的 Overhead 变得非常显著,降低 GPU 利用率。 TF 在默认配置下,GPU 上的计算调度和 CPU 上的计算调度使用同一个线程池,导致同时存在相当数量的线程在进行 Kernel Launch,进一步加剧了 Launch Overhead 。针对这个问题,我们提出了使用 CUDA Graph 来降低 TF 中 Kernel Launch Overhead 的方法 – 将 Session Run 过程中的 Kernel Launch 合并成一次 CUDA Graph Launch,经过测试验证,该方法可以显著提高 TF 在 Inference 过程中 GPU 利用率,相比于图优化策略,该方法适用更多的计算图模式,同时也可以和图优化方法同时使用,进一步提升性能。 ...Read More
Abstract:
介绍如何在 TensorFlow 中,利用 CUDA Graph,降低 Kernel Launch Overhead,提高 GPU 利用率,改善系统性能。在使用 TensorFlow 的过程中,通常会遇到这样的情形 – 模型中存在较多计算量小的操作(op),由于每个操作在执行过程中,会发生一或多次 Kernel Launch,导致 Launch Kernel 的 Overhead 变得非常显著,降低 GPU 利用率。 TF 在默认配置下,GPU 上的计算调度和 CPU 上的计算调度使用同一个线程池,导致同时存在相当数量的线程在进行 Kernel Launch,进一步加剧了 Launch Overhead 。针对这个问题,我们提出了使用 CUDA Graph 来降低 TF 中 Kernel Launch Overhead 的方法 – 将 Session Run 过程中的 Kernel Launch 合并成一次 CUDA Graph Launch,经过测试验证,该方法可以显著提高 TF 在 Inference 过程中 GPU 利用率,相比于图优化策略,该方法适用更多的计算图模式,同时也可以和图优化方法同时使用,进一步提升性能。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20732
Download:
Share:
 
Abstract:
我们将展示代码从本地 python 迁移到 Numba,然后再迁移到 CuPy kernel(CUDA C++)的过程。将提供基本的工作流程,最佳实践,经验和代码展示。最后用 NVIDIA Nsight Systems 展示代码细小的优化能够带来实质性的性能提升的优势。整个代码迁移优化过程能够在任何领域中使用。 ...Read More
Abstract:
我们将展示代码从本地 python 迁移到 Numba,然后再迁移到 CuPy kernel(CUDA C++)的过程。将提供基本的工作流程,最佳实践,经验和代码展示。最后用 NVIDIA Nsight Systems 展示代码细小的优化能够带来实质性的性能提升的优势。整个代码迁移优化过程能够在任何领域中使用。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20816
Download:
Share:
 
Abstract:
Gradient Boosted Tree 是表格型数据分析的常用算法。 在演讲中,我们将会介绍大数据分析中存在的困难以及机遇。 RAPIDS 开源库同过对 XGBoost 和 Spark 的整合为我们提供了一个端到端的高性能数据处理方案。 通过 GPU 加速我们可以轻松应对快速增长的数据量。 我们将会着重介绍 XGBoost 分布式训练原理,以及如何通过 Spark 和 XGBoost 在 GPU 集群上实现快速的 ETL,模型训练和特征值分析(SHAP value),以相对较低的成本将数小时的运算可以缩至短短的几分钟。 在参与演讲的过程中,您还会了解到 XGBoost 开发的最新信息以及对 XGBoost4j-Spark 加速的未来的展望。 最后我们会展示 GPU 数据分析加速的实现例子以及最新基准测试。 ...Read More
Abstract:
Gradient Boosted Tree 是表格型数据分析的常用算法。 在演讲中,我们将会介绍大数据分析中存在的困难以及机遇。 RAPIDS 开源库同过对 XGBoost 和 Spark 的整合为我们提供了一个端到端的高性能数据处理方案。 通过 GPU 加速我们可以轻松应对快速增长的数据量。 我们将会着重介绍 XGBoost 分布式训练原理,以及如何通过 Spark 和 XGBoost 在 GPU 集群上实现快速的 ETL,模型训练和特征值分析(SHAP value),以相对较低的成本将数小时的运算可以缩至短短的几分钟。 在参与演讲的过程中,您还会了解到 XGBoost 开发的最新信息以及对 XGBoost4j-Spark 加速的未来的展望。 最后我们会展示 GPU 数据分析加速的实现例子以及最新基准测试。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20841
Download:
Share:
 
Abstract:
作为目前最流行的大数据处理框架,Apache Spark 在其最新的 3.0 版本中加入了对 GPU 设备的调度支持,从而使得数据处理能够被 GPU 加速。演讲首先会介绍 Spark3.0 使用 GPU 加速器 — Spark Rapids Accelerator 所取得的显著成果(时间,花费),并且分析加速器的适用场景和目前的局限性。接着介绍加速器在 Spark 框架中是如何工作的:第一部分是对于 Spark 基础运算部分的加速,第二部分是针对于 Shuffle 数据交换部分的加速。我们会在演讲中进行 demo 来展示实际案例的加速效果。在大部分测试案例中,Spark Rapids Accelerator 取得了至少 3 倍的性能提升。最后,我们会介绍更多的加速特性和后续的开发计划。 ...Read More
Abstract:
作为目前最流行的大数据处理框架,Apache Spark 在其最新的 3.0 版本中加入了对 GPU 设备的调度支持,从而使得数据处理能够被 GPU 加速。演讲首先会介绍 Spark3.0 使用 GPU 加速器 — Spark Rapids Accelerator 所取得的显著成果(时间,花费),并且分析加速器的适用场景和目前的局限性。接着介绍加速器在 Spark 框架中是如何工作的:第一部分是对于 Spark 基础运算部分的加速,第二部分是针对于 Shuffle 数据交换部分的加速。我们会在演讲中进行 demo 来展示实际案例的加速效果。在大部分测试案例中,Spark Rapids Accelerator 取得了至少 3 倍的性能提升。最后,我们会介绍更多的加速特性和后续的开发计划。  Back
 
Topics:
Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20960
Download:
Share:
 
Abstract:
探寻由 GPU 助力的下一代机器学习平台解决传统建模效率低下,解释性差的困境。深入研究现有建模产品的不足及客户痛点,提出端到端可解释可溯源,让模型真正落地的解决方案。领略经优化算法和 CUDA 加速较传统产品的效率极速加成。结合现实案例,学习精准、易用、可理解、高效的机器学习平台在金融机构中带来的效益和效率。 ...Read More
Abstract:
探寻由 GPU 助力的下一代机器学习平台解决传统建模效率低下,解释性差的困境。深入研究现有建模产品的不足及客户痛点,提出端到端可解释可溯源,让模型真正落地的解决方案。领略经优化算法和 CUDA 加速较传统产品的效率极速加成。结合现实案例,学习精准、易用、可理解、高效的机器学习平台在金融机构中带来的效益和效率。  Back
 
Topics:
Accelerated Data Science, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20963
Download:
Share:
Algorithms & Numerical Techniques
Presentation
Media
Abstract:
对人的感知有助于实现机器人对人行为的理解。在此次演讲中,将介绍京东在人的感知方面的 3 项工作。 1. 人脸关键点定位:将介绍京东开发的快速、精确、稳定的试妆系统(FASTry : A Fast,Accurate and Stable Cosmetic Try-On System)。 2. 手部姿态估计:手势识别是人机交互中的重要组成部分。其中有 2 个关键挑战:首先是在真实场景中实现稳定精确的手部关键点检测,其次是速度要达到实时。我们提出了一个快速精确的网络框架用于实现手部姿态估计。 3. 人体深度估计:机器人估计人体深度可以用于避免碰撞。我们提出一个新颖的、低复杂度的网络,用来快速精确的实现人体深度估计和分割(PDES-Net : Pedestrian Depth Estimation and Segmentation Network)。 ...Read More
Abstract:
对人的感知有助于实现机器人对人行为的理解。在此次演讲中,将介绍京东在人的感知方面的 3 项工作。 1. 人脸关键点定位:将介绍京东开发的快速、精确、稳定的试妆系统(FASTry : A Fast,Accurate and Stable Cosmetic Try-On System)。 2. 手部姿态估计:手势识别是人机交互中的重要组成部分。其中有 2 个关键挑战:首先是在真实场景中实现稳定精确的手部关键点检测,其次是速度要达到实时。我们提出了一个快速精确的网络框架用于实现手部姿态估计。 3. 人体深度估计:机器人估计人体深度可以用于避免碰撞。我们提出一个新颖的、低复杂度的网络,用来快速精确的实现人体深度估计和分割(PDES-Net : Pedestrian Depth Estimation and Segmentation Network)。  Back
 
Topics:
Algorithms & Numerical Techniques
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20114
Download:
Share:
 
Abstract:
通过本次演讲,听众们将了解到一种基于纯矩阵运算的高性能颗粒离散元邻居搜索与迭代计算算法的实现与应用。基于该算法,南京大学自主开发了三维大规模离散元软件 MatDEM,由于该算法的纯矩阵运算特性,我们可以快速部署到 CPU/GPU 上并行加速,实现工程尺度大规模颗粒离散元仿真模拟。根据 P100 GPU 服务器上的测试结果显示,随着模型单元数的增加,GPU 加速效果显著提升,150 万单元时我们的算法在 GPU 上的运行速度是 CPU 的约 50 倍。目前软件在滑坡、崩塌等地质灾害模拟上已经较为完善,进一步可应用于各类地质和岩土工程问题。具体来说,本次演讲将主要包括以下内容:①离散元法基本认识与研究现状;②矩阵离散元方法的实现细节与多 GPU 并行方案;③矩阵离散元方法的性能对比与优缺点;④ MatDEM 应用与展望。 ...Read More
Abstract:
通过本次演讲,听众们将了解到一种基于纯矩阵运算的高性能颗粒离散元邻居搜索与迭代计算算法的实现与应用。基于该算法,南京大学自主开发了三维大规模离散元软件 MatDEM,由于该算法的纯矩阵运算特性,我们可以快速部署到 CPU/GPU 上并行加速,实现工程尺度大规模颗粒离散元仿真模拟。根据 P100 GPU 服务器上的测试结果显示,随着模型单元数的增加,GPU 加速效果显著提升,150 万单元时我们的算法在 GPU 上的运行速度是 CPU 的约 50 倍。目前软件在滑坡、崩塌等地质灾害模拟上已经较为完善,进一步可应用于各类地质和岩土工程问题。具体来说,本次演讲将主要包括以下内容:①离散元法基本认识与研究现状;②矩阵离散元方法的实现细节与多 GPU 并行方案;③矩阵离散元方法的性能对比与优缺点;④ MatDEM 应用与展望。  Back
 
Topics:
Algorithms & Numerical Techniques
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20678
Download:
Share:
 
Abstract:
我将概述一种可解释神经网络的构建方法,以及其用于真实世界医疗数据的实践效果。实践的目标是评估体检人员猝死风险。我将首先简要介绍宝石花医疗集团,并概述猝死概率评估工作的重要性和应用,再深入探讨猝死评估智能化的项目路径以及宝石花在智能评估方向上的数据优势。在这个实践过程中,我们研发了一套“人机合作”模式的可解释人工神经网络构建方法,我将介绍当中的两个关键算法。 GPU 加速在这两个算法的实现中起到了决定性作用,正是因为超百倍的加速才使得算法得以实际应用,而不是只停留在理论层面。算法固然是项目研发的重要一环,而数据处理也同样重要。宝石花的医疗机构众多,体检系统种类多,版本多,造成指标名称不统一,单位不统一,试剂不统一等问题,需要细致的整合工作。数字类指标整合的复杂度已经很高,CT 、彩超等文本报告数据的提取更加困难。文本报告的书写格式、用词习惯、描述方式每个医生都不尽相同,因此我们使用了自然语言处理的方法对文本报告进行了结构化处理,将做简要描述。最后,我将用一个示例说明猝死概率评估模型生成的结果和所能提供的信息,并做总结。 ...Read More
Abstract:
我将概述一种可解释神经网络的构建方法,以及其用于真实世界医疗数据的实践效果。实践的目标是评估体检人员猝死风险。我将首先简要介绍宝石花医疗集团,并概述猝死概率评估工作的重要性和应用,再深入探讨猝死评估智能化的项目路径以及宝石花在智能评估方向上的数据优势。在这个实践过程中,我们研发了一套“人机合作”模式的可解释人工神经网络构建方法,我将介绍当中的两个关键算法。 GPU 加速在这两个算法的实现中起到了决定性作用,正是因为超百倍的加速才使得算法得以实际应用,而不是只停留在理论层面。算法固然是项目研发的重要一环,而数据处理也同样重要。宝石花的医疗机构众多,体检系统种类多,版本多,造成指标名称不统一,单位不统一,试剂不统一等问题,需要细致的整合工作。数字类指标整合的复杂度已经很高,CT 、彩超等文本报告数据的提取更加困难。文本报告的书写格式、用词习惯、描述方式每个医生都不尽相同,因此我们使用了自然语言处理的方法对文本报告进行了结构化处理,将做简要描述。最后,我将用一个示例说明猝死概率评估模型生成的结果和所能提供的信息,并做总结。  Back
 
Topics:
Algorithms & Numerical Techniques
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20769
Download:
Share:
 
Abstract:
随着机器学习的兴起和神经网络模型的广泛应用,如何利用 GPU 高效地训练神经网络使之收敛成为了非常重要的课题。本次演讲将围绕近年来炙手可热的自适应梯度优化算法包括 AdaGrad,Adam,理论上解构它们的基本性质,解释它们与高阶优化千丝万缕的联系。并且通过大规模工业场景下 NLP/CV 任务的 GPU 多卡实践对理论结果进行验证。除此之外,我们还将介绍如何在优化算法中利用高阶信息的同时平衡其迭代复杂度,为今后真正使高阶信息服务于神经网络训练提供直觉和理论保证。 ...Read More
Abstract:
随着机器学习的兴起和神经网络模型的广泛应用,如何利用 GPU 高效地训练神经网络使之收敛成为了非常重要的课题。本次演讲将围绕近年来炙手可热的自适应梯度优化算法包括 AdaGrad,Adam,理论上解构它们的基本性质,解释它们与高阶优化千丝万缕的联系。并且通过大规模工业场景下 NLP/CV 任务的 GPU 多卡实践对理论结果进行验证。除此之外,我们还将介绍如何在优化算法中利用高阶信息的同时平衡其迭代复杂度,为今后真正使高阶信息服务于神经网络训练提供直觉和理论保证。  Back
 
Topics:
Algorithms & Numerical Techniques
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20896
Download:
Share:
Animation & VFX
Presentation
Media
Abstract:
介绍欧特克三维动画流程与 OMNIVERSE 平台的协作测试。通过 MAYA 等软件和 OMNIVERSE 平台的交互测试,展现 OMNIVERSE 平台对三维动画流程的积极作用,探索未来工作流的发展方向。
 
Topics:
Animation & VFX
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20616
Download:
Share:
 
Abstract:
本次演讲主要介绍 PhysX 物理引擎的最新研发进展,以及 PhysX 在 Omniverse 中的应用。 PhysX 5 引入了很多新特性,包括:优化的刚体模拟管线,基于有限元方法的柔体模拟,基于 PBD 的粒子系统,基于 FLIP 的流体模拟,自定义几何体,并改进了场景查询系统等。本次演讲,将会给大家介绍和展示这些新特性以及它们在 NVIDIA Omniverse 平台中的应用。 ...Read More
Abstract:
本次演讲主要介绍 PhysX 物理引擎的最新研发进展,以及 PhysX 在 Omniverse 中的应用。 PhysX 5 引入了很多新特性,包括:优化的刚体模拟管线,基于有限元方法的柔体模拟,基于 PBD 的粒子系统,基于 FLIP 的流体模拟,自定义几何体,并改进了场景查询系统等。本次演讲,将会给大家介绍和展示这些新特性以及它们在 NVIDIA Omniverse 平台中的应用。  Back
 
Topics:
Animation & VFX
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20708
Download:
Share:
Astronomy & Astrophysics
Presentation
Media
Abstract:
现代天体物理学的研究离不开大规模 N-body 模拟。目前 N-body 模拟常用的算法之一是粒子网格(Particle-Mesh,PM)算法。但这种算法需要消耗较多内存容量,这成为了 N-body 模拟规模扩大的瓶颈。因此,基于双层 PM 算法,我们提出了一种利用定点压缩技术减少内存消耗的新算法。新算法能将每个 N-body 粒子的内存消耗减少到仅 6 个字节,比传统 PM 算法低一个数量级。我们实现了新算法,并使用包括混合精度计算、通信优化在内的方法对其性能进行了优化。这些优化显著降低了定点压缩带来的性能损耗,使得新算法在较低的内存消耗下保持较高的计算效率和扩展性。新算法完成了目前世界上最大规模(4.4 万亿个粒子)的宇宙大尺度结构模拟。实验结果显示 512 节点的弱可扩展效率达到了 95% 。然后,我们对于 CUBE 中的热点部分进行了 GPU 移植和优化工作,目前 CUBE 中的粒子 — 粒子(Particle-Particle)引力求解部分,在单张 Tesla V100 相对于 Intel Cascade Lake 平台加速超过 3 倍,使得在 GPU 平台上完成超大规模宇宙大尺度结构模拟成为可能。 ...Read More
Abstract:
现代天体物理学的研究离不开大规模 N-body 模拟。目前 N-body 模拟常用的算法之一是粒子网格(Particle-Mesh,PM)算法。但这种算法需要消耗较多内存容量,这成为了 N-body 模拟规模扩大的瓶颈。因此,基于双层 PM 算法,我们提出了一种利用定点压缩技术减少内存消耗的新算法。新算法能将每个 N-body 粒子的内存消耗减少到仅 6 个字节,比传统 PM 算法低一个数量级。我们实现了新算法,并使用包括混合精度计算、通信优化在内的方法对其性能进行了优化。这些优化显著降低了定点压缩带来的性能损耗,使得新算法在较低的内存消耗下保持较高的计算效率和扩展性。新算法完成了目前世界上最大规模(4.4 万亿个粒子)的宇宙大尺度结构模拟。实验结果显示 512 节点的弱可扩展效率达到了 95% 。然后,我们对于 CUBE 中的热点部分进行了 GPU 移植和优化工作,目前 CUBE 中的粒子 — 粒子(Particle-Particle)引力求解部分,在单张 Tesla V100 相对于 Intel Cascade Lake 平台加速超过 3 倍,使得在 GPU 平台上完成超大规模宇宙大尺度结构模拟成为可能。  Back
 
Topics:
Astronomy & Astrophysics
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20353
Download:
Share:
Autonomous Vehicles
Presentation
Media
Abstract:
自动驾驶是一个庞大而且复杂的系统工程,涉及的技术范围广,深度大。目前任何一个企业都很难在内部做到全学科门类的行业技术领先,但是自动驾驶中的每一个技术实现点,市场都希望能够使用到最先进的技术。不同的企业有不同的特色:比如有的初创公司在视觉识别有着领先的能力;有些专注于互联服务;有些企业在系统集成,硬件制造和可靠性方面有着独到的优势。专注在不同领域的企业合作分工,共同构建产业生态,促动技术的迭代进步,是未来产业趋势和模式。德赛西威与 NVIDIA 一直保持密切合作。德赛西威推出的 IPU 系列自动驾驶域控制器,提供包括超声波探头,毫米波雷达,相机在内的综合自动驾驶硬件平台。软件开放共享,提供板级支持包,功能安全方案和车身信号适配、软件集成测试等服务。各种灵活的合作模式,期望与产业合作伙伴共赢市场。 ...Read More
Abstract:
自动驾驶是一个庞大而且复杂的系统工程,涉及的技术范围广,深度大。目前任何一个企业都很难在内部做到全学科门类的行业技术领先,但是自动驾驶中的每一个技术实现点,市场都希望能够使用到最先进的技术。不同的企业有不同的特色:比如有的初创公司在视觉识别有着领先的能力;有些专注于互联服务;有些企业在系统集成,硬件制造和可靠性方面有着独到的优势。专注在不同领域的企业合作分工,共同构建产业生态,促动技术的迭代进步,是未来产业趋势和模式。德赛西威与 NVIDIA 一直保持密切合作。德赛西威推出的 IPU 系列自动驾驶域控制器,提供包括超声波探头,毫米波雷达,相机在内的综合自动驾驶硬件平台。软件开放共享,提供板级支持包,功能安全方案和车身信号适配、软件集成测试等服务。各种灵活的合作模式,期望与产业合作伙伴共赢市场。  Back
 
Topics:
Autonomous Vehicles, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20133
Download:
Share:
 
Abstract:
作为全球唯二的全栈自研量产车企,小鹏汽车基于中国特殊道路场景,将在小鹏 P7 上首次搭载 NGP 高速自动导航驾驶,以及属于 XPILOT 3.0 的停车场记忆泊车功能(即首个可量产且不依懒于停车场改造的自主泊车系统)。本演讲将从多个维度介绍目前中国最强的领航辅助驾驶及泊车系统。 ...Read More
Abstract:
作为全球唯二的全栈自研量产车企,小鹏汽车基于中国特殊道路场景,将在小鹏 P7 上首次搭载 NGP 高速自动导航驾驶,以及属于 XPILOT 3.0 的停车场记忆泊车功能(即首个可量产且不依懒于停车场改造的自主泊车系统)。本演讲将从多个维度介绍目前中国最强的领航辅助驾驶及泊车系统。  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20206
Download:
Share:
 
Abstract:
1. 商用车自动驾驶产业环境分析 i. 国家政策解读 ii. 智能汽车创新发展战略 iii. 产业环境分析 iv. 一汽解放创新介绍 v. 一汽解放落地应用介绍 vi. 一汽解放自动驾驶生态介绍 2. 一汽解放智能化发展路径思考 i. 解放公司背景介绍 ii. 场景,车型以及商业模式介绍 iii. 智能商用车发展形态介绍 3. 一汽解放挚途战略 i. 一汽解放挚途介绍 ii. 运营场景介绍 ...Read More
Abstract:
1. 商用车自动驾驶产业环境分析 i. 国家政策解读 ii. 智能汽车创新发展战略 iii. 产业环境分析 iv. 一汽解放创新介绍 v. 一汽解放落地应用介绍 vi. 一汽解放自动驾驶生态介绍 2. 一汽解放智能化发展路径思考 i. 解放公司背景介绍 ii. 场景,车型以及商业模式介绍 iii. 智能商用车发展形态介绍 3. 一汽解放挚途战略 i. 一汽解放挚途介绍 ii. 运营场景介绍  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20325
Download:
Share:
 
Abstract:
随着各大无人驾驶公司开发的推进,越来越多的关注从功能安全(FUSA ISO26262)在向预期功能安全(SOTIF ISO21448)转移,在本次演讲中,我们会分享以下三个话题无人驾驶与预期功能安全 NVIDIA 仿真验证方法论解决问题需要的规模和计算量 ...Read More
Abstract:
随着各大无人驾驶公司开发的推进,越来越多的关注从功能安全(FUSA ISO26262)在向预期功能安全(SOTIF ISO21448)转移,在本次演讲中,我们会分享以下三个话题无人驾驶与预期功能安全 NVIDIA 仿真验证方法论解决问题需要的规模和计算量  Back
 
Topics:
Autonomous Vehicles, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20451
Download:
Share:
 
Abstract:
本分享主要介绍 Livox 激光雷达感知算法在 Jetson AGX Xavier 上的部署实践。近些年,随着激光雷达的价格不断下降,激光雷达在自动驾驶领域的普及度与重要性都在不断提升,成为车辆感知系统中重要的传感器之一。 Livox 在研制低成本高性能激光雷达硬件的同时也在积极开发适配 Livox 雷达的感知算法,包括 Detection 、 SLAM 等。为了在移动车载环境下部署 Livox 感知算法,Livox 选择了利用 Jetson AGX Xavier 作为计算平台。本分享将主要从 Detection 算法切入,介绍如何利用 NVIDIA TensorRT 进行模型优化与低精度推理,从而实现大范围检测算法在 Jetson AGX Xavier 上的实时运行,并展示 Livox 感知算法的实际路测效果。 ...Read More
Abstract:
本分享主要介绍 Livox 激光雷达感知算法在 Jetson AGX Xavier 上的部署实践。近些年,随着激光雷达的价格不断下降,激光雷达在自动驾驶领域的普及度与重要性都在不断提升,成为车辆感知系统中重要的传感器之一。 Livox 在研制低成本高性能激光雷达硬件的同时也在积极开发适配 Livox 雷达的感知算法,包括 Detection 、 SLAM 等。为了在移动车载环境下部署 Livox 感知算法,Livox 选择了利用 Jetson AGX Xavier 作为计算平台。本分享将主要从 Detection 算法切入,介绍如何利用 NVIDIA TensorRT 进行模型优化与低精度推理,从而实现大范围检测算法在 Jetson AGX Xavier 上的实时运行,并展示 Livox 感知算法的实际路测效果。  Back
 
Topics:
Autonomous Vehicles, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20489
Download:
Share:
 
Abstract:
为自动驾驶汽车测试和训练创造仿真环境是一个富有挑战性的工作,此次演讲中将会详细介绍为 NVIDIA Drive Sim 创建虚拟环境的工具链
 
Topics:
Autonomous Vehicles, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20805
Download:
Share:
 
Abstract:
介绍滴滴是如何利用“桔视”采集的路面数据来研究自动驾驶需要应对的各类场景,形成场景分级分类方法,转化为功能需求指引功能开发。项目愿景是还原出一个虚拟真实世界,用于训练和测试自动驾驶能力,并可应用于提升与评估其安全性。 ...Read More
Abstract:
介绍滴滴是如何利用“桔视”采集的路面数据来研究自动驾驶需要应对的各类场景,形成场景分级分类方法,转化为功能需求指引功能开发。项目愿景是还原出一个虚拟真实世界,用于训练和测试自动驾驶能力,并可应用于提升与评估其安全性。  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20824
Download:
Share:
 
Abstract:
无人驾驶是人工智能最有价值也最具挑战的行业之一,为了确保足够的安全性,需要解决“千亿公里、百万问题”的技术挑战。 Momenta 创立之初即确立了“一个飞轮”的技术洞察,随着量产数据、数据驱动的算法以及两者闭环自动化的不断积累和迭代,带来产品和商业的爆发增长,最终实现无人驾驶规模化落地。在此基础上,公司衍生出量产自动驾驶(Mpilot)与完全无人驾驶(MSD)“两条腿”走路的产品战略。左腿量产自动驾驶 Mpilot,为行业交付一流可量产的自动驾驶系列产品,并提供源源不断的数据流;右腿完全无人驾驶 MSD,致力于打造 L4 级别的完全无人驾驶,并反馈给量产产品领先的技术流。两条腿战略需要建立在统一量产传感器基础及统一的技术路线上,两者相互协同打通。 ...Read More
Abstract:
无人驾驶是人工智能最有价值也最具挑战的行业之一,为了确保足够的安全性,需要解决“千亿公里、百万问题”的技术挑战。 Momenta 创立之初即确立了“一个飞轮”的技术洞察,随着量产数据、数据驱动的算法以及两者闭环自动化的不断积累和迭代,带来产品和商业的爆发增长,最终实现无人驾驶规模化落地。在此基础上,公司衍生出量产自动驾驶(Mpilot)与完全无人驾驶(MSD)“两条腿”走路的产品战略。左腿量产自动驾驶 Mpilot,为行业交付一流可量产的自动驾驶系列产品,并提供源源不断的数据流;右腿完全无人驾驶 MSD,致力于打造 L4 级别的完全无人驾驶,并反馈给量产产品领先的技术流。两条腿战略需要建立在统一量产传感器基础及统一的技术路线上,两者相互协同打通。  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20836
Download:
Share:
 
Abstract:
京东物流 X 事业部研发的无人配送车目前正在全国多个城市进行测试和实单派送。无人配送车的自动驾驶算法栈包括定位,感知,决策和控制这几个主要模块 . 本次演讲着重分享基于深度学习的人工智能技术用于解决京东物流无人配送车环境感知问题的几项关键技术,和讲述各个算法子模块结合在一起构成的整体感知架构,展示这一感知架构在武汉疫情期间和 2020 下半年在苏州,常熟等地实地运营的结果,并分析下一步面临的主要挑战。 ...Read More
Abstract:
京东物流 X 事业部研发的无人配送车目前正在全国多个城市进行测试和实单派送。无人配送车的自动驾驶算法栈包括定位,感知,决策和控制这几个主要模块 . 本次演讲着重分享基于深度学习的人工智能技术用于解决京东物流无人配送车环境感知问题的几项关键技术,和讲述各个算法子模块结合在一起构成的整体感知架构,展示这一感知架构在武汉疫情期间和 2020 下半年在苏州,常熟等地实地运营的结果,并分析下一步面临的主要挑战。  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20893
Download:
Share:
 
Abstract:
1. 自动驾驶技术在干线物流中应用的潜在巨大经济效益 — 什么是干线物流 — 智加科技简介 — 干线物流自动驾驶时间表 2. 自动驾驶落地的技术和非技术挑战 — 当前人工智能算法的瓶颈 — 另类的长尾问题 — 安全:没有最安全,只有更安全 — 亏钱还是挣钱?- 法规与测试运营,先有鸡还是先有蛋?- 其它 。。 3. NVIDIA 助力智加科技应对自动驾驶应用的挑战 — 智家科技自主开发的全栈自动驾驶技术:感知,预测,决策,规划,控制 — NVIDIA Xavier 的应用 — V2X :自动驾驶加速落地的“秘密武器”千里眼、顺风耳 运算与数据能力的无限拓展 上帝视角 即是裁判员,也是运动员 4. 从自动驾驶看人工智能的发展趋势 — 今天:从数据到知识;从计算到智能 — 明天:从知识到领悟;从智能到 智慧 5. 未来:人工智能与人类智能的冲突? ...Read More
Abstract:
1. 自动驾驶技术在干线物流中应用的潜在巨大经济效益 — 什么是干线物流 — 智加科技简介 — 干线物流自动驾驶时间表 2. 自动驾驶落地的技术和非技术挑战 — 当前人工智能算法的瓶颈 — 另类的长尾问题 — 安全:没有最安全,只有更安全 — 亏钱还是挣钱?- 法规与测试运营,先有鸡还是先有蛋?- 其它 。。 3. NVIDIA 助力智加科技应对自动驾驶应用的挑战 — 智家科技自主开发的全栈自动驾驶技术:感知,预测,决策,规划,控制 — NVIDIA Xavier 的应用 — V2X :自动驾驶加速落地的“秘密武器”千里眼、顺风耳 运算与数据能力的无限拓展 上帝视角 即是裁判员,也是运动员 4. 从自动驾驶看人工智能的发展趋势 — 今天:从数据到知识;从计算到智能 — 明天:从知识到领悟;从智能到 智慧 5. 未来:人工智能与人类智能的冲突?  Back
 
Topics:
Autonomous Vehicles
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20928
Download:
Share:
 
Abstract:
任何一款自动驾驶汽车软件栈都需要具有采集和回放高质量传感器数据的能力,以支持诸如 DNN 训练,算法开发和调试之类的用例。 NVIDIA DriveWorks SDK 提供了多种工具和 API,使开发人员可以快速开始采集和回放数据,从而节省了宝贵的开发时间。此外,使用 DriveWorks Recorder 工具采集的数据通过 DriveWorks 传感器抽象层进行回放时,与在车辆中实时使用传感器一样可以保持数据同步和校准,从而保证在开发环境和车辆部署环境之间提供高保真度和一致的开发体验。在本讲座中,我们将介绍 DriveWorks SDK 中的数据采集流程和可用工具。然后,我们将讨论如何在开发环境和车辆中管理传感器配置,以及分布式采集和高通量采集。一旦您了解了如何实时捕获数据,我们将介绍采集后处理工具和回放功能。 ...Read More
Abstract:
任何一款自动驾驶汽车软件栈都需要具有采集和回放高质量传感器数据的能力,以支持诸如 DNN 训练,算法开发和调试之类的用例。 NVIDIA DriveWorks SDK 提供了多种工具和 API,使开发人员可以快速开始采集和回放数据,从而节省了宝贵的开发时间。此外,使用 DriveWorks Recorder 工具采集的数据通过 DriveWorks 传感器抽象层进行回放时,与在车辆中实时使用传感器一样可以保持数据同步和校准,从而保证在开发环境和车辆部署环境之间提供高保真度和一致的开发体验。在本讲座中,我们将介绍 DriveWorks SDK 中的数据采集流程和可用工具。然后,我们将讨论如何在开发环境和车辆中管理传感器配置,以及分布式采集和高通量采集。一旦您了解了如何实时捕获数据,我们将介绍采集后处理工具和回放功能。  Back
 
Topics:
Autonomous Vehicles, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20964
Download:
Share:
Computational Biology & Chemistry
Presentation
Media
Abstract:
基于第一性原理的密度泛函理论计算方法是揭示物质世界本质、调控物质特性的重要工具,已经广泛的应用于凝聚态物理、材料、化学和生物等研究领域。但是,目前大部分第一性原理计算,仅限于小型体系,距离真实实验体系差距较大,其主要原因是理论模拟的计算复杂度会随着材料尺度急剧增加。高性能计算是在现代异构超级计算机上加速第一性原理密度泛函理论计算的有力手段。高性能计算的快速发展也使得基于密度泛函理论的第一性原理材料模拟计算在凝聚态物理、材料科学、化学和生物等研究领域变得越来越重要,实现了理论 — 模拟 — 实验三位一体的科研模式,引发了多个科学等领域的革命。本报告描述了基于标准平面波基组的材料模拟计算软件包 PWDFT 通过 CPU-MPI 结合 GPU-CUDA 实现的两级异构并行方法。计算结果表明,这种两级异构并行计算可以使 PWDFT 软件在超级计算机上并行计算扩展到了 2000 块 GPU 卡,用于研究含有数千原子体系的电子结构性质。同时,模拟体系的大小比国际同等平面波精度的计算模拟软件提高了数百倍。这一结果说明,借助当代最先进的计算方法和世界顶级高性能计算平台,大体系、长时间的高精度第一性原理材料模拟已成为现实。 ...Read More
Abstract:
基于第一性原理的密度泛函理论计算方法是揭示物质世界本质、调控物质特性的重要工具,已经广泛的应用于凝聚态物理、材料、化学和生物等研究领域。但是,目前大部分第一性原理计算,仅限于小型体系,距离真实实验体系差距较大,其主要原因是理论模拟的计算复杂度会随着材料尺度急剧增加。高性能计算是在现代异构超级计算机上加速第一性原理密度泛函理论计算的有力手段。高性能计算的快速发展也使得基于密度泛函理论的第一性原理材料模拟计算在凝聚态物理、材料科学、化学和生物等研究领域变得越来越重要,实现了理论 — 模拟 — 实验三位一体的科研模式,引发了多个科学等领域的革命。本报告描述了基于标准平面波基组的材料模拟计算软件包 PWDFT 通过 CPU-MPI 结合 GPU-CUDA 实现的两级异构并行方法。计算结果表明,这种两级异构并行计算可以使 PWDFT 软件在超级计算机上并行计算扩展到了 2000 块 GPU 卡,用于研究含有数千原子体系的电子结构性质。同时,模拟体系的大小比国际同等平面波精度的计算模拟软件提高了数百倍。这一结果说明,借助当代最先进的计算方法和世界顶级高性能计算平台,大体系、长时间的高精度第一性原理材料模拟已成为现实。  Back
 
Topics:
Computational Biology & Chemistry
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20984
Download:
Share:
Computer Vision
Presentation
Media
Abstract:
本次演讲将展现中小型企业如何在 GPU 的帮助下将戴口罩人脸识别算法从模型训练到成熟应用,最终使其凭借高性能和高可用性投入到项目业务中,快速满足市场需求。 2020 年的新冠疫情令佩戴口罩等遮挡物的场景下的人脸识别成为 AI 领域应用面临的首要难题。海帆数据科技有限公司利用自身技术积累逐步攻克了戴口罩人脸识别算法 训练难、识别难、预处理难的难点,在 Tesla V100 GPU 的帮助下锤炼出了满足市场需求的自研算法。该算法以 docker 易部署、识别精度高、应用场景丰富的特点快速投入市场,在校园安全防疫、企业厂区进出考勤管理、智慧商超客流分析和识别、智慧景区等各个领域迅速开展项目落地和实践。公司在实践过程中更新了多套不同版本不同能力的算法产品满足各类需求,探索出一条中小型 AI 企业由技术创新到模式创新的生存之道。 ...Read More
Abstract:
本次演讲将展现中小型企业如何在 GPU 的帮助下将戴口罩人脸识别算法从模型训练到成熟应用,最终使其凭借高性能和高可用性投入到项目业务中,快速满足市场需求。 2020 年的新冠疫情令佩戴口罩等遮挡物的场景下的人脸识别成为 AI 领域应用面临的首要难题。海帆数据科技有限公司利用自身技术积累逐步攻克了戴口罩人脸识别算法 训练难、识别难、预处理难的难点,在 Tesla V100 GPU 的帮助下锤炼出了满足市场需求的自研算法。该算法以 docker 易部署、识别精度高、应用场景丰富的特点快速投入市场,在校园安全防疫、企业厂区进出考勤管理、智慧商超客流分析和识别、智慧景区等各个领域迅速开展项目落地和实践。公司在实践过程中更新了多套不同版本不同能力的算法产品满足各类需求,探索出一条中小型 AI 企业由技术创新到模式创新的生存之道。  Back
 
Topics:
Computer Vision, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20122
Download:
Share:
 
Abstract:
本演讲主要介绍如何使用深度学习模型实现工业领域的缺陷检测与分类。通过对缺陷的精准分类,为后续产品的缺陷根因分析与良率提升提供准确的数据支撑。通过采用NVIDIA GPU 卡实现深度学习模型的高效训练,模型线上实时预测采用 NVIDIA 推理卡,实现产线图像的缺陷检测。 ...Read More
Abstract:
本演讲主要介绍如何使用深度学习模型实现工业领域的缺陷检测与分类。通过对缺陷的精准分类,为后续产品的缺陷根因分析与良率提升提供准确的数据支撑。通过采用NVIDIA GPU 卡实现深度学习模型的高效训练,模型线上实时预测采用 NVIDIA 推理卡,实现产线图像的缺陷检测。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20264
Download:
Share:
 
Abstract:
电力系统是国计民生的基础保障,随着无人机和 AI 的发展不断成熟以及在不同行业的应用落地,基于无人机的新型电力巡检作业模式正在电力行业逐渐兴起,依靠无人机高空飞行、远距离、快速作业的能力,电力从业者可以大大提高巡检效率。而如何保证无人机图像采集数据的有效性和后台图像缺陷数据 AI 加速识别处理的效率则是衡量无人机电力巡检系统性能的重要指标。 本次演讲将为您介绍无人机电力巡检全新的自主作业模式及在巡检图像 AI 处理系统的创新与应用。演讲从无人机电力巡检现状与挑战出发,介绍现有电力巡检图像处理现状,结合边云端的产品架构体系,讲解利用 GPU 带来的技术加速方案。利用成熟的 Jetson 嵌入式设备方案快速打造无人机自主巡检边缘 AI 模块,本次演讲将为您介绍无人机电力巡检全新的自主作业模式及在巡检图像 AI 处理系统的创新与应用。演讲从无人机电力巡检现状与挑战出发,介绍现有电力巡检图像处理现状,结合边云端的产品架构体系,讲解利用 GPU 带来的技术加速方案。利用成熟的 Jetson 嵌入式设备方案快速打造无人机自主巡检边缘 AI 模块,使用 DGX Station 计算平台及 GPU 集群资源加速电力缺陷识别模型训练和迭代。 ...Read More
Abstract:
电力系统是国计民生的基础保障,随着无人机和 AI 的发展不断成熟以及在不同行业的应用落地,基于无人机的新型电力巡检作业模式正在电力行业逐渐兴起,依靠无人机高空飞行、远距离、快速作业的能力,电力从业者可以大大提高巡检效率。而如何保证无人机图像采集数据的有效性和后台图像缺陷数据 AI 加速识别处理的效率则是衡量无人机电力巡检系统性能的重要指标。 本次演讲将为您介绍无人机电力巡检全新的自主作业模式及在巡检图像 AI 处理系统的创新与应用。演讲从无人机电力巡检现状与挑战出发,介绍现有电力巡检图像处理现状,结合边云端的产品架构体系,讲解利用 GPU 带来的技术加速方案。利用成熟的 Jetson 嵌入式设备方案快速打造无人机自主巡检边缘 AI 模块,本次演讲将为您介绍无人机电力巡检全新的自主作业模式及在巡检图像 AI 处理系统的创新与应用。演讲从无人机电力巡检现状与挑战出发,介绍现有电力巡检图像处理现状,结合边云端的产品架构体系,讲解利用 GPU 带来的技术加速方案。利用成熟的 Jetson 嵌入式设备方案快速打造无人机自主巡检边缘 AI 模块,使用 DGX Station 计算平台及 GPU 集群资源加速电力缺陷识别模型训练和迭代。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20398
Download:
Share:
 
Abstract:
美国的 Scalable Display Technologies 是一家长期与 NVIDIA 深度合作,开发投影变形融合产品的公司。该公司开发的 ScalableDesktop 软件是专门致力于多机投影变形融合解决方案,通过软件集成 NVIDIA 显卡驱动功能来实现投影的自动变形融合,可以应对众多企业,场馆,影院,文旅等大中小型项目的需求。该软件使用相机采集投影图像通过先进算法对数据进行自动处理,具有设置简单、调整速度快、稳定性高等特点,已广泛获得了全球广大用户的认可。 NVIDIA 革命性的 Turing 架构及 Quadro RTX GPU 能够完美胜任 ScalableDesktop 对显卡图形处理能力的需求。 ...Read More
Abstract:
美国的 Scalable Display Technologies 是一家长期与 NVIDIA 深度合作,开发投影变形融合产品的公司。该公司开发的 ScalableDesktop 软件是专门致力于多机投影变形融合解决方案,通过软件集成 NVIDIA 显卡驱动功能来实现投影的自动变形融合,可以应对众多企业,场馆,影院,文旅等大中小型项目的需求。该软件使用相机采集投影图像通过先进算法对数据进行自动处理,具有设置简单、调整速度快、稳定性高等特点,已广泛获得了全球广大用户的认可。 NVIDIA 革命性的 Turing 架构及 Quadro RTX GPU 能够完美胜任 ScalableDesktop 对显卡图形处理能力的需求。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20433
Download:
Share:
 
Abstract:
随着直播行业从单纯线下体验的复制,发展到线上独有的虚实结合形态,AI 在其中扮演的角色变得日益重要,直播长时间开播的特性也催使其对于 AI 能力在效果,稳定性,功耗和运营成本等方面提出了要求和挑战,如何在图像领域通过 AI 赋能直播智能化发展,提升用户体验的同时,有效降低成本和功耗成为其中的重中之重 . 在本次技术讲座中,我们会分享虎牙在直播领域的一些 AI 探索案例和成果,并通过实际例子讲解面对直播大规模并发的需求下,如何通过算法及 NVIDIA TensorRT 推理框架的联合优化,降低在线 AI 推理服务的 GPU 使用成本 . ...Read More
Abstract:
随着直播行业从单纯线下体验的复制,发展到线上独有的虚实结合形态,AI 在其中扮演的角色变得日益重要,直播长时间开播的特性也催使其对于 AI 能力在效果,稳定性,功耗和运营成本等方面提出了要求和挑战,如何在图像领域通过 AI 赋能直播智能化发展,提升用户体验的同时,有效降低成本和功耗成为其中的重中之重 . 在本次技术讲座中,我们会分享虎牙在直播领域的一些 AI 探索案例和成果,并通过实际例子讲解面对直播大规模并发的需求下,如何通过算法及 NVIDIA TensorRT 推理框架的联合优化,降低在线 AI 推理服务的 GPU 使用成本 .  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20459
Download:
Share:
 
Abstract:
边缘计算在零售行业的应用
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20484
Download:
Share:
 
Abstract:
直播视频画质影响用户的使用体验。提升画质的简单的提升码率的方法,会导致流量提升、成本提高,以及卡顿率上升。深度学习和编解码领域的融合,能够有效的解决此问题。国内外一些公司在相关方面进行了有效的探索。但是缺乏一个能够客观评测直播的打分模型,以及缺乏深度学习增强 & 编解码深度定制的研究和工业实现,大部分仍集中于码率和分辨率的有效匹配上。我们的目标:达到相比原系统画质有提升,大幅降低码率 40% 。提升画质和降低码率两者兼得。为此我们研究与主观一致的无参考打分模型和系统。以及基于显著性和深度学习的视频质量增强。 ...Read More
Abstract:
直播视频画质影响用户的使用体验。提升画质的简单的提升码率的方法,会导致流量提升、成本提高,以及卡顿率上升。深度学习和编解码领域的融合,能够有效的解决此问题。国内外一些公司在相关方面进行了有效的探索。但是缺乏一个能够客观评测直播的打分模型,以及缺乏深度学习增强 & 编解码深度定制的研究和工业实现,大部分仍集中于码率和分辨率的有效匹配上。我们的目标:达到相比原系统画质有提升,大幅降低码率 40% 。提升画质和降低码率两者兼得。为此我们研究与主观一致的无参考打分模型和系统。以及基于显著性和深度学习的视频质量增强。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20550
Download:
Share:
 
Abstract:
目前基于深度学习的服务 / 应用 / 训练的快速发展导致单一深度学习模型(下以模型替代)已经无法满足业务的需求,更多业务场景会使用多模型串并联的方式形成一个多计算节点(Compute Node)的计算图(Compute DAG)来提供服务,以 OCR 为例,会进行文字行检测,行分割,单字识别等一系列的模型,而这些模型的数据前后处理方法都可能不同,比如预处理,图像切图旋转 . 这些过程中会有大量的效率问题和调优技巧,会极大的影响整体计算图的效率 ; 工程效率方面,专注模型业务效果的数据科学家和专注工程效率和稳定性的开发工程师之间在技能栈上和侧重点有很大差别,这导致生产环境中的复杂的计算服务往往需要开发工程师进行二次开发,这通常是一个很大的资源开销 . 所以我们需要一个框架兼顾计算效率,以及开发效率,可以尽量减少这样的二次开发 . ...Read More
Abstract:
目前基于深度学习的服务 / 应用 / 训练的快速发展导致单一深度学习模型(下以模型替代)已经无法满足业务的需求,更多业务场景会使用多模型串并联的方式形成一个多计算节点(Compute Node)的计算图(Compute DAG)来提供服务,以 OCR 为例,会进行文字行检测,行分割,单字识别等一系列的模型,而这些模型的数据前后处理方法都可能不同,比如预处理,图像切图旋转 . 这些过程中会有大量的效率问题和调优技巧,会极大的影响整体计算图的效率 ; 工程效率方面,专注模型业务效果的数据科学家和专注工程效率和稳定性的开发工程师之间在技能栈上和侧重点有很大差别,这导致生产环境中的复杂的计算服务往往需要开发工程师进行二次开发,这通常是一个很大的资源开销 . 所以我们需要一个框架兼顾计算效率,以及开发效率,可以尽量减少这样的二次开发 .  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20627
Download:
Share:
 
Abstract:
物体实例分割技术在计算机视觉中基础而又具有挑战性的。由于其广泛的应用场景和研究价值,该技术在学术界和工业界均引起了越来越多的关注。本次演讲将分享近期 SOLO 物体实例分割的系列工作,该系列工作从设计一个单阶段、高精度、高效率的物体分割器出发,重新思考了物体实例分割的本质问题,提出了按位置分割的实例分割新范式。进一步我们进行了方法改进和拓展 SOLOv2,在物体检测、物体分割、全景分割等任务中证明了这种范式的普适性和有效性。通过在NVIDIA NVIDIA Tesla V100 上进行代码训练和加速,使得 SOLOv2 在实时的情况下取得了实时卓越的性能。 ...Read More
Abstract:
物体实例分割技术在计算机视觉中基础而又具有挑战性的。由于其广泛的应用场景和研究价值,该技术在学术界和工业界均引起了越来越多的关注。本次演讲将分享近期 SOLO 物体实例分割的系列工作,该系列工作从设计一个单阶段、高精度、高效率的物体分割器出发,重新思考了物体实例分割的本质问题,提出了按位置分割的实例分割新范式。进一步我们进行了方法改进和拓展 SOLOv2,在物体检测、物体分割、全景分割等任务中证明了这种范式的普适性和有效性。通过在NVIDIA NVIDIA Tesla V100 上进行代码训练和加速,使得 SOLOv2 在实时的情况下取得了实时卓越的性能。  Back
 
Topics:
Computer Vision, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20651
Download:
Share:
 
Abstract:
近年来,随着神经网络、数据挖掘、物联网、大数据分析、人工智能与深度学习的技术不断的发展与强化,许多智能化的方法可用於数据分析。 GIS 作为一个整合各领域的学科,如何透过这些智能化的方式,分析时间与空间的变迁,解决以往较为困难的问题,或者扩展更多的可能性,是非常重要的。在数据科学与人工智能下的 GIS,除了能够自动智能的侦测地理数据的对象之外(譬如:在遥测影像自动辨识树种),最重要的还是要找出对象之间的关系,以及对象与空间的 pattern,形成规则(Rule),强化后续学习的准确率。 本演讲将通过 GIS 中数据科学与人工智能的应用来探讨这一主题。 ...Read More
Abstract:
近年来,随着神经网络、数据挖掘、物联网、大数据分析、人工智能与深度学习的技术不断的发展与强化,许多智能化的方法可用於数据分析。 GIS 作为一个整合各领域的学科,如何透过这些智能化的方式,分析时间与空间的变迁,解决以往较为困难的问题,或者扩展更多的可能性,是非常重要的。在数据科学与人工智能下的 GIS,除了能够自动智能的侦测地理数据的对象之外(譬如:在遥测影像自动辨识树种),最重要的还是要找出对象之间的关系,以及对象与空间的 pattern,形成规则(Rule),强化后续学习的准确率。 本演讲将通过 GIS 中数据科学与人工智能的应用来探讨这一主题。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20799
Download:
Share:
 
Abstract:
站立半身直播课是网课的一种常见形式。在直播中,PPT 通过电脑投影到屏幕上,讲课老师站在屏幕前对照 PPT 进行讲解,摄像头拍下整个讲课过程传输给上千乃至上万名学生。其中一个痛点是 PPT 课件经过投影和拍摄后较为模糊,另外为了更清楚的拍摄老师人脸,在强光下 PPT 的颜色会失真。好未来 cv 团队,通过人像分割、人物跟踪、背景建模、网络结构优化、流水线加速等多项 AI 技术将直播老师的前景从讲课视频中实时分离,再与原始课件的数据流叠加,可以得到颜色保真、细节清晰的讲课画面,从而显著提升直播画质。 ...Read More
Abstract:
站立半身直播课是网课的一种常见形式。在直播中,PPT 通过电脑投影到屏幕上,讲课老师站在屏幕前对照 PPT 进行讲解,摄像头拍下整个讲课过程传输给上千乃至上万名学生。其中一个痛点是 PPT 课件经过投影和拍摄后较为模糊,另外为了更清楚的拍摄老师人脸,在强光下 PPT 的颜色会失真。好未来 cv 团队,通过人像分割、人物跟踪、背景建模、网络结构优化、流水线加速等多项 AI 技术将直播老师的前景从讲课视频中实时分离,再与原始课件的数据流叠加,可以得到颜色保真、细节清晰的讲课画面,从而显著提升直播画质。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20947
Download:
Share:
 
Abstract:
随着视频向 4K 和 8K 超高清方向演进,视频传输带宽要求也越来越高,传统的 SDI 传输方案和定制化的视频烟波系统从性能、成本、可扩展性等方面也越来越不能满足 4K 、 8K 高清视频播出的要求; ConnectX 系列网卡上实现对高清视频流的高速 IP 转发,实现了对 SDI 传统方案的替代,支持 10G 、 25G 、 50G 、 100G 乃至 200G 的转发速率; Rivermax 支持 kernel bypass,降低了大带宽转发对 CPU 资源的消耗; ConnectX 网卡支持 GPUdirect 特性,提高了视频处理数据转发的效率;此外,Rivermax 支持虚拟化应用,一块网卡在虚拟机支持下可以支持不同操作系统,最大化服务器的资源利用,节省投资成本。 ...Read More
Abstract:
随着视频向 4K 和 8K 超高清方向演进,视频传输带宽要求也越来越高,传统的 SDI 传输方案和定制化的视频烟波系统从性能、成本、可扩展性等方面也越来越不能满足 4K 、 8K 高清视频播出的要求; ConnectX 系列网卡上实现对高清视频流的高速 IP 转发,实现了对 SDI 传统方案的替代,支持 10G 、 25G 、 50G 、 100G 乃至 200G 的转发速率; Rivermax 支持 kernel bypass,降低了大带宽转发对 CPU 资源的消耗; ConnectX 网卡支持 GPUdirect 特性,提高了视频处理数据转发的效率;此外,Rivermax 支持虚拟化应用,一块网卡在虚拟机支持下可以支持不同操作系统,最大化服务器的资源利用,节省投资成本。  Back
 
Topics:
Computer Vision
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20956
Download:
Share:
Conversational AI
Presentation
Media
Abstract:
基于神经网络的端到端文本到语音(TTS)大大提高了合成语音的质量。但是,它们通常使用自回归生成,并且推理速度较慢,合成语音通常不可靠(即,某些单词被跳过或重复)缺乏可控制性(语音速度或韵律控制)。在本次演讲中,我们介绍了 FastSpeech,这是在 NeurIPS 2019 中发布的最先进的 TTS 模型,它利用基于 Transformer 的新型前馈网络为 TTS 并行生成梅尔频谱图。在本演讲的第一部分中,我们首先介绍 FastSpeech 中的技术设计(包括前馈变压器,持续时间 / 音高 / 能量预测,长度扩展,多尺度对抗训练等),以确保快速,强大且可控且在同时高质量的语音合成。在第二部分中,我们通过诸如混合精度,融合操作或批处理之类的优化进一步加速了 FastSpeech 的训练和推理。 ...Read More
Abstract:
基于神经网络的端到端文本到语音(TTS)大大提高了合成语音的质量。但是,它们通常使用自回归生成,并且推理速度较慢,合成语音通常不可靠(即,某些单词被跳过或重复)缺乏可控制性(语音速度或韵律控制)。在本次演讲中,我们介绍了 FastSpeech,这是在 NeurIPS 2019 中发布的最先进的 TTS 模型,它利用基于 Transformer 的新型前馈网络为 TTS 并行生成梅尔频谱图。在本演讲的第一部分中,我们首先介绍 FastSpeech 中的技术设计(包括前馈变压器,持续时间 / 音高 / 能量预测,长度扩展,多尺度对抗训练等),以确保快速,强大且可控且在同时高质量的语音合成。在第二部分中,我们通过诸如混合精度,融合操作或批处理之类的优化进一步加速了 FastSpeech 的训练和推理。  Back
 
Topics:
Conversational AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20269
Download:
Share:
 
Abstract:
会话式 AI 是金融科技领域构建自动化呼叫中心和智能语音机器人的核心技术,如何提升智能语音机器人服务的智能化水平,达到客户的服务预期是金融行业的重要考核指标。本次演讲将分享平安在语音识别、语义理解、语音合成的前沿技术探索,打造“金牌客服”的技术经验。例如搭建基于联邦学习的 NLP 模型,实现高可用的跨数据域用户语义理解,保护用户隐私;利用图神经网络构建文本序列和语音特征关系,以提升语音合成拟人效果的技术创新;利用 NVIDIA NeMo 快速搭建复杂的会话式端到端语音识别神经网络,实现行业领先的语音识别和自然语言处理模型效果。同时我们也会介绍通过 GPU 加速传统 Kaldi 语音识别和 TTS 在线推理性能的解决方案。利用 NVIDIA Jarvis 快构建会话式 AI 应用模块,实现在金融智能语音机器人中的应用快速部署和规模化应用。 ...Read More
Abstract:
会话式 AI 是金融科技领域构建自动化呼叫中心和智能语音机器人的核心技术,如何提升智能语音机器人服务的智能化水平,达到客户的服务预期是金融行业的重要考核指标。本次演讲将分享平安在语音识别、语义理解、语音合成的前沿技术探索,打造“金牌客服”的技术经验。例如搭建基于联邦学习的 NLP 模型,实现高可用的跨数据域用户语义理解,保护用户隐私;利用图神经网络构建文本序列和语音特征关系,以提升语音合成拟人效果的技术创新;利用 NVIDIA NeMo 快速搭建复杂的会话式端到端语音识别神经网络,实现行业领先的语音识别和自然语言处理模型效果。同时我们也会介绍通过 GPU 加速传统 Kaldi 语音识别和 TTS 在线推理性能的解决方案。利用 NVIDIA Jarvis 快构建会话式 AI 应用模块,实现在金融智能语音机器人中的应用快速部署和规模化应用。  Back
 
Topics:
Conversational AI, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20561
Download:
Share:
 
Abstract:
智能传感器,如人工智能摄像头和麦克风,可以充当眼睛和耳朵,确保公共安全,改善患者护理,并提高医疗设施的运营效率。他们可以检测发烧和防护装备的状态,监控人群的安全社交距离,并与高危患者安全互动。我们将讨论如何使用 NVIDIA Clara Guardian 在医疗机构的任何地方开发和部署多模态 AI 的智能传感器。我们将介绍预训练好的计算机视觉和对话人工智能模型以及建立在 DeepStream&Jarvis 之上的参考应用程序,这些应用程序可用于监测患者并改善他们的护理。 ...Read More
Abstract:
智能传感器,如人工智能摄像头和麦克风,可以充当眼睛和耳朵,确保公共安全,改善患者护理,并提高医疗设施的运营效率。他们可以检测发烧和防护装备的状态,监控人群的安全社交距离,并与高危患者安全互动。我们将讨论如何使用 NVIDIA Clara Guardian 在医疗机构的任何地方开发和部署多模态 AI 的智能传感器。我们将介绍预训练好的计算机视觉和对话人工智能模型以及建立在 DeepStream&Jarvis 之上的参考应用程序,这些应用程序可用于监测患者并改善他们的护理。  Back
 
Topics:
Conversational AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20773
Download:
Share:
 
Abstract:
NVIDIA Jarvis 框架是基于 GPU 平台研发的高性能智能语音框架。本演讲会通过一个实例来剖析如何应用 NVIDIA Jarvis 来搭建和部署实时语音助理。首先我们会介绍 Jarvis 的系统构建;其次,我们来了解如何使用 NeMo 来进一步提高语音助理的精确度。 ...Read More
Abstract:
NVIDIA Jarvis 框架是基于 GPU 平台研发的高性能智能语音框架。本演讲会通过一个实例来剖析如何应用 NVIDIA Jarvis 来搭建和部署实时语音助理。首先我们会介绍 Jarvis 的系统构建;其次,我们来了解如何使用 NeMo 来进一步提高语音助理的精确度。  Back
 
Topics:
Conversational AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20789
Download:
Share:
Data Center & Cloud Infrastructure
Presentation
Media
Abstract:
在 AI 场景中,大部分任务使用的都是 NVIDIA 的 GPU 。但是在很多情况下,单个计算实例并不能充分利用整个 GPU 的完整计算能力,因此给单一任务分配一个完整的物理 GPU 并不是一个经济的选择。 vGPU 是一种虚拟化技术,它支持 CUDA 计算和图形渲染功能,但是它只能在 vm 环境下使用。而我们想在继续使用已有的 kubernetes 基础环境的前提下,使用 vGPU 的功能,这就是我们引入 kata 容器的原因。本议题介绍了腾讯在 kata 容器中使用 vGPU 所做的一些工作,包括 如何编译一个合适的内核和 rootfs(包括驱动)如何自动的获取 vGPU 的 license 方法 一些开发 vGPU 的 device plugin 的思路和想法通过这些手段,开发者可以直接通过创建 kubernetes 工作负载的方式来实现 GPU 虚拟化功能。相比于传统的 vGPU 使用方式,借助 kata,我们可以减少额外的资源开销,并且简化开发流程,这些都有助于提升我们整体的 GPU 使用率。 ...Read More
Abstract:
在 AI 场景中,大部分任务使用的都是 NVIDIA 的 GPU 。但是在很多情况下,单个计算实例并不能充分利用整个 GPU 的完整计算能力,因此给单一任务分配一个完整的物理 GPU 并不是一个经济的选择。 vGPU 是一种虚拟化技术,它支持 CUDA 计算和图形渲染功能,但是它只能在 vm 环境下使用。而我们想在继续使用已有的 kubernetes 基础环境的前提下,使用 vGPU 的功能,这就是我们引入 kata 容器的原因。本议题介绍了腾讯在 kata 容器中使用 vGPU 所做的一些工作,包括 如何编译一个合适的内核和 rootfs(包括驱动)如何自动的获取 vGPU 的 license 方法 一些开发 vGPU 的 device plugin 的思路和想法通过这些手段,开发者可以直接通过创建 kubernetes 工作负载的方式来实现 GPU 虚拟化功能。相比于传统的 vGPU 使用方式,借助 kata,我们可以减少额外的资源开销,并且简化开发流程,这些都有助于提升我们整体的 GPU 使用率。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20107
Download:
Share:
 
Abstract:
通过本次演讲,参会者会了解到在云端的 GPU 的多样性,满足参会者们在任何场景的 GPU 的需求,具体内容为: 1,腾讯云 GPU 发展历程 2,全系列 GPU 解决方案,可以满足全场景的需求 :--- 实例类型最丰富 --- 全球地域覆盖最广 --- 丰富的应用和接入方式 --- vGPu 无需购买 liscence3,新品相关: A100 云服务器实例发布,黑石高性能计算集群 RDMA+V100 发布 4,腾讯云当前 GPU 的相关活动:官网的优惠活动 + 与 NVIDIA 联合的初创加速计划等 ...Read More
Abstract:
通过本次演讲,参会者会了解到在云端的 GPU 的多样性,满足参会者们在任何场景的 GPU 的需求,具体内容为: 1,腾讯云 GPU 发展历程 2,全系列 GPU 解决方案,可以满足全场景的需求 :--- 实例类型最丰富 --- 全球地域覆盖最广 --- 丰富的应用和接入方式 --- vGPu 无需购买 liscence3,新品相关: A100 云服务器实例发布,黑石高性能计算集群 RDMA+V100 发布 4,腾讯云当前 GPU 的相关活动:官网的优惠活动 + 与 NVIDIA 联合的初创加速计划等  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20127
Download:
Share:
 
Abstract:
本演讲将聚焦高性能计算和人工智能融合所需要的先进的网络互联技术,参会者可以了解在科学计算、云端、边缘以及自主机器等领域,InfiniBand 高速互联网络特性和独特的网络计算能力以及为客户带来的益处。 GPU 、 CPU 和 DPU 组成的数据中心处理单元是新的扩展单元,InfiniBand 是连接这些处理单元的最佳选择,构成 SuperPOD 或超级计算机系统,解决普通计算机无法解决的难题,提升各行各业的竞争力,在虚拟化、分布式横向扩展和可组合微服务三个技术方向上,帮助客户实现性能最优化和线性扩展以及最高投资回报。报告还介绍 InfiniBand 在极端天气预报、 MCAE 、智能勘探、药物发现、即时金融防欺诈等行业的成功案例。 ...Read More
Abstract:
本演讲将聚焦高性能计算和人工智能融合所需要的先进的网络互联技术,参会者可以了解在科学计算、云端、边缘以及自主机器等领域,InfiniBand 高速互联网络特性和独特的网络计算能力以及为客户带来的益处。 GPU 、 CPU 和 DPU 组成的数据中心处理单元是新的扩展单元,InfiniBand 是连接这些处理单元的最佳选择,构成 SuperPOD 或超级计算机系统,解决普通计算机无法解决的难题,提升各行各业的竞争力,在虚拟化、分布式横向扩展和可组合微服务三个技术方向上,帮助客户实现性能最优化和线性扩展以及最高投资回报。报告还介绍 InfiniBand 在极端天气预报、 MCAE 、智能勘探、药物发现、即时金融防欺诈等行业的成功案例。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20152
Download:
Share:
 
Abstract:
NVIDIA DPU(Data Processing Unit)SNAP 技术可以将远端存储模拟为本地存储,从而提升存储的效率。该技术当前支持两种类型的存储设备,NMVe 和 Virtio 。通过将远端设备模拟为本地设备,可以实现计算节点服务器无盘化,完全使用后端存储资源池,充分利用存储资源并降低故障率,达到节省固定投资和运营投资成本的目的。金融行业的快速发展,对于 IT 基础设施的要求越来越高。特别是当前热门的高性能计算、人工智能、大数据分析,大大提升了金融应用的效率和决策水平,这些技术对于 IT 基础设施有着很高的要求,SNAP 技术可以满足这类应用的高性能要求,同时可以节省客户的运营成本和维护难度。 ...Read More
Abstract:
NVIDIA DPU(Data Processing Unit)SNAP 技术可以将远端存储模拟为本地存储,从而提升存储的效率。该技术当前支持两种类型的存储设备,NMVe 和 Virtio 。通过将远端设备模拟为本地设备,可以实现计算节点服务器无盘化,完全使用后端存储资源池,充分利用存储资源并降低故障率,达到节省固定投资和运营投资成本的目的。金融行业的快速发展,对于 IT 基础设施的要求越来越高。特别是当前热门的高性能计算、人工智能、大数据分析,大大提升了金融应用的效率和决策水平,这些技术对于 IT 基础设施有着很高的要求,SNAP 技术可以满足这类应用的高性能要求,同时可以节省客户的运营成本和维护难度。  Back
 
Topics:
Data Center & Cloud Infrastructure, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20192
Download:
Share:
 
Abstract:
推荐系统的技术发展和广泛使用,使其成为 AI 和大数据技术的一个非常重要的应用场景。本演讲结合 GPU 加速的推荐系统中对网络基础设施的要求和关键技术,介绍了 NVIDIA 以太网解决方案在建立数据科学网络基础设施中的应用和特点。 ...Read More
Abstract:
推荐系统的技术发展和广泛使用,使其成为 AI 和大数据技术的一个非常重要的应用场景。本演讲结合 GPU 加速的推荐系统中对网络基础设施的要求和关键技术,介绍了 NVIDIA 以太网解决方案在建立数据科学网络基础设施中的应用和特点。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20250
Download:
Share:
 
Abstract:
商业应用在网络的自动化、扩展性和灵活性方面的需求日益增加,AI 驱动的多种应用也对网络带来了更高的要求。开放网络技术在满足这些需求方面为用户带来了巨大的收益。学习和了解为何、如何使用 NVIDIA 开放网络技术替代传统封闭架构构造新型数据中心基础设施,会给用户数据中心基础设施建设带来全新的思路和实践的指导。解决用户在高性能基础设施中的高效、高性能、开放和灵活的一系列需求问题。 ...Read More
Abstract:
商业应用在网络的自动化、扩展性和灵活性方面的需求日益增加,AI 驱动的多种应用也对网络带来了更高的要求。开放网络技术在满足这些需求方面为用户带来了巨大的收益。学习和了解为何、如何使用 NVIDIA 开放网络技术替代传统封闭架构构造新型数据中心基础设施,会给用户数据中心基础设施建设带来全新的思路和实践的指导。解决用户在高性能基础设施中的高效、高性能、开放和灵活的一系列需求问题。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20271
Download:
Share:
 
Abstract:
沃趣科技始终致力于数据库生态相关产品的打造,核心级 QData 数据库一体机已经得到来自金融、证券、运营商、电力等多个行业客户的普遍认可。通过融入 BludField 智能硬件,QData 数据库一体机得以产生根本性的变化,更高的性能、更低的 TCO 成本有助于帮助客户获得更好的体验 ...Read More
Abstract:
沃趣科技始终致力于数据库生态相关产品的打造,核心级 QData 数据库一体机已经得到来自金融、证券、运营商、电力等多个行业客户的普遍认可。通过融入 BludField 智能硬件,QData 数据库一体机得以产生根本性的变化,更高的性能、更低的 TCO 成本有助于帮助客户获得更好的体验  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20339
Download:
Share:
 
Abstract:
近些年,边缘计算在物联网,云服务,运营商业务等获得快速发展。作为靠近用户端的新型计算单元,边缘计算在安全、性能等方面都提出了新的要求。 NVIDIA 最新推出的 DPU 处理器,采用一种新型的数据中心基础架构处理器体系结构 DOCA,可实现具有突破性的网络、存储、安全性能。本次讲座将介绍 CPU 、 GPU 和 DPU 如何有机结合,为边缘计算关键的网络、存储和安全任务实现加速,实现完全可编程性,并具有“零信任”安全功能,防止数据泄露和网络攻击,提供前所未有的安全性和算力。 ...Read More
Abstract:
近些年,边缘计算在物联网,云服务,运营商业务等获得快速发展。作为靠近用户端的新型计算单元,边缘计算在安全、性能等方面都提出了新的要求。 NVIDIA 最新推出的 DPU 处理器,采用一种新型的数据中心基础架构处理器体系结构 DOCA,可实现具有突破性的网络、存储、安全性能。本次讲座将介绍 CPU 、 GPU 和 DPU 如何有机结合,为边缘计算关键的网络、存储和安全任务实现加速,实现完全可编程性,并具有“零信任”安全功能,防止数据泄露和网络攻击,提供前所未有的安全性和算力。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20367
Download:
Share:
 
Abstract:
Azure 透过高效能运算及 Infiniband 网路架构打造出 超级电脑 等级的 GPU 云端平台,帮助您以最 cost effective 的方式运用各式 NVIDIA GPU 提供最佳 AI 运算 . 本议程将让您清楚知道 Azure 云平 HPC 机制如何结合 NVIDIA 以及高速 Infiniband 网路,满足您各式 AI 运算需求 ...Read More
Abstract:
Azure 透过高效能运算及 Infiniband 网路架构打造出 超级电脑 等级的 GPU 云端平台,帮助您以最 cost effective 的方式运用各式 NVIDIA GPU 提供最佳 AI 运算 . 本议程将让您清楚知道 Azure 云平 HPC 机制如何结合 NVIDIA 以及高速 Infiniband 网路,满足您各式 AI 运算需求  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20409
Download:
Share:
 
Abstract:
金融科技人工智能平台的思考与实践
 
Topics:
Data Center & Cloud Infrastructure, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20419
Download:
Share:
 
Abstract:
百度智能云 AI-Native 云计算架构共分成四大方面。首先是云基础设施层,包括芯片、 AI 计算集群、高速互联网络、智能数据中心等,可以提供高性能的 AI 算力 ; 其次是工程平台,包括百度自主研发的飞桨平台、数据智能平台、云原生平台和云边端一体平台,可以让整个开发过程简单、易用、高效 ; 紧接是 AI 应用开发平台,在云基础设施层和工程平台的支持下,助力企业实现云能力和 AI 能力深度融合,最大化地发挥出云计算性能,实现与视频应用、区块链、硬件等生态的链接,让客户享受到端到端的应用开发全流程体验 ; 最后百度智能云将自己多年的产业智能化实践经验,总结为三大方法论,包括有互联网架构、数据智能和模型工厂。通过一站式的 AI-Native 云计算服务,百度智能云可以更好地帮助企业客户完成上云。 ...Read More
Abstract:
百度智能云 AI-Native 云计算架构共分成四大方面。首先是云基础设施层,包括芯片、 AI 计算集群、高速互联网络、智能数据中心等,可以提供高性能的 AI 算力 ; 其次是工程平台,包括百度自主研发的飞桨平台、数据智能平台、云原生平台和云边端一体平台,可以让整个开发过程简单、易用、高效 ; 紧接是 AI 应用开发平台,在云基础设施层和工程平台的支持下,助力企业实现云能力和 AI 能力深度融合,最大化地发挥出云计算性能,实现与视频应用、区块链、硬件等生态的链接,让客户享受到端到端的应用开发全流程体验 ; 最后百度智能云将自己多年的产业智能化实践经验,总结为三大方法论,包括有互联网架构、数据智能和模型工厂。通过一站式的 AI-Native 云计算服务,百度智能云可以更好地帮助企业客户完成上云。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20465
Download:
Share:
 
Abstract:
通过本次演讲,参会者将会了解到在云端的使用 GPU 的便捷性,以及阿里云提供的软硬一体的云上 GPU 优化方案。具体内容为: 1. 了解基于阿里云独创的神龙架构的全场景云上 GPU 产品系列 2. 了解阿里云提供的针对人工智能、大数据等场景的软硬一体的性能及部署优化方案 3. 了解阿里云推出的新品 A100 云服务器实例 ...Read More
Abstract:
通过本次演讲,参会者将会了解到在云端的使用 GPU 的便捷性,以及阿里云提供的软硬一体的云上 GPU 优化方案。具体内容为: 1. 了解基于阿里云独创的神龙架构的全场景云上 GPU 产品系列 2. 了解阿里云提供的针对人工智能、大数据等场景的软硬一体的性能及部署优化方案 3. 了解阿里云推出的新品 A100 云服务器实例  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20506
Download:
Share:
 
Abstract:
随着大数据行业的蓬勃发展,各行各业的业务数据出现了指数级的增长,如何应对大数据处理在实时性、集群可维护性方面的挑战,成为很多行业的最大问题。 GPU 数据库,作为一种基于 GPU 硬件加速的新型数据库,凭借 GPU 的强大算力,以及低功耗,易扩展的特性,为解决大数据处理挑战提供了新的思路。 GPU 本身具有高并发、高带宽的特点,非常适合于数据库的数据搜索、统计分类、实时计算等任务,结合专为 GPU 数据库设计的分布式存储、执行框架,实现了同等集群规模下,数据能力提升数倍的效果。目前,GPU 数据库已经在银行的实时数据后端查询以及数据批量加工等领域落地,具备较为成熟的解决方案,同时也在将业务拓展到金融风控领域和证券量化平台,希望通过更强的算力、更宽的带宽、更高的并发,为客户解决更多的性能瓶颈。 ...Read More
Abstract:
随着大数据行业的蓬勃发展,各行各业的业务数据出现了指数级的增长,如何应对大数据处理在实时性、集群可维护性方面的挑战,成为很多行业的最大问题。 GPU 数据库,作为一种基于 GPU 硬件加速的新型数据库,凭借 GPU 的强大算力,以及低功耗,易扩展的特性,为解决大数据处理挑战提供了新的思路。 GPU 本身具有高并发、高带宽的特点,非常适合于数据库的数据搜索、统计分类、实时计算等任务,结合专为 GPU 数据库设计的分布式存储、执行框架,实现了同等集群规模下,数据能力提升数倍的效果。目前,GPU 数据库已经在银行的实时数据后端查询以及数据批量加工等领域落地,具备较为成熟的解决方案,同时也在将业务拓展到金融风控领域和证券量化平台,希望通过更强的算力、更宽的带宽、更高的并发,为客户解决更多的性能瓶颈。  Back
 
Topics:
Data Center & Cloud Infrastructure, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20536
Download:
Share:
 
Abstract:
快杰云主机是 UCloud 最新推出的全新一代计算产品,计算、存储与网络性能都拥有着卓越的体现,具备 1000 万 pps 的内网性能以及 120 万 IOPS 的存储性能。随着计算机软硬件的发展,UCloud 研发团队通过 SR-IOV 和 RDMA 技术重写了虚拟网络路径以及存储路径,相对于传统的虚拟化网络路径以及虚拟化 IO 路径,减少了大量的上下文切换以及数据拷贝,极大的提升了性能。并减轻物理主机 CPU 消耗,使之有能力承载更多虚拟机,从而更好的优化成本。在快杰云主机中,利用了 mellanox 的 ConnectX — 5 25G 网卡,利用其提供的 SR-IOV 和 RDMA 方案,配套研发团队整个虚拟化路径软件栈的优化,内网性能从 30 万 pps 提升到 1000 万 pps,存储性能从 3 万 IOPS 提升至 120 万 IOPS,存储时延从 1ms 降低至 100us . 使得快杰云主机的性能媲美物理机的性能,从而更多的应用例如 DB,消息队列,大数据等都可以轻松的利用快杰云主机的高性能轻松构建。 ...Read More
Abstract:
快杰云主机是 UCloud 最新推出的全新一代计算产品,计算、存储与网络性能都拥有着卓越的体现,具备 1000 万 pps 的内网性能以及 120 万 IOPS 的存储性能。随着计算机软硬件的发展,UCloud 研发团队通过 SR-IOV 和 RDMA 技术重写了虚拟网络路径以及存储路径,相对于传统的虚拟化网络路径以及虚拟化 IO 路径,减少了大量的上下文切换以及数据拷贝,极大的提升了性能。并减轻物理主机 CPU 消耗,使之有能力承载更多虚拟机,从而更好的优化成本。在快杰云主机中,利用了 mellanox 的 ConnectX — 5 25G 网卡,利用其提供的 SR-IOV 和 RDMA 方案,配套研发团队整个虚拟化路径软件栈的优化,内网性能从 30 万 pps 提升到 1000 万 pps,存储性能从 3 万 IOPS 提升至 120 万 IOPS,存储时延从 1ms 降低至 100us . 使得快杰云主机的性能媲美物理机的性能,从而更多的应用例如 DB,消息队列,大数据等都可以轻松的利用快杰云主机的高性能轻松构建。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20603
Download:
Share:
 
Abstract:
本演讲首先介绍运营商的开源软件状况,在通信网和 IT 数据中心中,大量采用开源软件来加速业务部署上线。接着介绍了目前开源社区对 GPU 的支持情况,包括从 Linux 操作系统到云管理平台,从容器平台到 AI DevOps,GPU 越来越被开源软件接受和支持。最后,介绍了 NVIDIA 在开源社区中所做的贡献,包括参与的开源项目,其中绝大部分已经被运营商客户所使用。 ...Read More
Abstract:
本演讲首先介绍运营商的开源软件状况,在通信网和 IT 数据中心中,大量采用开源软件来加速业务部署上线。接着介绍了目前开源社区对 GPU 的支持情况,包括从 Linux 操作系统到云管理平台,从容器平台到 AI DevOps,GPU 越来越被开源软件接受和支持。最后,介绍了 NVIDIA 在开源社区中所做的贡献,包括参与的开源项目,其中绝大部分已经被运营商客户所使用。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20643
Download:
Share:
 
Abstract:
介绍神龙 AI 加速服务 AIACC,AIACC 统一支持了 Tensorflow,PyTorch,MXNet,Caffe 这 4 种主流 AI 框架的性能加速,大幅提升 AI 场景的计算性能和 GPU 利用率。介绍 AIACC 获得的 Dawnbench 4 项世界冠军,讲解神龙 AI 加速技术架构以及性能优化的方法,介绍 AIACC 对于 AI 训练和推理性能提升的客户案例。发布弹性训练服务和弹性加速实例服务。 ...Read More
Abstract:
介绍神龙 AI 加速服务 AIACC,AIACC 统一支持了 Tensorflow,PyTorch,MXNet,Caffe 这 4 种主流 AI 框架的性能加速,大幅提升 AI 场景的计算性能和 GPU 利用率。介绍 AIACC 获得的 Dawnbench 4 项世界冠军,讲解神龙 AI 加速技术架构以及性能优化的方法,介绍 AIACC 对于 AI 训练和推理性能提升的客户案例。发布弹性训练服务和弹性加速实例服务。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20652
Download:
Share:
 
Abstract:
随着人工智能对工业和互联网的升级,对 5G 部署提出了越来越高的要求。针对 5G 的云部署, NVIDIA 提出了在成本、功耗、开发周期都高效的解决方案,非常适应云部署需求: COTS 硬件,云原生架构,管理 / 编排 / 自动化及 RAN 可编程性。 ...Read More
Abstract:
随着人工智能对工业和互联网的升级,对 5G 部署提出了越来越高的要求。针对 5G 的云部署, NVIDIA 提出了在成本、功耗、开发周期都高效的解决方案,非常适应云部署需求: COTS 硬件,云原生架构,管理 / 编排 / 自动化及 RAN 可编程性。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20744
Download:
Share:
 
Abstract:
中国电信天翼云在 5G 时代将是传统行业的云供应商伙伴和 AI 能力发动机。结合中国电信自身服务政企客户的优势以及优质的 5G 网络资源,天翼云在安全、可信、可靠的基础上结合传统行业特点,为千行百业实现定制化产品、解决方案的能力,快速融合业务需求,实现人工智能的落地,生产力和生产效率的提高。本次演讲将主要分享天翼云诸葛 AI 平台的平台架构,特色功能,开放生态,以及在工业、农业、教育等行业的实际案例。 ...Read More
Abstract:
中国电信天翼云在 5G 时代将是传统行业的云供应商伙伴和 AI 能力发动机。结合中国电信自身服务政企客户的优势以及优质的 5G 网络资源,天翼云在安全、可信、可靠的基础上结合传统行业特点,为千行百业实现定制化产品、解决方案的能力,快速融合业务需求,实现人工智能的落地,生产力和生产效率的提高。本次演讲将主要分享天翼云诸葛 AI 平台的平台架构,特色功能,开放生态,以及在工业、农业、教育等行业的实际案例。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20750
Download:
Share:
 
Abstract:
数据科学在过去 10 余年间持续快速发展,已经成为了一个非常重要的技术和研究方向。本演讲结合数据科学各生命周期中对网络基础设施的要求和关键技术,介绍了 NVIDIA 以太网解决方案在建立数据科学网络基础设施中的应用和特点。 ...Read More
Abstract:
数据科学在过去 10 余年间持续快速发展,已经成为了一个非常重要的技术和研究方向。本演讲结合数据科学各生命周期中对网络基础设施的要求和关键技术,介绍了 NVIDIA 以太网解决方案在建立数据科学网络基础设施中的应用和特点。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20764
Download:
Share:
 
Abstract:
从系统层面,介绍几种 NVIDIA 提升 GPU 利用率的方法,以帮助你在数据中心更好的部署 GPU 。 NVIDIA GPU 在 AI 时代扮演着举足轻重的作用,已经在各大互联网公司大规模集群化的完成部署,服务着各式各样的 AI 应用。同时,GPU 作为珍贵的 AI 计算资源,如何更进一步的用好 GPU 、提升 GPU 的使用率,也是一个很有意义的话题。此次报告着重从系统级的层面,结合 NVIDIA 的一些解决方案,介绍了几种提升 GPU 利用率的方法以及一些测试案例。其中会重点覆盖 MPS(Multi-Process Service)和 MIG(Multi-Instance GPU),结合一些测试案例,从不同的利用率指标上来量化这些解决方案的优势。另外,也会简单介绍 TRITON 和 vGPU 的方式,是如何提升 GPU 使用。这几种提高 GPU 利用率的方法各有侧重,亦有可结合之处。此报告的目的是希望客户能结合自己的场景特点,利用这些方法中的一种或多种,来优化自己的 GPU 部署,提升 GPU 的利用率。 ...Read More
Abstract:
从系统层面,介绍几种 NVIDIA 提升 GPU 利用率的方法,以帮助你在数据中心更好的部署 GPU 。 NVIDIA GPU 在 AI 时代扮演着举足轻重的作用,已经在各大互联网公司大规模集群化的完成部署,服务着各式各样的 AI 应用。同时,GPU 作为珍贵的 AI 计算资源,如何更进一步的用好 GPU 、提升 GPU 的使用率,也是一个很有意义的话题。此次报告着重从系统级的层面,结合 NVIDIA 的一些解决方案,介绍了几种提升 GPU 利用率的方法以及一些测试案例。其中会重点覆盖 MPS(Multi-Process Service)和 MIG(Multi-Instance GPU),结合一些测试案例,从不同的利用率指标上来量化这些解决方案的优势。另外,也会简单介绍 TRITON 和 vGPU 的方式,是如何提升 GPU 使用。这几种提高 GPU 利用率的方法各有侧重,亦有可结合之处。此报告的目的是希望客户能结合自己的场景特点,利用这些方法中的一种或多种,来优化自己的 GPU 部署,提升 GPU 的利用率。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20856
Download:
Share:
 
Abstract:
将使得听众理解和掌握现代数据中心网络的架构及关键技术。内容涵盖 CLOS 网络架构的理念及在数据中心的实践,BGP 路由协议基础介绍,BGP 在数据中心网络的实现,Routing on Host 的介绍,以及 CumulusLinux 的开放性。现代数据中心网络将为 GPU 计算提供高性能的基础设施。 ...Read More
Abstract:
将使得听众理解和掌握现代数据中心网络的架构及关键技术。内容涵盖 CLOS 网络架构的理念及在数据中心的实践,BGP 路由协议基础介绍,BGP 在数据中心网络的实现,Routing on Host 的介绍,以及 CumulusLinux 的开放性。现代数据中心网络将为 GPU 计算提供高性能的基础设施。  Back
 
Topics:
Data Center & Cloud Infrastructure, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20867
Download:
Share:
 
Abstract:
随着存储容量的增大(从几百 TB 到几百 PB),以及对于性能的极致追求(带宽从几百 MB/s 到几十 GB/s),传统的基于 TCP/IP 的网络已经无法满足大规模可扩展集群的高性能存储需求。为了突破网络瓶颈,使用基于 RDMA 的互联技术,能减少存储系统的资源利用率,降低延迟,提升带宽。储迅一直致力于高性能存储系统的研发,在大规模存储部署的过程中,基于 Infiniband 和高速以太网积累了大量的 RDMA 开发和应用经验,构建的高性能存储系统在多个行业发挥着巨大的作用。 ...Read More
Abstract:
随着存储容量的增大(从几百 TB 到几百 PB),以及对于性能的极致追求(带宽从几百 MB/s 到几十 GB/s),传统的基于 TCP/IP 的网络已经无法满足大规模可扩展集群的高性能存储需求。为了突破网络瓶颈,使用基于 RDMA 的互联技术,能减少存储系统的资源利用率,降低延迟,提升带宽。储迅一直致力于高性能存储系统的研发,在大规模存储部署的过程中,基于 Infiniband 和高速以太网积累了大量的 RDMA 开发和应用经验,构建的高性能存储系统在多个行业发挥着巨大的作用。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20878
Download:
Share:
 
Abstract:
深度学习是人工智能训练过程中使用的主要手段,在深度学习的训练过程中需要处理海量的非结构化数据,这些数据的吞吐性能,将极大制约 GPU 计算的效率。本演讲对我们在人工智能场景下,高性能并行文件存储的实践做了总结和分享。 ...Read More
Abstract:
深度学习是人工智能训练过程中使用的主要手段,在深度学习的训练过程中需要处理海量的非结构化数据,这些数据的吞吐性能,将极大制约 GPU 计算的效率。本演讲对我们在人工智能场景下,高性能并行文件存储的实践做了总结和分享。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20883
Download:
Share:
 
Abstract:
本演讲介绍了中国移动为什么选择 GPU 作为其推理平台的硬件,以及为什么选择 Triton 作为其推理平台的软件。同时介绍了在研发过程中,如何将 Triton 这个通用的开源软件平台加以定制化,适配到中国移动自己的 AI 能力平台上来。 ...Read More
Abstract:
本演讲介绍了中国移动为什么选择 GPU 作为其推理平台的硬件,以及为什么选择 Triton 作为其推理平台的软件。同时介绍了在研发过程中,如何将 Triton 这个通用的开源软件平台加以定制化,适配到中国移动自己的 AI 能力平台上来。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20889
Download:
Share:
 
Abstract:
软件定义存储已经成为存储市场主流,从边缘业务渗透到核心业务系统,不断加快替代传统集中式存储。企业核心业务上云,AI 、 5G 、边缘计算、物联网等新兴技术兴起,对存储基础实施性能不断提出新的需求,容量型 SDS 已经无法满足诸如此类应用场景的发展,尤其是带宽之外的低延迟和高 IOPS 的性能需求。高性能硬件的快速发展,诸如多核 CPU 、高带网络、高性能 SSD 以及各种智能芯片,为新一代性能型全闪 SDS 提供了发展机遇,裸金属云存储应运而生。全闪 SDS 基于全用户态设计(kernel bypass)、 polling 模型、专核调度策略、端到端 NVMf 协议,极致发挥裸金属物理性能,实现百微秒级低延迟下的千万级 IOPS 超高性能。新一代性能型全闪 SDS,为核心业务系统中 SDS 替换传统存储提供了极好的驱动力,为新兴应用提供了极佳的存储基础设施。 ...Read More
Abstract:
软件定义存储已经成为存储市场主流,从边缘业务渗透到核心业务系统,不断加快替代传统集中式存储。企业核心业务上云,AI 、 5G 、边缘计算、物联网等新兴技术兴起,对存储基础实施性能不断提出新的需求,容量型 SDS 已经无法满足诸如此类应用场景的发展,尤其是带宽之外的低延迟和高 IOPS 的性能需求。高性能硬件的快速发展,诸如多核 CPU 、高带网络、高性能 SSD 以及各种智能芯片,为新一代性能型全闪 SDS 提供了发展机遇,裸金属云存储应运而生。全闪 SDS 基于全用户态设计(kernel bypass)、 polling 模型、专核调度策略、端到端 NVMf 协议,极致发挥裸金属物理性能,实现百微秒级低延迟下的千万级 IOPS 超高性能。新一代性能型全闪 SDS,为核心业务系统中 SDS 替换传统存储提供了极好的驱动力,为新兴应用提供了极佳的存储基础设施。  Back
 
Topics:
Data Center & Cloud Infrastructure
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20973
Download:
Share:
Deep Learning & AI Frameworks
Presentation
Media
Abstract:
本演讲主要介绍阿里巴巴 PAI 团队开发的 Whale :统一多种并行化策略的分布式深度学习框架。 Whale 通过集成各种的并行化策略和支持不同并行化策略的组合,使得超大模型的分布式训练成为可能,同时可以提升模型在 GPU 集群上的分布式训练性能。另外,Whale 通过实现自动并行化功能来寻找更优的并行化策略,同时减少用户并行化难度,降低用户门槛。在不用修改用户原始代码的前提下,仅仅通过增加几行代码的情况下即可完成复杂的并行化策略,从而利用大规模分布式 GPU 资源进行分布式训练加速。 ...Read More
Abstract:
本演讲主要介绍阿里巴巴 PAI 团队开发的 Whale :统一多种并行化策略的分布式深度学习框架。 Whale 通过集成各种的并行化策略和支持不同并行化策略的组合,使得超大模型的分布式训练成为可能,同时可以提升模型在 GPU 集群上的分布式训练性能。另外,Whale 通过实现自动并行化功能来寻找更优的并行化策略,同时减少用户并行化难度,降低用户门槛。在不用修改用户原始代码的前提下,仅仅通过增加几行代码的情况下即可完成复杂的并行化策略,从而利用大规模分布式 GPU 资源进行分布式训练加速。  Back
 
Topics:
Deep Learning & AI Frameworks
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20147
Download:
Share:
 
Abstract:
基于 GPU 集群的深度学习训练平台,主要从深度学习训练的全流程出发,详细介绍了在训练流程中的数据、计算、通信以及收敛性的加速方法,落地到多个场景应用中。
 
Topics:
Deep Learning & AI Frameworks
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20713
Download:
Share:
 
Abstract:
随着模型和数据规模的增长,大规模分布式训练越来越成为工业模型训练任务中的重点发展方向。目前主流实现为分布式梯度 AllReduce 算法。在通讯受限或异构计算场景中,效率有较大提升空间。 Bagua!并行通讯库旨在提供全新的通讯和训练方式,大幅提升分布式训练的效率。包括支持异步训练、去中心化训练和通讯有损压缩等多种新算法。这些算法在工业共享云场景中可获得明显收益。 ...Read More
Abstract:
随着模型和数据规模的增长,大规模分布式训练越来越成为工业模型训练任务中的重点发展方向。目前主流实现为分布式梯度 AllReduce 算法。在通讯受限或异构计算场景中,效率有较大提升空间。 Bagua!并行通讯库旨在提供全新的通讯和训练方式,大幅提升分布式训练的效率。包括支持异步训练、去中心化训练和通讯有损压缩等多种新算法。这些算法在工业共享云场景中可获得明显收益。  Back
 
Topics:
Deep Learning & AI Frameworks
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20843
Download:
Share:
 
Abstract:
卷积计算是制约当前主流 CNN 模型训练性能的关键因素。自 Volta GPU 提供了专用于 FP16 矩阵计算的 Tensor Core,FP16 卷积计算性能有了大幅提升,FP16 混合精度训练成为主流。 Turing GPU 提供了支持 INT8 矩阵计算的新型 Tensor Core,理论性能相较 FP16 提升一倍,已广泛应用于 INT8 量化推理,但在训练场景应用较少。 INT8 表达能力低于 FP16,INT8 训练中需在卷积前后加入额外的量化和反量化过程来保证训练收敛和模型精度。 cuDNN 提供了 INT8 卷积的前向转播,尚不支持反向传播,在工程实践中也难以和量化 / 反量化过程融合来进一步提升性能。我们的工作中实现了基于 implicit GEMM 的 INT8 卷积前向和反向转播,同时根据端到端性能最优的原则进行了量化 / 反量化过程与卷积的融合。基于 ResNet50 测试,通过上述工作使端到端单卡训练性能相较 FP16 Tensor Core 混合精度训练提升约 18%,卷积算子性能提升 76%~94%,模型精度符合业务需求。该技术若能在生产场景推广,能显著降低模型训练成本,提高模型迭代速度。 ...Read More
Abstract:
卷积计算是制约当前主流 CNN 模型训练性能的关键因素。自 Volta GPU 提供了专用于 FP16 矩阵计算的 Tensor Core,FP16 卷积计算性能有了大幅提升,FP16 混合精度训练成为主流。 Turing GPU 提供了支持 INT8 矩阵计算的新型 Tensor Core,理论性能相较 FP16 提升一倍,已广泛应用于 INT8 量化推理,但在训练场景应用较少。 INT8 表达能力低于 FP16,INT8 训练中需在卷积前后加入额外的量化和反量化过程来保证训练收敛和模型精度。 cuDNN 提供了 INT8 卷积的前向转播,尚不支持反向传播,在工程实践中也难以和量化 / 反量化过程融合来进一步提升性能。我们的工作中实现了基于 implicit GEMM 的 INT8 卷积前向和反向转播,同时根据端到端性能最优的原则进行了量化 / 反量化过程与卷积的融合。基于 ResNet50 测试,通过上述工作使端到端单卡训练性能相较 FP16 Tensor Core 混合精度训练提升约 18%,卷积算子性能提升 76%~94%,模型精度符合业务需求。该技术若能在生产场景推广,能显著降低模型训练成本,提高模型迭代速度。  Back
 
Topics:
Deep Learning & AI Frameworks
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20916
Download:
Share:
Deep Learning - Use Cases & Success Stories
Presentation
Media
Abstract:
从需求背景出发,介绍 EasyDL 产品和核心技术特性;然后,介绍 EasyDL 效果优化的各项实现以及 NVIDIA GPU 与 EasyDL 的结合带来的优化;最后基于 GPU 进行 EasyDL 模型部署和实操;
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20162
Download:
Share:
 
Abstract:
作为中国量化投资领域的领先企业之一,我们使用智能方法处理了海量的多模态金融数据。这次交流会主要带领听众梳理中国量化投资领域一些当前的问题,并提出使用深度学习和 GPU 的解决方法。他们包括:数据是多模态的,有各种不同种类,不同结构,不同频度的数据。数据中有大量噪音。 对于金融业来说,数据的噪音不只是来自于数据本身,更来自于数据所处的历史时点。对于金融交易来说,大量数据并没有明确的标签。我们需要使用人工智能去学习数据内容中的模式,数据之间的相互联动和因果关系,以及这些模式及关系随时间是如何变动的。我们应该如何在原始信息中提取对我们有用的信息,将这些精炼的数据织成一张知识网,最终预测市场的走向并解释市场的结果。我们的人工智能模型需要实时的产出判断。这需要有大规模低延迟的算力。在我们的交流中,我们会阐述上述的困难,并且展示一些我们使用自然语言深度模型处理非结构化文本信息的应用。 我们会向听众描述正在我们内部部署的深度学习架构。这种架构会帮助我们将内部的数据智能,市场理解,投资预测提升到下一个高度。 ...Read More
Abstract:
作为中国量化投资领域的领先企业之一,我们使用智能方法处理了海量的多模态金融数据。这次交流会主要带领听众梳理中国量化投资领域一些当前的问题,并提出使用深度学习和 GPU 的解决方法。他们包括:数据是多模态的,有各种不同种类,不同结构,不同频度的数据。数据中有大量噪音。 对于金融业来说,数据的噪音不只是来自于数据本身,更来自于数据所处的历史时点。对于金融交易来说,大量数据并没有明确的标签。我们需要使用人工智能去学习数据内容中的模式,数据之间的相互联动和因果关系,以及这些模式及关系随时间是如何变动的。我们应该如何在原始信息中提取对我们有用的信息,将这些精炼的数据织成一张知识网,最终预测市场的走向并解释市场的结果。我们的人工智能模型需要实时的产出判断。这需要有大规模低延迟的算力。在我们的交流中,我们会阐述上述的困难,并且展示一些我们使用自然语言深度模型处理非结构化文本信息的应用。 我们会向听众描述正在我们内部部署的深度学习架构。这种架构会帮助我们将内部的数据智能,市场理解,投资预测提升到下一个高度。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories, Finance
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20285
Download:
Share:
 
Abstract:
Multi-Instance GPU(MIG)是 NVIDIA 最新一代 GPU 如 A100 的一大新特性,它可以帮助用户最大化单个 GPU 的利用率,如同拥有多个更小的 GPU,从而支持多个用户同时共享单个 GPU 或单个用户同时运行多个应用。我们将分享如何管理 MIG,以及如何使用 MIG 支持多个深度学习应用同时运行,以 ResNet50 、 BERT 等为例,展示训练、微调、推理(Triton)等。你可以采用 MIG 提升单个 A100 的 GPU 利用率,也可以扩展到多个 A100 或多个节点。 ...Read More
Abstract:
Multi-Instance GPU(MIG)是 NVIDIA 最新一代 GPU 如 A100 的一大新特性,它可以帮助用户最大化单个 GPU 的利用率,如同拥有多个更小的 GPU,从而支持多个用户同时共享单个 GPU 或单个用户同时运行多个应用。我们将分享如何管理 MIG,以及如何使用 MIG 支持多个深度学习应用同时运行,以 ResNet50 、 BERT 等为例,展示训练、微调、推理(Triton)等。你可以采用 MIG 提升单个 A100 的 GPU 利用率,也可以扩展到多个 A100 或多个节点。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20428
Download:
Share:
 
Abstract:
大规模预训练在自然语言处理领域取得了突破性的进展,已经成为一直新的训练范式。然而,在机器翻译领域预取得的进展依然有限。这次演讲,我们分析了当前预训练模型在机器翻译领域应用存在的瓶颈,并且提出了通用的框架,在语音翻译、文本翻译和多语言翻译等多个场景取得了巨大的进展。最后,我们也将介绍在大规模工业场景下,我们在机器翻译预训练的最佳实践。 ...Read More
Abstract:
大规模预训练在自然语言处理领域取得了突破性的进展,已经成为一直新的训练范式。然而,在机器翻译领域预取得的进展依然有限。这次演讲,我们分析了当前预训练模型在机器翻译领域应用存在的瓶颈,并且提出了通用的框架,在语音翻译、文本翻译和多语言翻译等多个场景取得了巨大的进展。最后,我们也将介绍在大规模工业场景下,我们在机器翻译预训练的最佳实践。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20460
Download:
Share:
 
Abstract:
GPU 加速在深度学习领域中占据比较大的优势,特别是对稠密特征类模型加速优势明显(如图像识别、 NLP 自然语言模型),但是,其在广告推荐稀疏特征模型方面往往得不到比较好的加速比。基于此,我们以 HugeCTR 为基础,完成了数据流的 pipeline 实现,支持多种训练数据格式,支持 Tensorflow hash 方式,打造出高性能的并兼容 Tensorflow 推荐模型的 GPU 加速系统。为了比较性能,我们设计了 embedding+mlp 典型的推荐模型结构,加速系统 GPU 单卡性能比 Tensorflow 提升 7 倍 +,离线 AUC 效果持平。目前新模型已部署到线上,并进行 1% 的流量实验,效果持续观察中。 ...Read More
Abstract:
GPU 加速在深度学习领域中占据比较大的优势,特别是对稠密特征类模型加速优势明显(如图像识别、 NLP 自然语言模型),但是,其在广告推荐稀疏特征模型方面往往得不到比较好的加速比。基于此,我们以 HugeCTR 为基础,完成了数据流的 pipeline 实现,支持多种训练数据格式,支持 Tensorflow hash 方式,打造出高性能的并兼容 Tensorflow 推荐模型的 GPU 加速系统。为了比较性能,我们设计了 embedding+mlp 典型的推荐模型结构,加速系统 GPU 单卡性能比 Tensorflow 提升 7 倍 +,离线 AUC 效果持平。目前新模型已部署到线上,并进行 1% 的流量实验,效果持续观察中。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20483
Download:
Share:
 
Abstract:
本演讲将分享腾讯 AI Lab 在临床医学、生命科学和医疗大数据三大健康领域的尝试,分别对应 1)AI 病理分析、智能导诊 / 辅诊系统,2)AI 药物发现,3)患者病情危重概率预测等,并讨论深度学习和机器学习在其中的作用。以 AI 药物发现为例,迁移学习、强化学习等深度学习方法不仅能与传统计算化学方法相互补充、产生高性能的综合模型,还因其学习能力和灵活性、能够有效打通药物研发常用模块和大数据库。其中的分子生成、虚拟筛选等模型,涉及分子大数据库的学习和处理;除了需要系统性的数据清洗及整合外,还要求成熟的工程能力、以及强大的 GPU 算力加成。如 AI Lab 自研的 LBDD 模型,以 GPU 结合 Meta-Learning 算法,可在一周内实现对 ~5000 万分子的筛选。在蛋白质结构预测、 ADMET 属性预测、逆合成分析等方面,AI Lab 也正在开发特色产品、以满足国内药企的多样化需求。在其他两大领域,AI Lab 也在进行类似的研发工作。 ...Read More
Abstract:
本演讲将分享腾讯 AI Lab 在临床医学、生命科学和医疗大数据三大健康领域的尝试,分别对应 1)AI 病理分析、智能导诊 / 辅诊系统,2)AI 药物发现,3)患者病情危重概率预测等,并讨论深度学习和机器学习在其中的作用。以 AI 药物发现为例,迁移学习、强化学习等深度学习方法不仅能与传统计算化学方法相互补充、产生高性能的综合模型,还因其学习能力和灵活性、能够有效打通药物研发常用模块和大数据库。其中的分子生成、虚拟筛选等模型,涉及分子大数据库的学习和处理;除了需要系统性的数据清洗及整合外,还要求成熟的工程能力、以及强大的 GPU 算力加成。如 AI Lab 自研的 LBDD 模型,以 GPU 结合 Meta-Learning 算法,可在一周内实现对 ~5000 万分子的筛选。在蛋白质结构预测、 ADMET 属性预测、逆合成分析等方面,AI Lab 也正在开发特色产品、以满足国内药企的多样化需求。在其他两大领域,AI Lab 也在进行类似的研发工作。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20515
Download:
Share:
 
Abstract:
本次演讲将结合药物研发行业的发展状况和现有痛点,以及人工智能技术近年的发展,简要介绍人工智能技术在药物研发中的应用。新药的发现对人类健康至关重要。然而药物研发投资巨大、耗时长、成功率低,一款药物的上市往往需要十数年的开发时间和数十亿美金的投入。据德勤研究报告显示,世界新药研发的投资回报率已经降至历史新低,仅为 1.9% 。药物研发流程急需新的方式来改变和加速。星药团队结合图神经网络、强化学习和计算化学进行药物候选分子的设计和筛选。借助 NVIDIA GPU,星药科技开发了多个模型来对已知分子结构进行多模态大数据的深度学习,快速地根据蛋白质的多级结构、化合物基团性质及组合方式等进行计算,从亿级别海量化合物中产生出具有独立知识产权的、成药性更好的药物候选分子。除此以外,星药科技还将 NVIDIA GPU 用于处理海量化学反应数据,对人工智能模型所设计的分子进行进一步的合成性筛选,并能够将化合物反应路径预测缩短至秒级别。本次演讲的具体内容包括人工智能是如何应用于药物设计、候选药物筛选、候选药物优化、合成路线分析等方向的。 ...Read More
Abstract:
本次演讲将结合药物研发行业的发展状况和现有痛点,以及人工智能技术近年的发展,简要介绍人工智能技术在药物研发中的应用。新药的发现对人类健康至关重要。然而药物研发投资巨大、耗时长、成功率低,一款药物的上市往往需要十数年的开发时间和数十亿美金的投入。据德勤研究报告显示,世界新药研发的投资回报率已经降至历史新低,仅为 1.9% 。药物研发流程急需新的方式来改变和加速。星药团队结合图神经网络、强化学习和计算化学进行药物候选分子的设计和筛选。借助 NVIDIA GPU,星药科技开发了多个模型来对已知分子结构进行多模态大数据的深度学习,快速地根据蛋白质的多级结构、化合物基团性质及组合方式等进行计算,从亿级别海量化合物中产生出具有独立知识产权的、成药性更好的药物候选分子。除此以外,星药科技还将 NVIDIA GPU 用于处理海量化学反应数据,对人工智能模型所设计的分子进行进一步的合成性筛选,并能够将化合物反应路径预测缩短至秒级别。本次演讲的具体内容包括人工智能是如何应用于药物设计、候选药物筛选、候选药物优化、合成路线分析等方向的。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20823
Download:
Share:
 
Abstract:
近年来,虽然有线上零售分流,线下零售仍然是主要的消费渠道,对这些零售企业来说,降本增效的需求更加迫切。码隆科技是一家零售行业领先的 AI 技术供应商,我们通过视觉技术来为客户解决高价值的业务痛点,并提供稳定可靠、高性价比的解决方案。在本次的演讲中,会重点为介绍码隆科技基于 NVIDIA 设备搭建的视觉防损方案 RetailAI Protect 与智能称重方案 RetailAI Fresh,详细说明它在线下零售当中的使用场景、方案特点以及背后的技术原理。 ...Read More
Abstract:
近年来,虽然有线上零售分流,线下零售仍然是主要的消费渠道,对这些零售企业来说,降本增效的需求更加迫切。码隆科技是一家零售行业领先的 AI 技术供应商,我们通过视觉技术来为客户解决高价值的业务痛点,并提供稳定可靠、高性价比的解决方案。在本次的演讲中,会重点为介绍码隆科技基于 NVIDIA 设备搭建的视觉防损方案 RetailAI Protect 与智能称重方案 RetailAI Fresh,详细说明它在线下零售当中的使用场景、方案特点以及背后的技术原理。  Back
 
Topics:
Deep Learning - Use Cases & Success Stories, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20994
Download:
Share:
Deep Learning Inference - Optimization and Deployment
Presentation
Media
Abstract:
NVIDIA 首席科学家 Bill Dally 将深入探讨当今世界面临的种种挑战,和帮助科学家应对挑战的新技术,从自主机器、对话式 AI,到机器人、医疗和图形技术的创新。主题演讲将于北京时间 12 月 15 日(星期二)上午 10 点开始。 ...Read More
Abstract:
NVIDIA 首席科学家 Bill Dally 将深入探讨当今世界面临的种种挑战,和帮助科学家应对挑战的新技术,从自主机器、对话式 AI,到机器人、医疗和图形技术的创新。主题演讲将于北京时间 12 月 15 日(星期二)上午 10 点开始。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Keynote
Event:
GTC China
Year:
2020
Session ID:
CNS20001
Download:
Share:
 
Abstract:
聆听 NVIDIA 高管介绍公司的最新技术突破,以及这些突破将为中国市场带来怎样的影响。高峰论坛将于北京时间 12 月 15 日(星期二)上午 11 点 10 分开始。
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20002
Download:
Share:
 
Abstract:
通过这次演讲听众可以了解 Deep&Cross 类算法在 T4 上做推理性能优化时遇到的问题、解决方式以及最后的收益。团队前期优化了推荐模型在 CPU 平台上推理性能,QPS 提升了 30~50% 。随着模型越来越复杂复杂,模型的计算量变得越来越大,CPU 上的优化空间有限,于是开启了推荐模型在 T4 上的优化。在 T4 上,没有使用 TensorFlow 框架,而是基于 TensorRT 做推理。主要的挑战在于模型转换、显存 OOM 、 TensorRT 算子研发、在线服务方案选型。优化之后,单张 T4 的 QPS 上 CPU 机器的 10+ 倍。 ...Read More
Abstract:
通过这次演讲听众可以了解 Deep&Cross 类算法在 T4 上做推理性能优化时遇到的问题、解决方式以及最后的收益。团队前期优化了推荐模型在 CPU 平台上推理性能,QPS 提升了 30~50% 。随着模型越来越复杂复杂,模型的计算量变得越来越大,CPU 上的优化空间有限,于是开启了推荐模型在 T4 上的优化。在 T4 上,没有使用 TensorFlow 框架,而是基于 TensorRT 做推理。主要的挑战在于模型转换、显存 OOM 、 TensorRT 算子研发、在线服务方案选型。优化之后,单张 T4 的 QPS 上 CPU 机器的 10+ 倍。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20132
Download:
Share:
 
Abstract:
在本演讲中,会分享 LightSeq 团队在过去一年多时间里,围绕 NVIDIA GPU 硬件,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自 2017 年 Google 提出 Transformer 模型,以其为基础的特征提取方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了满足业务场景严苛的部署要求,LightSeq 团队结合 GPU 的硬件特性: 1. 对特征运算进行了定制优化 2. 对自回归解码进行了层次化改写 3. 引入编译优化进一步提升计算吞吐。成为业界第一款完整支持 Transformer 、 GPT 等多种模型高速推理的开源引擎。模型层面,LightSeq 团队也探索了压缩、量化及蒸馏技术,性能达到业界 SOTA 。 LightSeq 可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。 ...Read More
Abstract:
在本演讲中,会分享 LightSeq 团队在过去一年多时间里,围绕 NVIDIA GPU 硬件,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自 2017 年 Google 提出 Transformer 模型,以其为基础的特征提取方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了满足业务场景严苛的部署要求,LightSeq 团队结合 GPU 的硬件特性: 1. 对特征运算进行了定制优化 2. 对自回归解码进行了层次化改写 3. 引入编译优化进一步提升计算吞吐。成为业界第一款完整支持 Transformer 、 GPT 等多种模型高速推理的开源引擎。模型层面,LightSeq 团队也探索了压缩、量化及蒸馏技术,性能达到业界 SOTA 。 LightSeq 可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20158
Download:
Share:
 
Abstract:
本演讲将介绍飞桨(PaddlePaddle)原生推理引擎,以及该引擎中针对 GPU 推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多 ToB 交付的 AI 服务中经过充分验证。我们首先介绍飞桨推理引擎针对 GPU 推理所做的通用优化措施,如 OP 融合、显存复用、 TensorRT 集成、混合精度推理等;同时会以 Ernie 模型的推理优化为例来说明针对特定模型的推理优化方法及效果。 ...Read More
Abstract:
本演讲将介绍飞桨(PaddlePaddle)原生推理引擎,以及该引擎中针对 GPU 推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多 ToB 交付的 AI 服务中经过充分验证。我们首先介绍飞桨推理引擎针对 GPU 推理所做的通用优化措施,如 OP 融合、显存复用、 TensorRT 集成、混合精度推理等;同时会以 Ernie 模型的推理优化为例来说明针对特定模型的推理优化方法及效果。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20191
Download:
Share:
 
Abstract:
1. 语音识别业务 batch 推理优化:小米的在线语音识别业务通过深度优化 kaldi 中模型推理模式,将原来的单序列模式改为 batch 模式,帮助业务的吞吐量提升 3 倍。 2. 端到端语音合成模型 Tacotron2 的效率优化实践经验分享。内容主要包括在利用 TensorFlow 框架在 GPU 上部署 Tacotron2 模型的过程中遇到的效率瓶颈和优化经验,如 CPU/GPU 交互开销优化、自定义算子融合、流式模型优化等。 ...Read More
Abstract:
1. 语音识别业务 batch 推理优化:小米的在线语音识别业务通过深度优化 kaldi 中模型推理模式,将原来的单序列模式改为 batch 模式,帮助业务的吞吐量提升 3 倍。 2. 端到端语音合成模型 Tacotron2 的效率优化实践经验分享。内容主要包括在利用 TensorFlow 框架在 GPU 上部署 Tacotron2 模型的过程中遇到的效率瓶颈和优化经验,如 CPU/GPU 交互开销优化、自定义算子融合、流式模型优化等。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20198
Download:
Share:
 
Abstract:
近年来神经网络模型压缩与神经结构搜索被广泛用于提升 DNN 推理的效率。传统的 DNN 模型在这些实际应用中表现得很缓慢冗杂,简化模型以提升效率极为必要。然而目前的模型压缩与 NAS 方面的工作只是为特定的任务提供特定的优化。大多是基于缺乏理论依据的启发式算法来搜索准确并高效的模型,这导致算法中充斥着大量手工设定的参数,只能用于当前的任务,无法推广到其他任务中。此外多数现有的工作只关注模型优化的某一方面比如剪枝,NAS,或者量化,而不是搭建一个通用的框架以从数学上统一这些模型优化的不同方面,并将它们同时应用在某个模型的优化中。最后,多数现有工作也未能让模型适应底层 GPU 的硬件特性,导致优化的模型并未贴合硬件导致效率下降。我们提出了一个名为 Hammer 的通用框架以将模型压缩和 NAS 一体化。 Hammer 集成了模型剪枝,NAS 以及量化来满足实际应用中的资源限制(例如 FLOPS,能耗,以及运行时间方面的限制)。 Hammer 将 DNN 建模成一个由计算节点和有向边组成的有向无环图(DAG),并将模型剪枝和 NAS 抽象为对 DAG 中有向边的操作,量化则被抽象为对 DAG 中计算节点中的参数往量化空间上的投影。 ...Read More
Abstract:
近年来神经网络模型压缩与神经结构搜索被广泛用于提升 DNN 推理的效率。传统的 DNN 模型在这些实际应用中表现得很缓慢冗杂,简化模型以提升效率极为必要。然而目前的模型压缩与 NAS 方面的工作只是为特定的任务提供特定的优化。大多是基于缺乏理论依据的启发式算法来搜索准确并高效的模型,这导致算法中充斥着大量手工设定的参数,只能用于当前的任务,无法推广到其他任务中。此外多数现有的工作只关注模型优化的某一方面比如剪枝,NAS,或者量化,而不是搭建一个通用的框架以从数学上统一这些模型优化的不同方面,并将它们同时应用在某个模型的优化中。最后,多数现有工作也未能让模型适应底层 GPU 的硬件特性,导致优化的模型并未贴合硬件导致效率下降。我们提出了一个名为 Hammer 的通用框架以将模型压缩和 NAS 一体化。 Hammer 集成了模型剪枝,NAS 以及量化来满足实际应用中的资源限制(例如 FLOPS,能耗,以及运行时间方面的限制)。 Hammer 将 DNN 建模成一个由计算节点和有向边组成的有向无环图(DAG),并将模型剪枝和 NAS 抽象为对 DAG 中有向边的操作,量化则被抽象为对 DAG 中计算节点中的参数往量化空间上的投影。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20225
Download:
Share:
 
Abstract:
Triton 推理服务器是一个开源的 AI 模型服务软件,可以简化深度学习推理的大规模部署。 它使团队能够从任何框架(TensorFlow,TensorRT,PyTorch,ONNX Runtime 或自定义框架),在任何基于 GPU 或 CPU 的环境上(云、数据中心、边缘)大规模部署经过训练的 AI 模型。 您将了解 Triton 最新版本中的功能,例如对最新的 A100 GPU 和 MIG 的支持,与 Kubernetes 的集成,通过动态批处理进行的性能改进等。 ...Read More
Abstract:
Triton 推理服务器是一个开源的 AI 模型服务软件,可以简化深度学习推理的大规模部署。 它使团队能够从任何框架(TensorFlow,TensorRT,PyTorch,ONNX Runtime 或自定义框架),在任何基于 GPU 或 CPU 的环境上(云、数据中心、边缘)大规模部署经过训练的 AI 模型。 您将了解 Triton 最新版本中的功能,例如对最新的 A100 GPU 和 MIG 的支持,与 Kubernetes 的集成,通过动态批处理进行的性能改进等。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20268
Download:
Share:
 
Abstract:
在本演讲中,我们将详细介绍 Faster Transformer 3.0 编码器的 INT8 量化原理、实现细节及效果。 Faster Transformer 是 NVIDIA 针对 Transformer 网络优化工作的开源项目,在最新发布的 FasterTransformer v3.0 中,我们针对其编码器提供了基于 cuBLASLt 的 INT8 量化实现。该 INT8 量化的编码器,可以高效地利用 T4 GPU 中的 INT8 Tensor Core,在保证低精度损失的前提下,取得好的加速比(对比 FP16 运算精度而言)。我们将重点介绍以下 3 个方面的内容: 1 、 Faster Transformer 3.0 编码器 INT8 量化的原理及其采用的不同量化策略; 2 、 INT8 量化的实现:如何高效利用 cuBLASLt 及 INT8 Tensor Core 进行 INT8 量化加速; 3 、 Faster Transformer 3.0 INT8 编码器的使用方法及其在不同量化策略和不同量化校准算法下的精度及性能对比。 ...Read More
Abstract:
在本演讲中,我们将详细介绍 Faster Transformer 3.0 编码器的 INT8 量化原理、实现细节及效果。 Faster Transformer 是 NVIDIA 针对 Transformer 网络优化工作的开源项目,在最新发布的 FasterTransformer v3.0 中,我们针对其编码器提供了基于 cuBLASLt 的 INT8 量化实现。该 INT8 量化的编码器,可以高效地利用 T4 GPU 中的 INT8 Tensor Core,在保证低精度损失的前提下,取得好的加速比(对比 FP16 运算精度而言)。我们将重点介绍以下 3 个方面的内容: 1 、 Faster Transformer 3.0 编码器 INT8 量化的原理及其采用的不同量化策略; 2 、 INT8 量化的实现:如何高效利用 cuBLASLt 及 INT8 Tensor Core 进行 INT8 量化加速; 3 、 Faster Transformer 3.0 INT8 编码器的使用方法及其在不同量化策略和不同量化校准算法下的精度及性能对比。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20306
Download:
Share:
 
Abstract:
Transformer 是近年来自然语言处理(NLP)领域最关键的算法创新。 Transformer 在序列长度维度进行并行处理,以获得相比 RNN 更好的模型表现。但是,在 GPU 上对 Transformer 模型在线服务的部署并非易事。首先,Transforme 引入的更多计算,这使满足服务的延迟和吞吐量约束变得更具挑战性。其次,NLP 任务采用可变长度的句子,给有效的内存管理和服务优化带来了严重的问题。为了解决上述挑战,本文设计了一个名为 TurboTransformers 的 Transformer 服务系统,该系统由一个 runtime 和一个服务框架组成。三种创新功能使其在其他类似工作中脱颖而出。 1. 采用创新的面向 GPU 上的批量规约操作(如 Softmax 和 LayerNorm),降低 runtime 延迟。 2. 针对可变长度输入情况,设计了一种内存分配算法,该算法可以更好地平衡内存占用量和分配 / 释放效率。 3. 基于动态规划的批调度算法的服务框架可实现可变长度请求的最佳吞吐量。该系统可以在 GPU 平台上实现最新的转换器模型服务性能,并且可以通过几行代码无缝地集成到 PyTorch 代码中。 ...Read More
Abstract:
Transformer 是近年来自然语言处理(NLP)领域最关键的算法创新。 Transformer 在序列长度维度进行并行处理,以获得相比 RNN 更好的模型表现。但是,在 GPU 上对 Transformer 模型在线服务的部署并非易事。首先,Transforme 引入的更多计算,这使满足服务的延迟和吞吐量约束变得更具挑战性。其次,NLP 任务采用可变长度的句子,给有效的内存管理和服务优化带来了严重的问题。为了解决上述挑战,本文设计了一个名为 TurboTransformers 的 Transformer 服务系统,该系统由一个 runtime 和一个服务框架组成。三种创新功能使其在其他类似工作中脱颖而出。 1. 采用创新的面向 GPU 上的批量规约操作(如 Softmax 和 LayerNorm),降低 runtime 延迟。 2. 针对可变长度输入情况,设计了一种内存分配算法,该算法可以更好地平衡内存占用量和分配 / 释放效率。 3. 基于动态规划的批调度算法的服务框架可实现可变长度请求的最佳吞吐量。该系统可以在 GPU 平台上实现最新的转换器模型服务性能,并且可以通过几行代码无缝地集成到 PyTorch 代码中。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20363
Download:
Share:
 
Abstract:
在本演讲中,我们将以 BERT 模型为例介绍 NVIDIA 关于量化的工作,包括量化原理及量化的技术细节。 NVIDIA GPU 从图灵架构开始支持 INT8 Tensor Core,可以大幅提高神经网络 INT8 推理速度和吞吐量。 INT8 推理需要先将神经网络模型量化,因此我们发布了基于 TensorFlow 和 PyTorch 量化工具,用于生成 INT8 量化模型以方便部署。该量化工具集成了多种量化校准算法及两种量化方法(训练后量化和量化感知训练),可以完成模型的量化及导出到 TensorRT 和 FasterTransformer 3.0 。该工具不仅可以确保推理精度,而且可以满足 INT8 加速的需求。在本演讲中,我们将重点介绍以下内容: 1)INT8 量化的原理; 2)INT8 量化的不同校准算法和两种量化方法; 3)量化工具的工作流程; 4)针对 BERT 的量化应用与效果。 ...Read More
Abstract:
在本演讲中,我们将以 BERT 模型为例介绍 NVIDIA 关于量化的工作,包括量化原理及量化的技术细节。 NVIDIA GPU 从图灵架构开始支持 INT8 Tensor Core,可以大幅提高神经网络 INT8 推理速度和吞吐量。 INT8 推理需要先将神经网络模型量化,因此我们发布了基于 TensorFlow 和 PyTorch 量化工具,用于生成 INT8 量化模型以方便部署。该量化工具集成了多种量化校准算法及两种量化方法(训练后量化和量化感知训练),可以完成模型的量化及导出到 TensorRT 和 FasterTransformer 3.0 。该工具不仅可以确保推理精度,而且可以满足 INT8 加速的需求。在本演讲中,我们将重点介绍以下内容: 1)INT8 量化的原理; 2)INT8 量化的不同校准算法和两种量化方法; 3)量化工具的工作流程; 4)针对 BERT 的量化应用与效果。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20389
Download:
Share:
 
Abstract:
Tensor 数据格式对推理的性能有很大的影响。 CuDNN 以及其他高性能计算库采用了对 tensor-core 友好的数据格式(非 NCHW)来实现高效的卷积计算。为了更有效地使用这些算子,从而达到最好的整体的推理性能,我们要对模型中的 tensor 格式做出选择,尽量避免 tensor 格式转换带来的昂贵开销。在我们的这项工作中,我们采用了一个动态规划算法,从整体上对 tensor 格式进行全局优化。在此之上,由于算法的复杂度随着网络的宽度增加而指数上升,我们运用了一些剪枝技巧,大幅度地缩小了优化空间,有效地解决了复杂的,宽度较大的网络的优化问题。我们测试了一系列主流模型,取得了平均 1.75x 性能提升。在我们的所有测试中,算法运行时间小于 3 秒。 ...Read More
Abstract:
Tensor 数据格式对推理的性能有很大的影响。 CuDNN 以及其他高性能计算库采用了对 tensor-core 友好的数据格式(非 NCHW)来实现高效的卷积计算。为了更有效地使用这些算子,从而达到最好的整体的推理性能,我们要对模型中的 tensor 格式做出选择,尽量避免 tensor 格式转换带来的昂贵开销。在我们的这项工作中,我们采用了一个动态规划算法,从整体上对 tensor 格式进行全局优化。在此之上,由于算法的复杂度随着网络的宽度增加而指数上升,我们运用了一些剪枝技巧,大幅度地缩小了优化空间,有效地解决了复杂的,宽度较大的网络的优化问题。我们测试了一系列主流模型,取得了平均 1.75x 性能提升。在我们的所有测试中,算法运行时间小于 3 秒。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20415
Download:
Share:
 
Abstract:
ONNX Parser 是 TensorRT 提供的开源转换工具,可以高效地将 ONNX 模型解析为 TensorRT 网络。本次演讲中,我们会介绍如何使用 ONNX parser 来加快模型的转化和部署。主要内容包括 ONNX 的简单介绍,ONNX parser 的使用案例和优化经验以及如何支持 TensorRT plugins 。 ...Read More
Abstract:
ONNX Parser 是 TensorRT 提供的开源转换工具,可以高效地将 ONNX 模型解析为 TensorRT 网络。本次演讲中,我们会介绍如何使用 ONNX parser 来加快模型的转化和部署。主要内容包括 ONNX 的简单介绍,ONNX parser 的使用案例和优化经验以及如何支持 TensorRT plugins 。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20432
Download:
Share:
 
Abstract:
本次演讲将会介绍腾讯“开悟”游戏 AI 平台在 TensorRT 上的最佳实践,主要包括: 1. 强化学习推理的特殊之处,以及如何通过 Refit 来减少 TensorRT engine rebuild 的开销,能使 TensorRT 成为可用的强化学习推理引擎 2. 补全 TensorRT 缺失的部分图优化的例子: dilated conv 和 split 优化 3. 改写 TensorRT 中的低效 Op;4. 用 TensorRT plugin 来实现 TensorRT 不支持的 Op. ...Read More
Abstract:
本次演讲将会介绍腾讯“开悟”游戏 AI 平台在 TensorRT 上的最佳实践,主要包括: 1. 强化学习推理的特殊之处,以及如何通过 Refit 来减少 TensorRT engine rebuild 的开销,能使 TensorRT 成为可用的强化学习推理引擎 2. 补全 TensorRT 缺失的部分图优化的例子: dilated conv 和 split 优化 3. 改写 TensorRT 中的低效 Op;4. 用 TensorRT plugin 来实现 TensorRT 不支持的 Op.  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20438
Download:
Share:
 
Abstract:
随着基于深度学习的搜索推荐系统在集团各项业务中的用户量和商品量的大幅提升,搜索推荐的硬件平台需要满足更高的 QPS 和更低的延迟来满足算法性能,这对搜索推荐平台的硬件计算力进一步提出了挑战。因此我们根据各个搜索模型的特征,对模型推理计算进行了大幅优化,从而使搜索平台能够承载双十一的流量洪峰。 ...Read More
Abstract:
随着基于深度学习的搜索推荐系统在集团各项业务中的用户量和商品量的大幅提升,搜索推荐的硬件平台需要满足更高的 QPS 和更低的延迟来满足算法性能,这对搜索推荐平台的硬件计算力进一步提出了挑战。因此我们根据各个搜索模型的特征,对模型推理计算进行了大幅优化,从而使搜索平台能够承载双十一的流量洪峰。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20445
Download:
Share:
 
Abstract:
最近几年由于计算硬件能力的提高以及深度学习算法的创新,自动语音识别的 State-of-the art 方法发生根本改变。目前深度学习已经成为语音识别的主流,其性能已经远超过传统的方法。在基于深度学习的自动语音识别中,最近比较流行的是一种基于 self-attention 的 transformer 技术,即 Speech Transformer 。 Transformer 模型架构的基础上,Speech Transformer 能有效的将较长的 context dependencies 考虑进来,类似于深度学习语音识别的另外一种模型架构 --- LSTM)。相比 LSTM 架构,Speech Transformer 更适合于并行计算,且能达到更低的误识别率。快手在 Speech transformer 架构上做了多种创新,提出针对快手短视频业务场景的具体模型,并计划将其应用到多个场景中。虽然快手 Speech Transformer 能获得更好的误识别率,但是由于其复杂度较高,目前大规模部署受到限制,因此如何优化加速该模型使大规模部署成为可能是一个急需解决的问题。 ...Read More
Abstract:
最近几年由于计算硬件能力的提高以及深度学习算法的创新,自动语音识别的 State-of-the art 方法发生根本改变。目前深度学习已经成为语音识别的主流,其性能已经远超过传统的方法。在基于深度学习的自动语音识别中,最近比较流行的是一种基于 self-attention 的 transformer 技术,即 Speech Transformer 。 Transformer 模型架构的基础上,Speech Transformer 能有效的将较长的 context dependencies 考虑进来,类似于深度学习语音识别的另外一种模型架构 --- LSTM)。相比 LSTM 架构,Speech Transformer 更适合于并行计算,且能达到更低的误识别率。快手在 Speech transformer 架构上做了多种创新,提出针对快手短视频业务场景的具体模型,并计划将其应用到多个场景中。虽然快手 Speech Transformer 能获得更好的误识别率,但是由于其复杂度较高,目前大规模部署受到限制,因此如何优化加速该模型使大规模部署成为可能是一个急需解决的问题。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20481
Download:
Share:
 
Abstract:
随着近几年整个互联网内容生态的蓬勃发展,随之而来的内容滥用、盗用、甚至触发合规红线使用也已经成为监管、商家、消费者、权利人以及平台方之痛 . 在营造更好的营商环境过程中,阿里安全 AI 平台除了要面临着多样化的场景、繁杂的风险类型、快速的对抗变异等各种挑战,还得考虑如何在有限的成本下实现更快的应急响应和更短的风险曝光延时,这需要平台来保障算法的高效输出,面向高性能硬件(GPU)的应用就成了工作重点。分享分为 3 个部分来阐述 : 1)如何快速应对模型优化的需求 2)如何通过 GPU 计算来降低成本 3)如何通过 GPU 调度来提升利用率。第一部分关注降低“隐式成本“,后面两部分更关注降低”显式成本“。 ...Read More
Abstract:
随着近几年整个互联网内容生态的蓬勃发展,随之而来的内容滥用、盗用、甚至触发合规红线使用也已经成为监管、商家、消费者、权利人以及平台方之痛 . 在营造更好的营商环境过程中,阿里安全 AI 平台除了要面临着多样化的场景、繁杂的风险类型、快速的对抗变异等各种挑战,还得考虑如何在有限的成本下实现更快的应急响应和更短的风险曝光延时,这需要平台来保障算法的高效输出,面向高性能硬件(GPU)的应用就成了工作重点。分享分为 3 个部分来阐述 : 1)如何快速应对模型优化的需求 2)如何通过 GPU 计算来降低成本 3)如何通过 GPU 调度来提升利用率。第一部分关注降低“隐式成本“,后面两部分更关注降低”显式成本“。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20674
Download:
Share:
 
Abstract:
机器翻译是 AI 的典型应用之一,携程度假 AI 研发的机器翻译服务是基于 Transformer 模型,已成功应用于旅游业务的各种场景。本次演讲将展示 transformer 模型基于 GPU 平台的加速效果,GPU 的常用优化技巧和模型加速技术。首先介绍 transformer 模型,transformer 是谷歌提出的 NLP 模型,核心是利用 attention 解决 Seq2Seq 问题。但是,transformer 模型的延迟和吞吐性能无法满足上线需求,因此从两方面进行推理性能优化,包括基于 faster transformer 的系统级别优化,例如算子重写融合,内存重构和 float16 半精度优化等,以及算法层面的模型蒸馏技术。最终取得了明显的性能提升,翻译质量与优化前保持一致,满足当前的上线需求。具体优化效果体现在,在 T4 平台,基于系统级别的优化带来的延迟加速比可达 5 倍,参数内存占用比为原来的 1/2 。使用蒸馏技术对模型压缩优化,在可接受的精度损失范围内,计算复杂度降低为原来的 1/3 。后期我们考虑根据实际精度需求将模型蒸馏和系统级别的优化相结合,延迟加速比有望达到 10 倍以上,参数内存预期压缩为原始模型的 1/6. ...Read More
Abstract:
机器翻译是 AI 的典型应用之一,携程度假 AI 研发的机器翻译服务是基于 Transformer 模型,已成功应用于旅游业务的各种场景。本次演讲将展示 transformer 模型基于 GPU 平台的加速效果,GPU 的常用优化技巧和模型加速技术。首先介绍 transformer 模型,transformer 是谷歌提出的 NLP 模型,核心是利用 attention 解决 Seq2Seq 问题。但是,transformer 模型的延迟和吞吐性能无法满足上线需求,因此从两方面进行推理性能优化,包括基于 faster transformer 的系统级别优化,例如算子重写融合,内存重构和 float16 半精度优化等,以及算法层面的模型蒸馏技术。最终取得了明显的性能提升,翻译质量与优化前保持一致,满足当前的上线需求。具体优化效果体现在,在 T4 平台,基于系统级别的优化带来的延迟加速比可达 5 倍,参数内存占用比为原来的 1/2 。使用蒸馏技术对模型压缩优化,在可接受的精度损失范围内,计算复杂度降低为原来的 1/3 。后期我们考虑根据实际精度需求将模型蒸馏和系统级别的优化相结合,延迟加速比有望达到 10 倍以上,参数内存预期压缩为原始模型的 1/6.  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20729
Download:
Share:
 
Abstract:
本次演讲会为参会者演示如何将 Tensorflow 量化训练(Quantization aware training)模型通过 TensorRT 部署到 GPU 设备上。目前很多高精度的深度学习模型所需内存、计算量和能耗巨大,并不适合部署在一些低成本的终端设备中,为了解决这个矛盾,一种显著有效的方式是采用低比特量化技术。其主要是通过减少原始模型的比特数来实现对内存和计算需求的降低,从而进一步降低能耗。目前性能最稳定的就是 INT8 的模型量化技术,相对于原始模型的 FP32 计算相比,INT8 量化可将模型大小减少 4 倍,并将内存带宽要求减少 4 倍,对 INT8 计算的硬件支持通常快 2 到 4 倍。 TensorRT 早期版本仅支持训练后量化模式,该模式由于损失精度较多,并不适用于对精度要求较高的应用场景。因此,TensorRT 7.1 以上支持了量化训练的部署方式。近期,腾讯优图实验室与 NVIDIA 相关团队完成了从 Tensorflow 量化模型训练到 TensorRT 模型部署的端到端解决方案。该方案为业界首创,并于近期准备在 TNN 框架开源,希望能和社区共同完成相关技术领域建设。 ...Read More
Abstract:
本次演讲会为参会者演示如何将 Tensorflow 量化训练(Quantization aware training)模型通过 TensorRT 部署到 GPU 设备上。目前很多高精度的深度学习模型所需内存、计算量和能耗巨大,并不适合部署在一些低成本的终端设备中,为了解决这个矛盾,一种显著有效的方式是采用低比特量化技术。其主要是通过减少原始模型的比特数来实现对内存和计算需求的降低,从而进一步降低能耗。目前性能最稳定的就是 INT8 的模型量化技术,相对于原始模型的 FP32 计算相比,INT8 量化可将模型大小减少 4 倍,并将内存带宽要求减少 4 倍,对 INT8 计算的硬件支持通常快 2 到 4 倍。 TensorRT 早期版本仅支持训练后量化模式,该模式由于损失精度较多,并不适用于对精度要求较高的应用场景。因此,TensorRT 7.1 以上支持了量化训练的部署方式。近期,腾讯优图实验室与 NVIDIA 相关团队完成了从 Tensorflow 量化模型训练到 TensorRT 模型部署的端到端解决方案。该方案为业界首创,并于近期准备在 TNN 框架开源,希望能和社区共同完成相关技术领域建设。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20761
Download:
Share:
 
Abstract:
围绕人工智能驱动的自动驾驶系统开发,从概念建模和软硬件验证的角度,了解如何加速系统的构建及其验证的完整流程。 从基于深度学习的视觉感知,到用强化学习开发端到端的控制策略,人工智能技术在自动驾驶领域的应用前景广阔。在服务器环境下 GPU 训练所得的深度神经网络,在走向应用过程中,仍需要和传感器融合、规划算法、传统控制模型,以及物理系统进行集成验证,以保证最终行为符合预期。 多数场景下,基于深度网络的智能系统缺乏闭环验证手段。为了加速产品上市,我们需要一种能够把智能算法、被控对象、外界环境结合起来综合测试的方法学。本次演讲中,我们将介绍并演示在 MATLAB 和 Simulink 平台中完成自动驾驶系统从概念到嵌入式硬件测试的完整流程。针对以搭载 NVIDIA Xavier 多核 CPU+GPU 架构芯片为例的低功耗、高性能边缘设备,实现 AI 训练、物理建模,通过自动代码生成的手段,生成关于控制策略的 C/C++ 代码和神经网络模型的 CUDA 代码,并进行完整的 PIL/HIL 测试。 ...Read More
Abstract:
围绕人工智能驱动的自动驾驶系统开发,从概念建模和软硬件验证的角度,了解如何加速系统的构建及其验证的完整流程。 从基于深度学习的视觉感知,到用强化学习开发端到端的控制策略,人工智能技术在自动驾驶领域的应用前景广阔。在服务器环境下 GPU 训练所得的深度神经网络,在走向应用过程中,仍需要和传感器融合、规划算法、传统控制模型,以及物理系统进行集成验证,以保证最终行为符合预期。 多数场景下,基于深度网络的智能系统缺乏闭环验证手段。为了加速产品上市,我们需要一种能够把智能算法、被控对象、外界环境结合起来综合测试的方法学。本次演讲中,我们将介绍并演示在 MATLAB 和 Simulink 平台中完成自动驾驶系统从概念到嵌入式硬件测试的完整流程。针对以搭载 NVIDIA Xavier 多核 CPU+GPU 架构芯片为例的低功耗、高性能边缘设备,实现 AI 训练、物理建模,通过自动代码生成的手段,生成关于控制策略的 C/C++ 代码和神经网络模型的 CUDA 代码,并进行完整的 PIL/HIL 测试。  Back
 
Topics:
Deep Learning Inference - Optimization and Deployment, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20786
Download:
Share:
Design & Engineering
Presentation
Media
Abstract:
GPU 为家居软件技术带来新体验,利用 DLSS2.0,NVIDIA MERLIN,CUDA,NVIDIA TensorRT 等先进技术为家居从业者提升综合效率 5 倍。
 
Topics:
Design & Engineering
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20135
Download:
Share:
 
Abstract:
NVIDIA RTX 平台带来硬件加速的光线追踪渲染方式,结合 DLSS 2.0 、 Optix 7.1 & CUDA 等相关技术为基于 AI 家居设计的高质量家装效果展示快速覆盖、移动端用户家居设计 DIY 后快速效果查看以及基于像素流送技术的高质量实时漫游效果展示提供可能;在使用全局光照的高阶渲染方案中,在 UE4 中集成了 Optix 7.1 & CUDA,配合 DLSS 2.0,整屋渲染效率提升 3-4 倍。 ...Read More
Abstract:
NVIDIA RTX 平台带来硬件加速的光线追踪渲染方式,结合 DLSS 2.0 、 Optix 7.1 & CUDA 等相关技术为基于 AI 家居设计的高质量家装效果展示快速覆盖、移动端用户家居设计 DIY 后快速效果查看以及基于像素流送技术的高质量实时漫游效果展示提供可能;在使用全局光照的高阶渲染方案中,在 UE4 中集成了 Optix 7.1 & CUDA,配合 DLSS 2.0,整屋渲染效率提升 3-4 倍。  Back
 
Topics:
Design & Engineering, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20286
Download:
Share:
 
Abstract:
在技术飞速发展的时代,产品工程师面临者项目周期、技术指标和产品质量与成本的巨大压力,仿真成为设计中必不可少的手段,本专题将介绍如何在设计的全流程中,利用仿真更快速地实现设计目标,如何利用最新的硬件技术,包括高性能技术和 GPU,进一步提高计算速度,扩展仿真规模,从而进行更深入、更广范的设计与仿真,加速产品上市进程。 ...Read More
Abstract:
在技术飞速发展的时代,产品工程师面临者项目周期、技术指标和产品质量与成本的巨大压力,仿真成为设计中必不可少的手段,本专题将介绍如何在设计的全流程中,利用仿真更快速地实现设计目标,如何利用最新的硬件技术,包括高性能技术和 GPU,进一步提高计算速度,扩展仿真规模,从而进行更深入、更广范的设计与仿真,加速产品上市进程。  Back
 
Topics:
Design & Engineering
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20505
Download:
Share:
GPU Virtualization
Presentation
Media
Abstract:
NVIDIA 助力远程工作 A100 新特性介绍 NVIDIA vgpu 在 A100 上如何工作
 
Topics:
GPU Virtualization
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20364
Download:
Share:
 
Abstract:
在我们迎来 Ampere GPU 架构和产品的发布,NVIDIA vGPU 对 Linux KVM 的支持也来到了第四个年头,在这个讲座中,我们将着重介绍 Ampere GPU 架构的几大特性 例如 Multi-Instance GPU,SRIOV,以及其对于 NVIDIA vGPU 的重大意义和幕后技术细节。 ...Read More
Abstract:
在我们迎来 Ampere GPU 架构和产品的发布,NVIDIA vGPU 对 Linux KVM 的支持也来到了第四个年头,在这个讲座中,我们将着重介绍 Ampere GPU 架构的几大特性 例如 Multi-Instance GPU,SRIOV,以及其对于 NVIDIA vGPU 的重大意义和幕后技术细节。  Back
 
Topics:
GPU Virtualization
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20487
Download:
Share:
 
Abstract:
虚拟制作代表了电影制作方式的一种范式转变。从虚拟堪景、远程协作到使用最新的 LED 技术实现 “ in-camera VFX”,虚拟制作是一个快速发展的行业,它提供了三项令人无法拒绝的益处:更快的速度、更高的效率和更强的创作能力。这项技术突破了传统的绿幕拍摄以及实景地拍摄的制片手段。它可以 结合动态捕捉系统,在 LED 墙上投射实时渲染的影像,使被拍摄主体最佳融入虚拟内容,从而得到最佳的影像拍摄成果。 近期,PXO 在北京进行了一场小型的虚拟拍摄测试,希望通过本次演讲分享我们在拍摄测试短片和进行功能性测试中的实验成果。 ...Read More
Abstract:
虚拟制作代表了电影制作方式的一种范式转变。从虚拟堪景、远程协作到使用最新的 LED 技术实现 “ in-camera VFX”,虚拟制作是一个快速发展的行业,它提供了三项令人无法拒绝的益处:更快的速度、更高的效率和更强的创作能力。这项技术突破了传统的绿幕拍摄以及实景地拍摄的制片手段。它可以 结合动态捕捉系统,在 LED 墙上投射实时渲染的影像,使被拍摄主体最佳融入虚拟内容,从而得到最佳的影像拍摄成果。 近期,PXO 在北京进行了一场小型的虚拟拍摄测试,希望通过本次演讲分享我们在拍摄测试短片和进行功能性测试中的实验成果。  Back
 
Topics:
GPU Virtualization
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20582
Download:
Share:
Genomics & Bioinformatics
Presentation
Media
Abstract:
演讲将展示通过生化技术和深度学习技术的结合,在 GPU 的辅助下,实现高效率高读长的基因测序。纳米孔测序技术是新一代的测序技术,具有超长读长、实时测序、测序设备便携等特点。它的测序长度可以高达 150kbp 以上,而现在应用最广泛的 NGS 测序技术通常只有 100-500bp 。纳米孔测序是单分子测序,基于库尔特孔原理,让碱基序列穿过孔径为纳米级的蛋白孔产生电流信号,再通过算法将电流信号转化成测序结果。将孔电流转化成测序结果的过程是个序列到序列的任务,可以通过深度学习实现基因测序。由于碱基序列通过蛋白孔时,可能会游动、折叠,孔电流信号的表现比较不稳定,往往需要较多的上下文信息来做出准确的预测,直接带来的就是计算量的提升。以基于 CNN 的 encoder-decoder 模型为例,完成测序任务,就需要很大的卷积核以提供足够的感受野,从而带来大量的网络参数。利用 GPU 在并行计算方面的优势,预测速度大幅提升。在我们的测试中,即使是低成本的 GPU,都将我们的计算时间缩短了 10 倍以上。特别是 GPU 的使用,使得端到端的序列预测变为可能。 ...Read More
Abstract:
演讲将展示通过生化技术和深度学习技术的结合,在 GPU 的辅助下,实现高效率高读长的基因测序。纳米孔测序技术是新一代的测序技术,具有超长读长、实时测序、测序设备便携等特点。它的测序长度可以高达 150kbp 以上,而现在应用最广泛的 NGS 测序技术通常只有 100-500bp 。纳米孔测序是单分子测序,基于库尔特孔原理,让碱基序列穿过孔径为纳米级的蛋白孔产生电流信号,再通过算法将电流信号转化成测序结果。将孔电流转化成测序结果的过程是个序列到序列的任务,可以通过深度学习实现基因测序。由于碱基序列通过蛋白孔时,可能会游动、折叠,孔电流信号的表现比较不稳定,往往需要较多的上下文信息来做出准确的预测,直接带来的就是计算量的提升。以基于 CNN 的 encoder-decoder 模型为例,完成测序任务,就需要很大的卷积核以提供足够的感受野,从而带来大量的网络参数。利用 GPU 在并行计算方面的优势,预测速度大幅提升。在我们的测试中,即使是低成本的 GPU,都将我们的计算时间缩短了 10 倍以上。特别是 GPU 的使用,使得端到端的序列预测变为可能。  Back
 
Topics:
Genomics & Bioinformatics
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20265
Download:
Share:
 
Abstract:
针对当前生物医学技术快速发展的背景下,除了经典的单一组学研究方法、多组学整合分析成为目前发展的方向,相应临床和科研的对数据分析对需求呈现更为多样和复杂。国家转化医学中心建立了大数据平台,通过标准化工作建立数据产出规范和数据分析规范,通过建立立体化样本信息数据库建设、 LIMS 与生信分析平台等形成全数据的全生命周期管理。整合 HPC 集群算力,为公共卫生安全中突发事件、日常医学临床科研提供有效支撑。本次报告结合平台在疫情防控中新冠病毒研究为例,介绍 HPC 和 GPU 平台在相关研究中的一些应用以及未来医院模式中的一些 AI 应用场景。 ...Read More
Abstract:
针对当前生物医学技术快速发展的背景下,除了经典的单一组学研究方法、多组学整合分析成为目前发展的方向,相应临床和科研的对数据分析对需求呈现更为多样和复杂。国家转化医学中心建立了大数据平台,通过标准化工作建立数据产出规范和数据分析规范,通过建立立体化样本信息数据库建设、 LIMS 与生信分析平台等形成全数据的全生命周期管理。整合 HPC 集群算力,为公共卫生安全中突发事件、日常医学临床科研提供有效支撑。本次报告结合平台在疫情防控中新冠病毒研究为例,介绍 HPC 和 GPU 平台在相关研究中的一些应用以及未来医院模式中的一些 AI 应用场景。  Back
 
Topics:
Genomics & Bioinformatics
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20589
Download:
Share:
Graphics and AI
Presentation
Media
Abstract:
3D 游戏中的角色动画,主流做法是: a)动作捕捉获得骨骼动画; b)将角色模型绑定到骨骼用以驱动角色模型的运动; c)将动画切成片段,在游戏中通过有限状态机来驱动动作的转换。这些环节都需耗费大量人力,而且多数不关乎创意和美学,只是重复劳动。具体地,动作捕捉因为肢体遮挡、环境光干扰等问题造成多种类型的数据缺失和错误,需要通过工具或手工逐帧修复;服装蒙皮,一套中等复杂程度的服装可能需要耗费 7 人天;动画切片、构建循环动作、动画状态机维护也是一项长期的工作。我们采用数据驱动的思路,试图将动画制作过程中一些工作完全自动化。在动作捕捉中,深度学习模型从动捕工程师加工过的数据中,学会如何识别错误的数据、重新生成正确的数据,最终可减少 90% 的人工数据清洗时间,大大提高了动捕的效率;在服装蒙皮中,机器学习模型可以达到甚至超过人工蒙皮的水准。我们也探索了如何用监督学习来生成运动学动画,并尝试了如何用强化学习和物理模拟来合成与环境或动作目标相匹配的动画。以上工作,NVIDIA GPU 在两个方面发挥了重要作用,一是深度学习的模型训练,二是几何处理的关键算法如测地距离计算、 mesh 分割等。 ...Read More
Abstract:
3D 游戏中的角色动画,主流做法是: a)动作捕捉获得骨骼动画; b)将角色模型绑定到骨骼用以驱动角色模型的运动; c)将动画切成片段,在游戏中通过有限状态机来驱动动作的转换。这些环节都需耗费大量人力,而且多数不关乎创意和美学,只是重复劳动。具体地,动作捕捉因为肢体遮挡、环境光干扰等问题造成多种类型的数据缺失和错误,需要通过工具或手工逐帧修复;服装蒙皮,一套中等复杂程度的服装可能需要耗费 7 人天;动画切片、构建循环动作、动画状态机维护也是一项长期的工作。我们采用数据驱动的思路,试图将动画制作过程中一些工作完全自动化。在动作捕捉中,深度学习模型从动捕工程师加工过的数据中,学会如何识别错误的数据、重新生成正确的数据,最终可减少 90% 的人工数据清洗时间,大大提高了动捕的效率;在服装蒙皮中,机器学习模型可以达到甚至超过人工蒙皮的水准。我们也探索了如何用监督学习来生成运动学动画,并尝试了如何用强化学习和物理模拟来合成与环境或动作目标相匹配的动画。以上工作,NVIDIA GPU 在两个方面发挥了重要作用,一是深度学习的模型训练,二是几何处理的关键算法如测地距离计算、 mesh 分割等。  Back
 
Topics:
Graphics and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20621
Download:
Share:
HPC and AI
Presentation
Media
Abstract:
DPU(Data Processing Unit)作为下一代数据中心和 5G 边缘的核心支柱, NVIDIA 采用 Arm 架构的 SoC 设计,具有硬件加速、软件可编程和安全可信等特性,并提供统一标准的 DOCA SDK,实现数据中心网络、存储和安全业务的卸载加速。 ...Read More
Abstract:
DPU(Data Processing Unit)作为下一代数据中心和 5G 边缘的核心支柱, NVIDIA 采用 Arm 架构的 SoC 设计,具有硬件加速、软件可编程和安全可信等特性,并提供统一标准的 DOCA SDK,实现数据中心网络、存储和安全业务的卸载加速。  Back
 
Topics:
HPC and AI, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20020
Download:
Share:
 
Abstract:
Ampere Computing 今年推出 80 核基于 Arm 架构的云原生处理器,具备领先的性能和极高的扩展性,借助NVIDIA GPU 系列产品,为以安卓云游戏为代表的云计算多种应用提供全新的 Arm 原生平台。 ...Read More
Abstract:
Ampere Computing 今年推出 80 核基于 Arm 架构的云原生处理器,具备领先的性能和极高的扩展性,借助NVIDIA GPU 系列产品,为以安卓云游戏为代表的云计算多种应用提供全新的 Arm 原生平台。  Back
 
Topics:
HPC and AI, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20026
Download:
Share:
 
Abstract:
随着时代的发展,算力在关键领域起了决定性作用,长城致力于打造 Arm + NVIDIA 的完整芯算力生态,通过本次演讲分享下长城 Arm 架构服务器相关产品及重点行业解决方案,同时在 NVIDIA 助力下长城服务器在智慧城市上相关应用的部署情况,最后分享下长城 +NVIDIA 在生态应用方面的情况。 ...Read More
Abstract:
随着时代的发展,算力在关键领域起了决定性作用,长城致力于打造 Arm + NVIDIA 的完整芯算力生态,通过本次演讲分享下长城 Arm 架构服务器相关产品及重点行业解决方案,同时在 NVIDIA 助力下长城服务器在智慧城市上相关应用的部署情况,最后分享下长城 +NVIDIA 在生态应用方面的情况。  Back
 
Topics:
HPC and AI, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20033
Download:
Share:
 
Abstract:
本演讲中将会介绍 NVIDIA 的 Android Cloud Gaming 相关工作。
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20038
Download:
Share:
 
Abstract:
宝德自主研发产品及生态构建分享,重点介绍基于飞腾的服务器系列产品。
 
Topics:
HPC and AI, Accelerated Data Science
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20048
Download:
Share:
 
Abstract:
随着中国新基建的全面展开,通专结合的多样化算力已成为支撑新基建的“基石”。飞腾生态与 NVIDIA 生态的融合必将带来无限的想象空间。技术交流将为大家呈现一个崭新和变革的飞腾,介绍飞腾 CPU 及生态伙伴整机产品与 NVIDIA 全系列产品包括 Geforce 系列显卡、 Tesla 系列 GPU 、以太网、 IB 卡等产品的适配进展,阐述生态融合下在联合实验室建设、 5G MEC 、数据中心、能源、交通、金融、教育、医疗、工业制造等领域的应用前景和解决方案。 ...Read More
Abstract:
随着中国新基建的全面展开,通专结合的多样化算力已成为支撑新基建的“基石”。飞腾生态与 NVIDIA 生态的融合必将带来无限的想象空间。技术交流将为大家呈现一个崭新和变革的飞腾,介绍飞腾 CPU 及生态伙伴整机产品与 NVIDIA 全系列产品包括 Geforce 系列显卡、 Tesla 系列 GPU 、以太网、 IB 卡等产品的适配进展,阐述生态融合下在联合实验室建设、 5G MEC 、数据中心、能源、交通、金融、教育、医疗、工业制造等领域的应用前景和解决方案。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20057
Download:
Share:
 
Abstract:
人工智能(AI)与高性能计算(HPC)已经呈现出融合的趋势,国内外的顶级超算均增加了 AI 的计算能力。 LINPACK 等传统超算领域的基准测试(benchmark)和目前的 AI 性能基准测试(MLPerf 等)均无法很好的满足对目前和未来智能超算的 AI 算力的评测要求。我们提出了一种基于自动化机器学习(AutoML)的端到端测试基准,并采用类似超算领域运算量的衡量指标(FLOPS)。该基准测试的自动化扩展性和稳定性已经在不同的异构平台上得到验证,并于第二届中国超级算力大会上推出了人工智能算力排行榜 AIPerf500,鹏城实验室的“鹏城云脑 II”获得榜首。此外,鹏城实验室还有一套 Arm 服务器集群(开发者云)并在积极构建“ Arm+GPU”生态,目前已经实现了虚拟移动操作系统云平台(支持云游戏和移动办公等业务)和一些科学计算领域的进展。 ...Read More
Abstract:
人工智能(AI)与高性能计算(HPC)已经呈现出融合的趋势,国内外的顶级超算均增加了 AI 的计算能力。 LINPACK 等传统超算领域的基准测试(benchmark)和目前的 AI 性能基准测试(MLPerf 等)均无法很好的满足对目前和未来智能超算的 AI 算力的评测要求。我们提出了一种基于自动化机器学习(AutoML)的端到端测试基准,并采用类似超算领域运算量的衡量指标(FLOPS)。该基准测试的自动化扩展性和稳定性已经在不同的异构平台上得到验证,并于第二届中国超级算力大会上推出了人工智能算力排行榜 AIPerf500,鹏城实验室的“鹏城云脑 II”获得榜首。此外,鹏城实验室还有一套 Arm 服务器集群(开发者云)并在积极构建“ Arm+GPU”生态,目前已经实现了虚拟移动操作系统云平台(支持云游戏和移动办公等业务)和一些科学计算领域的进展。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20091
Download:
Share:
 
Abstract:
本演讲中将会介绍 NVIDIA 在 Arm 架构上 CUDA 支持的进展和最新工作。
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20096
Download:
Share:
 
Abstract:
在油气行业,面临数据处理的严重挑战,传统的计算方法,已经无法支持快速整张的数据处理需求。帕拉代姆的基于 GPU 的新版地震处理方案,通过对 V100 的优化,Paradigm 基于 GPU 的解决方案,全方位角成像偏移运算,效率提高 3-5 倍,大幅度减少了数据处理的时间,加速找到油气资源。 ...Read More
Abstract:
在油气行业,面临数据处理的严重挑战,传统的计算方法,已经无法支持快速整张的数据处理需求。帕拉代姆的基于 GPU 的新版地震处理方案,通过对 V100 的优化,Paradigm 基于 GPU 的解决方案,全方位角成像偏移运算,效率提高 3-5 倍,大幅度减少了数据处理的时间,加速找到油气资源。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20218
Download:
Share:
 
Abstract:
11 月 17 日,在 2020 全球超算大会上,NVIDIA 发布 NVIDIA A100 80GB GPU 。全新 A100 采用 HBM2e 技术,可将 A100 40GB GPU 的高带宽内存增加一倍至 80GB,提供每秒超过 2TB 的内存带宽;第三代 NVLink 和 NVSwitch,相较于上一代互联技术,可使 GPU 之间的带宽增加至原来的两倍,将数据密集型工作负载的 GPU 数据传输速度提高至每秒 600gigabytes 。使得数据可以快速传输到全球最快的数据中心 GPU A100 上,让研究人员能够更快速的加速其应用,处理最大规模模型和数据集。同时,高带宽内存容量的增加,也对高性能计算应用提供了极大的助力,使得 GPU 在诸如分子动力学,高能物理,电镜等应用上运行更大的规模,并进一步提升性能。本次分享主要围绕三个方面介绍 NVIDIA A100 80GB GPU : 1. 计算趋势及挑战。 2.NVIDIA A100 80GB GPU 介绍。 3.NVIDIA 端到端平台介绍。通过三部分的介绍,希望大家可以对 NVIDIA A100 80GB GPU 在高性能计算以及 AI 计算有进一步的了解。 ...Read More
Abstract:
11 月 17 日,在 2020 全球超算大会上,NVIDIA 发布 NVIDIA A100 80GB GPU 。全新 A100 采用 HBM2e 技术,可将 A100 40GB GPU 的高带宽内存增加一倍至 80GB,提供每秒超过 2TB 的内存带宽;第三代 NVLink 和 NVSwitch,相较于上一代互联技术,可使 GPU 之间的带宽增加至原来的两倍,将数据密集型工作负载的 GPU 数据传输速度提高至每秒 600gigabytes 。使得数据可以快速传输到全球最快的数据中心 GPU A100 上,让研究人员能够更快速的加速其应用,处理最大规模模型和数据集。同时,高带宽内存容量的增加,也对高性能计算应用提供了极大的助力,使得 GPU 在诸如分子动力学,高能物理,电镜等应用上运行更大的规模,并进一步提升性能。本次分享主要围绕三个方面介绍 NVIDIA A100 80GB GPU : 1. 计算趋势及挑战。 2.NVIDIA A100 80GB GPU 介绍。 3.NVIDIA 端到端平台介绍。通过三部分的介绍,希望大家可以对 NVIDIA A100 80GB GPU 在高性能计算以及 AI 计算有进一步的了解。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20256
Download:
Share:
 
Abstract:
本演讲将带您快速入门使用开发环境 BML CodeLab,零门槛开启机器学习开发之旅。您可以: 1)交互开发环境 CodeLab 的背景和特色,并快速入门安装和使用。 Pandas 和 Sklearn 面对大数据量的分析和训练,性能较差、处理数据量较小。 CodeLab 是更好用的 JupyterLab,可灵活部署到开发者本地单机、 IDC 机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。 2)高性能数据科学引擎的原理,用于提升分析建模速度。利用 GPU 和 CPU 众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的 CodeLab,性能比开源产品提升近十倍。 3)内置的易用开发插件,用于提升开发效率。基于开源 Jupyterlab 扩展机制,CodeLab 集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习应用开发小程序插件,通过简单 Python 代码,将分析训练成果发布成高性能应用; AI 工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。 ...Read More
Abstract:
本演讲将带您快速入门使用开发环境 BML CodeLab,零门槛开启机器学习开发之旅。您可以: 1)交互开发环境 CodeLab 的背景和特色,并快速入门安装和使用。 Pandas 和 Sklearn 面对大数据量的分析和训练,性能较差、处理数据量较小。 CodeLab 是更好用的 JupyterLab,可灵活部署到开发者本地单机、 IDC 机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。 2)高性能数据科学引擎的原理,用于提升分析建模速度。利用 GPU 和 CPU 众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的 CodeLab,性能比开源产品提升近十倍。 3)内置的易用开发插件,用于提升开发效率。基于开源 Jupyterlab 扩展机制,CodeLab 集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习应用开发小程序插件,通过简单 Python 代码,将分析训练成果发布成高性能应用; AI 工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20368
Download:
Share:
 
Abstract:
本演讲介绍百度大规模 AI 集群的网络设计。百度 AI 集群使用海量的 NVIDIA GPU 承载了大多数的百度分布式 AI 训练任务。在构建这样的大规模 AI 集群时,网络设计起到了至关重要的作用。本演讲从接入带宽、网络架构、 RDMA 、通信算法、任务调度等各个层面详解了高性能、高可用的大规模 AI 集群设计的主要考量。 ...Read More
Abstract:
本演讲介绍百度大规模 AI 集群的网络设计。百度 AI 集群使用海量的 NVIDIA GPU 承载了大多数的百度分布式 AI 训练任务。在构建这样的大规模 AI 集群时,网络设计起到了至关重要的作用。本演讲从接入带宽、网络架构、 RDMA 、通信算法、任务调度等各个层面详解了高性能、高可用的大规模 AI 集群设计的主要考量。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20395
Download:
Share:
 
Abstract:
向量搜索是深度学习领域中的重要组成部分。在利用深度学习技术开发业务应用时,向量搜索也是最基本的组成部分。然而向量搜索是一种计算密集型工作负载,对计算资源有较高的要求。通过结合NVIDIA GPU,可以大幅提升向量索引的速度,加快向量搜索的速度。在本演讲中,我们将介绍NVIDIA GPU 如何加速 Milvus 向量搜索引擎。 ...Read More
Abstract:
向量搜索是深度学习领域中的重要组成部分。在利用深度学习技术开发业务应用时,向量搜索也是最基本的组成部分。然而向量搜索是一种计算密集型工作负载,对计算资源有较高的要求。通过结合NVIDIA GPU,可以大幅提升向量索引的速度,加快向量搜索的速度。在本演讲中,我们将介绍NVIDIA GPU 如何加速 Milvus 向量搜索引擎。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20437
Download:
Share:
 
Abstract:
中山大学罗海彬教授研究团队发展了 GPU 加速的自由能微扰 — 绝对结合自由能计算新方法(GA-FEP),取得药物设计关键技术的新突破,在抗击新冠肺炎研究中,采用该方法获得 Mpro 抑制活性最优的药物双嘧达莫,多中心临床试验验证该药对新冠肺炎获得较好的临床治疗效果。该 GPU 加速方法实现自由能微扰(FEP)/ 药物设计方法的国产化,该 GA-FEP 方法首次一周内完成对老药数据库的高精度筛选,从而预测出 25 个对新冠肺炎主蛋白酶 Mpro 有较高亲合力的药物,进一步的体外活性验证发现了 15 个 Mpro 抑制剂,表现出较高的活性化合物命中率。特别值得一提的是,抑制活性最优的药物双嘧达莫对新冠肺炎获得较好的临床治疗效果,从而进一步验证 GA-FEP 方法的可靠性。该 GA-FEP 方法既可以明显提高药物 / 靶标亲合力的预测精度,还可以提高预测速度(传统 FEP 方法每个化合物的预测时间为 30-60 天,本方法缩短为 1 天以内,效率提高 30-60 倍),从而提高创新药物筛选的成功率并降低研发时间。该 GA-FEP 方法还可以应用于其他新药设计工作中,如骨架跃迁和全新药物设计等,以提高先导化合物的发现和优化效率。 ...Read More
Abstract:
中山大学罗海彬教授研究团队发展了 GPU 加速的自由能微扰 — 绝对结合自由能计算新方法(GA-FEP),取得药物设计关键技术的新突破,在抗击新冠肺炎研究中,采用该方法获得 Mpro 抑制活性最优的药物双嘧达莫,多中心临床试验验证该药对新冠肺炎获得较好的临床治疗效果。该 GPU 加速方法实现自由能微扰(FEP)/ 药物设计方法的国产化,该 GA-FEP 方法首次一周内完成对老药数据库的高精度筛选,从而预测出 25 个对新冠肺炎主蛋白酶 Mpro 有较高亲合力的药物,进一步的体外活性验证发现了 15 个 Mpro 抑制剂,表现出较高的活性化合物命中率。特别值得一提的是,抑制活性最优的药物双嘧达莫对新冠肺炎获得较好的临床治疗效果,从而进一步验证 GA-FEP 方法的可靠性。该 GA-FEP 方法既可以明显提高药物 / 靶标亲合力的预测精度,还可以提高预测速度(传统 FEP 方法每个化合物的预测时间为 30-60 天,本方法缩短为 1 天以内,效率提高 30-60 倍),从而提高创新药物筛选的成功率并降低研发时间。该 GA-FEP 方法还可以应用于其他新药设计工作中,如骨架跃迁和全新药物设计等,以提高先导化合物的发现和优化效率。  Back
 
Topics:
HPC and AI
Type:
Talk
Event:
GTC China
Year:
2020
Session ID:
CNS20563
Download:
Share: