医学AI部署探索,“推理效率”将成为下一个角斗场?

医学AI部署探索,“推理效率”将成为下一个角斗场? 当我们谈到影像医疗AI时,首先想到的可能是模型的准确率度、敏感度,产品应用范畴或是产品的审批审评状况。但当医疗人工智能陆续通过器审中心审批,开始以商品形式落地于医院时,医生的实际使用体验逐渐成为医疗AI厂商关注的重点。

阻碍医院AI正常调用的环节非常多。PACS系统接口、医院电脑等软硬件的兼容能力、工作站与电子病历数据传输限制等因素,都有可能降低AI在实际使用中的推理速度,甚至出现多AI系统不兼容的问题。

近日,NVIDIA将TensorRT、Triton两个工具用之于医疗AI的部署环节。这位人工智能计算的引领者曾助力大量医疗AI企完成AI模型训练与构建,现又继续向AI落地的下游延伸,尝试解决医院各科室与AI企业之间的部署纠缠。

一方面,新的工具将帮助医疗AI企业把握充分利用GPU硬件资源、充分发挥GPU的算力进行AI推理;高效部署、优化计算资源实用;安全、高效调度GPU等细节,加速院端AI推理过程,提高医疗AI的实际使用体验。

另一方面,在当前以单病种AI为主流的时代下,许多科室通常会向某AI公司采购多种AI,并在诊断时进行多个AI间切换。在这种情况下,NIVIDA能够为AI公司提供一种通用的支持框架,帮助企业在各种环境下部署多个人工智能。

当医疗人工智能进入精细化竞争时代,NVIDIA的新工具或将帮助医疗AI企业重构竞争力。

新一代TensorRT 8入驻医疗,

AI推理效率数倍提升

推理(Inference)意为把深度学习从影像AI训练中学习到的诊断能力应用到实际中去,是医疗人工智能模拟医生进行辅助诊断的关键。

对于医学这样一门严肃的学科,AI诊断的速度与精度必须满足高要求。这意味着,医学AI的模型及推理过程总是非常复杂,以至于我们很难窥探AI推理的过程。

为了使医疗AI的推理变为更易把控,NIVIDA将TensorRT的适用范围拓展至医疗场景。作为一种高性能深度学习推理(Inference)的优化器和运行引擎,TensorRT以TensorFlow框架训练得到的模型作为输入,为CUDA GPU生成优化了的模型运行时间,减少推理的时间来降低应用程序的延迟,减少计算和内存访问,并利用稀疏张量核心提供额外的性能提升。


此外,TensorRT可以将研发人员训练好的模型分解再进行融合,融合后的模型具有高度的集合度。例如,将卷积层和激活层进行融合后,计算速度可获得显著提升。

2021年7月,最新一代TensorRT 8.0版本将上述的优势进行了极致提升。

TensorRT 8.0使用量化感知训练,实现与 FP32 相当的精度和 INT8 精度,相比7.0版本运行速度和精准度都提升了1倍。此外,TensorRT 8.0加速支持大量推理模型,其中基于BERT模型的推理速度提高 2 倍。

由于采用了稀疏性技术,TensorRT 8.0可显著提升 Ampere GPU性能,将 Ampere GPU 的吞吐量提高多达 50%,加速2:4细粒度结构。数据显示,通过消除神经网络中不必要的计算,用户可以获得超过30%的性能增长。

更为高效推理能够解决现阶段部署的众多问题。譬如,由于医疗信息化系统对于医院计算机系统的限制,许多医院的软件系统版本相对滞后,难以支撑医疗人工智能对于软硬件的要求,TensorRT 8.0的介入则能更为充分的运用有限的计算资源,有效降低AI部署成本。

此外,高效推理、低延迟能够优化线上流程的流畅性。无纸化时代,TensorRT 8.0将极大提升医生的AI使用体验。

抽丝剥茧,Triton支持下,

GPU实现极致利用

TensorRT 8.0的入驻优化了医疗AI的推理,但在实际之中,NVIDIA还需解决同一环境下多种类AI部署这一关键问题。

NVIDIA Triton推理服务器是一款开源软件,提供单一标准化推理平台,可支持在多框架模型、CPU 和 GPU 以及不同部署环境(例如数据中心、云、嵌入式设备和虚拟化环境)中运行推理。

对于所有推理模式,Triton都可以简化模型在任一框架中以及任何 GPU或CPU上的运行方式,从而在生产环境中使用 AI。结合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8,Triton可以进一步提高神经网络的推理效率,在不损失精度的前提下减少计算和存储成本,实现高效推理。


目前,Triton支持多模型ensemble,以及TensorFlow、PyTorch、ONNX等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。

在金融行业,蚂蚁集团借助NVIDIA Triton 推理服务器,配合T4GPU、DALI的图像预处理能力,将多模型推理性能整体提升2.4倍,延迟降低20%,既满足了业务的低延时需求,成本也降低了50%。这意味着,在多模态业务场景中,蚂蚁集团以更低的成本构建了高性能的推理服务,同时以更低的延迟降低了整条系统链路的响应时间,优化了用户体验。

同样的成功也有可能复制于医疗之中。一方面,Triton支持下,医学AI企业的研究人员可以自由地为他们的项目选择合适的框架,最大化利用GPU,帮助其尽快进行推理型;另一方面,Triton的多环境支持功能及安全保障能够保证医疗AI在任何一家医院顺利部署,帮助部署人员更为轻松地满足不同医院对于不同部署环境的偏好。

解锁TensorRT和Triton

在医疗影像诊断中的应用

为了进一步帮助大家理解TensorRT和Triton在医疗影像诊断中的应用,英伟达将在10月13日14:00-15:20召开网络研讨会《解锁TensorRT和Triton在医疗影像诊断中的应用》,详解医疗中的TensorRT和Triton。

讲解实际真实应用环境下的模型部署和调度。

  本次网络研讨会邀请到了NVIDIA 高级架构师赵凡博士以及安德医智算法总监刘盼博士,两位嘉宾将在会上分享以下内容:
 
  TensorRT 8最新特性;
 
  Triton的应用特性及如何高效使用;
 
  医疗影像 AI 在部署中的常见问题以及使用技巧;
 
  介绍Triton多后端的优势及基于Pytorch/tensorflow后端的推理流程;
 
  讲解3D大尺度模型如何从 GraphDef 转换到 TtensorRT plan的实战案例;

本文原作者为,原文网址为,转载请注明出处!如该文有不妥之处,请联系站长删除,谢谢合作~

版权声明:
作者:机器人产业网
链接:http://www.jiqiren.org.cn/gongsi/591.html
来源:机器人产业网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>