快速注册

TritonServer和TensorRT了解

bryan 2022-05-27 00:15:12

TensorRT&Triton学习笔记(一)：triton和模型部署+client：https://blog.csdn.net/sgyuanshi/article/details/123536579

先介绍TensorRT、Triton的关系和区别：

TensorRT：为inference（推理）为生，是NVIDIA研发的一款针对深度学习模型在GPU上的计算，显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架，也可以解析其他框架的模型如tensorflow、torch。相比于TensorFlow，tensorrt的缺点是支持的算子较少。

主要优化手段如下：

Triton：类似于TensorFlow Serving，但triton包括server和client。

triton serving能够实现不同模型的统一部署和服务，提供http和grpc协议，给triton client请求模型推理。

如果是要将模型和推理嵌入在服务或软硬件中，那么TensorRT是很好的选择，使用它来加载模型进行推理，提升性能（tensorrt runtime）；

不然，常规的做法是模型推理和其他业务隔离，模型统一部署在triton server，然后其他业务通过triton client来进行模型推理的请求。

Triton的优点：

回应转发赞收藏

加载中...

私密豆列或部分疑似不友善内容不展示

<前页后页>

bryan (上海)

TritonServer和TensorRT了解

热门话题 · · · · · · ( 去话题广场 )