TritonServer和TensorRT了解
TensorRT&Triton学习笔记(一):triton和模型部署+client:https://blog.csdn.net/sgyuanshi/article/details/123536579
先介绍TensorRT、Triton的关系和区别:
TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。相比于TensorFlow,tensorrt的缺点是支持的算子较少。
主要优化手段如下:

Triton:类似于TensorFlow Serving,但triton包括server和client。
triton serving能够实现不同模型的统一部署和服务,提供http和grpc协议,给triton client请求模型推理。
如果是要将模型和推理嵌入在服务或软硬件中,那么TensorRT是很好的选择,使用它来加载模型进行推理,提升性能(tensorrt runtime);
不然,常规的做法是模型推理和其他业务隔离,模型统一部署在triton server,然后其他业务通过triton client来进行模型推理的请求。
Triton的优点:
