串流是通过显卡捕获显示器画面并将其压缩作为视频流进行网络传输实现远程控制的技术,相比与其他远程控制方式,串流可以拥有更高的画面质量和帧率,是远程游戏的不二选择。 NVIDIA Experience和AMD Link都提供了对串流的支持,但目前两家的串流工具都已停止维护,目前比较主流的方案是sunshine+moonlight,其中sunshine作…
vllm中的llm_engine主要由两个模块构成,Scheduler和Executor,其中Executor负责管理并行推理时的多个设备、模型的推理计算和KV Cache的显存分配和管理,而Scheduler负责请求的调度。接下来,我将详细介绍vllm的Scheduler模块和其调度策略。 vllm模块架构 前置知识 llm是自回归的模型,在一个…