首页

没有首页 😈

NeuVector 收集 prof 文件

prof 文件能够用于性能分析,如果 NeuVector 组件出现性能问题(如 CPU 使用率异常高等),可以通过如下方式获取。

Read more

Python 虚拟环境

在实际开发过程中,不同项目通常依赖不同版本的第三方库,甚至可能存在版本冲突或不兼容的问题。

为了解决依赖隔离问题,Python 提供了 venv 模块,用于为每个项目创建独立的虚拟环境,使项目之间互不影响。

Read more

vLLM 基本原理

vLLM(Virtual Large Language Model)是一种用于高效、大规模运行大语言模型(LLM)的推理框架。它主要由两部分组成:推理服务器(负责接收和调度请求、管理网络流量)和推理引擎(负责高效执行模型计算)。

vLLM 的核心机制是 PagedAttention 算法,通过更高效地管理和复用 GPU 显存,减少内存碎片和不必要的拷贝,从而显著提升推理效率,加快生成式 AI 应用的响应速度。

vLLM 的总体目标是最大化吞吐量(即每秒可处理的 Token 数),以支持在同一套 GPU 资源上同时为大量用户提供稳定、高性能的推理服务。


Read more