NeuVector 通过 Response Rules 抑制告警

NeuVector 默认内置了一些网络规则。当这些规则被命中并触发告警时,某些告警可能不会提供 Review Rule 按钮用于直接加白。如果该告警属于误报(即应用的正常行为),就可能持续产生大量告警,从而造成告警噪音。

Read more

NeuVector 收集 profile 文件

profile 文件能够用于性能分析,如果 NeuVector 组件出现性能问题(如 CPU 使用率异常高等),可以通过如下方式获取。

Read more

Python 虚拟环境

在实际开发过程中,不同项目通常依赖不同版本的第三方库,甚至可能存在版本冲突或不兼容的问题。

为了解决依赖隔离问题,Python 提供了 venv 模块,用于为每个项目创建独立的虚拟环境,使项目之间互不影响。

Read more

vLLM 基本原理

vLLM(Virtual Large Language Model)是一种用于高效、大规模运行大语言模型(LLM)的推理框架。它主要由两部分组成:推理服务器(负责接收和调度请求、管理网络流量)和推理引擎(负责高效执行模型计算)。

vLLM 的核心机制是 PagedAttention 算法,通过更高效地管理和复用 GPU 显存,减少内存碎片和不必要的拷贝,从而显著提升推理效率,加快生成式 AI 应用的响应速度。

vLLM 的总体目标是最大化吞吐量(即每秒可处理的 Token 数),以支持在同一套 GPU 资源上同时为大量用户提供稳定、高性能的推理服务。


Read more
You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.