vLLM 基本原理

vLLM(Virtual Large Language Model)是一种用于高效、大规模运行大语言模型(LLM)的推理框架。它主要由两部分组成:推理服务器(负责接收和调度请求、管理网络流量)和推理引擎(负责高效执行模型计算)。

vLLM 的核心机制是 PagedAttention 算法,通过更高效地管理和复用 GPU 显存,减少内存碎片和不必要的拷贝,从而显著提升推理效率,加快生成式 AI 应用的响应速度。

vLLM 的总体目标是最大化吞吐量(即每秒可处理的 Token 数),以支持在同一套 GPU 资源上同时为大量用户提供稳定、高性能的推理服务。


Read more

Kubernetes MCP Server 使用随记

MCP 全称为 Model Context Protocol,中文译为模型上下文协议,是一个开放标准,使开发人员能够在数据源和人工智能驱动的工具之间建立安全的双向连接。

在没有 MCP 之前,AI 要读去分析资料需要先手动将文件进行上传,或者是将内容复制到对话框内,使用过程相对繁杂;如果使用了 MCP,则可以直接让 AI 对本地文件进行分析。

Read more

Ollama + Open WebUI 使用随记

Ollama 是简化本地设备上大型语言模型 (LLM) 安装和管理的平台,而 Open WebUI 是 Ollama LLM 运行程序的可扩展网络用户界面。

Read more