Warner's Wiki

Posted 2026-02-02Updated 2026-02-0311 minutes read (About 1647 words)

vLLM（Virtual Large Language Model）是一种用于高效、大规模运行大语言模型（LLM）的推理框架。它主要由两部分组成：推理服务器（负责接收和调度请求、管理网络流量）和推理引擎（负责高效执行模型计算）。

vLLM 的核心机制是 PagedAttention 算法，通过更高效地管理和复用 GPU 显存，减少内存碎片和不必要的拷贝，从而显著提升推理效率，加快生成式 AI 应用的响应速度。

vLLM 的总体目标是最大化吞吐量（即每秒可处理的 Token 数），以支持在同一套 GPU 资源上同时为大量用户提供稳定、高性能的推理服务。

Posted 2026-01-13Updated 2026-01-134 minutes read (About 665 words)

Easy Dataset 是一个专为创建大型语言模型（LLM）微调数据集而设计的应用程序。它提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。

Posted 2026-01-12Updated 2026-01-135 minutes read (About 792 words)

模型微调（Fine-tuning）是指在一个已经训练好的大模型基础上，用特定领域或特定任务的数据继续训练，使模型在某类问题上表现得更好。

开源工具 LlamaFactory 可以轻松地对模型进行微调：https://github.com/hiyouga/LlamaFactory

Posted 2025-03-18Updated 2025-05-292 minutes read (About 334 words)

MCP 全称为 Model Context Protocol，中文译为模型上下文协议，是一个开放标准，使开发人员能够在数据源和人工智能驱动的工具之间建立安全的双向连接。

在没有 MCP 之前，AI 要读去分析资料需要先手动将文件进行上传，或者是将内容复制到对话框内，使用过程相对繁杂；如果使用了 MCP，则可以直接让 AI 对本地文件进行分析。

Posted 2025-02-27Updated 2025-05-293 minutes read (About 427 words)

Ollama 是简化本地设备上大型语言模型 (LLM) 安装和管理的平台，而 Open WebUI 是 Ollama LLM 运行程序的可扩展网络用户界面。