三月 3, 2025

Llama.cpp部署大模型

llama.cpp 是一个基于 C/C++ 实现的开源工具，专注于在 CPU 环境下高效部署和推理大型语言模型。其设计目标是降低硬件依赖，通过量化技术和架构优化，让用户无需高性能 GPU 即可运行模型。本文演示的是使用llama.cpp运行GGUF模型参数的示例，如果你本地GPU显存不足可以通过调整-n-gpu-layers参数来降低对显存的需求。

继续阅读

三月 2, 2025

vLLM部署大模型

vLLM 是一个用于高效运行和部署大型语言模型（Large Language Models, LLMs）的高性能Python库。也是目前生产环境运行满血大模型参数较为常用的工具。本文简单介绍如何使用vLLM运行本地下载好的模型参数，

继续阅读

三月 1, 2025

Ollama部署离线大模型

Ollama 是一个用于管理和部署大型语言模型（LLMs）的开源平台。它旨在简化在本地或云端运行和管理这些复杂模型的过程，使得研究人员、开发者和企业能够更轻松地利用这些强大的工具。个人使用Ollama时通过在线下载的模型大多为int4量化的版本，本文介绍使用Ollam如何运行非默认量化版本以及使用GPU+CPU混合推理。

继续阅读