标签为“大模型部署”的页面如下
三月 3, 2025
Llama.cpp部署大模型
llama.cpp 是一个基于 C/C++ 实现的开源工具,专注于在 CPU 环境下高效部署和推理大型语言模型。其设计目标是降低硬件依赖,通过量化技术和架构优化,让用户无需高性能 GPU 即可运行模型。
本文演示的是使用llama.cpp运行GGUF模型参数的示例,如果你本地GPU显存不足可以通过调整-n-gpu-layers
参数来降低对显存的需求。
三月 1, 2025
Ollama部署离线大模型
Ollama 是一个用于管理和部署大型语言模型(LLMs)的开源平台。它旨在简化在本地或云端运行和管理这些复杂模型的过程,使得研究人员、开发者和企业能够更轻松地利用这些强大的工具。 个人使用Ollama时通过在线下载的模型大多为int4量化的版本,本文介绍使用Ollam如何运行非默认量化版本以及使用GPU+CPU混合推理。