三月 15, 2025

MCP代码示例

MCP架构分为Server端和Client端，Server端负责对第三方工具调用或者业务逻辑代码实现，Client端主要是提供SDK给调用放使用用来执行Server端提供的工具指令。

有一点需要注意，MCP提供的list_tools暴漏的出来的方法定义的结构，是function_calling规范并不一致，如果是要与function_calling结合使用，注意进行结构转换。

三月 15, 2025

MCP介绍

Model Context Protocol (MCP) 模型上下文协议，简单理解并不是一种新的技术，是对大模型function calling使用的一种方式，或者标准。另外因为其提供了标准的开发和调用sdk，并且生态已有一些现成的工具可用，因此使用MCP有时候可以很大程度上减少agent开发的工作量。当然如果你使用的大模型不支持function calling或者对function calling支持不好，那么很遗憾使用MCP并不一定会降低你的工作量。本文主要介绍用非代码的方式如何调用MCP-Server，用来方便理解MCP是什么。

继续阅读

三月 7, 2025

Function Calling使用示例

Function Calling 是一种允许大语言模型（LLM）通过调用外部函数或API来扩展能力的机制。其核心流程是：开发者预先定义函数及其参数格式，LLM根据用户输入的自然语言请求，自动判断是否需要调用函数，并生成包含函数名和参数的JSON格式指令，最终由外部程序执行具体函数。它主要解决以下问题：

继续阅读

三月 6, 2025

RAG流程说明

在大模型开发中，RAG（Retrieval-Augmented Generation）是一种结合了信息检索和生成的技术。它通过将外部知识库中的相关信息引入到生成过程中，来提高生成文本的质量和准确性。 RAG主要通过引入外部知识库，RAG可以提供更准确和详细的信息，减少生成模型由于训练数据有限而导致的错误和不一致。尤其在特定领域知识与大模型结合时效果尤为明显。简单来说，就是通过检索技术来增强大模型的上下文，至于通过什么方式增强在你的场景中最为合适，要根据你数据的存储方式和大模型的使用场景有关。下方图是一个通用流程通，实际使用时不要拘泥于形式，就围绕一个目的来做，那就是尽可能的查询出与问题相关性强的知识来给大模型作为问题分析的参考。

继续阅读

三月 5, 2025

Embeddings向量模型使用示例

RAG中的向量化一般发生在两个阶段，一是将已有的数据进行想量化计算并存储到向量库中，
另外一个阶段是在查询阶段，即数据召回极端，先要对查询条件做想量化，再通过向量结果查询向量库。本文演示了一个使用Python本地调用向量模型，并将结果存入chromadb以及查询chromadb的代码示例。

继续阅读

三月 5, 2025

Llama-Factory微调

Llama-Factory 是一个开源项目，专注于大语言模型进行高效微调（Fine-tuning）。它提供了一套简洁易用的工具和框架，帮助研究者和开发者快速实现大模型在特定任务或垂直领域的适配与优化。本文主要介绍使用medical-o1-reasoning-SFT数据集对Qwen2.5-1.5B-Instruct模型进行LoRa微调的过程。

继续阅读

三月 4, 2025

Transformers调用大模型对话示例

目前大模型的使用过程中一般都采用专门的部署工具vLLM、Ollama等，调用方通过Rest API进行调用。本文介绍一个使用底层库Transformers进行调用的示例，来帮助您理解大模型的运行原理。

继续阅读

三月 3, 2025

Llama.cpp部署大模型

llama.cpp 是一个基于 C/C++ 实现的开源工具，专注于在 CPU 环境下高效部署和推理大型语言模型。其设计目标是降低硬件依赖，通过量化技术和架构优化，让用户无需高性能 GPU 即可运行模型。本文演示的是使用llama.cpp运行GGUF模型参数的示例，如果你本地GPU显存不足可以通过调整-n-gpu-layers参数来降低对显存的需求。

继续阅读

三月 2, 2025

vLLM部署大模型

vLLM 是一个用于高效运行和部署大型语言模型（Large Language Models, LLMs）的高性能Python库。也是目前生产环境运行满血大模型参数较为常用的工具。本文简单介绍如何使用vLLM运行本地下载好的模型参数，

继续阅读

三月 1, 2025

Ollama部署离线大模型

Ollama 是一个用于管理和部署大型语言模型（LLMs）的开源平台。它旨在简化在本地或云端运行和管理这些复杂模型的过程，使得研究人员、开发者和企业能够更轻松地利用这些强大的工具。个人使用Ollama时通过在线下载的模型大多为int4量化的版本，本文介绍使用Ollam如何运行非默认量化版本以及使用GPU+CPU混合推理。

继续阅读

二月 20, 2025

JetBrains中使用ProxyAI（CodeGPT）插件

JetBrains中的ProxyAI插件可以支持在开发工具内聊天或者自动代码生成等，而且支持自定义配置模型提供商或者本地Ollam等。这个是老版本CodeGPT的延续，现在插件市场中搜到的CodeGPT已经是改版后的，对自定义模型支持和提示词不太友好，个人这里还是使用ProxyAI来辅助开发。

继续阅读

二月 15, 2025

使用DeepSeek生成PPT

DeepSeek本身是文本类模型是无法直接生成图片等非文字输出的，但是DeepSeek-R1有非常强的分析和逻辑思维能力，想要使用DeepSeek帮你生成PPT，一般采用DS生成大纲，在借助其他工具生成PPT。这里介绍主要是结合Kimi或者AiPP来生成（Kimi生成ppt后端也是使用AiPP），当然kimi或者AiPPT本身也具有通过AI生成PPT的能力，具体哪种方式适自己可以做一些尝试。毕竟生成PPT并不意味着你工作的完成，工具只是辅助你思考，减少一些重复劳动，你自己能深入理解其中的内容或者让工具按照你的思维做事才是更好的方式。

继续阅读

二月 15, 2025

使用DeepSeek生成脑图

DeepSeek本身是文本类模型是无法直接生成图片等非文字输出的，但是DeepSeek-R1有非常强的分析和逻辑思维能力。脑图结构比较简单，想cherry studio等工具本身是支持Mermaind语法的可以生成脑图、流程图等。这里演示使用Chery生成脑图，同时生成一份markdown格式的脑图文本，可以导入到xmind等工具中使用。

继续阅读