标签为“大模型”的页面如下
Function Calling使用示例
Function Calling 是一种允许大语言模型(LLM)通过调用外部函数或API来扩展能力的机制。其核心流程是:开发者预先定义函数及其参数格式,LLM根据用户输入的自然语言请求,自动判断是否需要调用函数,并生成包含函数名和参数的JSON格式指令,最终由外部程序执行具体函数。它主要解决以下问题:
RAG流程说明
在大模型开发中,RAG(Retrieval-Augmented Generation)是一种结合了信息检索和生成的技术。它通过将外部知识库中的相关信息引入到生成过程中,来提高生成文本的质量和准确性。 RAG主要通过引入外部知识库,RAG可以提供更准确和详细的信息,减少生成模型由于训练数据有限而导致的错误和不一致。尤其在特定领域知识与大模型结合时效果尤为明显。 简单来说,就是通过检索技术来增强大模型的上下文,至于通过什么方式增强在你的场景中最为合适,要根据你数据的存储方式和大模型的使用场景有关。下方图是一个通用流程通,实际使用时不要拘泥于形式,就围绕一个目的来做,那就是尽可能的查询出与问题相关性强的知识来给大模型作为问题分析的参考。
Embeddings向量模型使用示例
RAG中的向量化一般发生在两个阶段,一是将已有的数据进行想量化计算并存储到向量库中,
另外一个阶段是在查询阶段,即数据召回极端,先要对查询条件做想量化,再通过向量结果查询向量库。
本文演示了一个使用Python本地调用向量模型,并将结果存入chromadb以及查询chromadb的代码示例。
Llama-Factory微调
Llama-Factory 是一个开源项目,专注于大语言模型进行高效微调(Fine-tuning)。它提供了一套简洁易用的工具和框架,帮助研究者和开发者快速实现大模型在特定任务或垂直领域的适配与优化。本文主要介绍使用medical-o1-reasoning-SFT数据集对Qwen2.5-1.5B-Instruct模型进行LoRa微调的过程。
Transformers调用大模型对话示例
目前大模型的使用过程中一般都采用专门的部署工具vLLM、Ollama等,调用方通过Rest API进行调用。本文介绍一个使用底层库Transformers进行调用的示例,来帮助您理解大模型的运行原理。
Llama.cpp部署大模型
llama.cpp 是一个基于 C/C++ 实现的开源工具,专注于在 CPU 环境下高效部署和推理大型语言模型。其设计目标是降低硬件依赖,通过量化技术和架构优化,让用户无需高性能 GPU 即可运行模型。
本文演示的是使用llama.cpp运行GGUF模型参数的示例,如果你本地GPU显存不足可以通过调整-n-gpu-layers
参数来降低对显存的需求。
Ollama部署离线大模型
Ollama 是一个用于管理和部署大型语言模型(LLMs)的开源平台。它旨在简化在本地或云端运行和管理这些复杂模型的过程,使得研究人员、开发者和企业能够更轻松地利用这些强大的工具。 个人使用Ollama时通过在线下载的模型大多为int4量化的版本,本文介绍使用Ollam如何运行非默认量化版本以及使用GPU+CPU混合推理。
JetBrains中使用ProxyAI(CodeGPT)插件
JetBrains中的ProxyAI插件可以支持在开发工具内聊天或者自动代码生成等,而且支持自定义配置模型提供商或者本地Ollam等。这个是老版本CodeGPT的延续,现在插件市场中搜到的CodeGPT已经是改版后的,对自定义模型支持和提示词不太友好,个人这里还是使用ProxyAI来辅助开发。
使用DeepSeek生成PPT
DeepSeek本身是文本类模型是无法直接生成图片等非文字输出的,但是DeepSeek-R1有非常强的分析和逻辑思维能力,想要使用DeepSeek帮你生成PPT,一般采用DS生成大纲,在借助其他工具生成PPT。 这里介绍主要是结合Kimi或者AiPP来生成(Kimi生成ppt后端也是使用AiPP),当然kimi或者AiPPT本身也具有通过AI生成PPT的能力,具体哪种方式适自己可以做一些尝试。 毕竟生成PPT并不意味着你工作的完成,工具只是辅助你思考,减少一些重复劳动,你自己能深入理解其中的内容或者让工具按照你的思维做事才是更好的方式。
使用DeepSeek生成脑图
DeepSeek本身是文本类模型是无法直接生成图片等非文字输出的,但是DeepSeek-R1有非常强的分析和逻辑思维能力。脑图结构比较简单,想cherry studio等工具本身是支持Mermaind语法的可以生成脑图、流程图等。这里演示使用Chery生成脑图,同时生成一份markdown格式的脑图文本,可以导入到xmind等工具中使用。