【AI实战】llama.cpp 量化部署 llama-33B

慈云数据 2024-03-13 技术支持 56 0

【AI实战】llama.cpp 量化部署 llama-33B

  • llama.cpp 量化介绍
  • 环境配置
  • 安装 llama.cpp
    • 拉取 llama.cpp 仓库代码
    • 编译llama.cpp
    • 生成量化版本模型
      • 模型准备
      • 将上述.pth模型权重转换为ggml的FP16格式
      • 对FP16模型进行4-bit量化
      • 推理速度测试
        • 加载并启动模型
        • 量化方法选择及推理速度
        • 33B推理速度表格
        • 参考

          llama.cpp 量化介绍

          量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。

          Inference of LLaMA model in pure C/C++。

          llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7B 基础模型举例,32位浮点数的模型占用空间 27G,llama.cpp 量化后占用内存 9G 左右,推断速度为15字/秒。

          对于使用 LLaMA 模型来说,无论从花销还是使用体验,量化这个步骤是不可或缺的。

          环境配置

          环境配置过程详情参考我的这篇文章;

          【AI实战】从零开始搭建中文 LLaMA-33B 语言模型 Chinese-LLaMA-Alpaca-33B

          llama-33B 模型下载、合并方法也是参考这篇文章:

          【AI实战】从零开始搭建中文 LLaMA-33B 语言模型 Chinese-LLaMA-Alpaca-33B

          得到的模型保存路径:“./Chinese-LLaMA-33B”

          安装 llama.cpp

          拉取 llama.cpp 仓库代码

          git clone https://github.com/ggerganov/llama.cpp
          

          编译llama.cpp

          使用GPU执行【推荐】:

          cd llama.cpp
          make LLAMA_CUBLAS=1
          

          使用CPU执行【安装简单】:

          cd llama.cpp
          make 
          

          生成量化版本模型

          模型准备

          将合并模型(选择生成pth格式模型)中最后一步生成的tokenizer.model文件放入zh-models目录下,模型文件consolidated.*.pth和配置文件params.json放入zh-models/33B目录下。

          执行:

          mkdir zh-models/
          cp /notebooks/Chinese-LLaMA-Alpaca/Chinese-LLaMA-33B-pth/tokenizer.model zh-models/
          mkdir zh-models/33B
          cp /notebooks/Chinese-LLaMA-Alpaca/Chinese-LLaMA-33B-pth/consolidated.0* zh-models/33B/
          cp /notebooks/Chinese-LLaMA-Alpaca/Chinese-LLaMA-33B-pth/params.json zh-models/33B/
          

          其中:路径 /notebooks/Chinese-LLaMA-Alpaca/Chinese-LLaMA-33B-pth/ 是 pth 格式模型路径。

          结果如下:

          llama.cpp/zh-models/
             - 33B/
               - consolidated.00.pth 
               - consolidated.01.pth 
               - consolidated.02.pth 
               - consolidated.03.pth 
               - ggml-model-f16.bin 
               - params.json
             - tokenizer.model
          

          将上述.pth模型权重转换为ggml的FP16格式

          执行:

          python convert.py zh-models/33B/
          

          生成文件路径为: zh-models/33B/ggml-model-f16.bin

          在这里插入图片描述

          在这里插入图片描述

          对FP16模型进行4-bit量化

          执行:

          ./quantize ./zh-models/33B/ggml-model-f16.bin ./zh-models/33B/ggml-model-q4_0.bin q4_0
          

          生成量化模型文件路径为zh-models/33B/ggml-model-q4_0.bin

          在这里插入图片描述

          在这里插入图片描述

          推理速度测试

          加载并启动模型

          ./main -m zh-models/33B/ggml-model-q4_0.bin --color -f prompts/alpaca.txt -ins -c 2048 --temp 0.2 -n 256 --repeat_penalty 1.1

          一些常用的参数:

          -c 控制上下文的长度,值越大越能参考更长的对话历史(默认:512)
          -ins 启动类ChatGPT对话交流的instruction运行模式
          -f 指定prompt模板,alpaca模型请加载prompts/alpaca.txt
          -n 控制回复生成的最大长度(默认:128)
          -b 控制batch size(默认:8),可适当增加
          -t 控制线程数量(默认:4),可适当增加
          --repeat_penalty 控制生成回复中对重复文本的惩罚力度
          --temp 温度系数,值越低回复的随机性越小,反之越大
          --top_p, top_k 控制解码采样的相关参数
          
          • 测试

            在这里插入图片描述

            量化方法选择及推理速度

            相关结论:

            • 默认的量化方法为q4_0,虽然速度最快但损失也是最大的,其余方法各有利弊,按实际情况选择
            • 需要注意的是F16以及q8_0并不会因为增加线程数而提高太多速度
            • 线程数-t与物理核心数一致时速度最快,超过之后速度反而变慢(M1 Max上从8改到10之后耗时变为3倍)
            • 如果使用了Metal版本(即启用了苹果GPU解码),速度还会有进一步显著提升,表中标注为-ngl 1
            • 综合推荐(仅供参考):7B推荐Q5_1或Q5_K_S,13B推荐Q5_0或Q5_K_S
            • 机器资源够用且对速度要求不是那么苛刻的情况下可以使用q8_0或Q6_K,接近F16模型的效果

              33B推理速度表格

              在这里插入图片描述

              • 其他大小的模型推理速度参考

                https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%B2

                在这里插入图片描述

                参考

                【AI实战】从零开始搭建中文 LLaMA-33B 语言模型 Chinese-LLaMA-Alpaca-33B

                https://github.com/ymcui/Chinese-LLaMA-Alpaca

                https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%B2

                https://github.com/ggerganov/llama.cpp

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon