使用vLLM和ChatGLM3-6b批量推理

风晓 2024-01-02 09:00:02  47491 赞同 0 反对 0

分类：资源

当数据量大的时候，比如百万级别，使用 ChatGLM3-6b 推理的速度是很慢的。发现使用 vLLM 和 ChatGLM3-6b 批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。

1.安装 vLLM 和PyTorch [2]

除了 Python（本文使用 3.11）、CUDA（本文使用 11.8）外，还要安装 vllm、pytorch、xformers 等库，特别注意版本要一致。官方提供类库版本主要是针对 CUDA 12.1 版。如下所示：

# 用CUDA 11.8安装vLLM
# 指定vLLM版本
export VLLM_VERSION=0.2.6
# 指定Python版本
export PYTHON_VERSION=311
# 在线安装whl文件
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl

# 用CUDA 11.8重新安装PyTorch
pip uninstall torch -y
pip install torch --upgrade --index-url https://download.pytorch.org/whl/cu118

# 安装xformers库
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

2.离线批量推理例子 [3]

例子实现是比较简单的，主要是参数配置细节，如下所示：

from vllm import LLM, SamplingParams

# 定义批量数据
prompts = [
    "宪法规定的公民法律义务有",
    "属于专门人民法院的是",
    "无效婚姻的种类包括",
    "刑事案件定义",
    "税收法律制度",
]
sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)
path = '/data/ssw/llm_model/chatglm3-6b'
llm = LLM(model=path, trust_remote_code=True, tokenizer_mode="auto", tensor_parallel_size=2, dtype="auto")
outputs = llm.generate(prompts, sampling_params)

# 输出结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

（1）temperature=0.1 [5]

控制采样随机性的浮点数。较低的值使模型更具确定性，而较高的值使模型更随机。0 意味着贪婪采样。

（2）top_p=0.5 [5]

控制要考虑的 top tokens 的累积概率的浮点数。必须在(0,1]之间。设置为 1 以考虑所有 token。

（3）max_tokens=4096 [5]

每个输出序列生成的最大 token 数。

（4）trust_remote_code=True [4]

当下载 model 和 tokenizer 时，信任远程代码（比如，来自 HuggingFace）。

（5）tokenizer_mode="auto" [4]

"auto"模式会在可用时使用快速分词器，而"slow"模式则始终使用慢分词器。

（6）tensor_parallel_size=2 [4]

用于张量并行的分布式执行的 GPU 数量。

（7）dtype="auto" [4]

模型权重和激活的数据类型。当前支持 float32，float16 和 bfloat16。如果设置为 auto，将使用模型配置文件中指定的 torch_dtype 属性。然而，如果配置中的 torch_dtype 是 float32，将使用 float16。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等，可点击“私信”按钮向作者进行反馈；如作者无回复可进行平台仲裁，我们会在第一时间进行处理！

评价 0 条

相关资源

循序渐进丨使用 Python 向 MogDB 数据库批量操作数据的方法 2024-04-19 43705 浏览
循序渐进丨使用Python向MogDB数据库批量操作数据的方法
在PyCharm中使用批量缩进功能以提高工作效率的小窍门 2024-01-05 52505 浏览
提高效率的小技巧：PyCharm中如何使用批量缩进功能近年来，程序开发的需求不断增长，开发者们也在不断寻求提高开发效率的途径。作为一款颇受开发者喜爱的集成开发环境(IDE)工具，PyCharm拥有众多的功能和工具，帮助开发者更高效地编写代码。其中，批量缩进功能是提高效率的重要一环。
奔图打印机如何使用密码打印功能，两步搞定 2023-12-13 50461 浏览
打印的文档总被同事误拿，涉密文件定怕被别人看到，手把手教你如何使用密码打印功能。适用奔图机型：M7300FDW、CP2506DNPLUS、CM7105DN等具有密码打印功能的奔图打印机。
如何使用奔图打印机一键票据复印功能 2023-12-13 51775 浏览
在银行、酒店、机场等行业工作需要大在量的票据复印，一般的复印机仅仅满足普通文本复印发票上的“数字”“单位”等关键内容复印不清晰，几乎难以辩认失动汇了存档、交流的价值，四步教你一键票据清晰复印。主要适用于奔图M6800FDW、M6870FDW、M7200FDN等多功能打印机。
如何使用奔图打印机自动双面扫描、自动双面复印功能？ 2023-12-14 49619 浏览
如何使用奔图打印机自动双面扫描、自动双面复印功能？适用于M7300FDW\M7300FDN\CM71050D等型号
如何使用奔图打印机的精细打印功能？ 2023-12-14 51530 浏览
如何使用奔图打印机的精细打印功能？从事建筑、装修等行业，经常需要打印综合预留、水电暖施工等专业图纸，为了保障设计施工标准化、效率化，必须将所有信息清晰呈现，但是，普通打印很难实现这一点，看奔图打印机如何交出满意答卷，适用于P3010\P3300\M6700\M7100\M6800\M7200\M7300系列打印机
如何使用奔图打印机的精细打印功能？ 2023-12-14 49027 浏览
如何使用奔图打印机的精细打印功能？从事建筑、装修等行业，经常需要打印综合预留、水电暖施工等专业图纸，为了保障设计施工标准化、效率化，必须将所有信息清晰呈现，但是，普通打印很难实现这一点，看奔图打印机如何交出满意答卷，适用于P3010\P3300\M6700\M7100\M6800\M7200\M7300系列打印机
如何使用奔图打印机卡纸分离设计功能？ 2023-12-14 53466 浏览
卡纸的位置千奇百怪，卡纸的原因五花八门，看着一张张平坦的白纸，硬是卡成了“扇子”，好想拿个锤子让其灰飞烟灭，教你如何使用奔图打印机的卡纸分离设计功能，适用于P2206/P2500/P2506/M6202/M6500/M6506/M6500/M6556/M6600/M6606等系列打印机
本地部署即时通讯软件下载即可使用 2024-07-17 22267 浏览
J2L3x即时通讯软件(类似Slack这样的企业协同通讯工具)，开放内网部署版免费用。直接虚拟机形式部署。
国务院办公厅关于印发《政府机关使用正版软件管理办法》的通知（国办发〔2013〕88号） 2023-12-14 56044 浏览
软件正版化工作纲领性的文件，由国务院办公厅于2013年下发，掌握这个文件的内容基本上就清楚整个软件正版化工作。

使用vLLM和ChatGLM3-6b批量推理

1.安装 vLLM 和PyTorch [2]

2.离线批量推理例子 [3]

相关资源

关注我们