大模型快速入门(一):环境搭建

yumo6663个月前 (05-24)技术文章26

【零基础实战】手把手教你用Tesla T4搭建通义千问大模型开发环境！

阿里开源的通义大模型Qwen-Chat支持本地部署！无需高端显卡，Tesla T4也能玩转大模型开发！笔者实测部署全流程

硬件配置速览

显卡：NVIDIA Tesla T4（Turing架构）
驱动：CUDA 12.1
内存：建议16GB+
存储：模型需20GB+空间

极速搭建攻略

第一步：获取代码仓库和模型

# 代码仓库克隆 
git clone https://github.com/QwenLM/Qwen 

# 模型下载 https://modelscope.cn/models/Qwen/Qwen-1_8B-Chat/files 
git lfs install git clone https://www.modelscope.cn/Qwen/Qwen-1_8B-Chat.git

下载完毕，如下图所示：

第二步：安装依赖

1 PyTorch精准安装

根据服务器显卡驱动进行安装，本机显卡驱动为12.1，因此安装cu121对应的pytorch包。

pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121

2 依赖全家桶一键安装

切换到qwen代码库目录，运行：

pip install -r requirements.txt 
pip install -r requirements_web_demo.txt

第三步：Demo启动与性能调优

python web_demo.py --server-name 0.0.0.0 -c /path/to/Qwen-1_8B-Chat

运行后，如下图所示：

运行成功，但是提示可以安装flashAttention提升效率。

flashAttention的依赖库：
https://github.com/Dao-AILab/flash-attention/releases

关键提示：T4显卡用户必看！

安装flash-attn时强制指定1.x版本
找到对应的torch、显卡驱动、python版本的依赖包，pip install 安装即可。

成果展示

成功运行后你将看到：

本地Web交互界面
流畅的中英文对话能力
代码生成/文案创作等实用功能

技术亮点解析

高性价比：1.8B参数模型 + T4显卡 = 完美CP
推理加速：flash-attn加持响应速度有所提升
国产适配：完美支持中文语义理解

常见问题FAQ

Q：为什么必须指定flash-attn 1.x版本？

A：Turing架构显卡与2.x版本存在兼容问题，会导致启动失败！

Q：模型响应速度慢怎么办？

A：尝试调整max_length参数，建议设为512-1024区间

实测结论：Tesla T4完全能胜任通义千问1.8B版本的本地部署！想要体验大模型魅力又担心硬件限制的同学，赶紧动手试试吧！

在评论区留下你的部署体验，或同样服务器配置在搭建环境中遇到的疑难问题，笔者在线答疑！下期预告：《大模型快速入门（二）：模型微调（基于源码项目）》#大模型 #人工智能 #深度学习

返回列表

上一篇：KTransformers项目部署所需的软件环境、安装流程及配置要点整理

下一篇：好的项目，万物皆可打包，我将Vue项目打包成客户端(模拟钉钉)

KTransformers项目部署所需的软件环境、安装流程及配置要点整理

一、软件依赖清单1. 核心框架 - KTransformers源码：需从GitHub克隆最新版（避免使用0.2.1等旧版本，存在模型性能问题） - Python环境：推荐Python 3.10+，...

雨墨芝士网