0

0

[大模型]DeepSeek-MoE-16b-chat FastApi 部署调用

看不見的法師

看不見的法師

发布时间:2025-11-19 10:24:45

|

938人浏览过

|

来源于php中文网

原创

DeepSeek-MoE-16b-chat FastApi 部署调用

DeepSeek-MoE-16b-chat 模型简介

deepseek moe 已发布版本的总参数规模为160亿,实际激活参数约为28亿。与同门的7b全连接模型相比,在19个基准测试数据集上表现互有优劣,整体性能接近。相较llama 2-7b这类密集模型,deepseek moe 在数学推理和代码生成任务中展现出更优能力。值得注意的是,llama 2-7b 和 deepseek 7b 的每4k token计算量均超过180tflops,而 deepseek moe 仅需74.4tflops,能耗仅为前者的40%左右,显著提升了推理效率。

环境搭建

在 autodl 平台上选择配备双卡3090(单卡24G,共48G显存)的服务器实例,操作系统镜像选择 PyTorch–>2.1.0–>3.10(ubuntu22.04)–>12.1。启动实例后,进入 JupyterLab 界面,并打开终端进行环境配置、模型下载与服务部署。

[大模型]DeepSeek-MoE-16b-chat FastApi 部署调用

执行以下命令更换 pip 源并安装必要依赖:

# 开启学术加速以提升GitHub访问速度
source /etc/network_turbo

升级pip

python -m pip install --upgrade pip

更换为清华源加速包安装

pip config set global.index-url https://www.php.cn/link/a6455ffc4e47fd737db213366771ec0e

安装核心库

pip install modelscope transformers sentencepiece accelerate fastapi uvicorn requests streamlit transformers_stream_generator

安装Flash Attention加速组件(可选)

pip install https://www.php.cn/link/0e7adb08b43a589df528d2bdd69b6b03

模型获取

使用 modelscope 提供的 snapshot_download 方法下载 DeepSeek-MoE-16b-chat 模型。参数说明:第一个参数为 HuggingFace 或 ModelScope 上的模型标识名,cache_dir 指定本地保存路径。

/root/autodl-tmp 目录下创建 download.py 文件,内容如下图所示,请确保保存后再运行:

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os

model_dir = snapshot_download('deepseek-ai/deepseek-moe-16b-chat', cache_dir='/root/autodl-tmp', revision='master')

运行命令开始下载:

python /root/autodl-tmp/download.py

模型文件约30GB,预计耗时10~20分钟完成下载。

API 服务代码编写

/root/autodl-tmp 下新建 api.py 文件,填入以下完整代码(含详细注释),请务必保存。

invideo AI
invideo AI

InVideo 使用现成的模板简化视频创建

下载
from fastapi import FastAPI, Request
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import uvicorn
import json
import datetime
import torch

设备配置

DEVICE = "cuda" DEVICE_ID = "0" CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICE

GPU内存清理函数

def torch_gc(): if torch.cuda.is_available(): with torch.cuda.device(CUDA_DEVICE): torch.cuda.empty_cache() torch.cuda.ipc_collect()

初始化FastAPI应用

app = FastAPI()

@app.post("/") async def create_item(request: Request): global model, tokenizer json_post_raw = await request.json() json_post = json.dumps(json_post_raw) json_post_list = json.loads(json_post)

prompt = json_post_list.get('prompt')
max_length = json_post_list.get('max_length')

# 构建对话历史
messages = [
    {"role": "user", "content": prompt}
]

# 编码输入
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

# 生成输出
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=max_length)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)

now = datetime.datetime.now()
time = now.strftime("%Y-%m-%d %H:%M:%S")

# 返回响应结构
answer = {
    "response": result,
    "status": 200,
    "time": time
}

# 打印日志
log = "[" + time + "] " + '", prompt:"' + prompt + '", response:"' + repr(result) + '"'
print(log)

torch_gc()
return answer

if name == 'main': model_path = '/root/autodl-tmp/deepseek-ai/deepseek-moe-16b-chat'

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# 加载模型,启用bfloat16降低显存占用,自动分配GPU资源
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 加载生成配置
model.generation_config = GenerationConfig.from_pretrained(model_path)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

model.eval()  # 启用评估模式

# 启动API服务
uvicorn.run(app, host='0.0.0.0', port=6006, workers=1)

启动 API 服务

在终端执行以下命令运行服务脚本:

cd /root/autodl-tmp

python api.py

当看到类似如下日志输出时,表示模型加载成功,服务已就绪:

[大模型]DeepSeek-MoE-16b-chat FastApi 部署调用

服务默认监听 6006 端口,支持通过 POST 请求调用。推荐设置 max_length=100,过高易导致显存溢出,过低则可能截断回答。

示例 curl 调用方式:

curl -X POST "https://www.php.cn/link/6190df6b9dfadcb413f0d0e3b768888a" \
-H 'Content-Type: application/json' \
-d '{"prompt": "你好,你是谁?","max_length":100}'

也可使用 Python 的 requests 库进行调用:

import requests
import json

def get_completion(prompt, max_length): headers = {'Content-Type': 'application/json'} data = {"prompt": prompt, "max_length": max_length} response = requests.post(url='https://www.php.cn/link/6190df6b9dfadcb413f0d0e3b768888a', headers=headers, data=json.dumps(data)) return response.json()['response']

if name == 'main': print(get_completion("你好,你是谁?", 100))

成功调用后将返回模型应答结果,示例如下:

[大模型]DeepSeek-MoE-16b-chat FastApi 部署调用

相关文章

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python FastAPI异步API开发_Python怎么用FastAPI构建异步API
Python FastAPI异步API开发_Python怎么用FastAPI构建异步API

Python FastAPI 异步开发利用 async/await 关键字,通过定义异步视图函数、使用异步数据库库 (如 databases)、异步 HTTP 客户端 (如 httpx),并结合后台任务队列(如 Celery)和异步依赖项,实现高效的 I/O 密集型 API,显著提升吞吐量和响应速度,尤其适用于处理数据库查询、网络请求等耗时操作,无需阻塞主线程。

27

2025.12.22

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

340

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

416

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

351

2025.07.23

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

784

2023.08.22

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

441

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

178

2023.10.30

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.2万人学习

Git 教程
Git 教程

共21课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号