0

0

Python 多模态大模型的 LLaVA / Qwen-VL 推理

冷漠man

冷漠man

发布时间:2026-02-16 12:12:52

|

943人浏览过

|

来源于php中文网

原创

多模态模型部署常见问题包括:autoprocessor加载失败需手动构造;qwen-vl属性名不匹配需查dir(model);多图输入须单图处理;显存优化需降精度、调图像尺寸并避免torch.compile。

python 多模态大模型的 llava / qwen-vl 推理

LLaVA 加载模型时卡在 AutoProcessor.from_pretrained

常见现象是下载卡住、报 ConnectionError 或返回空 processor。这不是代码写错了,而是 Hugging Face 默认尝试加载远程 tokenizer + image processor 配置,但部分多模态模型(如原始 LLaVA-1.5)没把 processor 配置推到 Hub,或用了非标准字段。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 手动构造 processor:用 CLIPImageProcessor 处理图像,LlamaTokenizer(或对应 base 模型的 tokenizer)处理文本,别依赖 AutoProcessor
  • 检查模型路径是否含 llava-v1.5 类字样——这类权重通常不带完整 processor,得按其 GitHub README 手动拼接组件
  • 若用 llava-hf/llava-1.5-7b-hf 这类 HF 官方封装版,确认 transformers >= 4.36,旧版本会因缺少 LlavaProcessor 类而 fallback 失败

Qwen-VL 推理时报错 AttributeError: 'Qwen2VLForConditionalGeneration' object has no attribute 'model'

这是 transformers 版本和模型结构不匹配的典型症状。Qwen-VL 系列(尤其是 Qwen2-VL)内部结构和 LLaMA 不同,它的语言模型主干叫 language_model,不是通用的 model 属性。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 别直接调 model.modelmodel.transformer ——先 print dir(model) 看真实属性名
  • 图像 token 插入逻辑必须走 model.get_vision_tower()model.get_mm_projector(),不能硬套 LLaVA 的 model.vision_tower
  • 使用 qwen-vl 官方 repo 的 QwenVLProcessor,而非 transformers 自带的 AutoProcessor,后者不识别 image 字段的嵌套格式

多图输入时 batch 推理崩掉或输出错乱

LLaVA / Qwen-VL 均不原生支持「单 prompt + 多图」的 batch 维度对齐。你传入 [img1, img2] 和一个 prompt,模型内部会把两张图 flatten 成一串 patch tokens,但 attention mask 和 position id 很容易没对齐,导致生成乱码或 CUDA error。

今天学点啥
今天学点啥

秘塔AI推出的AI学习助手

下载

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 强制单图 per sample:哪怕你要比对两张图,也拆成两个独立样本,用 torch.cat 合并 logits 再后处理
  • Qwen-VL 支持 patch_size 动态缩放,但 batch 内所有图必须等宽高比,否则 image_grid_thw 计算会出错;预处理时统一 resize + pad,别只 crop
  • LLaVA 的 image_newline token 是 per-image 插入的,batch 中某张图缺这个 token,整个 batch 的 token offset 就全偏了

本地部署时显存爆掉,OOM when allocating tensor

多模态模型的视觉编码器(ViT)本身就很吃显存,再加上大语言模型,哪怕 7B 参数 + 448×448 图像,A100 80G 也可能扛不住。问题常出在图像预处理阶段:默认用 float32 加载 PIL 图,再转 tensor,中间没释放。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 图像加载后立刻 .to(torch.bfloat16).half(),ViT encoder 通常兼容,别等进 model 才转
  • 禁用 torch.compile:目前多模态 forward 中存在动态 shape(如不同图 patch 数不同),torch.compile 会反复 recompile 导致显存泄漏
  • Qwen-VL 的 max_image_size 默认是 1280,实际推理时设成 448512 能省一半显存,但注意别小到让文字区域被裁掉

真正麻烦的是图像 token 和文本 token 的长度耦合——改图尺寸不仅影响 vision encoder,还牵连 language model 的 KV cache 长度。这点很容易被忽略,调参时得两边一起看。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

12

2026.02.03

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

339

2023.10.25

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6394

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

835

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1084

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1591

2024.03.01

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

145

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号