通义千问api调用成本取决于模型规格、token数量、缓存与批量推理等因素;qwen-plus等低价模型、合理控制上下文长度、启用缓存及批量推理可显著降本。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您正在评估通义千问API的调用成本,需注意其计费结构依赖于模型规格、输入/输出token数量、是否启用缓存或批量推理等多重因素。以下是当前生效的详细计费标准与对应省钱策略:
一、按模型规格区分的基础单价
不同模型的每千tokens费用差异显著,直接影响整体成本。选择适配业务需求的最小必要模型可大幅降低支出。
1、qwen-plus:调整后为0.02元/千tokens(输入与输出合计计费)。
2、qwen-72b-chat(开源):调整后为0.02元/千tokens。
3、qwen-max系列(含max、max-1201、max-longcontext):统一为0.12元/千tokens,不再提供免费调用额度。
4、qwen1.5系列:qwen1.5-7b-chat为0.006元/千tokens,qwen1.5-14b-chat为0.008元/千tokens,qwen1.5-72b-chat为0.02元/千tokens。
5、qwen-vl系列:qwen-vl-plus为0.008元/千tokens,qwen-vl-max为0.02元/千tokens。
二、上下文长度分档计价规则
针对qwen-plus长文本推理服务,输入长度越长,单位token价格越高,但支持缓存与批量推理折扣,合理规划输入长度可优化成本。
1、输入≤128k:输入0.0008元/千tokens,输出0.002元/千tokens;思考模式下输出升至0.008元/千tokens。
2、128k<输入≤256k:输入升至0.0024元/千tokens,输出升至0.02元/千tokens。
3、256k<输入≤1M:输入达0.0048元/千tokens,输出达0.048元/千tokens;思考模式输出最高0.064元/千tokens。
三、缓存机制带来的成本压缩方案
缓存命中可显著降低重复请求的token费用,尤其适用于固定模板、高频问答等场景,需主动启用显式缓存或依赖系统隐式缓存策略。
1、隐式缓存命中:按输入token标准单价的20%收费,例如qwen-plus输入原价0.0008元/千tokens,命中后仅收0.00016元/千tokens。
2、显式缓存创建:按输入token标准单价的125%计费,后续命中则仅收标准单价的10%,即qwen-plus显式缓存命中费用为0.00008元/千tokens。
3、显式缓存创建(思考模式):同样按125%计费,命中后亦为10%标准单价,与普通显式缓存一致。
四、批量推理折扣应用方式
当请求支持batch调用时,输入与输出token单价均按实时推理价格的50%计费,适合后台批量处理任务,但需确保请求结构兼容batch格式。
1、qwen-plus批量推理输入:由0.0008元/千tokens降至0.0004元/千tokens。
2、qwen-plus批量推理输出:由0.002元/千tokens降至0.001元/千tokens。
3、思考模式下批量推理输出:由0.008元/千tokens降至0.004元/千tokens。
五、免费额度与试用权益利用路径
新用户可通过官方渠道获取初始资源,避免首月产生实际费用,同时控制并发与使用节奏以延长免费周期。
1、百炼平台新用户可免费领取超7000万Tokens,覆盖中低频调用场景。
2、通义听悟类服务提供新开通用户90天免费试用期,期间不收取费用。
3、每日免费额度为48小时服务时长,当日用尽后需等待24小时重置。










