贾扬清公司高效率带头的大型推理成本排行榜出炉

王林

发布时间：2024-01-26 14:15:34

723人浏览过

来源于51CTO.COM

转载

「大模型的 API 是个亏本买卖吗？」

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

随着大语言模型技术的实用化，许多科技公司推出了大模型 API，供开发者使用。然而，我们不禁开始怀疑基于大模型的业务能否持续下去，尤其是考虑到OpenAI每天烧掉70万美元的情况。

本周四，AI 创业公司 Martian 为我们仔细盘算了一下。

大模型推理成本排行榜来了：贾扬清公司效率领跑

排行榜链接：https://leaderboard.withmartian.com/

歌者PPT

歌者PPT，AI 写 PPT 永久免费

下载

The LLM Inference Provider Leaderboard is an open-source ranking of API inference products for large models. It benchmarks the cost, rate limits, throughput, and P50 and P90 TTFT for the Mixtral-8x7B and Llama-2-70B-Chat public endpoints of each vendor.

虽然互为竞争关系，但 Martian 发现各家公司的大模型服务在成本、吞吐量和速率限制方面存在显著的差异。这些差异超过了5倍的成本差异、6倍的吞吐量差异，甚至还有更大的速率限制差异。选择不同的API对于获得最佳性能至关重要，尽管只是业务开展的一部分。

根据当前排名，Anyscale 提供的服务在Llama-2-70B的中等服务负载下具有最佳的吞吐量。对于大型服务负载，Together AI在Llama-2-70B和Mixtral-8x7B上的P50和P90吞吐量表现最佳。

此外，贾扬清的 LeptonAI 在处理短输入和长输出提示的小任务负载时，表现出最佳的吞吐量。其达到的130 tks/s的P50吞吐量，是目前市面上所有厂商提供的模型产品中最快的。

知名 AI 学者、Lepton AI 创始人贾扬清在排行榜放出后第一时间进行了点评，让我们看看他是如何说的。

大模型推理成本排行榜来了：贾扬清公司效率领跑

贾扬清首先阐述了人工智能领域行业现状，然后肯定了基准测试的意义，最后指出 LeptonAI 将帮用户找到最好的 AI 基础策略。

1. 大模型 API 正在「烧钱」

如果模型在高工作负载基准测试中处于领先地位，那么恭喜，它正在「烧钱」。

LLM 推理公共 API 的容量就像是经营一家餐馆：有厨师，需要估算客流量。聘请厨师是要花钱的。延迟和吞吐量可以理解为「你为顾客做饭的速度有多快」。对于一个合理的生意，你需要有「合理」数量的厨师。换句话说，你希望拥有能够承载正常流量的容量，而不是在几秒钟内突然爆发的流量。流量激增意味着需要等待；反之，「厨师」则会无所事事。

在人工智能世界中，GPU 扮演着「厨师」的角色。基准负载是突发的。在低工作负载下，基准负载会混合到正常的流量中，并且测量结果可以准确表示服务在当前工作负载下的情况。

高服务负载场景则很有趣，因为会带来中断。基准测试每天 / 每周仅运行几次，因此不是人们应该期望的常规流量。想象一下，让 100 个人涌入当地的餐馆来检查厨师做菜的速度，结果会很不错。借用量子物理学的术语，这被称为「观察者效应」。干扰越强（即突发负载越大），其精度就越低。换句话说：如果您给某个服务突然提供高负载，并发现该服务响应速度非常快，那么您就知道该服务有相当多的闲置容量。作为投资者，看到这种情况，你应该质问：这种烧钱的方式负责任吗？

2. 模型最终会达到相似的表现

人工智能领域很喜欢竞争比赛，这的确很有趣。大家都会很快收敛到相同的解决方案，并且，由于 GPU 的原因，英伟达总是最终的赢家。这要归功于伟大的开源项目，vLLM 就是一个很好的例子。这意味着，作为提供商，如果您的模型性能比其他模型差很多，您可以通过查看开源解决方案并应用良好的工程来轻松赶上。

3.「作为客户，我不关心提供商的成本」

对于人工智能应用程序构建者来说，我们很幸运：总是有 API 提供商愿意「烧钱」。AI 行业正在烧钱来获得流量，下一步才是担心利润。

基准测试是一项乏味且容易出错的工作。无论好坏，通常都会发生成功者赞扬你而失败者指责你的情况。上一轮卷积神经网络基准测试就是如此。这不是一件容易的事，但基准测试将帮助我们在人工智能基础设施方面获得下一个 10 倍的收益。

基于人工智能框架和云基础设施，LeptonAI 将帮用户找到最好的 AI 基础策略。

Canva如何自动生成海报_CanvaAI海报制作步骤【指南】

Claude Code 的 PHP 架构增强工具：Awesome Claude Code

AWE2026开幕：聚焦AI科技，呈现产业升级新成果

京东亮相AWE2026呈现全景AI生态让前沿科技从展台走进千家万户

QClaw怎么让AI帮我预订会议室_QClaw日历集成与日程管理【教程】

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2915

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板