0

0

OpenAI API速率限制管理:理解并优化Run状态轮询机制

霞舞

霞舞

发布时间:2025-09-23 11:21:12

|

763人浏览过

|

来源于php中文网

原创

OpenAI API速率限制管理:理解并优化Run状态轮询机制

在使用OpenAI Assistants API时,因run状态轮询操作被计入API请求速率限制而导致的常见问题。即使在请求间加入固定延迟,用户仍可能遭遇速率限制错误。文章详细分析了问题根源,即client.beta.threads.runs.retrieve调用频繁消耗请求配额,并提供了通过在轮询循环内引入策略性延迟来有效管理和规避速率限制的解决方案,确保API调用的稳定性和可靠性。

理解OpenAI API速率限制机制

openai api为了确保服务的公平性和稳定性,对不同账户和模型设定了严格的速率限制(rate limits)。这些限制通常以每分钟请求数(rpm - requests per minute)和每分钟令牌数(tpm - tokens per minute)的形式体现。当您的应用程序在短时间内发出的请求超过了这些预设的限制时,api会返回rate_limit_exceeded错误。

对于许多开发者而言,理解哪些操作会被计入速率限制至关重要。例如,一个常见的误解是,只有显式地创建消息或运行(client.beta.threads.messages.create、client.beta.threads.runs.create)才会计入请求数。然而,实际上,许多辅助性操作,如轮询Run的状态,同样会消耗您的请求配额。

Run状态轮询:隐藏的速率消耗者

在使用OpenAI Assistants API时,一个典型的流程是:

  1. 创建文件(client.files.create)
  2. 创建消息(client.beta.threads.messages.create)
  3. 创建运行(client.beta.threads.runs.create)
  4. 轮询运行状态直到完成(client.beta.threads.runs.retrieve)
  5. 获取结果(client.beta.threads.messages.list)

问题通常出现在第四步:轮询运行状态。为了确定助手是否已完成其任务,我们需要反复调用client.beta.threads.runs.retrieve来检查run.status。这个retrieve操作本身就是一次API请求,它会实时计入您的速率限制。

考虑以下场景:如果您的速率限制是每分钟3个请求(3 RPM),并且您在每次主请求之间加入了20秒的time.sleep(20)。这看起来足以将主请求频率控制在3 RPM以内。然而,如果在每次主请求的内部,您又在一个while循环中频繁地调用client.beta.threads.runs.retrieve来检查状态,那么这些内部的retrieve调用会迅速耗尽您的请求配额。

例如,一个Run可能需要几秒钟甚至更长时间才能完成。在这期间,while循环可能会每秒钟执行一次retrieve调用。即使一个Run只持续10秒,也可能产生10次额外的API请求。如果您的主请求间隔是20秒,而内部轮询在短时间内产生了大量请求,总请求数很容易超过每分钟3次的限制。这就是为什么有时程序会在处理第一个文件时失败,有时在第三个文件时失败,因为失败的时机取决于Run的实际处理时长以及内部轮询的频率。

优化速率限制管理策略

为了有效管理和规避这种类型的速率限制问题,核心在于控制所有API调用的频率,而不仅仅是主操作。

1. 在轮询循环中引入策略性延迟

最直接的解决方案是在while循环内部,每次调用client.beta.threads.runs.retrieve之后,也加入一个适当的延迟。这个延迟应该足够长,以确保即使在最坏情况下,内部轮询和外部主请求的总频率也不会超过速率限制。

科大讯飞-AI虚拟主播
科大讯飞-AI虚拟主播

科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;

下载

假设您的速率限制是3 RPM,这意味着平均每20秒才能发出一个请求。如果一个Run平均需要10秒完成,并且您希望在这10秒内只进行少量状态检查,那么每次轮询之间可以设置一个较长的延迟。

示例代码修改:

import pandas as pd
import time
from openai import OpenAI

client = OpenAI(api_key = "[MY API KEY]")
# 建议为每个文件创建一个新的线程,以避免线程内容积累和混淆
# thread = client.beta.threads.create() # 移到循环内部

assistant = client.beta.assistants.create(
    name = "Nomination Hearing Identifier",
    instructions = "Given a complete transcript of a US Senate hearing, determine if this hearing was or was not a nomination hearing. Respond with only 'YES' or 'NO' and do not provide justification.",
    tools = [{"type": "retrieval"}],
    model = "gpt-3.5-turbo-1106"
)

files = ["CHRG-108shrg1910401.txt","CHRG-108shrg1910403.txt", "CHRG-108shrg1910406.txt", "CHRG-108shrg1910407.txt", "CHRG-108shrg1910408.txt", "CHRG-108shrg1910409.txt", "CHRG-108shrg1910410.txt", "CHRG-108shrg1910411.txt", "CHRG-108shrg1910413.txt", "CHRG-108shrg1910414.txt"]

jacket_classifications = pd.DataFrame(columns = ["jacket", "is_nomination"])

for file in files:
    # 为每个文件创建一个新的线程,确保隔离性
    thread = client.beta.threads.create()

    gpt_file = client.files.create(
        file = open(file, "rb"),
        purpose = 'assistants'
    )

    message = client.beta.threads.messages.create(
        thread_id=thread.id,
        role="user",
        content="Determine if the transcript in this file does or does not describe a nomination hearing. Respond with only 'YES' or 'NO' and do not provide justification.",
        file_ids=[gpt_file.id]
    )

    run = client.beta.threads.runs.create(
        thread_id=thread.id,
        assistant_id=assistant.id,
    )

    # 在这里引入一个更长的初始等待,以避免立即开始频繁轮询
    print(f"Waiting for run {run.id} to complete for file {file}...")
    # time.sleep(5) # 可以在这里加一个初始等待,但更重要的是循环内的等待

    while run.status != "completed":
        # 每次轮询前都进行等待,确保retrieve调用频率受控
        # 假设每次retrieve调用需要至少20秒的间隔来满足3 RPM的限制
        # 如果Run本身很快,可以适当缩短,但要保守估计
        print(f"Run status: {run.status}. Sleeping for 10 seconds before next check.")
        time.sleep(10) # 关键:在每次retrieve调用前等待

        run = client.beta.threads.runs.retrieve(
            thread_id=thread.id,
            run_id=run.id
        )

        if run.status == "failed":
            print(f"Run failed for file {file}: {run.last_error}")
            # 可以在这里添加重试逻辑或跳过当前文件
            break # 跳出当前文件的轮询循环

    if run.status == "completed":
        messages = client.beta.threads.messages.list(
            thread_id=thread.id
        )

        output = messages.data[0].content[0].text.value
        is_nomination = 0 # 默认值
        if "yes" in output.lower(): # 统一转换为小写进行判断
            is_nomination = 1

        row = pd.DataFrame({"jacket":[file], "is_nomination":[is_nomination]})
        jacket_classifications = pd.concat([jacket_classifications, row], ignore_index=True) # 使用ignore_index=True

        print(f"Processed file {file}. Result: {output}")
    else:
        print(f"Skipping file {file} due to failed run.")

    # 外部循环的延迟可以根据整体请求频率和模型处理速度调整
    # 如果内部轮询已经有了足够的延迟,这里可以根据需要调整
    print("Sleeping 20 seconds before processing next file to ensure overall API call rate limit not surpassed.")
    time.sleep(20) # 确保下一个文件的初始请求不会立即触发速率限制

jacket_classifications.to_csv("[MY FILE PATH]/test.csv", index=False) # index=False避免写入额外索引列
print("Processing complete. Results saved to CSV.")

代码改进说明:

  • 内部轮询延迟: 在while run.status != "completed"循环内部,每次调用client.beta.threads.runs.retrieve之前添加time.sleep(10)。这个值需要根据您的具体速率限制和Run的平均完成时间进行调整。目标是确保retrieve调用的频率低于速率限制。
  • 线程管理: 将thread = client.beta.threads.create()移到for循环内部。虽然原始问题不直接与此相关,但在处理多个独立文件时,为每个文件创建新线程是更好的实践,可以避免上下文混淆和潜在的令牌使用问题。
  • 错误处理: 增加了对run.status == "failed"的检查,以便在Run失败时能够优雅地处理。
  • 字符串比较: if "yes" in output.lower(): 使得判断不区分大小写,更健壮。
  • DataFrame拼接: pd.concat时使用ignore_index=True是一个好的实践,可以避免索引重复。
  • CSV保存: index=False可以避免将DataFrame的索引写入CSV文件。

2. 指数退避(Exponential Backoff)

对于更健壮的生产系统,建议使用指数退避策略来处理速率限制。当API返回速率限制错误时,不是立即重试,而是等待一个逐渐增长的时间间隔后再重试。许多Python库(如tenacity)都提供了开箱即用的指数退避功能。

3. 监控API使用情况

定期查看OpenAI平台上的账户使用情况和速率限制仪表板(https://www.php.cn/link/2d00ce98adf1abcedcf3cecb0859343a

总结与最佳实践

  • 理解所有API调用: 明确知道哪些操作会计入您的API请求配额,即使是看似辅助性的操作(如状态轮询)。
  • 策略性延迟: 在所有可能导致高频率API调用的循环中,尤其是轮询操作,引入适当的time.sleep延迟。
  • 指数退避: 在生产环境中,结合指数退避机制来处理临时的速率限制错误,提高应用程序的韧性。
  • 监控与调整: 定期检查您的API使用情况,并根据OpenAI的速率限制政策和您的实际需求调整代码中的延迟参数。
  • 优化请求设计: 尽量减少不必要的API调用。例如,如果可能,考虑批量处理数据以减少API请求次数,但这在Assistants API的Run模式下可能不直接适用。

通过上述策略,您可以更有效地管理OpenAI API的速率限制,确保您的应用程序在扩展时能够稳定、可靠地运行。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

775

2023.08.22

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

94

2023.09.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1500

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

623

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

613

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

588

2024.04.29

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号