Python中实现主脚本与独立后台任务并发执行及并发限制的教程-Python教程-PHP中文网

Python中实现主脚本与独立后台任务并发执行及并发限制的教程

本教程详细探讨了如何在python中实现主脚本与多个独立后台任务的并发执行，并有效管理并发任务数量。文章介绍了从基础线程（`threading`）到线程池（`concurrent.futures.threadpoolexecutor`）的应用，以及如何通过信号量（`threading.semaphore`和`asyncio.semaphore`）精确控制任务的调度和并发上限。此外，还涵盖了异步编程（`asyncio`）作为处理i/o密集型后台任务的强大替代方案，旨在帮助开发者构建高效、稳定的并发系统。

在现代应用程序开发中，经常会遇到主程序需要持续运行，同时又需要触发一些耗时但又不影响主程序流程的后台任务的场景。例如，一个监控机器人需要每隔一段时间检查库存状态，一旦发现商品有货，就立即发送通知给一部分用户，并延迟一段时间后发送给另一部分用户。这种情况下，延迟发送的通知任务不应阻塞主监控循环，且可能存在多个此类延迟任务同时进行，但需要限制其总数。本文将深入探讨Python中实现此类并发任务管理的多种策略。

1. 理解并发需求

核心需求可以概括为：

主脚本（Main Script）：周期性运行（例如每3分钟），执行核心逻辑（例如检查商品库存）。
后台任务（Script 2）：由主脚本触发，独立运行，通常包含一个延迟（例如10分钟），然后执行一个快速操作（例如发送邮件），完成后自行终止。
非阻塞性：后台任务的执行不应阻塞主脚本的正常运行。
多实例：主脚本可能会在第一个后台任务完成之前，再次触发新的后台任务实例。
并发限制：需要限制同时运行的后台任务实例的最大数量，以避免资源耗尽。

针对这些需求，Python提供了多种并发编程模型，包括多线程、多进程和异步IO。

2. 使用基本线程实现并发

最直接的实现方式是使用Python的threading模块创建新线程来执行后台任务。每个后台任务都在一个独立的线程中运行，不会阻塞主线程。

立即学习“Python免费学习笔记（深入）”；

import time
import random
from threading import Thread

def background_task():
    """后台任务：模拟10秒延迟后完成操作"""
    print("后台任务：开始休眠10秒...")
    time.sleep(10)
    print("后台任务：休眠结束，操作完成。")

def main_script():
    """主脚本：每3秒检查一次条件，满足则启动后台任务"""
    while True:
        print("主脚本：开始休眠3秒...")
        time.sleep(3)
        print("主脚本：休眠结束。")

        # 模拟一个随机条件触发后台任务
        if random.random() > 0.5:
            print("主脚本：条件满足，启动后台任务。")
            t = Thread(target=background_task)
            t.start()
        else:
            print("主脚本：条件不满足。")

if __name__ == "__main__":
    main_script()

登录后复制

说明：

魔搭MCP广场

聚合优质MCP资源，拓展模型智能边界

查看详情

background_task函数模拟了后台任务的延迟和执行。
main_script函数是主循环，每隔3秒检查一个随机条件。
当条件满足时，通过threading.Thread(target=background_task)创建一个新线程，并调用t.start()使其开始执行。
新线程启动后，主线程会立即继续执行，不会等待后台任务完成。

注意事项： 这种方法虽然简单，但存在一个潜在问题：如果主脚本频繁触发后台任务，可能会创建无限数量的线程，导致系统资源耗尽。因此，需要一种机制来限制并发任务的数量。

3. 使用线程池管理并发任务

为了更好地管理和限制并发线程的数量，Python提供了concurrent.futures模块，其中的ThreadPoolExecutor可以创建一个线程池。线程池会自动管理线程的创建和销毁，并限制同时运行的线程数量。

from concurrent.futures import ThreadPoolExecutor
import random
import time

# 创建一个线程池，最大并发线程数为3（根据实际需求调整）
# 示例中为了演示效果，使用较小的池大小，实际应用中可根据任务特性和系统资源调整
thread_pool = ThreadPoolExecutor(max_workers=3) 

def background_task():
    """后台任务：模拟10秒延迟后完成操作"""
    print("后台任务：开始休眠10秒...")
    time.sleep(10)
    print("后台任务：休眠结束，操作完成。")

def main_script_with_pool():
    """主脚本：使用线程池管理后台任务"""
    while True:
        print("主脚本：开始休眠3秒...")
        time.sleep(3)
        print("主脚本：休眠结束。")

        if random.random() > 0.5:
            print("主脚本：条件满足，提交后台任务到线程池。")
            thread_pool.submit(background_task)
        else:
            print("主脚本：条件不满足。")

if __name__ == "__main__":
    main_script_with_pool()

登录后复制

说明：

ThreadPoolExecutor(max_workers=3)创建了一个最多可同时运行3个线程的线程池。
thread_pool.submit(background_task)将任务提交给线程池。如果线程池中有空闲线程，任务会立即执行；如果没有，任务会在队列中等待，直到有线程可用。

注意事项：ThreadPoolExecutor确实限制了同时运行的线程数量。然而，submit方法会将任务放入一个内部队列。这意味着，即使所有线程都在忙碌，主脚本仍然可以无限地向线程池提交任务，导致队列无限增长，这可能仍然会消耗大量内存。如果需要限制已调度任务（包括正在运行和等待队列中的任务）的总数，就需要引入信号量。

4. 使用信号量控制任务调度

信号量（Semaphore）是一种同步原语，用于限制对共享资源的并发访问数量。在这里，我们可以用它来限制正在执行或等待执行的后台任务的总数。当信号量计数器达到上限时，主脚本在尝试获取信号量时会被阻塞，直到有任务完成并释放信号量。

from concurrent.futures import ThreadPoolExecutor
from threading import Semaphore
import random
import time

# 创建一个线程池，最大并发线程数为3
thread_pool = ThreadPoolExecutor(max_workers=3) 
# 创建一个信号量，允许最多5个任务（包括正在运行和等待的）被调度
# 信号量的大小应大于或等于线程池的大小，以允许线程池充分利用
task_semaphore = Semaphore(5) 

def background_task_with_semaphore():
    """后台任务：模拟10秒延迟后完成操作，完成后释放信号量"""
    try:
        print("后台任务：开始休眠10秒...")
        time.sleep(10)
        print("后台任务：休眠结束，操作完成。")
    finally:
        # 无论任务成功或失败，都必须释放信号量
        task_semaphore.release()
        print("后台任务：信号量已释放。")

def main_script_with_semaphore():
    """主脚本：使用线程池和信号量管理后台任务"""
    while True:
        print("主脚本：开始休眠3秒...")
        time.sleep(3)
        print("主脚本：休眠结束。")

        if random.random() > 0.5:
            print("主脚本：条件满足，尝试获取信号量...")
            # 尝试获取信号量，如果当前任务数已达上限，主脚本会在此处阻塞
            task_semaphore.acquire() 
            print("主脚本：信号量已获取，提交后台任务到线程池。")
            # 提交任务到线程池，任务完成后会自行释放信号量
            thread_pool.submit(background_task_with_semaphore)
        else:
            print("主脚本：条件不满足。")

if __name__ == "__main__":
    main_script_with_semaphore()

登录后复制

说明：

task_semaphore = Semaphore(5)创建了一个初始值为5的信号量。这意味着在任何时候，最多可以有5个任务（包括正在运行和在线程池队列中等待的）被“调度”。
在提交任务之前，主脚本调用task_semaphore.acquire()。如果信号量的内部计数器为0（即已达到5个任务的上限），acquire()会阻塞主脚本，直到有任务完成并调用release()。
background_task_with_semaphore函数在任务完成（或发生异常）后，通过task_semaphore.release()释放信号量，允许其他等待的任务被调度。finally块确保信号量总是被释放。

优点： 这种方法能够精确控制同时处于“活跃”状态（运行中或等待中）的任务总数，防止任务队列无限增长，从而有效管理系统资源。

5. 使用异步IO（asyncio）实现并发

对于I/O密集型任务（如网络请求、文件读写、延迟等待），Python的asyncio库提供了一种基于协程的并发模型。它通过单个线程的事件循环来高效地管理大量并发操作，避免了线程切换的开销。

import asyncio
import random

# 创建一个异步信号量，限制最多3个并发任务
async_task_semaphore = asyncio.Semaphore(3) 

async def async_background_task():
    """异步后台任务：模拟10秒延迟后完成操作，完成后释放信号量"""
    try:
        print("异步后台任务：开始休眠10秒...")
        await asyncio.sleep(10) # 使用await进行非阻塞休眠
        print("异步后台任务：休眠结束，操作完成。")
    finally:
        async_task_semaphore.release()
        print("异步后台任务：信号量已释放。")

async def async_main_script():
    """异步主脚本：使用异步信号量管理后台任务"""
    while True:
        print("异步主脚本：开始休眠3秒...")
        await asyncio.sleep(3) # 使用await进行非阻塞休眠
        print("异步主脚本：休眠结束。")

        if random.random() > 0.5:
            print("异步主脚本：条件满足，尝试获取异步信号量...")
            # 尝试获取异步信号量，如果任务数已达上限，主脚本会在此处暂停（非阻塞）
            await async_task_semaphore.acquire() 
            print("异步主脚本：异步信号量已获取，创建异步任务。")
            # 创建并调度一个异步任务
            asyncio.create_task(async_background_task())
        else:
            print("异步主脚本：条件不满足。")

if __name__ == "__main__":
    asyncio.run(async_main_script())

登录后复制

说明：

asyncio.Semaphore(3)创建了一个异步信号量，用于限制并发协程的数量。
async关键字定义协程函数，await关键字用于暂停协程的执行，等待一个异步操作完成，同时允许事件循环执行其他任务。
await async_task_semaphore.acquire()会在信号量达到上限时，非阻塞地暂停当前协程，直到信号量可用。
asyncio.create_task(async_background_task())用于在事件循环中调度一个协程作为独立的任务运行。
asyncio.run(async_main_script())启动asyncio事件循环并运行主协程。

优点：asyncio特别适合处理大量I/O密集型任务，因为它避免了多线程/多进程的上下文切换开销，能够以更低的资源消耗实现高并发。

6. 多进程（Multiprocessing）的考虑

虽然上述示例主要聚焦于线程和异步IO，但多进程（multiprocessing）也是一种实现并发的方式。当任务是CPU密集型时（例如大量计算），由于Python的全局解释器锁（GIL）限制了同一时刻只有一个线程能执行Python字节码，多进程能更好地利用多核CPU。

concurrent.futures模块也提供了ProcessPoolExecutor，其用法与ThreadPoolExecutor类似，可以用来创建进程池并管理并发进程。与线程类似，进程池也可以结合multiprocessing.Semaphore来限制任务的调度。

from concurrent.futures import ProcessPoolExecutor
from multiprocessing import Semaphore # 注意这里是multiprocessing的Semaphore
import random
import time

# 创建一个进程池，最大并发进程数为3
process_pool = ProcessPoolExecutor(max_workers=3)
# 创建一个进程信号量
process_semaphore = Semaphore(5)

def cpu_bound_task():
    """模拟一个CPU密集型任务"""
    print("进程任务：开始计算...")
    # 模拟计算
    sum(range(10**7)) 
    print("进程任务：计算完成。")
    process_semaphore.release()

def main_script_with_process_pool():
    while True:
        print("主脚本：开始休眠3秒...")
        time.sleep(3)
        print("主脚本：休眠结束。")

        if random.random() > 0.5:
            print("主脚本：条件满足，尝试获取进程信号量...")
            process_semaphore.acquire()
            print("主脚本：进程信号量已获取，提交进程任务到进程池。")
            process_pool.submit(cpu_bound_task)
        else:
            print("主脚本：条件不满足。")

if __name__ == "__main__":
    main_script_with_process_pool()

登录后复制

选择建议：

I/O密集型任务（如网络请求、文件读写、延时等待）：推荐使用asyncio或ThreadPoolExecutor。asyncio通常更高效，但代码结构需要适应async/await模式。
CPU密集型任务（如复杂计算、数据处理）：推荐使用ProcessPoolExecutor，因为它能绕过GIL，真正实现并行计算。
简单后台任务且并发量可控：ThreadPoolExecutor结合threading.Semaphore是简洁有效的方案。

7. 总结与最佳实践

本文详细介绍了在Python中实现主脚本与独立后台任务并发执行，并有效控制并发数量的多种方法。

基础线程 (threading.Thread)：适用于偶尔触发的、数量极少的后台任务，但不适合高并发场景。
线程池 (concurrent.futures.ThreadPoolExecutor)：能够限制同时运行的线程数量，但无法限制任务队列的长度。
线程池 + 信号量 (ThreadPoolExecutor + threading.Semaphore)：这是最推荐的方案之一，能够精确控制正在运行和等待执行的任务总数，有效防止资源耗尽。
异步IO (asyncio + asyncio.Semaphore)：对于I/O密集型任务，asyncio提供了极高的效率和并发能力，是现代Python并发编程的首选。
进程池 (ProcessPoolExecutor)：适用于CPU密集型任务，能够充分利用多核处理器，但进程间通信开销较大。