用subprocess启动隔离进程比exec更安全,必须通过操作系统权限隔离用户代码;实操需设超时、资源限制、空环境变量、禁用网络,并用cgroups/prlimit控内存,禁第三方包,分块读取输出。

用 subprocess 启动隔离进程比 exec 安全得多
直接在当前 Python 进程里跑用户代码,等于把 __import__、open、os.system 全部敞开——哪怕删了 builtins 里的函数,也能通过 getattr + __import__ 绕过。必须让代码在独立进程里跑,靠操作系统做权限隔离。
实操建议:
- 用
subprocess.run启动一个干净的python -c或临时脚本,传入超时、资源限制(ulimit)、工作目录和空环境变量(env={}) - 禁用网络:Linux 下用
unshare -r -n或firejail --net=none;macOS 只能靠networksetup -setairportpower预先关 Wi-Fi(不完美但可兜底) - 别信
timeout命令本身——它可能被子进程 fork 绕过,必须用subprocess.run(..., timeout=5)的 Python 原生超时
resource.setrlimit 能控内存但对 Python 对象无效
Python 的 list、dict 分配的是堆内存,RLIMIT_AS 或 RLIMIT_DATA 确实能限制总虚拟内存,但 CPython 内部会预分配、复用内存块,导致实际触发限制比预期晚,甚至不触发。
常见错误现象:用户跑 [0] * 10**9 却没被 kill,反而拖垮宿主机器。
立即学习“Python免费学习笔记(深入)”;
实操建议:
- 优先用 cgroups(Linux)或
prlimit包裹子进程:prlimit --as=100000000 --cpu=5 python user_code.py - 在子进程中主动调用
resource.setrlimit(resource.RLIMIT_AS, (100_000_000, -1)),但得在import之前设,否则模块加载已占内存 - 不要依赖
sys.getsizeof估算——它不计嵌套对象、不计 GC 开销,纯误导
用户代码 import 第三方包?默认一律拒绝
沙箱里装全量 pip install 的包,等于把攻击面扩大百倍。requests 可发请求,pandas 可读本地文件,sqlalchemy 可连数据库——全不是沙箱该干的事。
使用场景:只允许标准库,或极少数白名单模块(如 numpy 计算用),且需提前编译好 wheel 并冻结路径。
实操建议:
- 启动子进程时设置
PYTHONPATH=""和PYTHONNOUSERSITE=1,再删掉site-packages目录的读权限 - 重写
__import__或用sys.meta_path插入自定义 finder,但容易漏掉importlib.import_module等绕过方式——不如进程级隔离可靠 - 如果真要支持某个包,用
pip install --target ./sandbox-lib单独部署,然后只把这个路径加进子进程的PYTHONPATH
输出截断和编码错误比逻辑错误更常导致崩溃
用户代码 print 一个 1GB 字符串,或输出含 \x00 的二进制数据,subprocess.run 默认的 stdout=subprocess.PIPE 会把全部内容读进内存,直接 OOM;若用 text=True 但用户输出非 UTF-8,又会抛 UnicodeDecodeError 中断整个沙箱。
实操建议:
- 永远用
stdout=subprocess.PIPE+stderr=subprocess.PIPE,但配合stdout.read(65536)分块读取,超长则kill进程并标记“输出过大” - 读取时用
stdout.read().decode('utf-8', errors='replace'),别用text=True——后者在 decode 失败时直接炸 - 记录原始
returncode、截断标志、实际读取字节数,这三者比“报错信息”更能定位是用户代码问题还是沙箱配置问题
真正难的不是限制资源,而是当用户代码用 ctypes 调 mmap、用 threading 拉 1000 个线程、或用 gc.disable() 抗回收时,你怎么在不杀进程的前提下感知到异常行为——这些没法靠单一机制防住,得组合日志、cgroup 统计、ptrace 样本采样才行。










