Python解释器启动时先执行C层初始化(如Py_Initialize),再构建sys.path并加载内置模块,接着创建__main__模块执行用户代码,源码解码则按需在import或执行时进行。

Python 解释器启动时的 C 层初始化
Python 程序真正开始执行前,Py_Initialize()(或更现代的 Py_InitializeEx()、Py_RunMain())会完成底层 C 运行时准备:注册信号处理、初始化内存分配器(如 pymalloc)、设置线程状态(_PyThreadState_Prealloc)、加载内置模块(builtins、sys、gc)到解释器全局字典。这一步不依赖用户代码,失败直接导致 Segmentation fault 或 Abort trap —— 常见于嵌入 Python 的 C 程序未调用 Py_Initialize() 就访问 PyList_New() 等 API。
sys.path 构建与内置模块加载顺序
sys.path 在解释器启动早期就已生成,顺序直接影响模块可发现性:
- 脚本所在目录(若以文件方式运行)或空字符串(
python -c时) -
PYTHONPATH环境变量指定路径 -
标准库路径(由编译时
prefix和exec_prefix决定) -
site-packages(仅当启用site模块时才追加)
注意:site 模块默认启用,但可通过 python -S 禁用——此时不会自动添加 site-packages,也不会执行 .pth 文件,pip install --user 安装的包将不可见。
__main__ 模块创建与用户代码执行入口
当执行 python script.py 时,解释器会动态创建一个名为 __main__ 的模块对象,并将 script.py 的 AST 编译后在该模块的命名空间中执行;而 python -m module_name 则通过 runpy.run_module() 加载对应模块并设为 __main__。关键点:
立即学习“Python免费学习笔记(深入)”;
-
__main__.__file__在脚本模式下是绝对路径,在-m模式下可能是None(如zipimport场景) - 所有顶层语句(包括
import、函数定义、赋值)都在此阶段同步执行,无延迟 -
if __name__ == '__main__':判断在此时才有意义,它只是普通字符串比较,不是特殊语法
编码检测与源码解码的实际时机
Python 不在启动时统一解码所有源码,而是在首次 import 或执行脚本时按需处理。对每个源文件:
- 先读取原始字节流(默认用
locale.getpreferredencoding(),非 UTF-8) - 扫描前 2 行寻找
# -*- coding: utf-8 -*-或# coding=utf-8等声明 - 若未声明且含非 ASCII 字符,会触发
SyntaxError: Non-UTF-8 code starting with ...
这意味着:同一进程中不同模块可用不同编码(只要各自声明正确),但混合使用容易引发隐晦错误;Docker 容器里缺失 LANG=C.UTF-8 环境变量常导致中文路径或注释报错,本质是首行读取阶段用了错误的字节解码器。










