配置Perf和VTune需安装并设置权限,确保编译含-g调试信息,调整kernel.perf_event_paranoid=-1以解决符号缺失;VTune需正确设置环境变量、加载内核模块并检查权限与防火墙,更新版本或查日志排错;分析多线程程序时用-t指定TID、生成火焰图、命名线程、监测锁竞争及调节采样频率。

直接来说,配置 C++ 性能分析工具 Perf 和 VTune 主要涉及安装、环境配置,以及一些权限设置。目标是让它们能顺利收集程序运行时的性能数据,帮助你找到瓶颈。
安装和配置其实各有侧重,Perf 通常是 Linux 系统自带或通过包管理器安装,VTune 则需要下载安装包并激活。关键在于让它们能访问到你的程序,并正确解析符号信息。
安装和配置Perf和VTune,以提升C++性能分析效率
配置好 Perf 和 VTune,能帮你定位到 C++ 代码中的性能瓶颈,但一开始可能会遇到各种问题。
立即学习“C++免费学习笔记(深入)”;
Perf 无法收集符号信息怎么办?
Perf 默认情况下可能无法收集到完整的符号信息,这会导致分析结果难以理解,只能看到地址,看不到函数名。解决这个问题,首先要确保编译时包含了调试信息(
-g选项)。
其次,Perf 需要权限才能访问内核符号。你可以尝试以下几种方法:
-
设置
kernel.perf_event_paranoid
: 这个参数控制了非 root 用户使用 Perf 的权限。你可以通过修改/etc/sysctl.conf
文件来设置:kernel.perf_event_paranoid = -1
然后运行
sudo sysctl -p
使配置生效。-1
表示允许所有用户使用 Perf 的所有功能。 使用
sudo
: 虽然不推荐,但直接使用sudo perf record ...
可以绕过权限问题。-
设置 capabilities: 可以给
perf
命令设置CAP_SYS_ADMIN
capability,允许它访问内核符号。sudo setcap cap_sys_admin+ep /usr/bin/perf
最后,确认你的程序没有被 strip 过,strip 会移除符号信息。 使用
file your_program命令可以查看程序是否包含调试信息。如果被 strip 过,重新编译。
另外,动态链接库的符号信息也可能缺失。确保动态链接库也包含了调试信息,并且 Perf 能够找到它们。 你可以通过设置
LD_LIBRARY_PATH环境变量来帮助 Perf 找到动态链接库。
VTune 启动后无法检测到我的程序?
VTune 有时会无法检测到正在运行的程序,或者无法附加到程序进行分析。这通常是由于权限问题、环境配置问题或 VTune 本身的 bug 导致的。
权限问题: 确保运行 VTune 的用户具有足够的权限来访问目标程序。如果目标程序以 root 权限运行,VTune 也需要以 root 权限运行。
环境变量: VTune 依赖一些环境变量来正确工作。确保
PATH
环境变量包含了 VTune 的可执行文件目录。 检查INTEL_LICENSE_FILE
环境变量是否正确设置,指向有效的 license 文件。防火墙: 防火墙可能会阻止 VTune 与目标程序之间的通信。 尝试暂时禁用防火墙,看看是否能解决问题。
-
内核模块: VTune 依赖一些内核模块来收集性能数据。 确保这些内核模块已经加载。 你可以使用
lsmod | grep vtss
命令来检查 VTune 的内核模块是否加载。如果没有加载,尝试手动加载:sudo modprobe vtss++
VTune 版本: 有时 VTune 的 bug 会导致无法检测到程序。尝试更新到最新版本的 VTune。
远程分析: 如果目标程序在远程机器上运行,确保 VTune 已经配置为远程分析模式,并且远程机器上已经安装了 VTune 的代理程序。
另外,检查 VTune 的日志文件,通常位于
~/.intel/vtune_amplifier/目录下,可以找到更详细的错误信息。
如何使用 Perf 分析多线程 C++ 程序?
分析多线程程序需要特别注意,因为 Perf 默认情况下会记录所有线程的性能数据,这会导致分析结果难以理解。
线程 ID: Perf 可以通过线程 ID (TID) 来过滤数据。你可以使用
perf record -p
来只记录特定线程的性能数据。-t ... 火焰图: 火焰图可以帮助你可视化多线程程序的性能瓶颈。 你可以使用
perf script
命令将 Perf 的输出转换为火焰图可以读取的格式,然后使用火焰图工具生成火焰图。线程命名: 给线程命名可以帮助你更容易地识别线程。可以使用
pthread_setname_np
函数来设置线程名称。锁竞争: 多线程程序中常见的性能瓶颈是锁竞争。 Perf 可以用来分析锁竞争。 你可以使用
perf record -e lock:acquire ...
来记录锁的获取事件。采样频率: 调整采样频率可以影响分析结果的精度。 较高的采样频率会产生更精确的结果,但也会增加分析的开销。 你可以使用
-F
选项来设置采样频率。
在分析多线程程序时,建议先从整体上了解程序的性能概况,然后再深入分析特定线程的性能瓶颈。 结合火焰图和锁竞争分析,可以更有效地定位到性能问题。











