0

0

追求性能第一部分:内联 C、OpenMP 和 Perl 数据语言 (PDL)

王林

王林

发布时间:2024-07-27 09:16:06

|

439人浏览过

|

来源于dev.to

转载

追求性能第一部分:内联 c、openmp 和 perl 数据语言 (pdl)

有时,一个人的代码必须简单地执行,而诸如美观、“聪明”或对单一语言解决方案的承诺之类的原则则完全不适用。
在 tprc 我做了一个演讲(这里是幻灯片)关于如何做到这一点
可以针对生物信息学应用程序完成,但我认为有必要使用一个更简单的示例来说明最大化 perl 性能的潜在场所
程序员在数据密集型应用程序中工作时可以随意使用。

所以这是一个玩具问题来说明这些选项。给定一个非常大的双精度浮点数组使用以下函数将它们变换cos(sin(sqrt(x)))
该函数有 3 个嵌套的浮点运算。这是一个评估成本高昂的函数,尤其是在必须计算大量值的情况下。我们可以合理生成
使用以下代码快速获取 perl 中的数组值(以及我们将要检查的解决方案的一些副本):

my $num_of_elements = 50_000_000;
my @array0 = map { rand } 1 .. $num_of_elements;    ## generate random numbers
my @array1 = @array0;                               ## copy the array
my @array2 = @array0;                               ## another copy
my @array3 = @array0;                               ## yet another copy
my @rray4  = @array0;                               ## the last? copy
my $array_in_pdl      = pdl(@array0);    ## convert the array to a pdl ndarray
my $array_in_pdl_copy = $array_in_pdl->copy;    ## copy the pdl ndarray

可能的解决方案包括以下:

在 perl 中使用 for 循环进行就地修改。

for my $elem (@array0) {
    $elem = cos( sin( sqrt($elem) ) );
}

使用内联 c 代码遍历数组并在 c 中就地转换。 。有效地使用 c 进行就地映射。在 c 中访问 perl 数组(c 中的 av*)的元素尤其如此
如果使用 perl 5.36 及更高版本,则性能更高,因为该版本的 perl 中引入了优化的获取函数。

void map_in_c(av *array) {
  int len = av_len(array) + 1;
  for (int i = 0; i < len; i++) {
    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above
    if (elem != null) {
      double value = svnv(*elem);
      value = cos(sin(sqrt(value))); // modify the value
      sv_setnv(*elem, value);
    }
  }
}

使用内联 c 代码来转换数组,但将转换分解为 3 个连续的 c for 循环。 这是一个真正关于权衡的实验:现代 x86 处理器有一个专门的,
向量化平方根指令,因此编译器也许可以弄清楚如何使用它来加速至少一部分计算。另一方面,我们将降低算术强度
每个循环并访问相同的数据值两次,因此可能会为这些重复的数据访问付出代价。

void map_in_c_sequential(av *array) {
  int len = av_len(array) + 1;
  for (int i = 0; i < len; i++) {
    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above
    if (elem != null) {
      double value = svnv(*elem);
      value = sqrt(value); // modify the value
      sv_setnv(*elem, value);
    }
  }
  for (int i = 0; i < len; i++) {
    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above
    double value = svnv(*elem);
    value = sin(value); // modify the value
    sv_setnv(*elem, value);
  }
  for (int i = 0; i < len; i++) {
    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above
    double value = svnv(*elem);
    value = cos(value); // modify the value
    sv_setnv(*elem, value);
  }
}

使用 openmp 并行化 c 函数循环。 在上一篇文章中,我们讨论了如何从 perl 中控制 openmp 环境并编译 openmp 感知的 inline::c 代码
由 perl 使用,所以让我们将这些知识付诸实践!在程序的 perl 方面,我们将这样做:

use v5.38;
use alien::openmp;
use openmp::environment;
use inline (
    c    => 'data',
    with => qw/alien::openmp/,
);
my $env = openmp::environment->new();
my $threads_or_workers = 8; ## or any other value
## modify number of threads and make c aware of the change
$env->omp_num_threads($threads_or_workers);
_set_num_threads_from_env();

## modify runtime schedule and make c aware of the change
$env->omp_schedule("guided,1");    ## modify runtime schedule
_set_openmp_schedule_from_env();

在程序的 c 部分,我们将执行此操作(已经讨论了 openmp 环境的辅助函数
之前,因此这里不再重复)。

#include 
void map_in_c_using_omp(av *array) {
  int len = av_len(array) + 1;
#pragma omp parallel
  {
#pragma omp for schedule(runtime) nowait
    for (int i = 0; i < len; i++) {
      sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above
      if (elem != null) {
        double value = svnv(*elem);
        value = cos(sin(sqrt(value))); // modify the value
        sv_setnv(*elem, value);
      }
    }
  }
}

perl 数据语言 (pdl) 可以拯救你。 pdl 模块集是另一种加速操作的方法,可以将程序员从 c 语言中解救出来。它还能在给定正确指令的情况下自动并行化,所以为什么不使用它呢?

use pdl;
## set the minimum size problem for autothreading in pdl
set_autopthread_size(0);
my $threads_or_workers = 8; ## or any other value

## pdl
## use pdl to modify the array - multi threaded
set_autopthread_targ($threads_or_workers);
$array_in_pdl->inplace->sqrt;
$array_in_pdl->inplace->sin;
$array_in_pdl->inplace->cos;


## use pdl to modify the array - single thread
set_autopthread_targ(0);

$array_in_pdl_copy->inplace->sqrt;
$array_in_pdl_copy->inplace->sin;
$array_in_pdl_copy->inplace->cos;

使用8个线程我们得到这样的东西

uBrand
uBrand

一站式AI品牌创建平台,在线品牌设计,AI品牌策划,智能品牌营销;uBrand帮助创业者轻松打造个性品牌!

下载
inplace benchmarks
inplace  in         perl took 2.85 seconds
inplace  in perl/mapcseq took 1.62 seconds
inplace  in    perl/mapc took 1.54 seconds
inplace  in   perl/c/omp took 0.24 seconds

pdl benchmarks
inplace  in     pdl - st took 0.94 seconds
inplace  in     pdl - mt took 0.17 seconds

使用16个线程我们得到了这个!

Starting the benchmark for 50000000 elements using 16 threads/workers

Inplace benchmarks
Inplace  in         Perl took 3.00 seconds
Inplace  in Perl/mapCseq took 1.72 seconds
Inplace  in    Perl/mapC took 1.62 seconds
Inplace  in   Perl/C/OMP took 0.13 seconds

PDL benchmarks
Inplace  in     PDL - ST took 0.99 seconds
Inplace  in     PDL - MT took 0.10 seconds

一些观察:

  • openmp 和 pdl 的多线程 (mt) 会响应工作线程的数量,而解决方案则不会。因此,这些基准测试中纯 perl 和内联非 openmp 解决方案的时序给出了 性能自然变化的想法
  • 用 c 语言编写地图版本的代码,性能提高了约 180%(对比 perl 和 perl/mapc)。
  • 在单线程中使用 pdl 性能提高了 285-300%(对比 pdl - st 和 perl 计时)。
  • 重复内存访问是要付出代价的(对比 perl/mapc 与 perl/mapcseq)
  • openmp 和多线程 pdl 操作提供了类似的性能(尽管 pdl 在这些示例中显得更快)。代码运行速度快了 23-30 倍。
总之,在 perl 中,有原生(pdl 模块)和外来(c/openmp)解决方案来加速数据密集型操作,那么为什么不广泛而明智地使用它们来提高 perl 程序的性能呢?

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

525

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

187

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

19

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

17

2026.01.21

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

28

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

7

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

20

2026.01.31

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

漫画防走失登陆入口大全
漫画防走失登陆入口大全

2026最新漫画防走失登录入口合集,汇总多个稳定可用网址,助你畅享高清无广告漫画阅读体验。阅读专题下面的文章了解更多详细内容。

8

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.1万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

Excel 教程
Excel 教程

共162课时 | 14.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号