高性能计算导论实验5-通用矩阵乘法基于OpenMP的实现及优化_使用OpenMP实现并行通用矩阵乘法资源-CSDN文库

共12个文件

c：7个

so：1个

sh：1个

矩阵乘法

高性能计算

OpenMP

Pthreads

27 浏览量 2023-05-07 11:27:51 上传评论收藏 725KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

高性能计算导论实验5-通用矩阵乘法基于OpenMP的实现及优化.zip （12个子文件）

libparallel_for.so 16KB

Makefile 339B

parallel_for.c 750B

GEMM_omp_static.c 2KB

GEMM_omp_default.c 2KB

test.sh 589B

高性能计算导论实验5-通用矩阵乘法基于OpenMP的实现及优化-实验报告.docx 763KB

parallel_for.h 208B

GEMM_omp.c 3KB

GEMM.c 2KB

GEMM_parallel.c 2KB

GEMM_omp_dynamic.c 2KB

湖南大学信息科学与工程学院本科生实验报告

（2022 学年秋季学期）

课程名称：高性能计算导论

实验内容

1.通过 OpenMP 实现通用矩阵乘法

通过 OpenMP 实现通用矩阵乘法（实验 1）的并行版本，OpenMP

并行线程从 1 增加至 8，矩阵规模从 512 增加至 2048。

通用矩阵乘法（GEMM）通常定义为：

C = AB

𝐶

m,n

𝑁

𝑛

𝐴

𝑚,𝑛

𝐵

𝑛,𝑘

输入：M , N, K 三个整数（512 ~2048）

问题描述：随机生成 M*N 和 N*K 的两个矩阵 A,B,对这两个矩阵做

乘法得到矩阵 C.

输出：A,B,C 三个矩阵以及矩阵计算的时间（思考下数据依赖）

2.基于 OpenMP 的通用矩阵乘法优化

分别采用 OpenMP 的默认任务调度机制、静态调度 schedule(static,

1) 和动态调度 schedule(dynamic,1)的性能，实现#pragma omp for，

并比较其性能。

3.构造基于 Pthreads 的并行 for 循环分解、分配和

执行机制

3.1 基于 pthreads 的多线程库提供的基本函数，如线程创建、线程

join、线程同步等。构建 parallel_for 函数对循环分解、分配和执行机

制，函数参数包括但不限于(int start, int end, int increment, void

*(*functor)(void*), void *arg , int num_threads)；其中 start 为循环开

始索引；end 为结束索引； increment 每次循环增加索引数；functor

为函数指针，指向的需要被并行执行循环程序块；arg 为 functor 的

入口参数； num_threads 为并行线程数。

3.2 在 Linux 系统中将 parallel_for 函数编译为.so 文件，由其他程序

调用。

3.3 将基于 OpenMP 的通用矩阵乘法的 omp parallel for 并行，改造

成基于 parallel_for 函数并行化的矩阵乘法，注意只改造可被并行执行

的 for 循环（例如无 race condition、无数据依赖、无循环依赖等）

举例说明：将串行代码：

for ( int i = 0;i<10;i++ ){

A[i]=B[i] * x + C[i]

}

替换为------->

parallel_for(0, 10, 1, functor, NULL, 2);

struct for_index {

int start;

int end;

int increment;

}

void * functor (void * args){

struct for_index * index = (struct for_index *) args;

for (int i = index->start; i < index->end; i = i + index->increment){

A[i]=B[i] * x + C[i];

}

==========================

编译后执行阶段：多线程执行

在两个线程情况下：

Thread0: start 和 end 分别为 0，5

Thread1: start 和 end 分别为 5，10

void * funtor(void * arg){

int start = my_rank * (10/2)

int end = start + 10/2;

for(int j = start, j < end, j++)

A[j]=B[j] * x + C[j];

评论收藏

内容反馈

LG.田猿

粉丝: 489
资源: 57

高性能计算导论实验5-通用矩阵乘法基于OpenMP的实现及优化

矩阵乘法的OpenMP实现及性能分析.doc

openmp矩阵乘法_openmp_并行矩阵乘法_

并行计算-实验二-矩阵乘法的OpenMP实现及性能分析 (2).docx

矩阵乘法的OpenMP实现与性能分析报告.pdf

并行计算-实验二-矩阵乘法的OpenMP实现及性能分析.docx

并行计算-实验二-矩阵乘法的OpenMP实现及性能分析.pdf

并行计算-实验二-矩阵乘法的OpenMP实现及性能分析 (2).pdf

并行计算实验二矩阵乘法的OpenMP实现与性能分析报告.doc

CUDA_Introduction高性能计算的新发展--基于图形处理器的并行计算及CUDA编程

行业分类-设备装置-基于OpenMP的遥感影像几何校正并行处理方法.zip

论文研究-基于OpenMP的Winograd并行矩阵乘算法应用研究.pdf

(完整word版)矩阵乘法的OpenMP实现及性能分析.pdf

GPU-grid-block-thread-OpenMP-struct

树莓派3矩阵乘法OpenMP程序测试

并行矩阵乘法

openMP-test.rar_openMP-test_openmp_openmp test

openmp-examples-master_openmp_源码

高性能计算之并行编程技术-MPI并行程序设计

CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析.pdf

第十五届蓝桥杯大赛软件赛省赛C++B组题目

C/C++中文参考手册离线最新版

代码随想录-八股文 pdf

编译器（gcc、g++）

第十五届蓝桥杯大赛软件赛省赛-C++A组题目

Qt5.9 C++开发指南.pdf 及示例源码

Qt （高仿Visio）流程图组件开发，源码分享

mingw-w64-install.exe

Qt、QCustomPlot、实时波形绘制、实时曲线绘制

C/C++中文帮助文档

最新资源