没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
矩阵乘法 f32,f64矩阵的通用矩阵乘法。 在具有常规布局的矩阵上运行(它们可以使用任意的行和列步幅)。 请在阅读 目前,我们提供了一些适用于x86-64的良好的便携式微内核,并且仅提供了一种操作:通用矩阵-矩阵乘法(“ gemm”)。 此板条箱的灵感来自项目使用的tmacro / microkernel矩阵乘法方法。 发展目标 代码的清晰性和可维护性 便携性和稳定的Rust 性能:在有益时提供特定于目标的微内核 测试:测试各种输入,并对所有微内核进行测试和基准测试 代码占用量少,编译速度快 我们不会重新实施BLAS。 有关此板条箱的博客文章 近期变动 0.3.1 尝试修复错误#55,是因为TLS中的掩码缓冲区似乎未在macOS上达到其要求的对齐方式。 现在,将掩码缓冲区指针手动对齐(再次,就像在0.2.x中一样)。 修复了一个小问题:当缓冲区指针应为&[T]时,我们将其传递为
资源推荐
资源详情
资源评论
收起资源包目录
matrixmultiply-master.zip (42个子文件)
matrixmultiply-master
README.rst 7KB
spare kernels
x86_sse_sgemm.rs 3KB
LICENSE-MIT 1KB
LICENSE-APACHE 11KB
docs
sgemm4x8.log 773B
sgemm4x4.log 776B
0.2.0-avx-64.log 128B
onealloc_after.log 2KB
after-always-masked 495B
0.2.1-avx-64.log 132B
onealloc_before.log 2KB
before-always-masked 495B
dgemm4x4_rust.log 490B
.github
workflows
ci.yml 4KB
ensure_no_std
src
main.rs 248B
Cargo.toml 276B
.gitignore 19B
blas-bench
build.rs 335B
src
lib.rs 95B
Cargo.toml 585B
benches
benchmarks.rs 2KB
README.md 501B
tests
sgemm.rs 13KB
src
aligned_alloc.rs 2KB
loopmacros.rs 3KB
archparam.rs 1KB
util.rs 2KB
threading.rs 8KB
x86
mod.rs 1KB
macros.rs 1KB
gemm.rs 17KB
ptr.rs 1KB
debugmacros.rs 662B
dgemm_kernel.rs 29KB
lib.rs 4KB
kernel.rs 3KB
sgemm_kernel.rs 19KB
Cargo.toml 1KB
benches
benchmarks.rs 6KB
examples
usegemm.rs 7KB
benchmark.rs 10KB
.gitignore 19B
共 42 条
- 1
资源评论
YuanAndy
- 粉丝: 37
- 资源: 4490
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- js基础但是这个烂怂东西要求标题不能少于10个字才能上传然后我其实还没有写完之后再修订吧.md
- electron-tabs-master
- Unity3D 布朗运动算法插件 Brownian Motion
- 鼎微R16中控升级包R16-4.5.10-20170221及强制升级方法
- 鼎微R16中控升级包公版UI 2015及强制升级方法,救砖包
- 基于CSS与JavaScript的积分系统设计源码
- 生物化学作业_1_生物化学作业资料.pdf
- 基于libgdx引擎的Java开发连连看游戏设计源码
- 基于MobileNetV3的SSD目标检测算法PyTorch实现设计源码
- 基于Java JDK的全面框架设计源码学习项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功