图书介绍
OPENCL 异构计算 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- BENEDICTR.GASTER,LEEHOWES,DAVIDR.KAELI著;张云泉,张先轶,贾海鹏等译 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302333951
- 出版时间:2013
- 标注页数:291页
- 文件大小:54MB
- 文件页数:316页
- 主题词:图形软件-程序设计
PDF下载
下载说明
OPENCL 异构计算 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 并行编程入门1
引言1
OpenCL1
本书目标2
并行思维2
并发编程模型和并行编程模型6
线程和共享内存9
消息传递通信9
不同粒度的并行10
数据共享和同步11
本书结构11
参考文献13
扩展阅读和相关网站13
第2章 OpenCL简介15
引言15
OpenCL标准15
OpenCL规范15
kernel和OpenCL执行模型16
平台和设备19
主机-设备之间的交互19
执行环境22
上下文22
命令队列22
事件23
内存对象24
flush命令和finish命令26
新建一个OpenCL程序对象26
OpenCL的kernel27
内存模型29
写kemel31
向量相加实例的完整代码32
使用C++封装API实现向量相加35
小结38
参考文献38
第3章 OpenCL设备架构39
引言39
硬件权衡39
性能随频率的提升及其限制41
超标量执行42
VLIW42
SIMD和向量处理45
硬件多线程46
多核架构49
集成:片上系统和APU51
高速缓存层次和内存系统52
架构设计空间53
CPU设计55
GPU体系结构58
APU和类APU的设计60
小结62
参考文献63
第4章 OpenCL基本实例65
引言65
应用实例65
简单的矩阵相乘65
图像旋转实例71
图像卷积实例75
编译OpenCL主机端应用82
小结83
第5章 OpenCL的并发与执行模型85
引言85
kernel,workitem,workgroup和执行域85
OpenCL同步:kernel,fence和barrier88
队列与全局同步92
OpenCL的内存一致性94
事件94
命令barrier与marker106
主机端内存模型107
buffer对象108
image对象111
设备端内存模型113
设备端宽松的内存一致性114
全局内存115
本地内存117
常量内存119
私有内存120
小结120
第6章 OpenCL在CPU/GPU平台上的实现121
引言121
OpenCL在AMD BULLDOZER上的实现121
OpenCL在AMD RADEON HD7970 GPU上的实现126
多线程和内存系统128
HD7970架构上的指令执行130
VLIW执行的改进134
资源分配135
OpenCL的内存性能136
OpenCL全局内存136
本地内存——软件管理的缓存140
小结146
参考文献146
第7章 数据管理147
引言147
内存管理147
独立环境中(使用独立GPU)的数据传输149
优化149
缓存区150
共享内存环境中的数据存储151
本地内存153
缓存的系统内存154
非缓存系统内存154
应用实例——workgroup归约155
使用独立GPU设备156
使用APU158
参考文献159
第8章 OpenCL案例学习:卷积161
引言161
计算卷积的kemel161
选择合适的workgroup大小161
将数据缓存到本地内存164
执行卷积170
小结171
代码清单172
主机端代码172
kernel代码176
参考文献181
第9章 OpenCL案例学习:直方图183
引言183
选择适量的workgroup183
选择最优的workgroup大小184
全局内存访存优化185
使用原子操作计算局部直方图187
本地内存访存优化188
局部直方图的归约190
全局归约191
完整的kernel代码191
性能和小结194
第10章 OpenCL案例学习:混合粒子模拟195
引言195
计算概览196
GPU实现198
创建buffer198
构造加速结构199
计算碰撞199
合成200
CPU实现200
负载均衡201
性能和小结202
生成均匀网格的kernel代码203
粒子模拟的kernel代码204
第11章 OpenCL扩展209
引言209
扩展机制概览209
设备拆分212
双精度223
参考文献231
第12章 在其他语言中使用OpenCL233
引言233
C和C++之外233
Haskell Opencl235
模块结构237
环境237
引用计数237
平台和设备238
运行环境239
小结241
参考文献242
第13章 OpenCL的性能剖析和调试243
引言243
基于事件的剖析244
AMD APP Profiler246
收集OpenCL程序轨迹247
收集OpenCL GPU Kernel性能计数器250
AMD APP KemelAnalyzer251
演示AMD APP Profiler253
启动AMD APP Profiler253
使用应用程序的轨迹数据以发现性能瓶颈253
使用GPU性能计数器发现kernel的性能瓶颈255
调试OpenCL应用程序256
gDEBugger概览257
使用gDEBugger调试并行OpenCL应用程序257
AMD printf扩展259
小结261
第14章 某图像分析应用的性能调优263
引言263
算法描述264
CPU多线程实现的OpenCL移植266
热点分析267
kernel开发及静态分析269
性能优化270
Kernel Occupancy271
workgroup大小的影响275
向量寄存器(VGPR)和LDS的影响281
能耗和性能分析283
小结284
参考文献284
索引285
热门推荐
- 2379941.html
- 1638296.html
- 3239011.html
- 1964466.html
- 2578342.html
- 1982666.html
- 30675.html
- 2078573.html
- 2329195.html
- 2840440.html
- http://www.ickdjs.cc/book_2536202.html
- http://www.ickdjs.cc/book_1126371.html
- http://www.ickdjs.cc/book_1714228.html
- http://www.ickdjs.cc/book_1816026.html
- http://www.ickdjs.cc/book_1757385.html
- http://www.ickdjs.cc/book_3500528.html
- http://www.ickdjs.cc/book_2325021.html
- http://www.ickdjs.cc/book_139813.html
- http://www.ickdjs.cc/book_1985497.html
- http://www.ickdjs.cc/book_1019737.html