国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

CUDA學習記錄之-吉祥的博客

2019-11-08 18:35:47
字體:
來源:轉載
供稿:網友

CUDA簡介 CUDA和C對內存操作函數的對比表 這里寫圖片描述

GPU架構 軟硬件構架圖 這里寫圖片描述

GPU架構(Fermi、Kepler) 1.CUDA核的數量(包括ALU和FPU)=SM的數量×每個SM里面CUDA核的數量,例如:512個accelerator cores即所謂CUDA cores(包含ALU和FPU)16個SM,每個SM包含32個CUDA core。 2.每個SM由一下幾部分組成: 執行單元(CUDA cores) 調度分配warp的單元 shared memory,register file,L1 cache 3.在不同架構的GPU中,每個SM同時處理的warp數是不一樣的,如:Fermi(compute capability 2.x)每個SM同時可處理48個warp共計1536個thread;Kepler K20X(compute capability 3.5)每個SM可以同時調度64個warp共計2048個thread。

Warp解析 1.從邏輯上講,所有thread是并行的,但是,從硬件上講,實際上并不是所有的thread能夠同一時刻執行。 2.warp是SMs中線程調度單位。將blocks分成warps在SMs執行如下圖所示。下圖3個block,每個block按照連續的32個線程分成一個個warp 這里寫圖片描述 3.一個warp中的線程必然在同一個block中。 4.一個warp包含32個并行thread,由此可見,warp是32個擁有關系的thread的集合。

Kernel性能調節 1.代碼的功能:矩陣相加,邏輯上要處理的數據有16384個元素 2.結論:處理相同的問題,配置的block更多,device就會達到更多active warp,性能也就越好(耗時越少);較高的achieved Occupancy并不一定就意味著更好的性能,也就是說還有更多的因素影響著GPU的性能;較高的load throughput也不一定就有較高的性能。

Memory Model 1.GPU和CPU的存儲結構基本一樣,下圖體現了速度和大小的變化趨勢 這里寫圖片描述 2.存儲器結構圖: 這里寫圖片描述

Shared Memory 1.GPU上的memory有兩種:  On-board memory  On-chip memory 2.


上一篇:POJ 1753 Flip Game (枚舉)

下一篇:redis,win,cmd

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 崇信县| 禹城市| 娱乐| 元阳县| 定陶县| 台前县| 明光市| 涿州市| 五莲县| 定安县| 峨山| 山阴县| 龙门县| 南宁市| 宜良县| 隆子县| 天等县| 洛浦县| 高清| 秀山| 乌拉特前旗| 公主岭市| 无锡市| 巍山| 彭水| 富阳市| 双牌县| 错那县| 盐源县| 高碑店市| 江北区| 和政县| 弥勒县| 绵竹市| 虞城县| 祁东县| 化德县| 寿宁县| 禹州市| 犍为县| 大悟县|