卷積神經(jīng)網(wǎng)絡(luò)的硬件加速（一）

2019-11-08 02:30:01

字體：大中小

供稿：網(wǎng)友

http://www.openhw.org/module/forum/forum.php?mod=viewthread&tid=597673&highlight=神經(jīng)網(wǎng)絡(luò)http://www.openhw.org/module/forum/forum.php?mod=viewthread&tid=597674&highlight=神經(jīng)網(wǎng)絡(luò)【阿里集團(tuán)卜居深度解析】卷積神經(jīng)網(wǎng)絡(luò)的硬件加速（一）

[復(fù)制鏈接]

小老虎

895 主題	2691 帖子	6萬(wàn) 積分

管理員

Rank: 9 Rank: 9 Rank: 9

積分69288發(fā)消息

電梯直達(dá)

樓主

發(fā)表于 2016-5-17 14:20 | 只看該作者 |只看大圖回帖獎(jiǎng)勵(lì)

前言在計(jì)算機(jī)發(fā)展和互聯(lián)網(wǎng)滲透下，世界上的數(shù)據(jù)規(guī)模呈爆發(fā)式增長(zhǎng)，普通人越來(lái)越容易獲取這些數(shù)據(jù)，人工智能也實(shí)現(xiàn)了從早期的人工特征工程到現(xiàn)在能夠自動(dòng)從海量數(shù)據(jù)中學(xué)習(xí)的華麗轉(zhuǎn)變，計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等應(yīng)用也取得眾多突破。這其中最流行的一類(lèi)技術(shù)稱(chēng)為深度學(xué)習(xí)，曾在工業(yè)界引起了不小的轟動(dòng)。1. 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)縮寫(xiě)為CNN，最早受神經(jīng)科學(xué)研究的啟發(fā)。經(jīng)過(guò)長(zhǎng)達(dá)20多年的演變，CNN在計(jì)算機(jī)視覺(jué)、AI領(lǐng)域越來(lái)越突出，著名的在圍棋對(duì)抗中以 4 : 1 大比分優(yōu)勢(shì)戰(zhàn)勝李世石的 AlphaGo 就采用了 CNN + 蒙特卡洛搜索樹(shù)算法。一個(gè)典型CNN由兩部分組成：特征提取器 + 分類(lèi)器。特征提取器用于過(guò)濾輸入圖像，產(chǎn)生表示圖像不同特征的特征圖。這些特征可能包括拐角，線(xiàn)，圓弧等，對(duì)位置和形變不敏感。特征提取器的輸出是包含這些特征的低維向量。該向量送入分類(lèi)器（通常基于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)），得到輸入屬于某個(gè)類(lèi)別的可能性。下圖展示了一個(gè)真實(shí) CNN 模型架構(gòu)【6】。

該CNN包括8層，前5層為卷積層，第6~8層為全連接層。輸入層為3通道224 x 224輸入圖像（由原始三通道256 x 256 RGB圖像縮放得到），輸出1000維向量表示該圖像屬于1000個(gè)類(lèi)別的概率密度分布。一個(gè)典型CNN包括多個(gè)計(jì)算層，其中特征提取器包括若干個(gè)卷積層和（可選的）下采樣層。卷積層以N個(gè)特征圖作為輸入，每個(gè)輸入特征圖被一個(gè)K * K的核卷積，產(chǎn)生一個(gè)輸出特征圖的一個(gè)像素。滑動(dòng)窗的間隔為S，一般小于K。總共產(chǎn)生M個(gè)輸出特征圖。卷積層的 C 代碼如下：

需要說(shuō)明，上述6層循環(huán)實(shí)現(xiàn)只是為了便于理解，不是最優(yōu)的算法。從該實(shí)現(xiàn)也可以得出卷積層一次前向傳播的計(jì)算量為（R x C x M x N x K x K）次乘加。論文【7】證明卷積層會(huì)占據(jù)超過(guò)90%的總計(jì)算時(shí)間，所以本文我們關(guān)注卷積層硬件加速。下表記錄了 AlexNet 模型的各個(gè)卷積層參數(shù)配置和計(jì)算量情況

2. 硬件平臺(tái)最近在多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上取得的突破讓識(shí)別任務(wù)（如大量圖片分類(lèi)和自動(dòng)語(yǔ)音識(shí)別）準(zhǔn)確率大幅提升。這些多層神經(jīng)網(wǎng)絡(luò)變得越來(lái)越大、越來(lái)越復(fù)雜，需要大量計(jì)算資源來(lái)訓(xùn)練和評(píng)估。然而這些需求發(fā)生在目前這樣一個(gè)尷尬的時(shí)刻，商業(yè)處理器性能增長(zhǎng)日趨緩慢，亟需新硬件平臺(tái)加速。NVIDIA乘這一波深度學(xué)習(xí)爆發(fā)之勢(shì)大力推進(jìn)了基于 GPU 的加速方案，包括新處理器架構(gòu)（Kepler、Maxwell、Pascal）、高效的加速庫(kù)（cuBLAS、cuDNN）、靈活直觀(guān)的訓(xùn)練系統(tǒng)（DIGITS）。當(dāng)前深度學(xué)習(xí)系統(tǒng)已經(jīng)大量使用 GPU 集群作為處理平臺(tái)。

從上圖看出，GPU 的計(jì)算能力發(fā)展速度遠(yuǎn)遠(yuǎn)超過(guò)了同時(shí)期的CPU，一些并行計(jì)算任務(wù)在 GPU 上可以獲得顯著加速。使用 FPGA 也逐漸成為一種替代方案。由于 FPGA 架構(gòu)靈活，研究者能夠發(fā)揮模型級(jí)別優(yōu)化，這是在固定架構(gòu)如 GPU 上不具備的優(yōu)勢(shì)。FPGA 提供每瓦高性能，對(duì)于應(yīng)用科學(xué)家大規(guī)模基于服務(wù)器的部署或資源受限的嵌入式應(yīng)用非常有吸引力。以下為 FPGA 加速器件隨時(shí)間變化情況。1.低密度 FPGA（DSP 單元數(shù)目 < 500 ）2009年【2】，單顆 FPGA 計(jì)算能力： < 100 GOPS。使用了兩種不同平臺(tái)：

2.SoC 平臺(tái)（DSP 單元數(shù)目 < 1000）2013年【9】。

3.中密度 FPGA（DSP 數(shù)目 1500~3000）2015年【3】【4】,單顆 FPGA 計(jì)算能力：< 1 TFLOPS。

4.高密度 FPGA（DSP 數(shù)目 5000~10000）2017年（TBD），單顆 FPGA 計(jì)算能力：接近 10 TFLOPS，下圖是Stratix 10 中的變精度DSP

Stratix 10 中每個(gè)變精度DSP 硬核可以獨(dú)立配置為定點(diǎn)模式或兼容 IEEE-754 的浮點(diǎn)模式。上圖為浮點(diǎn)模式，每個(gè) DSP 硬核都包括一個(gè)單精度浮點(diǎn)乘法器和一個(gè)單精度浮點(diǎn)加法器，可以實(shí)現(xiàn)浮點(diǎn)加法、浮點(diǎn)乘法、浮點(diǎn)乘加、浮點(diǎn)乘累加等基本計(jì)算，非常適合 CNN 加速。請(qǐng)繼續(xù)閱讀：【阿里集團(tuán)卜居深度解析】卷積神經(jīng)網(wǎng)絡(luò)的硬件加速（二）

阿里集團(tuán), 網(wǎng)絡(luò), 硬件

【阿里集團(tuán)卜居深度解析】卷積神經(jīng)網(wǎng)絡(luò)的硬件加速（二）

[復(fù)制鏈接]

小老虎

895 主題	2691 帖子	6萬(wàn) 積分

管理員

Rank: 9 Rank: 9 Rank: 9

積分69288發(fā)消息

電梯直達(dá)

樓主

發(fā)表于 2016-5-17 16:09 | 只看該作者 |只看大圖回帖獎(jiǎng)勵(lì)

繼【阿里集團(tuán)卜居深度解析】卷積神經(jīng)網(wǎng)絡(luò)的硬件加速（一）3.CNN硬件加速方案作為一種經(jīng)典有監(jiān)督學(xué)習(xí)算法，CNN使用前饋處理用于識(shí)別，反饋用于訓(xùn)練。在工業(yè)實(shí)踐中，很多應(yīng)用設(shè)計(jì)者離線(xiàn)訓(xùn)練CNN，然后用訓(xùn)練好的CNN實(shí)現(xiàn)實(shí)時(shí)任務(wù)。因此，前饋計(jì)算速度是比較重要的。本文關(guān)注用基于FPGA的加速器設(shè)計(jì)前饋計(jì)算加速。下面是幾個(gè)方案。面向卷積核的并行流水線(xiàn)卷積器【2】Yann LeCun 2009 年的論文【2】中介紹了低端FPGA 上高效實(shí)現(xiàn) ConvNets 的工作。利用了 ConvNets 內(nèi)在并行性和 FPGA 上多個(gè)硬件乘累加單元。整個(gè)系統(tǒng)使用單個(gè) FPGA 以及外部存儲(chǔ)模塊實(shí)現(xiàn)，沒(méi)有其他額外單元。架構(gòu)如下圖所示。

CNP 包括一個(gè)控制單元（CU, Control Unit），一個(gè)并行流水線(xiàn)向量算法邏輯單元（VALU, Vector Arithmetic and Logic Unit），一個(gè) I/O 控制單元和一個(gè)存儲(chǔ)器接口。CU 實(shí)際上是一個(gè)麻雀雖小五臟俱全的 32位軟核 CPU，基于 PowerPC 架構(gòu)，用來(lái)將 VALU 進(jìn)行序列化操作。VALU 實(shí)現(xiàn)了卷積網(wǎng)絡(luò)相關(guān)操作，包括二維卷積，空域下采樣，逐點(diǎn)非線(xiàn)性函數(shù)，以及其他更通用的向量操作（平方根，除法）。VALU 包括其他指令（除法，平方根，乘法），用作圖像預(yù)處理。完整視覺(jué)系統(tǒng)需要的其他運(yùn)算可以在通用軟核 CPU 上完成。VALU 上二維卷積的實(shí)現(xiàn)：二維卷積器如下圖所示，增加了后累加，允許將多個(gè)卷積器組合。

在一個(gè)時(shí)鐘周期內(nèi)，完成如下計(jì)算：

這里xij是輸入圖像值， wmn是K×K卷積核的值， yij是待累加值，zij是輸出圖像值。輸入圖像值進(jìn)入K個(gè)片上 FIFO，尺寸為圖像寬度減去卷積核寬度。在 FIFO 中移動(dòng)這些值等價(jià)于在輸入圖像上移動(dòng)卷積窗口。在每個(gè)時(shí)鐘周期，送入一個(gè)值，輸入圖像窗口與卷積核進(jìn)行點(diǎn)積并行計(jì)算。換句話(huà)說(shuō)，卷積器每個(gè)時(shí)鐘周期可以同時(shí)執(zhí)行K^2次乘累加計(jì)算（計(jì)入加上累加臨時(shí)圖像）。于是，完整卷積運(yùn)算所需時(shí)鐘周期數(shù)等于輸出圖像值數(shù)目 + 填充 FIFO 必須的延遲（大概等于輸入圖像寬度乘以卷積核高度）。所有運(yùn)算中卷積核都以 16 位定點(diǎn)數(shù)表示。中間累加值以 48 位保存在 FIFO 中。低端 FPGA 有126 個(gè)乘累加單元，最大實(shí)現(xiàn) 11 x 11 卷積核或兩個(gè) 7 x 7 卷積核，相應(yīng)理論最大速率為每秒 24.5 次運(yùn)算（時(shí)鐘為 250 MHz）。然而試驗(yàn)中使用了單個(gè) 7 x 7 卷積器，因?yàn)楫?dāng)時(shí)使用的網(wǎng)絡(luò)不需要更大的卷積核，相應(yīng)理論最大速率每秒 12 G次運(yùn)算。Zynq SoC嵌入式方案 nn-X【9】在這篇文章《A 240 G-ops/s Mobile CoPRocessor for Deep Neural Networks》中使用 Zynq SoC 實(shí)現(xiàn)了 CNN 加速器，架構(gòu)如下圖所示。

卷積器的架構(gòu)沒(méi)有給出，但根據(jù)文章描述，推測(cè)與方案一基本一致。所有計(jì)算都以定點(diǎn)格式 Q8.8 進(jìn)行。該方案實(shí)現(xiàn)了 8 路并行引擎，每個(gè)引擎提供 10 x 10 卷積器，等效計(jì)算能力達(dá)到每秒 227 G 次運(yùn)算（乘加為兩次運(yùn)算）。由于使用 Q8.8 定點(diǎn)形式計(jì)算，每個(gè)乘加器都可以使用一個(gè) DSP 單元實(shí)現(xiàn)，共需要 800 個(gè) DSP單元（總共 900 個(gè)）。方案三：SIMD 卷積引擎【3】前面兩種方案均為面向卷積核的卷積器，具有如下缺點(diǎn)：當(dāng)卷積核尺寸變化時(shí)（如AlexNet 第一個(gè)卷積層尺寸為 11 x 11，而后面卷積核逐漸縮小為 5 x 5 和 3 x 3），不能充分發(fā)揮硬件的并行計(jì)算性能，造成大量的資源浪費(fèi)。隨著新型網(wǎng)絡(luò)更多奇異的卷積核（如NIN 中的 1 x 1 卷積核、 1 x N 或 N x 1卷積核），資源浪費(fèi)情況會(huì)越來(lái)越嚴(yán)重，甚至變?yōu)榇杏?jì)算結(jié)構(gòu)。方案三則采用很多算法技巧，包括將大圖像分塊、通道優(yōu)先累加、兼顧訪(fǎng)存和計(jì)算等，實(shí)現(xiàn)了 SIMD 型計(jì)算架構(gòu)，不再與具體卷積核尺寸掛鉤，運(yùn)行時(shí)計(jì)算資源利用率更高。

該方案下全部系統(tǒng)都放在了單個(gè)FPGA芯片，使用DDR3 DRAM用于外部存儲(chǔ)。MicroBlaze是一個(gè)RISC處理器軟核，用于幫助CNN加速器啟動(dòng)，與主機(jī)CPU通信，以及計(jì)時(shí)。MicroBlaze和CNN加速器使用中斷機(jī)制來(lái)提供精確的計(jì)時(shí)。AXI4lite總線(xiàn)用于傳輸命令，AXI4總線(xiàn)用于傳輸數(shù)據(jù)。CNN加速器作為AXI總線(xiàn)上一個(gè)ip。它從MicroBlaze接收命令和配置參數(shù)，與定制的數(shù)據(jù)傳輸引擎通過(guò)FIFO接口通信，該數(shù)據(jù)傳輸引擎可以獲取通過(guò)AXI4總線(xiàn)外部存儲(chǔ)。

上圖是SIMD 加速器實(shí)現(xiàn)，該計(jì)算引擎部分顯示了實(shí)現(xiàn)的模塊圖。所有數(shù)值都以單精度浮點(diǎn)表示。每個(gè)引擎由7個(gè)乘法器和7個(gè)加法器組成，每個(gè)加法器消耗2個(gè)DSP，每個(gè)乘法器消耗3個(gè)DSP，每個(gè)引擎總共消耗35個(gè)DSP。系統(tǒng)一共實(shí)現(xiàn)了64個(gè)引擎，故消耗 64 x 35 = 2240 個(gè) DSP 單元（FPGA 上共有 2800 個(gè) DSP）。整個(gè)系統(tǒng)峰值計(jì)算能力達(dá)到 64 x 15 x 100 MHz = 96 GFLOPS，實(shí)測(cè)達(dá)到了 61.62 GFLOPS。傳統(tǒng) CPU 服務(wù)器 + FPGA 加速板卡方案【4】上面三種方案都是以獨(dú)立 FPGA 板卡完成所有計(jì)算和控制功能。其中方案一和方案三使用軟核 CPU 實(shí)現(xiàn)控制部分（方案一為 32 位 PowerPC 架構(gòu)軟核 CPU，方案三為 32 位 MicroBlaze 架構(gòu)軟核 CPU），而方案二使用 SoC 內(nèi)嵌的硬核ARM Cortex A9 CPU 實(shí)現(xiàn)控制部分。三種方案缺陷比較明顯：無(wú)論軟核 CPU 還是硬核 CPU，主頻都比較低（< 1 GHz），無(wú)法適應(yīng)云端服務(wù)（大規(guī)模圖像識(shí)別、在線(xiàn)語(yǔ)音識(shí)別等）加速的場(chǎng)景，而只能用于嵌入式產(chǎn)品。方案四是云端服務(wù) FPGA 加速的方案，具有高可擴(kuò)展性、高效率的特點(diǎn)。2014年微軟宣布了Catapult項(xiàng)目，成功展示了用FPGA在數(shù)據(jù)中心使Bing Ranking加速了近2倍。利用這個(gè)基礎(chǔ)，微軟研究院開(kāi)發(fā)了高吞吐CNN FPGA加速器，在很低的服務(wù)器功耗下獲得了優(yōu)異性能。下圖給出了用于高效計(jì)算卷積層前向傳播的CNN FPGA加速器高層次概覽。

上圖中高亮的加速器位于雙插槽Xeon服務(wù)器，安裝了一個(gè)Catapult FPGA卡，上有中等規(guī)模Stratix D5 FPGA和8GB DDR3-1333。每個(gè)FPGA卡都支持高達(dá)8GB/s帶寬的PCIe 3x8，以及支持21.3GB/s帶寬的本地DRAM。這樣可以從服務(wù)器 CPU 獲得計(jì)算負(fù)載，并在 FPGA 上完成計(jì)算，將結(jié)果返回 CPU 內(nèi)存。通過(guò) FPGA 加速 CNN 可以降低服務(wù)器功耗。該方案并沒(méi)有給出具體實(shí)現(xiàn)細(xì)節(jié)，只透露了關(guān)鍵特征如下：（1）軟件可配置的引擎，支持多層運(yùn)行時(shí)配置（無(wú)需硬件重編程）；（2）高效數(shù)據(jù)緩沖體制和片上分發(fā)網(wǎng)絡(luò)，將片外訪(fǎng)存降至最低；（3）處理單元（PE）構(gòu)成的空間分布陣列，可很容易擴(kuò)展到上千個(gè)單元；在正常模式下，CNN加速器可以同時(shí)獲取輸入圖像并連續(xù)處理多個(gè)卷積層。在初始階段，輸入圖像像素從本地DRAM流入片上，存儲(chǔ)到多個(gè)bank輸入緩沖區(qū)。之后，數(shù)據(jù)流入多個(gè)PE陣列，實(shí)現(xiàn)3D卷積步驟中的獨(dú)立點(diǎn)乘操作。頂層控制器完成序列化、尋址、分發(fā)數(shù)據(jù)到每個(gè)PE陣列。最終，累加結(jié)果發(fā)送到特定片上網(wǎng)絡(luò)，將計(jì)算輸出循環(huán)送入輸入緩沖區(qū)用于下一輪的計(jì)算（雖然前圖中沒(méi)有顯示，但存在額外的邏輯處理pooling和ReLU操作）。更多硬件描述可參考Catapult論文【10】。4. 性能對(duì)比通過(guò)幾篇論文的結(jié)果【2】【3】【4】【9】我們來(lái)量化本文四種硬件加速方案。

該結(jié)果為文獻(xiàn)【3】提供，其中 FPL 2009 為本文文獻(xiàn)【2】的結(jié)果。方案一、方案二無(wú)法直接對(duì)比 AlexNet 性能，只能通過(guò)每秒計(jì)算能力對(duì)比：5.25 GOPS vs 227 GOPS。

該結(jié)果為文獻(xiàn)【9】提供，給出了每瓦性能對(duì)比情況，看到 FPGA 能效比高于 GPU、CPU 平臺(tái)。

該結(jié)果為文獻(xiàn)【4】提供，其中 Best prior CNN on Virtex 7 485T 為本文【3】的結(jié)果。本文方案三和方案四均實(shí)現(xiàn)了 AlexNet 前向計(jì)算過(guò)程，性能分別為 46 images/s 和 134 images/s。同時(shí)看到 FPGA 每瓦性能相比 GPU 具有很大優(yōu)勢(shì)。一些商業(yè)加速方案如AuvizDNN【11】也提供了針對(duì) AlexNet 的處理性能：

可以預(yù)見(jiàn)，隨著 FPGA 集成度、主頻進(jìn)一步提高，在 CNN 加速能力上會(huì)逐漸趕超 GPU，成為深度學(xué)習(xí)下一個(gè)爆發(fā)期的助推劑。5. 阿里云高性能利器阿里云 HPC 服務(wù)是于 2015 年 10月推出的面向高性能計(jì)算和深度學(xué)習(xí)的平臺(tái)，目前已有大量計(jì)算密集型應(yīng)用案例，涵蓋語(yǔ)音識(shí)別、圖像分類(lèi)和檢索、渲染、醫(yī)療成像、氣象預(yù)測(cè)、物理仿真等領(lǐng)域。硬件平臺(tái)采用高性能 Broadwell CPU、Tesla K40/M40 GPU。正在進(jìn)行中的阿里 FPGA 項(xiàng)目基于 Intel Xeon + FPGA 平臺(tái)【12】，CPU 與 FPGA 直接封裝到同一個(gè) package，具有更低的通信延遲，可滿(mǎn)足靈活多變的應(yīng)用熱點(diǎn)加速場(chǎng)景。現(xiàn)已經(jīng)針對(duì)語(yǔ)音、視頻數(shù)據(jù)展開(kāi)大量分析和處理。參考文獻(xiàn)【1】Amos, Jagath. FPGA IMPLEMENTATIONS OF NEURAL NETWORKS. Springer 2006.【2】Yann LeCun, et al. CNP : An FPGA-based Processor for Convolutional Networks. 2009.【3】Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks, 2015, ACM 978-1-4503-3315-3/15/02【4】Accelerating Deep Convolutional Neural Networks Using Specialized Hardware, 2015.【5】Stratix 10 Device Overview, Altera, 2015.12.【6】 A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. NIPS 2012.【7】 J. Cong and B. Xiao. Minimizing computation in convolutional neural networks. ICANN 2014.【8】 http://www.xilinx.com/products/boards-and-kits/ek-v7-vc707-g.html【9】 A 240 G-ops/s Mobile Coprocessor for Deep Neural Networks, 2013【10】A. Putnam, et al., A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services, International Symposium on Computer Architecture, 2014.【11】http://auvizsystems.com/products/auvizdnn/【12】http://www.eweek.com/servers/int ... a-accelerators.html作者：卜居，真名趙永科，CSDN 博主，博客地址：http://blog.csdn.net/kkk584520，現(xiàn)就職于阿里云計(jì)算有限公司，從事計(jì)算機(jī)體系結(jié)構(gòu)、高性能計(jì)算系統(tǒng)設(shè)計(jì)。對(duì)計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)具有濃厚興趣。擅長(zhǎng) CPU/GPU/FPGA 的算法加速與性能優(yōu)化。本文經(jīng)作者授權(quán)轉(zhuǎn)載，轉(zhuǎn)載自：深度學(xué)習(xí)大講堂（微信公號(hào)）

阿里集團(tuán), 網(wǎng)絡(luò), 硬件