基于國產(chǎn)眾核處理器的深度神經(jīng)網(wǎng)絡算子加速庫優(yōu)化
計算機科學
頁數(shù): 8 2021-09-17
摘要: 基于不同硬件設備的算子加速庫已經(jīng)成為深度學習框架不可或缺的一部分,能夠為大規(guī)模訓練或者推理任務提供數(shù)倍的性能加速。
當前的主流算子庫都是基于GPU架構開發(fā)的,與其他異構設計并不兼容;SWDNN算子庫是基于申威26010開發(fā)的,無法充分發(fā)揮升級后的申威26010 pro處理器的性能,也不能滿足當前GPT-3等大型神經(jīng)網(wǎng)絡模型對大容量內存和高訪存帶寬的需求。