SemiDynamics詳細(xì)介紹了一體化 RISC-V NPU
西班牙的 SemiDynamics 開發(fā)了一種完全可編程的神經(jīng)處理單元 (NPU) IP,它結(jié)合了 CPU、向量和張量處理,可為大型語言模型和 AI 推薦系統(tǒng)提供高達(dá) 256 TOPS 的吞吐量。
本文引用地址:http://www.ljygm.com/article/202505/470145.htmCervell NPU 基于 RISC-V 開放指令集架構(gòu),可從 8 個內(nèi)核擴(kuò)展到 64 個內(nèi)核。這使設(shè)計人員能夠根據(jù)應(yīng)用的要求調(diào)整性能,從緊湊型邊緣部署中 1GHz 的 8 TOPS INT8 到數(shù)據(jù)中心芯片中高端 AI 推理中的 256 TOPS INT4。
這是繼 12 月推出的一體化架構(gòu)之后發(fā)布的,本白皮書中對此進(jìn)行了詳細(xì)介紹。
“Cervell 專為 AI 計算的新時代而設(shè)計,在這個時代,現(xiàn)成的解決方案是不夠的。作為 NPU,它提供從邊緣推理到大型語言模型的所有功能所需的可擴(kuò)展性能。但真正讓它與眾不同的是它的構(gòu)建方式:完全可編程,由于開放式 RISC-V ISA 沒有鎖定,并且可以深度定制到指令級別。結(jié)合我們的 Gazillion Misses 內(nèi)存子系統(tǒng),Cervell 消除了傳統(tǒng)的數(shù)據(jù)瓶頸,并為芯片設(shè)計人員提供了強(qiáng)大的基礎(chǔ),以構(gòu)建差異化的高性能 AI 解決方案,“Semidynamics 首席執(zhí)行官 Roger Espasa 說。
Cervell NPU 專為加速矩陣密集型作而設(shè)計,可實(shí)現(xiàn)更高的吞吐量、更低的功耗和實(shí)時響應(yīng)。通過將 NPU 功能與標(biāo)準(zhǔn) CPU 和矢量處理集成到統(tǒng)一架構(gòu)中,設(shè)計人員可以消除延遲并最大限度地提高各種 AI 任務(wù)(從推薦系統(tǒng)到深度學(xué)習(xí)管道)的性能。
Cervell 內(nèi)核與 Gazillion Misses 內(nèi)存管理子系統(tǒng)緊密集成。這支持多達(dá) 128 個同步內(nèi)存請求,消除了超過 60 字節(jié)/周期的持續(xù)數(shù)據(jù)流的延遲停頓。此外,還可以大規(guī)模并行訪問片外內(nèi)存,這對于大型模型推理和稀疏數(shù)據(jù)處理至關(guān)重要。
這可以保持完整的管道飽和,即使在推薦系統(tǒng)和深度學(xué)習(xí)等帶寬密集型應(yīng)用程序中也是如此。
該內(nèi)核是完全可定制的,能夠添加標(biāo)量或矢量指令,配置暫存器存儲器和自定義 I/O FIFO,并定義存儲器接口和同步方案,以提供面向未來的差異化 AI 硬件。
這種 RTL 級別的深度定制,包括插入客戶定義的指令,使公司能夠?qū)⑽ㄒ坏?IP 直接集成到解決方案中,保護(hù)其 ASIC 投資免受模仿,并確保設(shè)計針對功耗、性能和面積進(jìn)行全面優(yōu)化。開發(fā)模型包括早期 FPGA drop 和并行驗證,以減少開發(fā)時間和風(fēng)險。
Configuration | INT8 @ 1GHz | INT4 @ 1GHz | INT8 @ 2GHz | INT4 @ 2GHz |
C8 | 8 TOPS | 16 TOPS | 16 TOPS | 32 TOPS |
C16 | 16 TOPS | 32 TOPS | 32 TOPS | 64 TOPS |
C32 | 32 TOPS | 64 TOPS | 64 TOPS | 128 TOPS |
C64 | 64 TOPS | 128 TOPS | 128 TOPS | 256 TOPS |
評論