英特爾用AI技巧發(fā)現(xiàn)數(shù)據(jù)中心芯片中隱藏的缺陷
對于大型數(shù)據(jù)中心中的高性能芯片,數(shù)學(xué)可能是敵人。由于超大規(guī)模數(shù)據(jù)中心正在進(jìn)行的計(jì)算規(guī)模龐大,在數(shù)百萬個(gè)節(jié)點(diǎn)和大量硅片上全天候運(yùn)行,因此會出現(xiàn)極其罕見的錯(cuò)誤。這只是統(tǒng)計(jì)數(shù)據(jù)。這些罕見的、“無聲的”數(shù)據(jù)錯(cuò)誤不會在傳統(tǒng)的質(zhì)量控制篩查中出現(xiàn),即使公司花費(fèi)數(shù)小時(shí)尋找它們也是如此。
本文引用地址:http://www.ljygm.com/article/202504/469841.htm本月,在加利福尼亞州蒙特雷舉行的 IEEE 國際可靠性物理研討會上,英特爾工程師介紹了一種使用強(qiáng)化學(xué)習(xí)來更快地發(fā)現(xiàn)更多無聲數(shù)據(jù)錯(cuò)誤的技術(shù)。該公司正在使用機(jī)器學(xué)習(xí)方法來確保其 Xeon 處理器的質(zhì)量。
當(dāng)數(shù)據(jù)中心發(fā)生錯(cuò)誤時(shí),運(yùn)營商可以關(guān)閉并替換節(jié)點(diǎn),或者使用有缺陷的系統(tǒng)進(jìn)行低風(fēng)險(xiǎn)的計(jì)算,英特爾亞利桑那州錢德勒園區(qū)的電氣工程師 Manu Shamsa 說。但如果能及早發(fā)現(xiàn)錯(cuò)誤,那就更好了。理想情況下,他們會在芯片集成到計(jì)算機(jī)系統(tǒng)之前被發(fā)現(xiàn),此時(shí)可以進(jìn)行設(shè)計(jì)或制造更正以防止將來再次出現(xiàn)錯(cuò)誤。
“在筆記本電腦中,您不會注意到任何錯(cuò)誤。在具有真正密集節(jié)點(diǎn)的數(shù)據(jù)中心中,星星很有可能對齊并發(fā)生錯(cuò)誤?!?nbsp;Intel 的 Manu Shamsa
找到這些缺陷并不容易。沙姆薩說,工程師們對它們感到非常困惑,他們開玩笑說,這一定是由于遠(yuǎn)距離的幽靈般的動作,愛因斯坦對量子糾纏的稱呼。但他們并沒有什么令人毛骨悚然的,Shamsa 花了數(shù)年時(shí)間來描述他們。在去年同一會議上發(fā)表的一篇論文中,他的團(tuán)隊(duì)提供了這些錯(cuò)誤原因的完整目錄。大多數(shù)是由于制造過程中的微小變化。
即使每個(gè)芯片上的數(shù)十億個(gè)晶體管中的每一個(gè)都正常工作,它們彼此之間也不完全相同。例如,給定晶體管對溫度、電壓或頻率變化的響應(yīng)方式的細(xì)微差異可能會導(dǎo)致誤差。
由于計(jì)算速度和涉及的大量芯片,這些微妙之處更有可能在大型數(shù)據(jù)中心中出現(xiàn)?!霸诠P記本電腦中,您不會注意到任何錯(cuò)誤。在具有真正密集節(jié)點(diǎn)的數(shù)據(jù)中心中,星星很有可能對齊并發(fā)生錯(cuò)誤,“Shamsa 說。
只有在數(shù)據(jù)中心安裝了芯片并運(yùn)行了數(shù)月后,才會出現(xiàn)一些錯(cuò)誤。晶體管特性的微小變化會導(dǎo)致它們隨著時(shí)間的推移而退化。Shamsa 發(fā)現(xiàn)的一個(gè)這樣無聲錯(cuò)誤與電阻有關(guān)。起初正常工作并通過標(biāo)準(zhǔn)測試以尋找短路的晶體管,在使用后會降解,從而變得更耐用。
“你認(rèn)為一切都很好,但在下面,錯(cuò)誤導(dǎo)致了錯(cuò)誤的決定,”Shamsa 說。Shamsa 說,隨著時(shí)間的推移,由于單個(gè)晶體管的輕微弱點(diǎn),“一加一會變成三,悄無聲息,直到你看到影響。
機(jī)器學(xué)習(xí)發(fā)現(xiàn)缺陷
這項(xiàng)新技術(shù)建立在一組現(xiàn)有的檢測靜默錯(cuò)誤的方法(稱為 Eigen 檢驗(yàn))之上。這些測試使芯片在一段時(shí)間內(nèi)重復(fù)做困難的數(shù)學(xué)題,以期使無聲錯(cuò)誤明顯。它們涉及對填充了隨機(jī)數(shù)據(jù)的不同大小的矩陣的作。
有大量的 Eigen 檢驗(yàn)。運(yùn)行所有這些應(yīng)用程序?qū)⒒ㄙM(fèi)不切實(shí)際的時(shí)間,因此芯片制造商使用隨機(jī)方法來生成一組可管理的內(nèi)存條。這樣可以節(jié)省時(shí)間,但不會檢測到錯(cuò)誤?!皼]有原則來指導(dǎo)輸入的選擇,”Shamsa 說。他想找到一種方法來指導(dǎo)選擇,以便相對較少的測試可能會發(fā)現(xiàn)更多錯(cuò)誤。
英特爾團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)為其至強(qiáng) CPU 芯片的部分開發(fā)測試,該部分使用所謂的熔斷-乘法-加法 (FMA) 指令執(zhí)行矩陣乘法。Shamsa 表示,他們選擇 FMA 區(qū)域是因?yàn)樗紦?jù)了芯片的相對較大的區(qū)域,使其更容易受到潛在的靜默錯(cuò)誤的影響——更多的硅,更多的問題。更重要的是,芯片這一部分的缺陷會產(chǎn)生電磁場,從而影響系統(tǒng)的其他部分。由于 FMA 在不使用時(shí)會關(guān)閉以節(jié)省電量,因此對其進(jìn)行測試需要反復(fù)打開和關(guān)閉電源,這可能會激活隱藏的缺陷,否則這些缺陷不會出現(xiàn)在標(biāo)準(zhǔn)測試中。
在訓(xùn)練的每個(gè)步驟中,強(qiáng)化學(xué)習(xí)程序都會為潛在有缺陷的芯片選擇不同的測試。它檢測到的每個(gè)錯(cuò)誤都被視為獎勵,隨著時(shí)間的推移,代理會學(xué)會選擇哪些測試可以最大程度地提高檢測到錯(cuò)誤的機(jī)會。經(jīng)過大約 500 個(gè)測試周期后,該算法學(xué)習(xí)了哪組 Eigen 測試優(yōu)化了 FMA 區(qū)域的錯(cuò)誤檢測率。
Shamsa 說,這種技術(shù)檢測到缺陷的可能性是隨機(jī) Eigen 測試的五倍。特征測試是開源的,是面向數(shù)據(jù)中心的 openDCDiag 的一部分。因此,其他用戶應(yīng)該能夠使用強(qiáng)化學(xué)習(xí)來修改他們自己的系統(tǒng)的這些測試,他說。
在某種程度上,無聲、細(xì)微的缺陷是制造過程中不可避免的一部分——絕對的完美和均勻性仍然遙不可及。但 Shamsa 表示,英特爾正試圖利用這項(xiàng)研究來學(xué)習(xí)更快地找到導(dǎo)致靜默數(shù)據(jù)錯(cuò)誤的前兆。他正在研究是否存在可以為未來錯(cuò)誤提供早期預(yù)警的危險(xiǎn)信號,以及是否可以更改芯片配方或設(shè)計(jì)來管理它們。
評論