亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

?如何提高HPC SoC的可靠性、可用性和可維護性級別

半導體產業(yè)縱橫 ? 來源:半導體產業(yè)縱橫 ? 2023-02-15 11:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過芯片生命周期管理可以確保數(shù)據(jù)中心系統(tǒng)正常運行時間。

在大型數(shù)據(jù)中心和超級計算機的領域,高性能計算 (HPC) 已經變得相當普遍,并且在某些情況下,在我們的日常生活中必不可少。正因為如此,可靠性、可用性和可維護性(reliability, availability, and serviceability,或稱RAS),是更多 HPC SoC 設計人員應該熟悉的概念。

RAS 聽起來像是一個不言自明的術語,但在涉及 HPC SoC 時它真正涉及什么?數(shù)據(jù)中心運營商長期與客戶保持服務水平協(xié)議,以保證系統(tǒng)正常運行時間。RAS 補充了這些協(xié)議,現(xiàn)在可以得到新技術的支持,最終產生可操作的見解。在這篇最初發(fā)表于“從芯片到軟件”博客上的文章中,您將了解為什么芯片生命周期管理 (SLM)、嵌入式監(jiān)控 IP 以及正確的設計和驗證工具可以在您的HPC 設計中實現(xiàn)高水平 RAS。

3個關鍵的高性能計算組件

家庭安全門鈴或建筑物監(jiān)控系統(tǒng)捕獲的視頻片段、財務和業(yè)務運營建模、科學和醫(yī)學研究、增強現(xiàn)實和虛擬現(xiàn)實等應用都需要依賴 HPC。隨著我們的設備和系統(tǒng)收集的數(shù)據(jù)激增、AI 驅動的分析、大量計算資源的可用性以及云的融合,使快速獲得有用、可操作的見解成為可能,使 HPC 成為許多領域不可或缺的一部分。它與 1940 年代第一臺超級計算機出現(xiàn)時相比,應用范圍更廣。

當今典型的 HPC 基礎設施由三個關鍵要素組成:計算、網(wǎng)絡和存儲。每個都需要一定水平的性能、延遲、電源效率、可擴展性、生產力和安全性。讓我們仔細看看每個元素:

計算由 CPUGPU、加速器、片上網(wǎng)絡 (NoC) 和計算服務器組成。這是進行高性能數(shù)據(jù)處理的地方。復雜的多核甚至多芯片系統(tǒng)架構、具有快速訪問的大內存、高帶寬 I/O 接口、電源/冷卻管理和安全性是其關鍵特性。片內監(jiān)控和分析還可以支持 RAS 目標。

網(wǎng)絡由交換機和路由器、適配器、網(wǎng)橋、中繼器、網(wǎng)絡接口卡(如 SmartNIC)以及光學電氣互連組成。該元素提供高性能連接,理想情況下具有高吞吐量、低延遲、能源效率、可配置性和可擴展性、實時監(jiān)控和報告以及安全性。調試功能、前向糾錯 (FEC) 和 IP 可以支持 RAS 要求。

存儲包括固態(tài)驅動器 (SSD) 或硬盤驅動器 (HDD)、存儲區(qū)域網(wǎng)絡 (SAN) 和網(wǎng)絡附加存儲 (NAS)。理想情況下,存儲元件應提供高帶寬存儲、減少數(shù)據(jù)傳輸能量和延遲、靈活性、可擴展性、可靠性和安全性。內置自測試 (BIST)、糾錯碼 (ECC) 和冗余等功能可以促進高水平的 RAS。

有兩種主要類型的 HPC 系統(tǒng):同類機器和混合機器。同類機器只有 CPU。相比之下,混合動力車同時擁有 GPU 和 CPU,其中 GPU 運行任務而 CPU 監(jiān)督計算。

HPC 集群可以由大量服務器組成,其中計算集群的總物理尺寸、能源使用或熱輸出可能成為一個嚴重的問題。此外,還需要在服務器之間進行專用通信,這對于集群來說有些獨特。

由于微小的設計差異乘以集群中的服務器數(shù)量會帶來巨大的收益,因此我們看到了針對 HPC 優(yōu)化的服務器設計的出現(xiàn)。有時,這些是針對大型公共 Web 運營商(例如搜索引擎公司)的設計,它們在 HPC 集群中提供類似的優(yōu)勢。但是,它們也可以提供僅適合 HPC 用戶的功能。例如,如果系統(tǒng)設計為以不同方式提供集群互連,則可能會顯著減少布線。

通過片內監(jiān)控和分析獲得可操作的見解

HPC 的實用性在于它能夠處理海量數(shù)據(jù)(PB 甚至 zettabytes)并實時(或接近實時)運行復雜模型。不用說,只要 HPC 系統(tǒng)出現(xiàn)故障,就會導致資金損失和業(yè)務中斷。任務關鍵型應用程序的影響變得更加陡峭。在高級節(jié)點,使用大型單片芯片或復雜架構(如多芯片),可以滿足 RAS 要求并變得更具挑戰(zhàn)性。

根據(jù)手頭應用程序的重要性,系統(tǒng)可以構建備份,以在發(fā)生故障時提供冗余。除了冗余之外,您還可以在系統(tǒng)和芯片級別做更多的事情來滿足 RAS 目標。這就是 SLM 發(fā)揮重要作用的地方,它提供智能、自動化的片內監(jiān)控 IP 和方法,以在系統(tǒng)生命周期的每個階段生成可操作的見解。

幾十年來,設計人員一直在將監(jiān)視器和傳感器嵌入到他們的芯片中。但是,該技術已經發(fā)展到現(xiàn)在可以提供更準確的數(shù)據(jù)。這樣可以更好地了解設備的實時環(huán)境、結構和功能狀況。示例包括工藝變化和電壓供應的監(jiān)控,以及時序裕度的準確測量等。

由于嵌入式和基于云的分析,以及統(tǒng)一 SLM 解決方案的可用性,設計團隊將能夠建立一個連續(xù)的、實時的設備硅健康狀況圖,而不僅僅是在設計期間,在生產階段以及現(xiàn)場操作期間。他們可以更好地了解根本原因并立即進行調試和修復,從而降低成本和潛在危害。SLM 可以解決的問題包括晶體管老化和延遲故障。要了解這帶來的好處,請考慮一顆有缺陷的衛(wèi)星。通常情況下,從實驗室取回修復后的電路板安裝到衛(wèi)星上可能需要數(shù)周的時間,將其長時間停用以進行故障排除和維修。通過SLM技術在現(xiàn)場進行故障檢測和故障修復。

看看數(shù)據(jù)中心,我們可以看到另一個突出 SLM 如何促進滿足 RAS 要求的示例。

在芯片層面,現(xiàn)場遠程調試的能力對于超大規(guī)模數(shù)據(jù)中心的團隊來說至關重要。SLM 提供遠程遙測和監(jiān)控使這成為可能。

在系統(tǒng)級別,精確的時鐘節(jié)流(SLM 的另一項功能)對于最大化數(shù)據(jù)吞吐量和 CPU、GPU 和 AI 引擎利用率至關重要。

在數(shù)據(jù)中心級別,使用 SLM 工具監(jiān)控服務器性能、網(wǎng)絡擁塞和磁盤利用率是檢測和預測數(shù)據(jù)中斷的關鍵,這可以增加正常運行時間。

在超大規(guī)模級別,團隊可以利用 SLM 來最大限度地減少片上熱和電源壓力,從而提高可靠性。

對于 die-to-die 高速接口,SLM 提供信號完整性監(jiān)控,連同接口完整性冗余,有助于確保小芯片設計的穩(wěn)健性。

概括

一個端到端的解決方案將設計校準分析、片內監(jiān)控和系統(tǒng)性能優(yōu)化等一切結合在一起,而不是一組互不關聯(lián)的單點工具,可以使解決 RAS 目標的過程更加無縫。

鑒于現(xiàn)在依賴 HPC 的應用程序范圍越來越廣,保持這些系統(tǒng)的高水平可靠性、可用性和可服務性是一個全面的關鍵考慮因素。實現(xiàn)最佳 RAS 水平以支持從流媒體視頻到氣候變化建模的一切是保持數(shù)字化、智能化萬物世界高速運行的另一個重要因素。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • soc
    soc
    +關注

    關注

    38

    文章

    4495

    瀏覽量

    227125
  • SSD
    SSD
    +關注

    關注

    21

    文章

    3049

    瀏覽量

    121599
  • HPC
    HPC
    +關注

    關注

    0

    文章

    342

    瀏覽量

    24790

原文標題:?如何提高 HPC SoC 的可靠性、可用性和可維護性級別?

文章出處:【微信號:ICViews,微信公眾號:半導體產業(yè)縱橫】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    化繁為簡:直線電機如何通過結構簡化提升可靠性

    在工業(yè)領域,設備的 可靠性 和 平均無故障時間 是衡量其價值的重要指標。復雜的機械結構往往意味著更多的故障點和更高的維護成本。直線電機以其極具革命的 簡潔結構 ,從設計源頭大幅提升了系統(tǒng)的
    的頭像 發(fā)表于 08-29 09:49 ?242次閱讀

    可靠性設計的十個重點

    專注于光電半導體芯片與器件可靠性領域的科研檢測機構,能夠對LED、激光器、功率器件等關鍵部件進行嚴格的檢測,致力于為客戶提供高質量的測試服務,為光電產品在各種高可靠性場景中的穩(wěn)定應用提供堅實的質量
    的頭像 發(fā)表于 08-01 22:55 ?647次閱讀
    <b class='flag-5'>可靠性</b>設計的十個重點

    太誘MLCC電容的可靠性如何?

    穩(wěn)定在0.1ppm級別,成為高端市場的首選。 一、材料技術:納米級控制奠定可靠性基礎 太誘MLCC的可靠性源于對材料體系的深度掌控。其自主研發(fā)的陶瓷介質材料通過納米級粉末微細化、粒子形狀均勻化及沙漏結構控制,實現(xiàn)了介質層厚度僅0
    的頭像 發(fā)表于 07-09 15:35 ?398次閱讀

    如何提高電路板組件環(huán)境可靠性

    電路板組件PCBA(Printed Circuit Board Assembly)的可靠性特別是多水汽、多粉塵、有化學污染物的室外工作環(huán)境的可靠性,直接決定了電子產品的品質或應用范圍。
    的頭像 發(fā)表于 06-18 15:22 ?739次閱讀

    可靠性測試包括哪些測試和設備?

    在當今競爭激烈的市場環(huán)境中,產品質量的可靠性成為了企業(yè)立足的根本。無論是電子產品、汽車零部件,還是智能家居設備,都需要經過嚴格的可靠性測試,以確保在各種復雜環(huán)境下都能穩(wěn)定運行,為用戶提供可靠的使用體驗。那么,
    的頭像 發(fā)表于 06-03 10:52 ?983次閱讀
    <b class='flag-5'>可靠性</b>測試包括哪些測試和設備?

    提供半導體工藝可靠性測試-WLR晶圓可靠性測試

    隨著半導體工藝復雜度提升,可靠性要求與測試成本及時間之間的矛盾日益凸顯。晶圓級可靠性(Wafer Level Reliability, WLR)技術通過直接在未封裝晶圓上施加加速應力,實現(xiàn)快速
    發(fā)表于 05-07 20:34

    電機微機控制系統(tǒng)可靠性分析

    針對性地研究提高電機微機控制系統(tǒng)可靠性的途徑及技術措施:硬件上,方法包括合理選擇篩選元器件、選擇合適的電源、采用保護電路以及制作可靠的印制電路板等;軟件上,則采用了固化程序和保護 RAM 區(qū)重要數(shù)據(jù)等
    發(fā)表于 04-29 16:14

    IGBT的應用可靠性與失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性問題包括安全工作區(qū)、閂鎖效應、雪崩耐量、短路能力及功耗等,使用可靠性問題包括并聯(lián)均流、軟關斷、電磁干擾及散熱等。
    的頭像 發(fā)表于 04-25 09:38 ?1980次閱讀
    IGBT的應用<b class='flag-5'>可靠性</b>與失效分析

    電路可靠性設計與工程計算技能概述

    電路可靠性設計與工程計算通過系統(tǒng)學習電路可靠性設計與工程計算,工程師不僅能提高電路的可靠性和穩(wěn)定性,還能優(yōu)化產品設計過程,減少潛在的故障風險,從而提升產品的市場競爭力和消費者信任度。為
    的頭像 發(fā)表于 03-26 17:08 ?547次閱讀
    電路<b class='flag-5'>可靠性</b>設計與工程計算技能概述

    半導體集成電路的可靠性評價

    半導體集成電路的可靠性評價是一個綜合的過程,涉及多個關鍵技術和層面,本文分述如下:可靠性評價技術概述、可靠性評價的技術特點、可靠性評價的測
    的頭像 發(fā)表于 03-04 09:17 ?1080次閱讀
    半導體集成電路的<b class='flag-5'>可靠性</b>評價

    一文讀懂芯片可靠性試驗項目

    驗證產品性能的重要手段,更是提高產品可靠性和市場競爭力的關鍵環(huán)節(jié)。通過對芯片進行嚴格的可靠性測試,可以提前發(fā)現(xiàn)潛在的故障模式和失效機制,從而為設計優(yōu)化和工藝改進提供
    的頭像 發(fā)表于 02-21 14:50 ?1588次閱讀
    一文讀懂芯片<b class='flag-5'>可靠性</b>試驗項目

    霍爾元件的可靠性測試步驟

    霍爾元件是一種利用霍爾效應來測量磁場的傳感器,廣泛應用于電機控制、位置檢測、速度測量以及電流監(jiān)測、變頻控制測試、交直流電源、電源逆變器和電子開關等領域。為了確保霍爾元件的性能和可靠性,進行全面
    的頭像 發(fā)表于 02-11 15:41 ?1097次閱讀

    電源濾波器的可維護性如何

    電源濾波器可維護性包括模塊化設計、易拆卸結構、耐腐蝕及散熱材料、定期清潔檢查、元件更換,維護成本低,智能化設計減少人工需求,定期性能測試監(jiān)控性能變化。
    的頭像 發(fā)表于 01-09 09:48 ?606次閱讀
    電源濾波器的<b class='flag-5'>可維護性</b>如何

    半導體封裝的可靠性測試及標準

    產品可靠性是指產品在規(guī)定的使用條件下和一定時間內,能夠正常運行而不發(fā)生故障的能力。它是衡量產品質量的重要指標,對提高客戶滿意度和復購率具有重要影響。金鑒實驗室作為一家提供檢測、鑒定、認證和研發(fā)服務
    的頭像 發(fā)表于 11-21 14:36 ?1168次閱讀
    半導體封裝的<b class='flag-5'>可靠性</b>測試及標準

    如何提高CAN總線的傳輸可靠性

    提高CAN總線的傳輸可靠性可以從多個方面入手,以下是一些具體的方法: 一、優(yōu)化CAN總線設計 選擇合適的傳輸介質 : 使用屏蔽電纜或光纖等高質量的傳輸介質,以減少電磁干擾和信號衰減。 合理布局與布線
    的頭像 發(fā)表于 11-21 10:26 ?1680次閱讀