一、引言
機器學習(ML)在半導體制造領(lǐng)域的應(yīng)用,正面臨傳統(tǒng)算法難以突破的核心瓶頸。盡管行業(yè)能產(chǎn)生海量生產(chǎn)數(shù)據(jù),但兩大關(guān)鍵問題始終未能有效解決:一是極端類別不平衡,二是初始生產(chǎn)階段訓練數(shù)據(jù)集匱乏。這兩個問題在半導體測試環(huán)節(jié)尤為突出 —— 該環(huán)節(jié)芯片故障率常低于 0.5%,且新產(chǎn)品需在歷史數(shù)據(jù)極少的情況下,實現(xiàn)實時質(zhì)量預(yù)測。
這一問題的影響極為深遠:若有缺陷的芯片(die)在早期晶圓分選測試中未被檢出,會流入后續(xù)高成本加工流程(封裝、最終測試),最終仍會失效,不僅造成巨額成本損失,還會導致工期延誤,而更高效的早期檢測算法本可完全規(guī)避此類問題;反之,若合格芯片在晶圓分選階段被誤判為不合格,也會直接造成成本浪費與產(chǎn)能損耗。
近期研究表明,專用機器學習方法已能突破上述限制 ——即便訓練數(shù)據(jù)嚴重不足,仍能實現(xiàn)顯著的性能提升。其核心在于兩點:一是選擇專為制造場景設(shè)計的算法,二是采用貼合實際部署場景的評估方法。
二、類別不平衡挑戰(zhàn)深度解析
(一)制造數(shù)據(jù)不平衡的極端性
在工業(yè)領(lǐng)域,半導體制造是類別不平衡問題最嚴峻的場景之一。高良率生產(chǎn)環(huán)境下,芯片故障率通常低于 1%,部分產(chǎn)品甚至低至 0.5%;若通過軟分箱(soft bin)分類法分析特定失效模式,不平衡問題會進一步加劇 —— 部分失效類型在初始數(shù)據(jù)集中完全沒有樣本記錄。
這種極端的數(shù)據(jù)偏差會直接導致傳統(tǒng)機器學習算法 “失效”:傳統(tǒng)模型以 “整體準確率” 為核心優(yōu)化目標,若分類器對所有樣本一概預(yù)測 “合格”,雖能實現(xiàn) 99% 以上的準確率,但二類錯誤(Type II Error,俗稱 “漏檢缺陷”)率會飆升至 100%,這類模型對實際缺陷識別毫無實用價值。
(二)制造時序的制約
半導體數(shù)據(jù)收集的 “時序性”,進一步放大了類別不平衡問題。生產(chǎn)數(shù)據(jù)需數(shù)月時間才能逐步積累(積累速度取決于生產(chǎn)爬坡率與實際產(chǎn)量),而在初始生產(chǎn)階段,制造商亟需預(yù)測模型支撐質(zhì)量決策,但此時往往缺乏足夠的歷史數(shù)據(jù),根本無法訓練傳統(tǒng)機器學習系統(tǒng)。
這便形成了典型的 “雞生蛋” 困境:制造商需要預(yù)測模型優(yōu)化早期生產(chǎn)流程,而傳統(tǒng)機器學習方法又依賴大規(guī)模均衡數(shù)據(jù)集 —— 但這類數(shù)據(jù)集在早期關(guān)鍵階段完全不存在。
三、制造場景專用算法方案
(一)算法選擇標準
研究團隊針對 59 個生產(chǎn)批次(每批次含 25 片晶圓,單顆芯片的測試參數(shù)約 17500 項),開展了系統(tǒng)評估,最終鎖定 3 類算法方案。選擇核心聚焦兩點:一是能有效處理類別不平衡問題,二是具備適配制造環(huán)境的計算效率。
評估框架采用雙重方法設(shè)計:一是 “時間驗證法”(模擬真實生產(chǎn)場景下的模型重訓過程,貼合實際運維需求),二是傳統(tǒng)的 5 折交叉驗證(用于客觀評估模型基準性能)。這種雙重評估模式既確保了算法的落地實用性,又保障了評估方法的科學嚴謹性。
(二)現(xiàn)有基準分類器特性
作為基準的現(xiàn)有分類器(Incumbent Classifier),通過集成提升(boosting)技術(shù),能夠高效應(yīng)對大規(guī)模數(shù)據(jù)集、數(shù)據(jù)缺失值與異常值問題。該方法能有效降低模型偏差,并支持增量學習 —— 這一特性對數(shù)據(jù)持續(xù)積累的制造環(huán)境至關(guān)重要(畢竟生產(chǎn)數(shù)據(jù)是實時新增的)。
但 boosting 算法也存在明顯短板:在小數(shù)據(jù)集上極易出現(xiàn)過擬合現(xiàn)象,且訓練過程需消耗大量計算資源,對制造場景的硬件配置有一定要求。
其核心性能指標如下:
具備分布式計算能力,可隨生產(chǎn)規(guī)模擴展
支持增量學習,能實時整合新增生產(chǎn)數(shù)據(jù)
對數(shù)據(jù)缺失值和異常值的處理能力較強
訓練階段的計算成本相對較高
(三)基于采樣的高級分類器(Classifier-A)
專用算法(分類器 A,Classifier-A)在核心架構(gòu)中,創(chuàng)新性整合了對多數(shù)類(合格芯片樣本)的隨機下采樣策略與少數(shù)類(缺陷芯片樣本)的過采樣策略。該設(shè)計專門針對半導體測試數(shù)據(jù)的極端類別不平衡問題,同時還能保持對數(shù)據(jù)異常值的魯棒性,無需額外增加數(shù)據(jù)預(yù)處理步驟。
其核心性能優(yōu)勢具體體現(xiàn)在:
通過自動化采樣實現(xiàn)訓練數(shù)據(jù)內(nèi)部平衡,全程無需人工干預(yù),降低運維成本
借助隨機特征選擇降低模型方差,減少 “個別異常數(shù)據(jù)影響整體預(yù)測” 的情況
內(nèi)置正則化機制,增強對數(shù)據(jù)異常值的抗干擾能力,適配制造場景的復(fù)雜數(shù)據(jù)環(huán)境
大幅減少人工超參數(shù)調(diào)優(yōu)工作量,從 “反復(fù)試錯” 變?yōu)?“開箱即用”,加速部署節(jié)奏
該算法通過集成技術(shù)聚焦方差優(yōu)化,能顯著提升模型整體準確率,尤其適配制造早期階段的小數(shù)據(jù)集場景 —— 正好解決了 “初始生產(chǎn)沒數(shù)據(jù)” 的痛點。
(四)傳統(tǒng)局部信息分類器(Classifier-B)
傳統(tǒng)機器學習方法(分類器 B,Classifier-B)依賴數(shù)據(jù)點周圍的局部信息做預(yù)測決策。盡管這類方法訓練速度快,且支持增量學習,但存在兩大致命局限:一是處理高維測試數(shù)據(jù)時性能明顯下滑(半導體測試參數(shù)多達上萬項,正好命中短板),二是對數(shù)據(jù)噪聲和異常值高度敏感—— 這些缺陷在制造環(huán)境中會直接導致測試準確率大幅下降,難以落地實用。
四、性能分析與實驗結(jié)果
(一)AUC-ROC 性能對比
在模擬小數(shù)據(jù)集的時序驗證場景下(還原初始生產(chǎn)階段的數(shù)據(jù)狀態(tài)),基于采樣的專用分類器(Classifier-A)表現(xiàn)始終最優(yōu):當使用前 10 個批次的數(shù)據(jù)訓練時,其中位 AUC-ROC 得分比現(xiàn)有基準分類器高約 2 個百分點,缺陷識別能力顯著更強。

前 10 批次中位 AUC 值均值對比表(數(shù)據(jù)來源:研究實驗)
更關(guān)鍵的是,在訓練初期(數(shù)據(jù)量最少的時候),專用算法的性能優(yōu)勢更為顯著 —— 正好匹配 “初始生產(chǎn)階段最缺數(shù)據(jù)、最需要精準模型” 的場景。隨著訓練數(shù)據(jù)逐步增加,各算法的性能差距會有所縮小,但專用算法的優(yōu)勢始終穩(wěn)定保持,不會出現(xiàn) “數(shù)據(jù)多了反而不準” 的情況。
(二)計算效率權(quán)衡
運行時間分析結(jié)果顯示,算法的訓練速度與推理性能之間存在明顯的權(quán)衡關(guān)系,具體表現(xiàn)為:
Classifier-B:訓練速度最快,但推理速度最慢(每秒處理的芯片測試量少),難以適配半導體測試的實時性需求(生產(chǎn)線不能等模型“慢慢算”);
現(xiàn)有基準分類器:推理速度略優(yōu)于Classifier-A,在對實時性要求極高的場景(如高速晶圓測試線)中具備一定優(yōu)勢;
Classifier-A:推理耗時約為現(xiàn)有基準分類器的 3 倍,但從實際價值看,2個百分點的 AUC 提升能大幅減少漏檢缺陷,避免的下游成本損失,遠超過推理環(huán)節(jié)的計算開銷。
簡單說:多花一點計算時間,能省一大筆返工成本,這筆 “賬” 對制造商來說很劃算。
(三)統(tǒng)計顯著性與穩(wěn)定性
為了驗證算法性能的可靠性,時序驗證過程中,研究團隊通過多組不同隨機種子的實驗,量化了算法性能的波動性。結(jié)果顯示:無論數(shù)據(jù)劃分方式、模型初始化條件如何變化,Classifier-A 的性能優(yōu)勢均保持一致—— 這說明其性能提升是算法本身的穩(wěn)健性優(yōu)化帶來的,不是 “碰巧選對了數(shù)據(jù)集”,落地到不同產(chǎn)線、不同產(chǎn)品時,效果都能穩(wěn)定復(fù)現(xiàn)。
五、制造場景實施要點
(一)特征工程與篩選
半導體測試數(shù)據(jù)具有典型的高維特性(每顆芯片約 17500 個測試參數(shù)),其中很多參數(shù)對缺陷預(yù)測毫無意義,因此必須構(gòu)建穩(wěn)健的特征篩選流程。有效的實施需滿足兩大核心目標:一是精準篩選出具有強預(yù)測信號的特征(留下 “有用的”),二是嚴格控制模型計算復(fù)雜度(去掉 “沒用的”),避免在小數(shù)據(jù)集場景下出現(xiàn)過擬合。
在平衡模型復(fù)雜度與可用訓練數(shù)據(jù)時,參數(shù)篩選尤為關(guān)鍵。專用算法(如 Classifier-A)通過內(nèi)置的特征選擇機制,能自主處理高維特征空間,不用工程師手動 “一個個試參數(shù)”,大幅減輕人工特征工程的工作量,降低部署難度。
(二)超參數(shù)優(yōu)化
傳統(tǒng)機器學習算法需要大量人工調(diào)優(yōu)超參數(shù)(比如學習率、正則化系數(shù)),往往要試幾十組甚至上百組參數(shù)才能找到最優(yōu)解,耗時耗力。而專用分類器(如 Classifier-A)內(nèi)置了方差控制與自動化采樣策略,大部分超參數(shù)能 “自動適配”,不用工程師反復(fù)調(diào)試,顯著降低部署復(fù)雜度,實現(xiàn) “快速上線、快速用”。
更重要的是,其內(nèi)置的正則化機制能同時實現(xiàn) “防止過擬合” 與 “保留少數(shù)類(缺陷樣本)模式敏感性”——這一平衡是半導體缺陷檢測的核心需求:既不能 “把合格的判成缺陷”(過擬合導致誤判),也不能 “把缺陷的當成合格”(對少數(shù)類不敏感導致漏檢)。
(三)與現(xiàn)有系統(tǒng)集成
現(xiàn)代制造場景不是 “重新建一套系統(tǒng)”,而是 “在現(xiàn)有基礎(chǔ)上升級”,因此算法必須能與現(xiàn)有數(shù)據(jù)處理、決策系統(tǒng)無縫銜接。專用算法支持增量學習:隨著生產(chǎn)數(shù)據(jù)的持續(xù)積累,模型能實現(xiàn)動態(tài)迭代優(yōu)化,不用 “推倒重來” 做全量重訓,完全適配制造運營的時序需求。
這種特性帶來的好處是:從生產(chǎn)爬坡期到滿產(chǎn)期,模型能跟著數(shù)據(jù) “一起成長”,不用工程師頻繁停機更新模型,為 “從生產(chǎn)爬坡到滿產(chǎn)” 的全階段,提供了可持續(xù)的模型維護方案,不會影響生產(chǎn)線正常運行。
六、業(yè)務(wù)價值與成本影響
(一)早期缺陷檢測的核心價值
專用算法的核心價值,在于 “把缺陷檢測的時間點提前”—— 在晶圓分選階段(而非最終測試階段)就精準識別潛在失效芯片,避免對失效芯片進行后續(xù)高成本加工(封裝、組裝的成本比晶圓測試高 10 倍以上)。
考慮到封裝和最終測試環(huán)節(jié)的高昂成本,即便早期檢測準確率僅實現(xiàn)小幅提升(比如 2 個百分點),也能為企業(yè)帶來顯著的成本節(jié)約,相當于 “花小錢,省大錢”。
(二)縮短投資回報周期
采用專用類別不平衡算法后,制造商從生產(chǎn)第一天起就能獲得可用的預(yù)測模型,不用像傳統(tǒng)方法那樣,等數(shù)月積累均衡訓練數(shù)據(jù) ——這一特性可即時為質(zhì)量決策提供支撐,顯著縮短 AI/ML 項目的投資回報周期(比如從 6 個月縮短到 1 個月),讓技術(shù)投入更快看到收益。
對制造商來說,這意味著 “新產(chǎn)品一投產(chǎn),AI 就能用”,不用承擔 “等待數(shù)據(jù)期間的質(zhì)量風險”,還能加速技術(shù)價值轉(zhuǎn)化。
(三)減少下游浪費
晶圓分選到最終測試的預(yù)測準確率提升,能直接減少下游加工浪費:避免缺陷芯片流入高成本制造環(huán)節(jié),不用再做 “無用功”。Classifier-A 等專用算法能精準識別 “難判樣本”(比如參數(shù)接近合格線的芯片),同時降低一類錯誤(誤拒合格芯片)與二類錯誤(漏檢缺陷芯片)的發(fā)生率 ——既不浪費好芯片,也不放走壞芯片,工程實用價值顯著。
七、未來方向與可擴展性
(一)數(shù)據(jù)增長與模型演進
隨著制造產(chǎn)量的提升、生產(chǎn)數(shù)據(jù)的持續(xù)積累,專用算法的增量學習能力可支持模型實現(xiàn)動態(tài)迭代優(yōu)化,不用全量重訓—— 這種模式既能以低成本實現(xiàn)模型維護(不用每次都花大量計算資源訓模型),又能保留早期學習成果,確保模型性能隨數(shù)據(jù)積累穩(wěn)步提升,不會出現(xiàn) “數(shù)據(jù)多了性能反而倒退” 的情況。
(二)集成方法探索
當前單一專用算法(如 Classifier-A)已展現(xiàn)出顯著的性能優(yōu)勢,未來可進一步探索 “多專用分類器集成” 方案(比如讓 Classifier-A 與其他算法 “協(xié)同工作”)。但需要注意的是:Classifier-A 等專用算法已內(nèi)置集成技術(shù),外部集成策略可能難以帶來額外的性能增益,后續(xù)需要結(jié)合實際制造場景(如不同芯片類型、不同測試設(shè)備)開展驗證,不能盲目 “為了集成而集成”。
(三)制造場景 AI 部署優(yōu)化

八、結(jié)論
半導體行業(yè)的獨特約束 ——數(shù)據(jù)收集的時效性(數(shù)據(jù)慢積累)、極端類別不平衡(缺陷太少)、對預(yù)測模型的即時需求(投產(chǎn)就要用)—— 要求行業(yè)必須采用超越傳統(tǒng)算法的專用機器學習方法。研究結(jié)果明確表明:精心選擇的專用算法,即便在訓練數(shù)據(jù)嚴重不足的情況下,仍能實現(xiàn)顯著的性能提升,不是 “紙上談兵”,而是 “能落地用”。
專用類別不平衡算法帶來的 2 個百分點 AUC 提升,可直接轉(zhuǎn)化為三大核心價值:制造成本降低(少返工、少浪費)、質(zhì)量控制改善(漏檢少、誤判少)、AI 投資回報加速(早用早收益)。隨著行業(yè)持續(xù)擴大人工智能應(yīng)用規(guī)模,這類專用方法將成為突破制造環(huán)境固有數(shù)據(jù)局限性的核心工具,不是 “可選方案”,而是 “必選方案”。
從工程實踐角度看,半導體制造場景的 AI 應(yīng)用,不能 “照搬互聯(lián)網(wǎng)行業(yè)的模型”,必須跳出傳統(tǒng)機器學習的固有框架,采用專為制造約束設(shè)計的算法。大量研究證據(jù)表明,在半導體測試場景中應(yīng)用專用類別不平衡技術(shù),既能快速創(chuàng)造業(yè)務(wù)價值(投產(chǎn)就能省成本),又能為后續(xù)數(shù)據(jù)積累后的模型優(yōu)化筑牢基礎(chǔ),實現(xiàn) “短期見效、長期向好” 的目標。
-
半導體
+關(guān)注
關(guān)注
336文章
29749瀏覽量
255272 -
檢測
+關(guān)注
關(guān)注
5文章
4763瀏覽量
93711 -
機器學習
+關(guān)注
關(guān)注
66文章
8536瀏覽量
136111
發(fā)布評論請先 登錄
如何理解矢量測量中“平衡”與“不平衡
三相不平衡的原因、危害以及解決措施
三相不平衡治理裝置的應(yīng)用優(yōu)勢
天線與饋線匹配中的平衡與不平衡變換有什么區(qū)別?
怎么解決變頻器電流不平衡的問題
基于主動學習不平衡多分類AdaBoost改進算法
不平衡類別的機器學習
手把手教你解決-深度學習訓練數(shù)據(jù)不平衡問題
三相電壓不平衡產(chǎn)生原因_三相電壓不平衡的治理措施
機器學習中樣本比例不平衡應(yīng)該怎樣去應(yīng)付
基于有效樣本的類別不平衡損失

半導體缺陷檢測升級:機器學習(ML)攻克類別不平衡難題,小數(shù)據(jù)也能精準判,降本又提效!
評論