根本原因分析技術(shù)(root cause analysis,RCA)就是上個世紀末國際維修保障領(lǐng)域經(jīng)常使用的一種用于縮減裝備維修范圍的有效工具。
一、RCA的基本概念
IOWA州立大學質(zhì)量管理學院認為,很多公司在設(shè)備發(fā)生故障后,都能夠很快修復,但難以發(fā)現(xiàn)故障的根本原因,所以此故障會再次發(fā)生。根本原因分析技術(shù)是一個發(fā)現(xiàn)和消除這些原因的過程,只有當這個根本原因被發(fā)現(xiàn)和消除后,這個問題才能夠被徹底解決。
美國能源部1992年發(fā)布的《根本原因分析指南》(DOE—NE—STD—1004—92)中,把根本原因定義為:指一種原因,當這種原因被糾正以后,將會防止此類事故或者類似事故的再次發(fā)生。根本原因并不是僅僅導致這次事件發(fā)生的原因,而是在一個更為廣闊的范圍內(nèi)對可能發(fā)生的其他事故還存在著影響的原因。根本原因最基本的特征應該是從邏輯上能夠被識別并能夠被糾正??赡軙幸幌盗械脑蚨寄軌虮蛔R別,從一個導致另一個,但是這一系列的原因應該能夠被追溯到最基本的,并且能夠被識別和糾正的原因。
在我國大亞灣核電站的建設(shè)和運行過程中,由美國PⅡ (performance improved international)公司提供了RCA方法,該公司把RCA定義為:通過一整套系統(tǒng)化、邏輯化、客觀化和規(guī)范化的分析方法,找出設(shè)備故障的機理和根本原因。并通過制定合理的糾正措施徹底消除這些根本原因,從而恢復設(shè)備功能,防止同樣或類似故障重復發(fā)生的一種解決設(shè)備故障問題的分析技術(shù)。
二、RCA的實施過程
盡管不同機構(gòu)在RCA定義的表述上有所區(qū)別,但其核心內(nèi)容卻大致相同。這些機構(gòu)所推薦的RCA實施過程也存在著一些差別。這里以美國能源部5003 Order 5000.3A《事故報告和操作信息的處理》為基本依據(jù)來說明 RCA的實施過程。
1. DOE Order 5000.3A中規(guī)定的根本原因分析步驟
(1)數(shù)據(jù)收集。在事故發(fā)生以后,應立即開展根本原因分析的數(shù)據(jù)收集,以防丟失。在不危及安全性或者災后重建的情況下,數(shù)據(jù)甚至應該在事故發(fā)生時就開始收集。被收集的信息包括事故發(fā)生以前及發(fā)生過程中和發(fā)生以后的情況、所涉及的人員(包括所采取的措施)、環(huán)境因素以及其他一些同事故發(fā)生有關(guān)的因素。
(2)事故原因評估。事故原因評估一般分為三個步驟:首先是識別存在的問題,判定這些問題的重要性;其次,圍繞存在的問題識別事故原因(狀態(tài)或措施),然后對其進行分析,列出符合標準要求的各種原因因素,并給出推薦的糾正措施;最后,按照給定的表格樣式,把分析過程和結(jié)果輸入RCA的計算機系統(tǒng)。
事故原因評估的結(jié)果可以區(qū)分為直接原因、起作用的原因和根本原因。這些原因形成一個導致事故發(fā)生的原因鏈。原因評估的過程就是按照這個原因鏈一步步追溯,直到找到導致事故發(fā)生的根本原因為止。找到根本原因是評估階段的停止點。
例如,在一次核泄漏的事故中,根本的原因可能是管理手段有缺陷。這個根本原因可能導致設(shè)備維護人員在預防性維修時使用不正確的密封材料或者遺漏掉一些部件,導致核原料的泄漏。在這個例子里,按照表1的原因分類方法,管理手段的不足就是導致事故發(fā)生的根本原因,人員錯誤則是導致事故發(fā)生的直接原因。
(3)矯正措施。識別出事故根本原因后,需要針對原因鏈中的每一個原因采取適當?shù)某C正措施,以降低同一個事故再發(fā)生的概率,并且改善其安全性和可靠性。在設(shè)計糾正措施時,還需要考慮一系列相關(guān)問題。如該措施的有效性、可行性、實施風險性、隱性風險是否被清楚地描述、如何安排糾正措施的實施順序、實施該措施是否需要進行培訓、需要哪些資源等。以保證這些矯正措施可行、有效且能夠持續(xù)改進和發(fā)展。
(4)通知。把根本原因分析過程和推出的矯正措施輸入計算機中的事故報告和處理系統(tǒng),是通知階段的一部分工作內(nèi)容。同時,還包括對分析結(jié)果、糾正措施以及在事故中涉及的管理問題和人員等問題的討論和解釋。最后,還應該考慮到把此次根本原因分析過程的有關(guān)結(jié)論通知給一些類似設(shè)備或關(guān)聯(lián)設(shè)備的人員,以使RCA在更大范圍內(nèi)發(fā)揮作用。
(5)后續(xù)行動。后續(xù)行動主要用于判斷所確定的糾正措施在解決此類問題方面是否有效。首先,這些矯正行為應該被跟蹤,以確保被正確實施;其次,對這些糾正措施應該有一個周期性評審,以確保這些矯正措施確實達到了預期的效果。對近期發(fā)生的類似事故應該仔細分析,以搞清為什么這些措施沒有達到預期的效果。當分析系統(tǒng)發(fā)生變化時,必須對變更部分重新進行RCA。最后,應該利用計算機所保存的事故分析記錄不斷進行評審和總結(jié),以使RCA達到更好的效果。
2. PⅡ公司的RCA分析流程
除了DOE—NE—STD—1004—92所描述的RCA過程外,大亞灣核電站采用的是PⅡ公司RCA技術(shù),其分析過程簡單描述如圖1所示??梢钥闯?,PⅡ公司的RCA流程和DOE Order 5000.3A中規(guī)定的RCA步驟基本內(nèi)容大致相同,只不過5000.3A中的數(shù)據(jù)收集階段含了PⅡ公司分析流程中的設(shè)備故障描述以及影響范圍的確定和數(shù)據(jù)收集兩個步驟。PⅡ公司的分析流程中突出了一種根本原因判定的方法,即故障模式分析和評定,并希望以此方法來重構(gòu)故障情節(jié)作為判定根本原因的依據(jù)。在5000.3A中,則是推薦了包括FMEA在內(nèi)的數(shù)種方法來分析根本原因。如因果分析法、屏障分析法、管理疏忽和風險樹分析以及人素分析等方法。
3. RCA分析方法和事故原因分類
在事故原因評估過程中,除了典型的FMEA以外,還包括以下分析方法。
(1)因果關(guān)系法。用圖形法表示出圍繞著導致事故發(fā)生的一系列任務及行為措施的時間順序,明確這些任務之間的因果關(guān)系。此方法有利于形成原因評估時所需要的原因鏈。
(2)替代分析法。在對問題界定不明晰時,可以使用替代分析方法,尋找究竟是哪些因素導致了事故的發(fā)生。
(3)屏障分析法。屏障分析法也是一個系統(tǒng)的過程,能夠用于識別可防止事故發(fā)生的那些物理的、行政管理的和程序過程中的屏障或者控制措施。
(4)管理疏忽和風險樹分析法。主要用于識別屏障、控制措施的具體屏障、保障功能及管理功能的不充分之處。它能夠識別導致事故的因素及允許這些因素存在的管理原因。
(5)人素分析法。主要用于識別影響任務性能的因素,焦點在于可操作性、工作環(huán)境和管理因素。人機界面的研究可以改善或者提高針對訓練標準的優(yōu)先權(quán)。
無論采用哪種分析方法,導致事故發(fā)生的原因必須歸納為一系列得到認可的原因分類。DOE Or-der 5000.3A中,事故原因共分為七大類,見表1。
表1 DOE 5000.3A指令中的事故原因分類列表
三、RCA的應用實例
2002年1月12日,大亞灣核電站1號機組并網(wǎng)升功率過程中,由于汽輪機旁路系統(tǒng)(GCT)121排放閥的定位器反饋連桿突然斷損,導致反應堆緊急停堆。
事故發(fā)生后,電站的RCA小組立刻按照預定的程序?qū)υ撌鹿蔬M行了RCA分析。發(fā)現(xiàn)根本原因在于121排放閥的二個固定螺栓均未裝鎖緊墊片,長期振動環(huán)境造成螺栓脫落,致使閥門開啟時橫桿折斷。為此,RCA分析小組提出了更改鎖緊墊片設(shè)計和定時檢查螺栓緊固情況等措施,并把分析結(jié)果和措施應用于電站系統(tǒng)中所有類似閥門。
PⅡ公司先后在大亞灣核電站和嶺澳核電站應用推廣了RCA技術(shù),幫助他們逐步建立了電站RCA管理體系。幾年來RCA小組共完成了30多起電站重大事件的根本原因分析,高效準確地找出了導致事故發(fā)生的根本原因,制定了相應的糾正措施,有效地避免了事故的重發(fā)。
實踐證明,在高科技密集、重要設(shè)備密集、風險密集的工程單位,應用和推廣RCA分析技術(shù)和方法,并建立一套較完善的由上至下的RCA分析管理體系十分必要。