以下是演講的主要內容(現場筆錄):
我的報告分為以下三個部分:首先是我們對風電機組運行大數據的概述和我們對運行大數據的一些自己的理解。
首先大數據是一個目前在各行各業都非常流行的,也是應用非常廣泛的一個概念,就定義上來說它是一種海量的、高增長率,并且是多樣化的一個信息資產。一般認為大數據有著一個5個V的特征,也就是大量、多樣、真實性、高速和價值,特別是大數據價值和傳統數據有一些不同的地方,它的價值不是一個密集的價值,而是比較稀疏的,需要我們不斷發覺和發現,在這里需要我們使用一些新技術對大數據進行處理,其中比較重要的是數據挖掘技術、分布式處理技術、云存儲、云計算以及虛擬化技術,這樣對我們對數據的加工能力提出了一個更高的要求。
具體到風電大數據上,風電大數據當前利用有四個方面:在資源評估、狀態監控、故障診斷和運維管理這四個大類。隨著風電的不斷發展和風電裝機容量的不斷增加,風電大數據也是非常明顯的有著量大、多源、易購、復雜的特點,風電機組的設計數據、風電機組的運行數據以及一些其它來源的公共氣象數據,這其中最為重要,數據量最大,也是業務最廣泛的是風電機組的運行數據,這下面又可以具體的分為幾類,比較主要的有風電機組SCADA的運行數據、CMS系統采集數據、管理運行數據、檢測及氣象數據。這些數據現在都或多或少的分散在一些風機制造商、風電廠業主以及第三方運營商多個環節中,如何將這些數據匯集起來加以合理有效的應用,是目前在數據這個層面主要存在的問題。
就風電機組和風電廠的維修方式來說,從傳統的比較落后的方式一直到最新的比較好的方式,大體上可以分為事后維修、預防性的維修和改善性維修這三個方面,當然我們是希望盡量不要有事后尾后,或者盡量減少事后維修的方式,怎么樣加大云放性維修和改善性維修的比例,這里就需要風電運行大數據對我們的維護和檢修做出一個支持,風電運行大數據在風電運維方面的運用分為三個階段,首先最為基礎的現象上面的利用是對風電的運行數據有一個基本的采集和存儲。第二個步驟是要對這些運行數據進行一個狀態的監測,通過對它們進行一些初步的梳理統計分析,可以初步觸及到數據本質,最終發展故障預警系數,深層挖掘出其中的價值,也就是使用數據挖掘技術,把有效的新穎而且潛在的有很大價值的知識,從一個大數據挖掘出來,并且表現出一個比較淺顯的運營模式。我們從數據殘酷中提取這些大量的數據進行挖掘和處理,最終實現一個對風電機組運行模式評估,再接入可視化運行接口,來進行診斷。
我們認為就風電運行大數據在風電機組運維這個領域應用上來說,最最重要是以下三大類數據,CMS數據、SCADA數據、和載荷測試數據,當然都離不開檢修運維支持,CMS毫秒級數據故障早期辨識和定位上面,SCADA數據蘊含分鐘及數據,運行狀態評估故障中短期預警,載荷測試數據是全壽命周期監測數據長期性能與壽命預測。基于這幾種數據方式我們會形成一個多數據形式的風電機組故障診斷及智能預警技術,最大程度上避免事故的損失。
接下來要介紹的一部分是風電機組的在線監測系統,在線監測和故障診斷是密不可分的兩個方面,一方面在線監測是故障診斷的一個基礎,另一方面一個好的監測系統是需要包括故障診斷的模塊和故障診斷的功能,一般來講一個故障監測系統從底層到最上層,大致分為硬件層、操作系統層和應用層。
具體到功能上面來說,在線監測系統面向用戶種類基本分為現場工作人員和數據分析人員,現場工作人員進行風電機組操作,風電廠、風電機組的實施信息和歷史信息的存儲和調用,完成對風電廠現場的計劃安排我最終實現一個表格打印和總結工作。數據分析人員要額外的進行統計分析和預警分析工作。
我們利用風電機組在線監測系統監測到的數據首先可以對風電機組的故障做出一個初步的預警和判斷,其中最簡單的是單預測,這個其實SCADA本身就可以完成,下面是對數據的分時分析,也就是說隨著風電機組或者是風電廠的運行,隨著時間的退役,風電機組的運行參數或者是某些方面的表現,隨著時間的變化會有一個降級,比如說這個例子是我們最關心的一個功率曲線和風速的關系,隨著時間的增加功率有一個明顯的降低,這個時候就要檢查風機部件或者是控制系統出現了什么樣的故障。三是是進行集群分析方式,對兩個參數之間的關系進行監測,如果某一臺風電機組出現了明顯偏離其他風機的運行狀態的話,我們就認為它是有一個故障,這個例子是相軸承溫度的報警分析。
以上的這些內容不管是對一個數據趨勢的展示,或者是分時統計和集群分析的方式,都是包括在一個狀態監測的內容里面,也就是通過測試設備的某些比較單一的參數,來確定當前這個風電機組所處的運行狀態,更進一步的如果我們需要對故障診斷或者故障預警的時效性、可靠性、和準確性做出一個要求,我們就需要對數據進行進一步的處理。測取很多的故障信號,對這些信號進行綜合利用和特征提取,來預測這臺風機將來的運行狀態。
我報告的第三部分,風電機組的故障預警技術。不光是風電機組的故障預警技術,任何機械的故障預警和故障診斷技術都是一個多學科的綜合的技術,是以信號處理技術、應用力學和物理學的知識為基礎,在這個之上可能綜合了機械工程、建模基礎等等不同類別來對機械的運行參數進行辨識,最終實現故障診斷的工作。
從監測到狀態再到診斷,這三者之間的邏輯關系也是比較清晰的,首先我們進行了在線的連續監測之后,可以得到當前的這臺機械是屬于一個正常還是異常的狀態,如果是屬于異常的狀態它是有什么樣的癥狀或者是表現,它的表現可能會體現在SCADA或者是CMS系統采集到的震動信號、溫度或者壓力等等這些異常信號上面,并且依據一些邏輯推理,之后我們可以得到這臺機械它當前是處于什么樣的故障狀態,對于故障的診斷也是有著不同的層次,首先可能是一個從無到有的關系,也就是判斷它有沒有故障,接下來我們可能做一些預測,就是說將來故障會向什么樣的方向發展,并且對故障進行定位,這個故障發生在什么樣的部件上面,它的類別是屬于磨損還是屬于腐蝕,還是變形,它的故障程度是暫時的,通過一些重新啟動或者是一些小的干預就可以恢復的還是永久的,是要嚴重到立刻進行處置,還是說我們可以暫時對它做出一個特定的監測。所有的這些診斷的結果都可以對我們的不風電運維檢修做出一個指導。
當前在故障預警里面應用比較多的還是訓練方式,也就是歷史監測數據我們獲得之后,可以對這些數據進行分類模型或者數學模型的訓練,通過對故障樣本的學習,不僅可以得到訓練模型,還可以得到故障的概率舉證和故障特征舉證,或者是得到一個故障預警的預值,所以訓練得到的這些內容都可以拿到最新的監測數據里面去,最終可以得到故障預警或者是故障診斷的結果。
就我們應用比較多的SCADA數據,具體來談一下SCADA數據在風電機組預警方面的流程,SCADA答題可以分為參數量、控制量和狀態量的部分,參數量比較重要的都是一些數值量我,控制量和狀態量是作為模型建立和輔助參考,或者是對故障特征的一個分類的依據,參數量可能會有非常多的參數,幾百條或者是上千條,我們要從中選擇出和我們需要研究的故障狀態密切相關的參數,在這里有人工選擇的相關性分析兩種方式。人工選擇是依賴于工程師的經驗,對和我們需要研究的這些故障有邏輯的參數進行一個選擇。模型的輸入和輸出關系確定之后,我們把能夠表示風電機組穩定運行狀態的訓練數據和代表風電機組未知的需要判斷的這樣一個狀態的測試數據同時進入這個模型中,進行一個模型的應用,最終就可以得到代表風電機組運行特征的特征值,來進行特征的分析。
在這整個流程中,我們認為比較重要的幾個步驟做出一個重點的說明,首先是對原始數據的清洗工作,數據清洗是整個大項目一個成敗得基礎,同時一個大數據項目也可能甚至有70%-80%的時間都是用在數據的清洗上面,由于這個大數據的量非常大,其中難免有各種各樣重復、缺失的數據,采集的錯誤或者是傳感器的錯誤,針對每個項目制定一個清洗的策略和規則,同時對這些異常數據進行重復檢測和重復處理,最終才能取得滿足我們要求的數據。對于數據清洗的處理上面我這里簡單的列了一下,可能有數值化、標準化、參數降維,對數據完整的合理性檢測,以及最后對離群的處理,這是主要的幾種方法。
在對原始數據進行清洗之后,我們還需要對數據進行其它的預處理工作,這里我列了幾個主要的方式,首先是主成份分析工作,也就是說我們之前所選擇的那些參數還需要把它進一步降維,在能夠保證它們參數之間所蘊含的信息盡量大的被保存的前提下,盡量的降低參數的類型以提高這個模型的運算效率。抽樣的方式不是在所有大數據項目中都會運用,這個需要我們在具體項目中考慮所要面對的具體故障種類,以及和這些種類相關的參數性質,一個合理的抽樣能夠達到一個比較好的結果。聚類是針對風機運行中的某一個特定參數,鎮定風機運行的不同的工況來使用一些算子進行的一個對風機運行自動分類過程,合理選擇聚類的方式以及聚類的個數,也是在提高運算效率的同時,能夠很明顯的降低這個模型的誤差。
在數據的預處理之后,我們運用對運用數據類別工作,在當前所有文獻和應用中,我們應用比較多的大體上有這四個大類的模型,回歸模型、支持向量機模型、自回歸移動模型、神經網絡模型。所以這個類型的模型它比較適合于和其它的模型聯合應用,來達到一個比較好的效果,神經網絡模型實際在應用中是一個比較均衡的模型,不論是在對大量的數據樣本的處理,對復雜系統的計算,還是說它的效率上面表現的都是比較好的,也是我們現在應用的比較多、比較成熟的一種方法。
在實際的模型訓練中,我們這個例子是采用了風電廠,神經網絡是要高于回歸分析,它的均分誤差是最小的,很明顯的當歷史數據采用的訓練集的時間越長,它的均方也會越低,但是這個誤差降低的趨勢是趨緩的,所以我們最終可以找到一個經濟性和準確性的數據平衡,我們試驗了20秒的數據,一分鐘和十分鐘平均數據,在一些常見的故障分析和處理中,表現最好的是一分鐘的數據,這里主要考慮到計算的效率,但是我們大部分采用的是十分鐘的效率進行計算。
模型確定之后根據剛才的流程,我們需要有最新的監測數據進入這個模型里面去,得到一個風電機組運行狀態的一個特征值,在很多模型中這個特征值就體現了一個參差的形式,對大量的殘差我們進行統計決策的方面,可以得到風電機組故障預警的預值,這個預值可以是簡單的單一的預值,也可以是一個隨著風電機組變化的預值。
這個是我們利用上面所說的那些風電機組的故障預警技術搭建的風電機組故臟預警和故障診斷的計算平臺,是使用實際的歷史監測數據進行訓練之后,得到一個固定的模型訓練的結果,現在如果有新的檢測數據進來,我們就可以對主要零部件的一些常見的故障狀態進行一個持續的在線的也是時間序列上面的監測,右邊的這一列就是時間上面監測的結果。下面這張圖片是一個發電機軸承故障的例子,我們是提前20天給出了發電機軸承故障的預警,方便現場做一些備品備件的管理,或者是運維檢修的安排。
最終我們是要建立一個風電機組故障預警和故障診斷的一個完整的軟硬件平臺,包括數據采集、數據存儲、數據計算、數據應用等完整的幾大模塊,我們持續不斷地工作,致力于對整個軟硬件平臺進行不斷地改善,一方面是擴展數據的來源,提高數據的準確度,可以把數據存儲和數據采集的效率進行一個提高,并且探索數據計算的方法,提高數據計算的速度。接下來可以對模型進行一個模型準確度的提升,最終經過不斷地運算,完善風電機組的故障知識庫,以達到對風電機組的故障準確的判斷。希望經過我們不斷地工作和研究,能夠為風電機組的運維和管理提供一個支撐,能為整個行業發展貢獻一份力量,謝謝大家!