【方法工具】怎樣利用二值數據進行參數率定？

2018-11-01 科技 108 Views

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

加入LINE好友

原文題目： Parameter estimation of hydrologic models using a likelihood function for censored and binary observations

作者：Omar Wani, Andreas Scheidegger, Juan Pablo Carbajal, Jorg Rieckermann, Frank Blumensaat

第一作者單位：Institute of Environmental Engineering, ETH Zürich, 8093, Zürich, Switzerland

期刊：Water Research

發表時間：May 2017

對於一個排水系統模型，其在t時刻的響應Yt可以分為模型輸出mt和隨機偏差Bt（一般認為其服從正態分布）兩部分，見圖1。

圖1 排水系統模型的響應曲線

圖1中實線為模型的輸出。但由於數據被刪失（大小不在限值範圍內的取上下限），導致了橙色的偏差值均取上/下限值，導致得到的相應曲線為圖1中的虛線，而概率密度的計算則相應地也會進行截斷（如圖中紅線）。對於一個觀測樣本Yo={Y1,Y2,…}，其可以表示為響應數值Y與附加誤差項E的和。對於這些存在刪失機制的傳感器，其輸出的數據屬於刪失數據。輸出結果可以表示為圖2所示函數。

圖2 傳感器的輸出數值

其中AT與BT分別表示輸出的上下限值，y(上劃線)與y(下劃線)表示傳感器的測量上下限。換言之，對於超過上下限的觀測值，此類傳感器將其作為上下限值進行處理。

為了對這樣的數據進行處理，本文構造了一種十分特殊的似然函數，其表達式見圖3。

圖3 處理刪失數據所用的似然函數

其中，pz為似然函數，Py為響應值的概率密度函數，n表示觀測值的數量，g為構造的輔助函數，其表達式見圖4。

圖4 輔助函數g的表達式

其中，H為赫維賽德階躍函數，其在自變量為負數時取0，其餘時候取1；δ為狄拉克δ函數，其在非零點的取值均為0，而其在整個定義域上的積分為1。對於二值數據，可以視為刪失數據在上下限值相等時的特殊情形。利用這種方式構造的似然函數雖然其積分在正態分布中無法得到解析解，但其可以用數值方法加以計算。這個似然函數對於未刪失數據同樣適用。

為了證明該似然函數的有效性，文章首先利用該函數首先對一個假想的線性系統（Q=aP+b）進行了參數率定，之後又選取瑞士盧塞恩wartegg城區作為案例區域，對其中的一個小匯水片區進行了參數率定。進行參數率定所使用的監測數據類型與相應的傳感器見圖5。

圖5 進行參數率定所使用的監測數據類型與相應的傳感器

測量液位數據所使用的傳感器有兩類，一類是超音速傳感器（H1），測得的是實際的液面高度，用於進行參數驗證；另一類是濕度計（S1、S2），只能測得液面高度是否超過某個給定的限值，用於進行參數率定。文章使用二次開發後的SWMM5.1.009以加快率定速度，選取的率定參數為子匯水區特徵寬度、最大滲透率、滲透衰減率。對於這些參數，選取截尾正態分布為先驗分布，同時為了簡化率定過程，不考慮附加偏差E。率定過程使用納什效率系數（NSE）評價參數驗證的效果。在進行參數率定的同時，還對液面高度限值以及先驗分布的選擇對參數的影響進行了靈敏度分析。對線性系統的率定結果表明使用二值數據能夠提升模擬結果的準確度，見圖6。

圖6 對假想線性系統的參數率定與驗證

利用先驗分布得到的結果中，NSE為-0.94，而利用後驗分布得到的結果中，NSE為0.84，這表明了新的似然函數利用二值數據的有效性。而對於實際的案例區域進行的參數率定，也支持這一結論，見圖7。

圖7 對案例區域進行的參數率定與驗證

圖7中包含了兩個不同時段的數據。其中每個圖的最上方顏色表明了其是否超過限值。藍線為利用先驗分布得到的參數對液位所進行的預測，紅線為利用二值數據計算得到的參數對液位進行的預測。可以看到，利用二值數據的似然函數計算參數的後驗分布後，液位的計算值與真實值都更為接近了，這可以從NSE的變化中反映出來。對於事件1，NSE從0.65上升至0.75，而對於事件2，NSE從-0.61上升至0.46。

不過二值數據在使用時，對於先驗分布與限制選取也具有一定的敏感性，見圖8與圖9。

圖8 二值數據與普通數據對先驗分布選取的敏感性

圖9 二值數據對液位限值選取的敏感性

圖8為六種不同的先驗分布情形下，使用二值數據與普通數據時，後驗分布的標準差和先驗分布的標準差之比。可以發現，使用二值數據時，後驗分布的標準差變化均比使用普通數據時大上數倍，這也表明了使用二值數據對於先驗分布的選取有更大的敏感性。圖9為選取不同液位限值時，大於限值數據與小於限值數據的比例以及NSE的變化，圖9表明了模擬結果對於限值的選取是敏感的。當所有數據都超過或未達到限值時，其有效性相較數據在限值兩側均有分布更低。這些也是使用二值數據的局限性，是在進行實際應用中所需要考慮的方面。

刪失數據，尤其是二值數據，作為數據中一種較為特殊的存在，其包含的信息雖然不足以作為常規的數據進行分析，但也不可忽略。本文使用了在醫學研究中較為常用的生存分析的方法，對這些數據所提供的不完全信息建立了似然函數，並利用該函數進行了參數率定。結果也表明了這種方法的有效性，但也表現出了該種方法具有更大的參數不確定性。如何在「昂貴但信息更多」的普通數據和「廉價但提供較少信息」的刪失數據間進行權衡，是實際研究和應用中所需要解決的一個問題。

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

更多文章