【算法運用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

原文題目:Investigating regime shifts and the factors controlling Total Inorganic Nitrogen concentrations in treated wastewater using non-homogeneous Hidden Markov and multinomial logistic regression models

作者:Bihu Suchetana,Balaji Rajagopalan,JoAnn Silverstein

第一作者單位:Department of Civil, Environmental and Architectural Engineering, University of Colorado, 428 UCB, Boulder, CO 80309, USA

期刊:Science of The Total Environment

發表時間:JUL 2018

關鍵詞:Total Inorganic Nitrogen, Ammonia-nitrogen, Hidden Markov Models, Multinomial regression, Wastewater

Nutrient regulations

污水處理廠出水中含有的污染物會對受納水體產生明顯的影響,因此污染物濃度限制的設定也成為很多學者關心的對象。與中國的規定相不同,美國對出水中N元素的規定是基於統計的方法,例如全年監測數據的中位數低於某個值即視為滿足要求。然而這同時帶來了兩個問題,一方面即使高濃度的天數相同,這些日子在短時間「集中」出現會比在長期「分散」出現造成的影響大,另一方面同樣是高濃度模式轉變為低濃度模式,從長期高濃度進行轉變與從短期高濃度進行轉變,其難易程度是不同的。

根據科羅拉多某座污水處理廠的實測數據(圖1)看到,出水中TIN的濃度呈現「高濃度」(位於橫線上方)「低濃度」(位於橫線下方)兩種模式,即總無機氮(Total Inorganic Nitrogen,簡稱TIN)濃度會連續數周保持高濃度或低濃度。根據這種特性,作者引入了隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)的方法(圖2)。該方法的假設條件雖然難以滿足,但被發現可以很好地解決模式識別、非穩態、非正態問題。這種方法也可以很好地模擬TIN濃度地統計特徵。此外,作者發現了TIN與TAN(Total Ammonia Nitrogen,總氨氮)、氣候等因素地相關性,因此引入多類別邏輯回歸(Multinomial Logistic Regression)方法(圖3),提高了TIN模擬性能。

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖1某污水廠出水的實測TIN濃度與氨氮濃度(其中TIN濃度經過了歸一化處理)

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖2隱馬爾科夫模型

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖3多類別邏輯回歸模型

文章的建模工作可以分為三部分。

①建立HMM。假設出水TIN濃度滿足馬爾可夫性質,並可分為「高濃度」「低濃度」兩種模式,每種模式可以用Γ分布描述。利用Baum-Welch算法確定模型參數(初始狀態、轉移矩陣、發射矩陣、Γ分布的4個參數(圖4),得到兩種模式的Γ分布(圖5)。得到分布後用貝葉斯信息原則(簡稱BIC原則)檢驗了只選取兩種模式的合理性。

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

4 Baum-Welch算法計算出的HMM各項參數

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

5Baum-Welch算法計算出的HMM中兩個狀態的Γ分布(State 1為低濃度模式,State 2為高濃度模式。黑線為由觀測值擬合出的Γ分布))

②建立多類別邏輯回歸模型。根據建立的HMM,對觀察到的TIN濃度進行解碼,識別潛在的高、低濃度模式。利用神經網路算法,將高、低濃度模式與協變量(TAN、降水、溫度等)建立多類別邏輯回歸模型。協變量的選擇也利用了BIC原則。

③將HMM與多類別邏輯回歸模型耦合。用多類別邏輯回歸模型計算出的概率代替原有的轉移矩陣,進行1000次模擬。圖6的結果表明模擬出的TIN濃度的統計特性與觀測值非常相符,圖7的結果則表明該方法可以很好的識別TIN濃度模式。

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖6 觀測值(紅色)的概率密度分布與1000次模擬結果(黑色)的概率密度分布

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖7HMM對出水TIN濃度的解碼結果。長條表示高濃度模式,短條表示低濃度模式

科羅拉多州對污水廠出水TIN的規定為,全年監測數據的中位數應低於15mg/L,第95百分位數應低於20mg/L。該污水廠滿足了這一規定的要求,但從圖8中不難發現觀測期間內仍有1/3的中位數超過了15mg/L,仍有2個第95百分位數超過20mg/L。文章從模擬結果的角度分析了可靠性,1000次結果的可靠性分布在39%到95%的範圍中,中位數為67%,與觀測值相同。由此看來,這一規定還不足以保證受納水體的安全。

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別

圖8規範限值與觀測數值的比較。實線代表中位數限值,虛線代表第95百分位數限值

本文提供了一個很好的視角,即用「模式」的思想分析污水處理廠出水TIN濃度。這一思想能夠簡化監測數據,並結合各種環境因素(如溫度、降水)進行模擬,便於管理者識別TIN濃度模式並進而採取相應的控制措施。然而,由於該方法基於出水數據建立,要求數據具備一定的「模式」特徵,因此有一定的局限性。

https://doi.org/10.1016/j.scitotenv.2018.07.194

【算法應用】隱馬爾可夫與多類別邏輯回歸用於污水處理廠出水TIN濃度模擬與模式識別