【交易技術前沿】基於公司公告資訊的智能風險識別初探 / 武自強 鄭佩鈺 胡殿明 吳愷 張曦文

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友



本文選自《交易技術前沿》總第三十一期文章(2018年6月)

武自強,鄭佩鈺,胡殿明,吳愷,張曦文

東興證券場外市場部,北京 100033

北京感易智能科技有限公司金融數據智能研發部,北京 100085

E-mail:[email protected]

摘要:上市公司風險識別是金融市場參與者共同關心的問題,而作為公司信息披露的主要載體,公司公告信息蘊含著大量的重要風險信息。但因其非完全結構化的屬性,從中識別風險需要借助專業的人工分析來做到,工作量浩大,且準確率與覆蓋率不足。本文充分探討了在當前技術背景下,利用公司公告信息進行智能化風險識別的可能,構建了智能風險識別模型,闡述了從非結構化公告數據到結構化風險指標、再到風險識別的全過程,並著重梳理了風險量化指標體系的構建思路和方法,探索了利用人工智能技術進行非結構化公司公告信息風險識別的新路徑。

關鍵詞 :風險識別;公司公告;風險量化指標;自然語言處理;人工智能

證券市場的參與者眾多,包括上市公司、廣大投資者、交易所以及金融監管機構。各參與主體職責不同,訴求大相徑庭,但對於公司的風險信息都十分重視。根據監管要求,企業會定期不定期地發布公告信息。僅滬深兩市,三千餘家上市公司每年發布的公告數量就在五十萬以上,其中沉淀了大量非結構化數據,如何從茫茫信息中識別風險,成為擺在市場參與者面前的難題。

由於技術的限制,風險識別依舊依賴於對公告的人工處理和分析。在IPO提速的背景下,傳統方法將越來越難以適應。而隨著大數據、自然語言處理、機器學習、人工智能等技術的發展,基於公司公告搭建自動化、智能化、全覆蓋、多維度的公司風險識別系統,從想法變為了可能。本文即在此方向上進行了探索。

1 公告信息的特點

公告信息是公司信息的重要載體,是本文風險識別框架的基礎數據源。首先,公告蘊含大量可以結構化的數據。主流金融信息平台上的公司數據,大都采集自此。第二,公告本質上是文本,可利用自然語言處理技術提取非傳統數據,例如文本的情感、主題等。例如,在監管科技領域,美國證券交易委員會(SEC)下設的經濟與風險分析部利用LDA文檔主題模型識別上市公司的異常披露行為。研究發現,當公司因財務披露問題面臨訴訟時,定期報告對業績的討論更少,顯現出刻意隱藏風險的傾向。

然而,公告源文件中的數據並不會自動以結構化的方式進行呈獻。若使用者自行摘取,在公司數量少時尚可應付。一旦關注公司數量增多,甚至要做到對市場的全覆蓋,單純依靠人力並不現實。經本文統計,僅2017年,滬深股市公告就超過了四十萬條,新三板公告則在五十萬條以上。另一方面,商用金融信息平台數據內容較為固定,缺乏定制化空間,難以滿足風險識別的需求。此外,風險識別的部分應用場景,尤其是交易場景,對信息的時效性要求甚高,任何形式的人工作業都難以滿足。

為克服以上難點,本文提倡 對公告進行實時自動化處理。公告的特點決定了自動化處理的可行。首先,其內容與結構需要遵照一定的信息披露規則,如中國證監會制定的《公開發行證券的公司信息披露內容與格式準則第2號》,這為自動信息抽取提供了便利。第二,龐大的數據量有利於模式識別。證券市場的發展,不僅積累了大量的公告,也積累了大量的負面案例。如果未來是對歷史的重復,就可以借助對歷史數據的挖掘預測風險點。第三,在技術層面,相關技術方法愈發成熟,本文將在下一節進行簡要梳理。

2 公告信息的結構化

從公告源文件中可以獲取至少三類數據:結構化表格數據、文本實體數據和反映文本特徵的數據,如圖1所示。本小節將簡要介紹該圖中涉及到的相關技術概念。

公司公告中最為豐富的是非結構化的文本數據,與文本處理最相關的技術領域是自然語言處理(Natural language processing ,簡稱NLP),包括但不限於分詞、詞性標註、實體抽取、文本分類、主題提取等。除了NLP,還會涉及文字識別(Optical character recognition,簡稱OCR)、表格抽取、知識圖譜等技術。

【交易技術前沿】基於公司公告信息的智能風險識別初探 / 武自強 鄭佩鈺 胡殿明 吳愷 張曦文

圖1從公告中獲取數據

2.1 中文分詞

中文分詞指的是將漢字序列如句子、段落等切分成多個單獨的詞。分詞是一項基礎工作,在完成分詞後,才能以詞為粒度進行建模。因為不存在形式上的分界符,中文分詞比之英文更為複雜。公司公告屬於財會金融領域文本,含有大量的專業術語,有必要針對性地做分詞優化,不宜直接套用主流的分詞器。

2.2 實體識別

從公告中自動抽取特定的信息元素,需要借助NER(Named Entity Recognition,命名實體識別)。命名實體指的是文本中具有特別意義或者指代性非常強的實體,包括人名、地名、機構名、時間等。對應於公司公告,相關實體包括公司名稱、人物頭銜(如董事長、實際控制人)、數值指標(如股份數、財務比率)、文件名稱(如招股說明書、法院判決文件)、政府機構名稱(如證監會、工商局)等。不同類型的公告,需要提取的實體是不同的,必須針對每類公告單獨設計NER模型,組合成完善的公司公告實體識別體系。

2.3文本分類

文本分類是自然語言處理中最普遍的應用。在基於公告的風險識別中,多個場景涉及文本分類。首先是公告的歸類。公司公告類目繁多,依照Wind金融咨詢終端的分類體系,A股上市公司的公告含八個大類,六十一個小類。利用模型做到自動對號入座,將極大地簡化歸類的過程。文本分類的第二個潛在應用是公告摘要。有價值的信息往往集中在特定語句、段落里。借助文本分類模型,篩選出關鍵的語句,能夠提升後續處理的效率。第三個潛在應用場景是風險文本的判定。如果包含風險的文本在內容、結構、語言等方面有一定特徵,則風險判定問題可以轉化為文本分類問題。

2.4 語義理解

在公告分類、文本摘要和風險文本識別等場景中,若有語義理解技術的助力,效果將得到極大的提升。語義理解是NLP技術皇冠上的明珠,是風險識別的關注重點和突破點。顧名思義,語義理解是讓機器真正「理解」文本的含義,識別邏輯,發現知識。金融文本信息含量大、邏輯關係複雜,且混雜了數字、符號、表格,即便是人工理解也費時費力,對數學模型和算法更是具有挑戰性。取得語義理解的突破,對於金融文本的智能化處理尤為重要。

2.5 其他相關技術

主題模型(Topic Model):公告中蘊含著豐富的非傳統數據,文本主題便是其一。隱含狄利克雷分布模型(Latent Dirichlet Allocation,簡稱LDA)是最常用的主題提取方法,本文第一部分已舉例說明其在風險識別中的應用。

OCR與表格文字識別:目前,PDF是信息披露的主流文件格式。因為部分公告是掃描件而非原生PDF,精準的OCR(Optical Character Recognition,光學字符識別)必不可少。此外,公告文檔中通常包含表格,因此需要借助一定方法,將表格結構化地輸出為計算機可直接處理的格式。

知識圖譜:在實體識別和語義理解的基礎之上,運用知識圖譜可以建立各實體之間的關聯關係乃至邏輯關係,形成聯結各知識點的網狀結構。之後,通過路徑—節點間的深度搜尋便可以完成邏輯推導。也就是說,在公告事件宣布後,可立即借助知識圖譜,推導該事件對公司股價、績效的影響,對股東、債權人權益的影響,乃至對關聯公司的影響。

3 風險量化指標體系與風險識別

從公司公告中實時獲取結構化表格數據、文本實體數據和文本特徵數據之後,進一步地,可以利用專業知識,聯繫企業典型的風險行為,構建基於公告的風險量化指標體系。之後,即可利用公告數據與外部數據——包括輿情數據、標準財經數據庫數據、及行政部門數據等,實時計算和更新企業在各個維度的風險指標,全面地刻畫表征企業風險。而一旦具備了完善的指標體系,就可以通過指標預警、模式挖掘、知識圖譜等方法,多維度識別企業風險。

3.1 指標體系設計

基於公司公告的風險指標體系設計,需要金融知識與經驗的支撐,需要充分分析公告結構和內容,兼顧表格抽取、文本特徵提取和實體識別的可行性,還需要考慮其他可得的數據源。本文以實體數據為切入點,闡述利用公告實體構造公司風險指標的思路。

圖2是對思路的總結。不同類型的公告對應了不同的待提取實體,NER系統針對不同類型的公告做了設計,因此在實體抽取之前,先要對公告進行歸類。實體識別完成後,風險指標的構建也有多種思路。圖2中,圍繞A公司,構建風險量化指標的方式就有7種 :

【交易技術前沿】基於公司公告信息的智能風險識別初探 / 武自強 鄭佩鈺 胡殿明 吳愷 張曦文

圖2基於實體識別的風險量化指標構建

(adsbygoogle = window.adsbygoogle || []).push({});

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!