尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
本文首發於智堡公眾號:zhi666bao。
We Need to Save Ignorance From AI
在這個「全知」算法的時代里,我們怎樣才能選擇「不知」?
In an age of all-knowing algorithms, how do we choose not to know?
作者Christina Leuker和Wouter Van Den Bos,系馬克斯·普朗克人類發展研究所 (MPI für Bildungsforschung,位於德國柏林的著名社科研究機構) 博士生研究員 (前者) 與研究科學家 (後者)。
正文部分
在柏林牆倒塌之後,東德公民們均有機會查閱斯塔西 (Stasi,國家安全部)——臭名昭著的東德秘密警察機構——圍繞他們個人構建的檔案。時至今日,據可能僅有10%的人真的去翻看了自己的「黑材料」。
2007年,詹姆斯·華生 (James Watson),脫氧核糖核酸 (DNA) 雙螺旋結構的發現人之一,要求醫療機構不要向他提供任何有關其本人載脂蛋白E(ApoE) 基因的信息,該等位基因是阿爾茲海默症(俗稱老年癡呆症)的已知風險因素之一。
民意調查中,大部分人表示即便能知道自己確切的死亡日期,他們也寧願選擇不知道——就連大喜事的未來日期也不想知道。
上述都是「有意無知」 (willful ignorance) 的例子。 蘇格拉底可能是說過「未經審視的人生是不值得過的」,霍布斯也許是認為「好奇心是人類的主要欲望」,但也有許多非常古老的故事,教誨我們知道得太多同樣危機四伏。從亞當和夏娃偷嘗智慧之果,到普羅米修斯竊取火的秘密,這些故事告訴我們,生活需要在選擇知道和選擇不知之間達到微妙的平衡。
放慢腳步?:矽谷文化將「快速投入實驗」視為金科玉律,但在處理我們的個人數據上這恐怕事與願違。 圖源:Frederic Legrand – COMEO/ Shutterstock.com
但若是一項技術的出現,對這種平衡造成難以預料的改變,並打亂我們何時保持無知的決定,又該怎麼辦呢?這項技術就在眼前:它叫做人工智能 (AI)。
AI可以從大數據當中找到規律,再運用相對較少的數據進行比對。例如,只需要分析幾條Facebook「喜歡」,就可以預測你的個性、種族和性別。另一種計算機算法號稱僅基於他們的照片就可以區分同性戀和異性戀男性,準確率高達81%,區分同性戀和異性戀女性的準確率為71%。一種名為COMPAS(「替代制裁的懲教罪犯管理畫像」)的算法,可以從青少年逮捕記錄、家庭暴力記錄、受教育程度、社會孤立程度和休閒活動當中預測犯罪分子的累犯行為,準確率為65%。
在上述每一個案例中,結論的性質都與所用數據的性質發生了驚人的背離(即便部分結果的有效性仍在爭論中)。 這使得我們很難控制自己所知的信息。在這個領域當中也沒有監管條例可以幫助我們選擇「不知」:「無知的權利」並不受到保護。
這就助長了一種「快速行動、橫沖直撞」 (“move fast and break things”,Facebook的老座右銘) 的社會氛圍。但是一旦涉及到我們個人隱私的細節,「橫沖直撞」真的是我們想做的事嗎?
為什麼要保護「無知」的權利?
數十多年來各國政府和立法者們深知,有些潘多拉魔盒最好永遠別被打開。與保護個人無知權相關的成文法律,至少可以追溯到上世紀90年代。例如,1997年《歐洲人權和生物醫學公約》(The European Convention on Human Rights and Biomedicine) 規定,「每個人都有權知曉任何被采集的個人健康信息。不過,選擇不被告知的個人意願應當得到尊重。」同理,世界醫學協會 (World Medical Association) 1995年《患者權利宣言》(Declaration on the Rights of the Patient) 指出「患者有權提出明確要求不被告知[他/他的醫學數據],為保護他人生命安全所需的情況除外。」
然而,為AI編寫無知權法則 (right-to-ignorance laws) 是一個截然不同的話題。雖然醫療數據受到嚴格監管,但AI所使用的數據往往掌握在惡名在外、不受監管的盈利性科技企業手中。AI處理的數據類型也更廣泛,因此任何對應的法律法規都需要更廣泛地理解無知權的涵義。心理學上對有意無知的研究,將有助於設計人工智能的無知權法則。但令人驚訝的是,這個話題作為嚴謹科學探究的主題,長期以來一直遭到忽視;這或許是因為存在一種隱含假設,即刻意回避信息是非理性的。
然而,最近,心理學家Ralph Hertwig和法律學者Christoph Engel發表了一篇針對有意無知背後動機的分類法 (taxonomy) 研究。他們識別出的各類動機中,有兩組在解釋面對AI時人對無知的需求上很有幫助。
第一組動機圍繞公正性 (impartiality) 和公平性 (fairness)。簡單地說,知識有時會腐蝕判斷力,而我們常常選擇有意無知作為應對的方式。例如,學術論文的同行評審通常是匿名的。大多數國家的保險公司在將客戶錄入保險計劃前,也不得了解客戶健康狀況的所有細節;他們只能獲知一般而言的風險因素。這種考慮對AI很有幫助,因為AI很容易產出存在高度偏見的信息結果。
第二組相關動機是情緒管理 (emotional regulation) 和避免後悔 (regret avoidance)。 Hertwig和Engel寫道,有意無知可以幫助人們保持他們「所珍視的信念」,並避免「精神上的不適,恐懼和認知失調。」有意無知在人們生活中其實非常常見。大約90%的受訪德國人希望避免因「預知死亡和離婚等負面事件」而產生的負面情緒,40%-70%的人同樣不想了解正面事件,以幫助保持「來自驚喜和未知的積極情緒」,比如在知道胎兒性別前的興奮感。
這些動機可以幫助我們理解在人工智能面前保護無知的必要性。例如,AI的「同性戀雷達」 (gaydar) 算法的潛在好處無限接近於零,卻在公正性和公平性方面構成巨大的潛在成本。正如《經濟學人》所述,「在同性戀仍不為社會所接受或仍屬非法的地區,這樣算法的存在可能對人身安全構成嚴重威脅。」同理,NtechLab目前正在開發的種族探測器的所謂好處,與對公正性和公平性造成的負面影響相比顯得蒼白無力。COMPAS累犯預測軟件的使用具有比人為識別更高的準確性,但正如Dressel和Farid在《科學進步》上所述,「(結果)並不像我們想要的那般準確,尤其是當我們從這對被告未來造成的重大影響角度來看時」。預測個人預期壽命的算法,如Aspire Health開發的算法,並不會讓客戶的情緒調節變得更輕鬆。
這些例子說明了識別無知背後個人動機的效用,並展示了「選擇知道還是無知」這一問題的複雜問題,特別是當這一問題涉及AI時。對於集體無知 (collective ignorance) 何時能為公眾帶來好處或符合道德規範,沒有現成的答案。理想的方法是單獨考慮每個案例,進行風險-收益分析。理想情況下,鑒於辯論的複雜性及其後果的嚴重性,該分析應當公開進行,囊括不同利益相關者和專家的意見,並考慮所有可能的未來結果,包括最壞場景。
這一切聽起來是非常繁瑣——事實上,在大多數情況下這麼做可能根本不可行。那麼我們該如何大刀闊斧地處理這件需要精細操作的事情呢?
更加完善的數據道德法規
一種方法是控制機器或對機器設限,讓他們在根據已經采集的數據進行分析時只能給出一定類型的推論。例如,我們可以「禁止」司法算法使用種族作為預測變量,或者將性別排除在潛在求職者的預測分析之外。但這種方法存在問題。
首先,對大公司採用的數據設限,不僅成本昂貴在技術上也存在困難。這將要求這些公司開源他們的算法,而大型政府機構必須不斷對它們進行審計。此外,一旦采集了大數據集,就有很多方法可以用迂回的方式推斷出「禁忌的知識」。假設使用性別信息來預測肄業率被宣布為非法操作;那麼變量「擁有汽車的類型」和「最喜歡的音樂類型」理所當然地會被當作性別的代理變量,執行二階推斷後得到的預測結果,仍與直接用性別進行預測的結果相同。盡管企業可能抱著良好的初衷,但有關性別的推斷甚至可能在偶然中被納入算法。這些二階推斷的存在使算法的審計任務更加艱巨。分析中包含的變量越多,二階推斷發生的可能性就越大。
保護無知權利的更激進、可能更有效的方法是先一步防止數據被采集。例如,在2017年的一項開創性舉措中,德國通過立法,禁止自動駕駛汽車通過種族、年齡和性別識別街道上的人。這意味著汽車永遠無法通過這些類別的數據做出其行駛決策——特別是在事故不可避免時採取的應對決策。
「電車難題」:麻省理工學院開設的網站 moralmachine.mit.edu 通過模擬自動駕駛汽車需要做出決策的案例,利用應試者反饋的選擇數據,測試人類自身的道德直覺。圖源:MIT
採用同樣的思維方式,歐盟在2018年5月生效的新通用數據保護條例(GDPR)中規定,僅允許公司采集和存儲最低限度的用戶數據,以提供特定的、說明的服務,在數據使用方式上還要征得用戶的同意。對數據捕捉的這種限制也可以防止二階推斷的濫用。GDPR路線面臨的一個重要阻礙,是企業在決定自身服務目標上有著非常自由的裁決權。例如,現已關閉的Cambridge Analytica的明確目標,是評估用戶的個性,因此被其利用並引發大範圍爭議的Facebook數據集,從技術上講符合GPDR的指導方針。同理,GPDR雖然專注於數據使用與給定服務之間的一致性,但並未排除我們認為在道德上存在疑問的數據類別,也不會完全阻止企業從數據經紀商處購買特定用途之外的數據,只要企業能夠獲得用戶同意——事實上許多人僅為了相對微薄的激勵手段,就同意與企業共享他們的個人數據。研究人員發現,一些麻省理工學院的學生會為了一片比薩餅「出賣」他們朋友的聯繫方式。顯然需要對個人數據的使用設置進一步的限制,但究竟要多少才足夠?
美國社會活動家和工程師Richard Stallman給出了這樣的答案:「有太多方法用數據來傷害人們,所以唯一安全的數據庫,就是從未被采集過的數據庫。」但對數據采集限制得太嚴重,可能會阻礙技術發展並令我們能從AI中獲得的好處大打折扣。
應該由誰來做出權衡?應該由我們自己來。
我的數據我做主
在大多數情況下,上述討論的「數據」實際上是你、我、他這些具體個人的所有物。一直以來我們想都不想就把數據提供給了那些五花八門的App,而從未考慮過對應的後果。事實上,長時間以來我們是如此輕易地交出自己的數據,以至於已經忘記了這些數據首先是我們自己的。將這些數據收回,可以讓我們獨立做出決定,是否有我們想知道或不想知道的東西。將數據所有權恢復給合法的所有者——我們自己——巧妙地解決了上述討論中的許多艱難挑戰。它避免了制定數據相關的、具有前瞻性的通用指導方針的需要。取而代之的,是數百萬人根據他們自己的是非觀念,決定如何使用他們自己的數據。我們都可以實時響應企業對數據的不斷變化的用途,根據企業對待我們數據的方式給予企業懲罰或獎勵。
對於「還數據於人民」的必要性,計算機科學哲學家Jaron Lanier提出了一條額外的經濟論據。他認為,我們有權通過將個人數據出售給大公司,從中獲取經濟利益。當然這條路線也存在兩大問題。首先,它會使數據使用和所有權的道德界限陷入混亂。免費提供數據的意願本身,就是對特定數據用途的道德完整性的良好試金石;少數族群中有多少人會願意為了「同性戀雷達」這樣的臉部識別App,免費提供他們的數據?要是提供數據可以換來金錢報酬,他們又會如何選擇呢?而若數據用途是為了幫助尋找治愈癌症的方法,大多數人都樂於免費提供自己的數據。其次,對個人數據賦予(高昂的)經濟價值,可能會迫使人們共享他們的數據,並使數據隱私成為富人的特權。
而且,光是人們自發的行動是遠遠不夠的;還需要社會機構的集體行動。即使只有一小部分人口共享了他們的敏感數據,仍有可能得出高準確性推論並遭到大多數人的反對。並非所有人都能在做出決定時意識到這一點。為了防止造成不必要的後果,我們需要對該話題開展充分的公開辯論,並建立額外的法律保障。
《經濟學人》的文章中曾寫道,世界上最寶貴的資源不再是石油,而是數據。但數據與石油有很大不同。數據是一種無限的資源,由個人所擁有,且最好在沒有任何交易性經濟價值的前提下進行交換。將利益從石油中剝離,石油市場就會消亡。將利益從數據中剝離,可以作為我們創建和維護道德標準所需的空間的第一步,這些標準可以在AI普及後繼續存在,並為管理集體無知鋪平道路。換句話說,隨著數據成為現代世界最有用的商品之一,它同時也應轉變為最「無價」的商品。
譯者:張一葦
來源:Leuker, Christina, V. Den Bos, Wouter, We Need to Save Ignorance From AI, Nautilus – Numbers/ Artificial Intelligence, Jun. 14th 2018
聲明:本文僅代表作者個人觀點,不代表智堡立場;文中圖片來源於網路,如有侵權煩請聯繫我們,我們將在確認後第一時間刪除,謝謝!
初見智堡,歡迎關注我們的公眾號(zhi666bao);喜歡我們的文章,敬請幫助我們分享傳播。喜歡智堡,歡迎使用我們的APP、小程序。常駐智堡,請訂閱智堡精選,支持智堡的通天之旅。