托福閱卷原來是這樣的:除了取悅閱卷人,你可能還要取悅一台電腦

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

文章來源於:托福考試網

托福閱卷原來是這樣的:除瞭取悅閱卷人,你可能還要取悅一臺電腦

刷了這麼多套TPO,大家好像一直都在以學生的角度備考托福。那分數不高的你,有沒有想過換個角度來看托福試題呢?

今天我們不講怎麼答題,講講如何判題 ——托福是如何閱卷的,看看在托福考試中你要怎麼取悅閱卷人?

不過,除了閱卷人,你可能還要取悅一台電腦。這到底是為什麼呢?跟著文章一起去深入了解一下吧。

01.托福的電腦評分

在托福口語和寫作這兩個項目中,都會涉及到電腦評分,而且電腦評分的結果是真實有效的,並會記錄為真實成績的。

自從2010年1月起,iBT(Internet-based Testing)就已對寫作評分系統進行了調整,由原來的2個閱卷人評分,取算術平均分作為原始分(raw score),改為1個閱卷人和1個電腦評分系統(E-Rater)評分。我們其實可以更形象地把他們理解成為分工協作,聯合判分。

電腦評分最大的優勢就是具備足夠的客觀性,不存在閱卷的疲憊度,能夠關注每一個評分標準,考慮到文章中的每一個細節和每一個特徵。沒有情緒,也就不存在主觀印象,對於同一篇文章永遠只會給出一個不變的分數;對於每一篇文章所給出的分數都能給出具體的解釋,這是人為評分無法做到的。

02.電腦閱卷人:E-Rater

【E-Rater 的工作內容】

E-Rater 就是托福閱卷中使用的電腦評分系統,這個系統與人工評分互相分工。但它主要負責文章的Grammar(語法)、Usage(用法)、Mechanics(格式體例)、Style(風格)、Organization & Development(組織與展開),而人工主要負責文章的內容和含義的理解。

【E-Rater 的工作原理】

E-Rater的工作原理主要是利用計算機語言學中的自然語言處理(Natural Language Process,簡稱NLP)方法,對於文本相關信息進行標籤匹配,結合ETS的數據審查來評分,簡單點來說,和一些唱歌類 app 的打分模式是一樣的原理。

但它其實更像一個基於強大數據系統支持的一個運算系統,能夠將輸入的文章內容和數據庫里面的內容進行比照式批閱,極大程度地增強了閱卷評分的靈活度和廣泛度,又節省了一大批人力。

【決定分數的方法】

人工評分和電腦評分是獨立的,相互之間看不到對方的分數。兩者的分差在一定的區間內,取一個人工評分和一個 E-Rater 評分的算數平均分作為原始分(1—5分),然後再換算成滿分30分的分值,從而得出最終的得分。

托福閱卷原來是這樣的:除瞭取悅閱卷人,你可能還要取悅一臺電腦

系統會將考生的文章進行了不同色塊的標註,開頭段的黃色表示 background information,紅色表示 thesis statement;中間段藍色表示 topic sentence,綠色表示 supporting information;結尾段橙色表示 conclusion。

如果閱卷人和 E-Rater 的差值,超過合理的區間範圍,則電腦評分和人工評分都無效,改換成下一個評分組重新評分。現在的 E-Rater 和人工評分的準確性、一致性高達98%。

【E-Rater 的工作步驟】

以托福的獨立寫作為例,托福獨立寫作主要從三個維度去考量考生的作文:Development(內容發展)、Organization(結構組織)和 Language Use(語言使用)。

E-rater 讀不懂我們的文章內容,那它是如何判分的呢?

托福閱卷原來是這樣的:除瞭取悅閱卷人,你可能還要取悅一臺電腦

Development(內容發展)

這個維度要求考生在文章發展中做到內容充實,而 E-Rater 並不能讀懂考生的文章內容表達,因此它採取的方式是評估考生文章的 The Length of Discourse Element(話語元素長度)。簡單來說,話語元素長度從兩個方面進行評估:

1、平均句長:如果全文的句子寫的都很短,則證明考生的思想內容很簡單,不能有效表述清楚自己的論述,托福官方建議寫作的平均句長應該在15-20詞左右比較合適。

2、正文段句子數量:在中間發展段中,如果句子數量過少,證明考生沒有話說,也就無法有效展開自己的觀點。

Organization(結構組織)

這個維度要求考生合理組織段落,並且注意文章內容的邏輯銜接,E-Rater 很聰明地從下面這兩個角度去評估:

1、The Number of Discourse Elements:話語元素數量,也就是合理分段。一般來說,建議文章分為4-5個段落。E-Rater 也能檢測考生是否在文章中呈現了thesis statement、main ideas、supporting ideas、conclusion等。

2. The Use of Transitions:邏輯連接詞的使用,E-Rater 通過檢測考生句子之間的邏輯連接詞,去判斷文章的邏輯是否存在,以及是否合理。

Language Use(語言使用)

這個維度是通過對考生的語言表達進行數據分析,並匹配以往數據庫里的語言數據,從而對考生的文章語言質量進行審核。

在語言層面,E-Rater 會從 Grammar 角度去審核考生文章中的 Fragments(句子碎片)、主謂一致(Subject-verb agreement)等;

從 Usage 角度去審核考生文章中的 Missing or Extra Article(冠詞錯誤)、Preposition Error(介詞錯誤)、Wrong Part of Speech(詞性錯誤)等;

從 Mechanics 角度去審核考生文章中的Spelling(單詞拼寫)、Missing Comma(逗號缺失)等;

從 Style 角度去審核考生文章中的 Repetition of Words(詞匯重復)、Short Sentences(過多短句使用)、Passive Voice(過多被動語態使用)等。

03.閱卷人都是ETS官方人員?

ETS在整個試卷的製作過程中,非常關注 「Fairness 公平」 這樣一個核心要素。而公平原則其中非常重要的一個體現就是確保全球的做題結果都是由統一的閱卷人來進行批改。尤其是ETS將托福改革成iBT之後,更是加速了利用網路進行統一閱卷評分的進程。

雖然托福考試的直屬機構為ETS,但ETS卻不僅有托福這一項考試項目,像是托業、GRE、Praxis教師資格考試都屬於ETS執管,僅僅是托福項目在中國每年就有超過20萬人報考,這也意味著僅是從閱卷評分這個層面就需要投入大量的人力。

所以ETS的閱卷人並非僅限於ETS官方人員,而是面向美國本土的人員通過特定的流程進行招募的。招募的對象主要是在美國本土工作的人員,他們不需要在ETS辦公,甚至是在家里閱卷也可以。

為了確保評分的科學性和準確性,所有的評分人員都必須參與評分培訓,並且最終通過認證測試。在培訓者熟練掌握所有的評分標準之後,就會進入線上評分環節,培訓者必須利用大量的模板文章進行對比式評分,直至自己的打分和目標打分完全一致方能通過測試。而在整個過程中,ETS 官方人員充當的就是裁判和導師這個角色。

在完成培訓任務之後,閱卷人會得到一個給定的帳號用於登陸一個專門用於閱卷的軟件。ETS 每個月會不定時地給這些閱卷人發送郵件,閱卷人需要在收到郵件後在七個工作日之內完成在線閱卷並給出反饋。考生的作文在送到閱卷人手上之前會先經過機器檢查一遍,也就是一個檢查雷同、字數(主要針對托福寫作)、邏輯連接詞以及一些語言問題的軟件,閱卷人會看到機器的反饋並在此基礎上再去評分。閱卷人在閱卷時是會嚴格按照 ETS 給出的評分標準評分,他們只需要給出一個最終成績而不需要給出相關的評價。

最 後

ETS 作為全球最大的測試服務機構,有著得天獨厚的優勢,那就是它每年都能夠積累大量的文章數據,而且能夠不斷進行更新迭代,這能使得他的電腦評分系統的智能化不斷地提升。

相比而言,其他測試機構的電腦評分系統卻虛有其表,沒有大量數據內核作為支持,所以自然無法得到一個理想的評分效果。另一方面,電腦評分有著它獨特的優勢,那就是具備足夠的客觀性。