【改訂版】TOEFL iBT Writingセクションはどのようにしてスコアが算出される？

2022.03.15

以下、以前のブログ記事を書き直したものです。

TOEFL本試験を受験し、Writingセクションで 14点、17点、20点、22点、25点などのスコアを取ったときに何でその点数になったのか分からない

というTOEFL受験者の方は多いかと思います。

今回はこの疑問に回答します。

TOEFL iBTのWritingセクションのスコア算出は以下の2つのプロセスによって決まります。

1．人間の採点官と自動採点により、2つのエッセイに対して2つずつ評価点がつく
2．4つの評価点と他の受験者の出来に基づき、偏差値的にスコアが決まる

ではこの2つのプロセスについて説明します。

ここでは、あなたがTOEFL iBT本試験を受けたとしましょう。
WritingはReading、Listening、Speakingの後の最後のセクション。
Writingセクションが終わると、3時間を超える長丁場の試験の終了です。

1．人間の採点官と自動採点により、2つのエッセイに対して2つずつ評価点がつく

TOEFL iBT WritingセクションにはIntegrated TaskとIndependent Taskの2種類の問題があります。
Integratedタスクが先で、Independentが後。
受験者は2本のエッセイを書きます。

Integrated TaskとIndependent Taskそれぞれに対して、人間の採点官とeRaterという自動採点プログラム（automated scoring technology）が評価点をつけます。
評価点は、5、4、3、2、1、0のどれか。

以下、Writingの2つのタスクに対する採点基準です。

TOEFL Writing Rubrics

Integrated Task、Independent Taskのエッセイそれぞれに対して、人間の採点官とeRaterが評価点をつけるため、評価点は4つになります。
人間の採点官が内容や意味（content and meaning）を判断し、eRaterが言語的な特徴（linguistic features）を精査することにより、一貫した質の高い採点が保証されるとのことです。

ここでは、あなたが書いたエッセイに対して

	人間の採点官	eRater
Integrated Task	4	3
Independent Task	4	3

という評価点がついたとしましょう。

この4つの評価点の平均は、[4 + 3] + [4 + 3] = 14 ÷ 4 = 3.5

実は、2012年まではこの評価点の平均によってWritingのスコアが換算されました。
下の表をご覧ください。

TOEFL Writing 換算表（旧）

2012年まではこの表に基づいて、Writingでの4つの評価点の平均（Rubric Mean）が3.5の場合、隣の22点がWritingセクションのスコア（Scaled Score）になりました。
Writingの換算はその昔、このように非常にシンプルなものでした。

この表には、26、23、19、16、13、9、6、3、2、1 というスコアはありませんが、2012年まではWritingセクションでこれらのスコアがつくことはなかったのです。

しかし2013年初旬、ETSのTOEFL公式サイトで公開されていたこの表が消えました。
正確にいつかは分かりません。何の発表もなかったので。

この換算表が消えてから、TOEFL Writingセクションでのスコア算出はブラックボックス化しました。
ETS職員でもWritingセクションのスコア算出方法を正確に知っている人はほんの一部でしょう。
そのとき以来、Writing換算方法をETSは公表していませんし、今後も不明なままであると思われます。

2．4つの評価点と他の受験者の出来に基づき、偏差値的にスコアが決まる

では今でも4つのスコアが単純に平均されているか？
過去のWritingの評価方法および換算方法の変化から人間の採点官のスコアの方に少し重きが置かれていると考えます。

例を挙げると、あなたが取ったWritingの評価点

Integrated：4（人間）と3（eRater）、Independent：4（人間）と3（eRater）

は、隣で受験していた人の

Integrated：3（人間）と4（eRater）、Independent：3（人間）と4（eRater）

と比べ、単純な評価点平均は同じ3.5でも、スコアは若干高くなるはず。

では、仮に毎回

Integrated：4（人間）と3（eRater）、Independent：4（人間）と3（eRater）

という評価を取ったとして、スコアはいつも同じかというと、そうではありません。

2012年まではこの評価ならスコアは常に22点でしたが、今では他の受験者が獲得した評価点に基づき、偏差値を考慮した統計的算出によりスコアが決まります。
例えば、高い評価点を取った人がいつもより多ければ、その回のWriting試験は比較的易しかったということになり、スコアは1-2点低くなる可能性があります。

よって

「今回のWritingの問題は、自分にとって書きやすいものだった！」

と喜んだとしても、書きやすいのは他の受験者にとっても同じであればスコアは低めになるかも。逆に

「今回のWritingは書きにくかった！」

と思っても、自己評価の割に高めのスコアになることも。

ただ、スコアはその昔公表されていた換算表と比べ大きく異なるスコアになることはありません。
ですが、例えば評価点すべてが4であった場合、2012年までは必ず25点になっていたものの、今では23点になる可能性もあると考えます。
その場合、エッセイのレベルは評価点4に値するものであったが、よい評価点を取った人が多かったから評価点平均4.0に対する偏差値が低くなり、結果23点になったと推測されます。

つまり、単にWritingセクション23点というスコアが表示されるだけでエッセイが4点レベルであったのか、それとも3点レベルであったのかが不明となりました。
また「Integrated、Independentどちらのタスクがうまく行かなかったから、スコアを落とした」ということも分かりません。
よってWritingの目標が25なら、WritingはIntegrated、Independent両方で評価点4が高い確率で取れるようになることを目指しましょう。

以下、上記内容をもっと詳しく説明した動画です。興味がありましたら、どうぞ。