【改訂版】TOEFL iBT Writingセクションはどのようにしてスコアが算出される?

2019-09-04

以下、以前のブログ記事の書き直したものです。

 

TOEFL本試験を受験し、Writingセクションで 14点、17点、20点、22点、25点などのスコアを取ったときに、目標スコアに足りない、または十分であることは明らかであっても、何でその点数になったのか分からない

 

というTOEFL受験者の方は多いかと思います。

 

今回はこの疑問に回答します。

 

TOEFL iBTのWritingセクションのスコア算出は以下の2つのプロセスによって決まります。

 

1.人間の採点官と自動採点により、2つのエッセイに対して2つずつ評価点がつく
2.4つの評価点と他の受験者の出来に基づき、偏差値的にスコアが決まる

 

ではこの2つのプロセスについて説明します。

 

ここでは、あなたがTOEFL iBT本試験を受けたとしましょう。
WritingはReading、Listening、Speakingの後の最後のセクション。
Writingセクションが終わると、3時間を超える長丁場の試験の終了です。

 

1.人間の採点官と自動採点により、2つのエッセイに対して2つずつ評価点がつく

 

TOEFL iBT WritingセクションにはIntegrated TaskとIndependent Taskの2種類の問題があります。
Integratedタスクが先で、Independentが後。
受験者は2本のエッセイを書きます。

 

Integrated TaskとIndependent Taskそれぞれに対して、人間の採点官とeRaterという自動採点プログラム(automated scoring technology)が評価点をつけます。
評価点は、5、4、3、2、1、0のどれか。

 

以下、Writingの2つのタスクに対する採点基準です。

TOEFL Writing Rubrics

 

Integrated Task、Independent Taskのエッセイそれぞれに対して、人間の採点官とeRaterが評価点をつけるため、評価点は4つになります。
人間の採点官が内容や意味(content and meaning)を判断し、eRaterが言語的な特徴(linguistic features)を精査することにより、一貫した質の高い採点が保証されるとのことです。

 

ここでは、あなたが書いたエッセイに対して

 

  人間の採点官 eRater
Integrated Task 4 3
Independent Task 4 3

 

という評価点がついたとしましょう。

 

この4つの評価点の平均は、[4 + 3] + [4 + 3] = 14 ÷ 4 = 3.5

 

実は、2012年まではこの評価点の平均によってWritingのスコアが換算されました。
下の表をご覧ください。

 

TOEFL Writing 換算表(旧)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2012年まではこの表に基づいて、Writingでの4つの評価点の平均(Rubric Mean)が3.5の場合、隣の22点がWritingセクションのスコア(Scaled Score)になりました。
Writingの換算はその昔、このように非常にシンプルなものでした。

 

この表には、26、23、19、16、13、9、6、3、2、1 というスコアはありませんが、2012年まではWritingセクションでこれらのスコアがつくことはなかったのです。

 

しかし2013年初旬、ETSのTOEFL公式サイトで公開されていたこの表が消えました。
正確にいつかは分かりません。
何の発表もなかったので。

 

この換算表が消えてから、TOEFL Writingセクションでのスコア算出はブラックボックス化しました。
ETS職員でもWritingセクションのスコア算出方法を正確に知っている人はほんの一部でしょう。
そのとき以来、Writing換算方法をETSは公表していませんし、今後も不明なままであると思われます。

 

2.4つの評価点と他の受験者の出来に基づき、偏差値的にスコアが決まる

 

では今でも4つのスコアが単純に平均されているか?
ここは推測になりますが、過去のWritingの評価方法および換算方法の変化から、私は人間の採点官のスコアの方に少し重きが置かれていると考えます。

 

例を挙げると、あなたが取った

 

Integrated:4(人間)と3(eRater)、Independent:4(人間)と3(eRater)

 

は、隣で受験していた人のWriting評価点

 

Integrated:3(人間)と4(eRater)、Independent:3(人間)と4(eRater)

 

と比べ、単純な評価点平均は同じ3.5でも、スコアは若干高くなるかもしれません。

 

では、仮に毎回の試験において

 

Integrated:4(人間)と3(eRater)、Independent:4(人間)と3(eRater)

 

という評価を取ったとして、スコアはいつも同じになるかというと、そうではありません。

 

2012年まではこの評価ならスコアは常に22点でしたが、今では他の受験者が獲得した評価点に基づき、偏差値を考慮した統計的算出によりスコアが決まります。
例えば、高い評価点を取った人がいつもより多ければ、その回のWriting試験は比較的易しかったということになり、スコアは1-2点低くなる可能性があります。

 

よって

 

「今回のWritingの問題は、自分にとって書きやすいものだった!」

 

と喜んだとしても、書きやすいのは他の受験者にとっても同じであれば、スコアは低めになるかもしれません。逆に、

 

「今回のWritingは書きにくかった!」

 

と思っても、自己評価の割に高めのスコアになることもあります。

 

ただ、スコアはその昔公表されていた換算表と比べ大きく異なるスコアになることはありません。
とはいえ、例えば、評価点すべてが4でIntegrated、IndependentともにGood(4.0-5.0)であった場合、2012年までは25点になっていたものの、今ではIntegrated、IndependentともにGoodであってもスコアが23点になることがあります。
それはエッセイのレベルは評価点4に値するものであったが、よいスコアを取る人が多かったから、評価点平均4.0に対する偏差値が低くなり、結果23点になったと推測されます。

 

ということで、23点でもIntegrated、IndependentともにGood(4.0-5.0)であれば、自分が書いたエッセイは評価点4点レベルのと分かったのですが、2019年8月以降、スコアレポートにおいてWritingとSpeakingセクションの評価点(Good, Fair, Limited)が表示されなくなってしまいました。

 

つまり、単に23点というスコアが表示されるだけで、エッセイが4点レベルであったのか、それとも3点レベルであったのかが不明となりました。
また「どちらのタスクがうまく行かなかったから、スコアを落とした」ということも分かりません。

 

以前は、例えば「IntegratedはいつもGoodだが、IndependentではFairがほとんど」と分かったので、25点を獲得するためにIndependentだけ頑張ることができました。
しかし、現在のスコアレポートでは点数しかでないため、両方のタスクの対策をしっかり行わなければなりません。
よって、これまでよりも早めにWriting対策を開始することが大切と言えます。

 

コメントをどうぞ

Eメールアドレスは公開されません。