【改訂版】新形式のTOEFL iBT Speakingセクションはどのようにしてスコアが算出される？

2019.09.18

以下、Speakingセクションのスコア算出方法についての過去記事を新形式に対応したものに改訂しました。

2019年8月からTOEFL iBTが新形式になり、Speakingセクションは6つのタスクから旧 Task 1と旧 Task 5が削除され、4つのタスク（4問）になりました。
しかし、新TOEFL Speakingセクションのスコア算出方法は不明な点が多いため、まずは2019年7月までの旧形式でのSpeakingスコア算出方法について、その後、新形式において分かっていることをお伝えします。

旧形式のSpeakingスコア算出方法（2019年7月まで）

2019年7月まで、TOEFL iBTのSpeakingスコアは以下の2つのプロセスによって算出されました。

1．6つのタスクそれぞれに対して人間の採点官が評価点をつける
2．6つの評価点（平均）と他の受験者の出来に基づき、偏差値的にスコアが決まる

この2つのプロセスについて説明します。

1．6つのタスクそれぞれに対して人間の採点官が評価点をつける

旧TOEFLのSpeakingセクションでは、6つのタスクそれぞれに対して「1人」の採点官が評価点（4, 3, 2, 1, 0）をつけました。

中には「それぞれの回答に対して『2人』の採点官が評価点をつけるとETSのセミナーで聞いた」という方がいらっしゃいます。
私はおそらくそれはETS側の人が勘違いしていたと考えます。
（Writingはその昔、それぞれのエッセイ回答に対して2人の人間の採点官が評価点を付けていたので）
私は以前にETSから1つの回答に対して「1人」が評価点をつけると聞いています。
また、もし6つの回答に対して2人の採点官が評価点をつけるとすると、評価点が12コになってしまいます。
例えば、1つの回答に対して評価点が3、残りの11の回答に評価点4がつくと平均は3.91に。
しかし3.91という平均値はもともとETSが公表していた（下で紹介する）換算表には存在しません。

採点官がつける評価点は 4, 3, 2, 1, 0 のいずれか。
以下の一昔前のTOEFL公式サイトの案内のように、受験者1人による6つのタスクへの回答に対して、関わる採点官の数は3-6人。
つまり、ひとりの受験者の6つのSpeakingの回答に対して最低3人の採点官が評価点をつけました。
1人の採点官がその人の6つの回答すべてを評価することはありません。

How are my Speaking responses scored?

Writingセクションでは、1つのエッセイに対して人間の採点官とeRaterという自動採点プログラム（automated scoring technology）が評価点をつけます。
Writingのスコア算出は新旧で変化はありません。

Speakingセクションは、旧TOEFLにおいて評価点をつけるのは人間のみでした。

2．6つの評価点（平均）と他の受験者の出来に基づき、偏差値的にスコアが決まる

以下、6つのタスクに対してつけられた評価点の平均（Rubric Mean）とSpeakingセクションのスコア（Scaled Score）の換算表。

2013年初旬に、ETSのTOEFL公式サイトで公開されていたWritingの換算表が消えたときにSpeakingの換算表も非公表になりました。
しかしながらその後、2018年8月までの5年半もの間、この消えたSpeaking換算表に基づいてスコア算出が行われました。
例えば、6つのタスクの評価点が［3, 3, 4, 3, 2, 3］であった場合、評価点の平均は3.0になり、スコアは23になりました。

換算表がTOEFL公式サイトから消えたにも関わらず、なぜ換算表通りにスコアが算出されたと分かったのか？

それは、換算表にない25、21、16、12というスコアを獲得する人がそれまでいなかったから。

しかし2018年9月以降、Speakingで25、21、16点を獲得したという報告をいただくようになったことから、Speakingセクションのスコア算出方法が変更されたと判断しています。

この変化を受けてETSに確認を取りましたが、統計的な分析によりそのようなスコアになることがあると回答を得ました。

ということで、評価点平均が3.0の場合、ひと昔の前の換算なら23点だったが、他の受験者の出来により22や24点が出るようになりました。
（21や25点になることもあるかもしれません）

新形式のSpeakingスコア算出方法（2019年8月以降）

では、6つのタスクが4つの減り、Speakingセクションのスコア算出方法はどう変わったのか？
結論から言うと「はっきりしたことは分かりません」。
ETSから公式な発表がないからです。

しかしETSが発表している部分もあるので、そこを確認しましょう。

以下、2019年9月18日現在、ETSがTOEFL公式サイトで発表しているSpeakingセクションのスコア算出情報。

» Frequently Asked Questions about the TOEFL iBT® Test

How are my Speaking responses scored?

ここでは

The average score on the 4 tasks is converted to a scaled score of 0 to 30.

4つのタスクにそれぞれ対する人間の採点官の評価点の平均値が算出されると分かります。
ここは旧形式と変わりません。

ただ、その前には

Your recorded responses are sent to ETS, where 3 to 6 certified human raters score them holistically on a scale of 0 to 4.

と書かれていますが、「3-6人の人間の採点官」という部分はおそらくは以前のものがそのまま残っているだけで、実際とは異なると思われます。
（ETSはそのようなことをよくやります。新TOEFL移行後、試験情報が適切に反映されるまで1ヶ月ほどかかりましたし。）
今は4つのタスクなので、1つのタスクに1人の採点官なら6人もいりません。
もし1つのタスクごとに2人の採点官が評価点をつけるなら最大8人の採点官になるはずですし。

タスク数は6から4に減りましたが、だから採点官が1つのタスクに対して2人ずつに増えることはないと考えます。
Writingセクションは当初、1つのタスクに対して2人の採点官でしたが、後に採点官1人とeRaterに変わります。
人間の採点官による作業を減らしたいというのがETSのこれまでの意向なので。

そしてこちらは新情報なのですが、新形式になってSpeakingのスコア算出にSpeech Raterが用いられているとのことです。
Speech Raterとは主にDeliveryの評価を判断する自動採点プログラム。
人間の採点官による評価判定がない模試でも用いられています。

この件に関して、私の方でETS側に確認しています。

Speech Raterによる評価は、TOEFL GO！やTPO31の新形式にあった模試を受けると以下のように表示されます。

TPO31 Speaking Report1

TPO31 Speaking Report2

TPO31 Speaking Report3

模試でのSpeech Raterは

1. Speaking Rate (Fluency)
2. Sustained Speech (Fluency)
3. Pause Frequency (Fluency)
4. Repetitions (Fluency)
5. Rhythm (Pronunciation)
6. Vowels (Pronunciation)
7. Vocabulary Depth (Vocabulary)

の7つの項目を評価します。
興味深い点は、4つのタスクへの回答それぞれに対してのSpeech Raterによる評価点を出さないこと。
おそらく7つの項目におけるレベルは、4つの回答全体に対してのものと推測します。

このSpeech Raterが新TOEFLのSpeakingセクションのスコア算出に利用されているのは確かです。
しかし、どのように利用されているのかは全く分かりません。

人間の採点：Speaking Raterの評価の比率は、5：5なのか、2：1なのか、それとも4：1や9：1なのか？
また7つの項目それぞれの重要性は同じなのか、それとも異なるのか？

今後、コースの改定作業が終わって時間が取れるようになったら、TPO31の模試を何度も受けてどのような回答だと何点になるかを試そうと考えていますが、現時点でSpeakingスコア算出におけるSpeech Raterの重要度は不明です。
Speakingのスコア算出方法に関して何か新たに分かり次第、こちらで報告します。

あと、新形式においてもスコア算出に偏差値が使われていると推測します。
上に書きましたが、2018年8月までの10年以上の間、Speakingセクションは換算表通りの非常にシンプルなスコア算出が行われていました。
しかし2018年9月から、スコア算出に統計的な分析（偏差値）が考慮されるようになったので、新TOEFLにおいて偏差値を用いてスコアを決めていることは間違いないでしょう。

ではこれからどうしたらいい？

現状としては、Speakingのスコア算出に対してナーバスになる必要はないと考えます。
受講生の方々からいただくご報告からは、特に新形式になったからSpeakingのスコアが下がったという印象は持ちません。

長々と述べてきましたが、Speakingスコア算出方法の変化に関して皆さんが気にする必要はありません。
ただひとつ言えることは6つのタスクが4つに減った分、Speaking対策がずっと楽になりました。
だからこそTOEFLで100点以上のような高得点獲得を目指す方は、4つのタスクに対して対策を行い、Speakingセクションで20点以上が確実に取れるようにしましょう。

以下、Speakingセクションにおける評価点4、3、2の違いについて書いたもの。
是非、ご一読ください。

» TOEFL Speaking：評価点3と4の違いを探る

» TOEFL Speaking：評価点2と3の違いを探る（Independent Task編）

» TOEFL Speaking：評価点2と3の違いを探る（Integrated Task編）

またWritingのスコア算出方法に関しては以下を参照ください。

» 【改訂版】TOEFL iBT Writingセクションはどのようにしてスコアが算出される？

前の記事 TOEFL Independent Writingエッセイにおいて、でっち上げた調査・研究データを自分の主張の根拠にしない方がいいでしょう

次の記事【再掲載】Reading、Listening大幅アップでTOEFL iBT 96点獲得のご報告をいただきました！