37,000本のYouTube動画を分析しました。話される英語の実態はこれです
37,632本の英語YouTube動画から1億8,290万語。たった67語で発話の半分が成り立っています。単語とフレーズの完全な頻度リスト、グラフ、ダウンロード可能なデータ。
私たちは検索インデックスから37,632本の英語YouTube動画の字幕を取り出しました。深夜トーク番組、ドキュメンタリー、ポッドキャスト、サイエンス解説、ニュース、トーク番組、Vlogなど、ジャンルは多岐にわたります。そこで話されたすべての単語と短いフレーズに対して頻度分析を行いました。総語数は1億8,290万語です。
本記事はその全文レポートです。元データのCSVはすべて末尾にリンクしてありますので、生データを見たい方はそちらをご覧ください。
コーパスを数字で見る
| 分析対象動画数 | 37,632 |
| 字幕セグメント数 | 26,203,765 |
スキップした非発話セグメント([Music]、[Applause]など) | 196,433 |
| 総発話トークン数 | 182,933,444 |
| ユニークな単語数(語彙サイズ) | 384,132 |
| 動画あたりの平均語数 | 4,861 |
| ユニークな2語連続 | 11,240,282 |
| ユニークな3語連続 | 42,037,127 |
話される英語の半分はわずか67語
分布は容赦なく偏っています。

| 知っておくべき単語数… | …で話される英語のこれだけをカバー |
|---|---|
| 67語 | 50% |
| 505語 | 75% |
| 906語 | 80% |
| 1,677語 | 85% |
| 2,900語 | 89% |
| 3,368語 | 90% |
| 8,381語 | 95% |
| 36,916語 | 99% |
注目すべき点をいくつか挙げます。
- 単一の単語 the だけで話される英語全体の**4.04%**を占めます。耳にする25語に1語は the です。
- 上位10語だけで発話の**23.2%**をカバーします。ネイティブの会話のほぼ4分の1が、たった10個の使い回された語で動いています。
- リターンは急速に逓減します。理解度を89%から95%に引き上げるには、必要な語彙はほぼ3倍になります。95%から99%に上げるにはさらに4倍が必要です。
これは書き言葉のコーパスに見られるよりも鋭いジップの法則の現れ方です。書籍は確率の重みをより多くの語彙に分散しますが、発話はそれを集中させます。

上のプロットは両対数軸です。純粋なジップ的言語であれば直線になりますが、話される英語はほぼそれに近く、最高頻度域でわずかに折れ、ランク10⁵以下では稀少語のロングテールが下がっていきます。
話される単語トップ50
| 順位 | 単語 | 出現回数 | 割合 | 累積 |
|---|---|---|---|---|
| 1 | the | 7,387,237 | 4.04% | 4.04% |
| 2 | and | 5,202,156 | 2.84% | 6.88% |
| 3 | to | 4,806,242 | 2.63% | 9.51% |
| 4 | i | 4,324,592 | 2.36% | 11.87% |
| 5 | a | 4,264,055 | 2.33% | 14.20% |
| 6 | you | 4,064,555 | 2.22% | 16.43% |
| 7 | of | 3,724,277 | 2.04% | 18.46% |
| 8 | that | 3,492,110 | 1.91% | 20.37% |
| 9 | it | 2,634,690 | 1.44% | 21.81% |
| 10 | in | 2,521,046 | 1.38% | 23.19% |
| 11 | like | 2,494,184 | 1.36% | 24.55% |
| 12 | is | 2,369,926 | 1.30% | 25.85% |
| 13 | this | 1,781,715 | 0.97% | 26.82% |
| 14 | so | 1,654,633 | 0.90% | 27.73% |
| 15 | was | 1,501,038 | 0.82% | 28.55% |
| 16 | it's | 1,410,862 | 0.77% | 29.32% |
| 17 | for | 1,305,470 | 0.71% | 30.03% |
| 18 | but | 1,274,194 | 0.70% | 30.73% |
| 19 | we | 1,248,337 | 0.68% | 31.41% |
| 20 | on | 1,216,294 | 0.66% | 32.08% |
| 21 | know | 1,167,908 | 0.64% | 32.71% |
| 22 | have | 1,137,673 | 0.62% | 33.34% |
| 23 | just | 1,134,793 | 0.62% | 33.96% |
| 24 | what | 1,032,689 | 0.56% | 34.52% |
| 25 | they | 1,020,670 | 0.56% | 35.08% |
| 26 | with | 1,007,653 | 0.55% | 35.63% |
| 27 | yeah | 962,191 | 0.53% | 36.16% |
| 28 | be | 957,783 | 0.52% | 36.68% |
| 29 | are | 898,626 | 0.49% | 37.17% |
| 30 | not | 872,734 | 0.48% | 37.65% |
| 31 | do | 870,812 | 0.48% | 38.12% |
| 32 | i'm | 821,478 | 0.45% | 38.57% |
| 33 | my | 804,993 | 0.44% | 39.01% |
| 34 | all | 799,543 | 0.44% | 39.45% |
| 35 | if | 756,360 | 0.41% | 39.86% |
| 36 | that's | 738,851 | 0.40% | 40.27% |
| 37 | at | 732,360 | 0.40% | 40.67% |
| 38 | about | 717,388 | 0.39% | 41.06% |
| 39 | he | 714,407 | 0.39% | 41.45% |
| 40 | your | 696,636 | 0.38% | 41.83% |
| 41 | one | 695,227 | 0.38% | 42.21% |
| 42 | as | 684,705 | 0.37% | 42.59% |
| 43 | or | 678,871 | 0.37% | 42.96% |
| 44 | can | 672,388 | 0.37% | 43.32% |
| 45 | think | 654,509 | 0.36% | 43.68% |
| 46 | right | 647,716 | 0.35% | 44.04% |
| 47 | don't | 637,134 | 0.35% | 44.38% |
| 48 | me | 616,944 | 0.34% | 44.72% |
| 49 | there | 597,279 | 0.33% | 45.05% |
| 50 | people | 592,296 | 0.32% | 45.37% |
トップ10,000語の完全なリストはCSVで公開しています。
このトップ50で目を引くのは、何が入っているか(the、and、to はどんな英語コーパスでも上位)ではなく、どこに位置しているかです。
likeが11位に入っているのは、動詞ではなく談話標識としての用法です。書籍コーパスでは、これより遥かに低い順位に来ます。- 短縮形が5つトップ50に食い込んでいます。it's(16位)、i'm(32位)、that's(36位)、don't(47位)、そしておそらく下位にもいくつか。書き言葉コーパスではこれらは元の形に分解されます。
yeahの27位は、純粋に会話のつなぎです。書籍ではほとんど使われません。know、just、rightは、ここでは主に談話を和らげる語(you know、I just wanted、yeah, right)として使われており、辞書的な意味で使われているわけではありません。
このリストの上位は、話し言葉が書き言葉とどう違うかのスナップショットです。短縮形、フィラー、ヘッジ表現が、冠詞や代名詞と並んで主要な語彙として機能しています。
発話はチャンクで組み立てられている
単語1語ではなく2語、3語の連続で数えると、別の構造が見えてきます。話される英語の最頻出単位は、孤立した単語ではなく、繰り返し現れる短いフレーズなのです。
2語連続トップ50
| 順位 | フレーズ | 出現回数 | 割合 |
|---|---|---|---|
| 1 | you know | 651,659 | 0.42% |
| 2 | of the | 610,473 | 0.39% |
| 3 | in the | 597,973 | 0.38% |
| 4 | going to | 391,962 | 0.25% |
| 5 | and i | 369,069 | 0.24% |
| 6 | i think | 360,605 | 0.23% |
| 7 | this is | 354,886 | 0.23% |
| 8 | to be | 349,293 | 0.22% |
| 9 | i was | 294,749 | 0.19% |
| 10 | i don't | 280,165 | 0.18% |
| 11 | it was | 279,492 | 0.18% |
| 12 | and then | 279,061 | 0.18% |
| 13 | to the | 271,483 | 0.17% |
| 14 | on the | 269,698 | 0.17% |
| 15 | kind of | 253,890 | 0.16% |
| 16 | a lot | 248,787 | 0.16% |
| 17 | want to | 240,129 | 0.15% |
| 18 | if you | 239,704 | 0.15% |
| 19 | you can | 214,797 | 0.14% |
| 20 | and the | 211,577 | 0.13% |
| 21 | i mean | 198,883 | 0.13% |
| 22 | lot of | 188,401 | 0.12% |
| 23 | to do | 188,301 | 0.12% |
| 24 | in a | 185,960 | 0.12% |
| 25 | is a | 183,838 | 0.12% |
| 26 | like a | 180,615 | 0.12% |
| 27 | at the | 169,424 | 0.11% |
| 28 | have to | 168,863 | 0.11% |
| 29 | one of | 161,657 | 0.10% |
| 30 | have a | 160,163 | 0.10% |
| 31 | that i | 159,887 | 0.10% |
| 32 | is the | 159,862 | 0.10% |
| 33 | you have | 158,225 | 0.10% |
| 34 | do you | 158,154 | 0.10% |
| 35 | and you | 156,410 | 0.10% |
| 36 | that you | 150,818 | 0.10% |
| 37 | for the | 147,492 | 0.09% |
| 38 | a little | 146,585 | 0.09% |
| 39 | to get | 143,031 | 0.09% |
| 40 | like i | 141,139 | 0.09% |
| 41 | so i | 140,193 | 0.09% |
| 42 | it is | 137,325 | 0.09% |
| 43 | don't know | 136,714 | 0.09% |
| 44 | was like | 136,396 | 0.09% |
| 45 | it's a | 136,095 | 0.09% |
| 46 | and so | 135,209 | 0.09% |
| 47 | of a | 134,589 | 0.09% |
| 48 | with the | 132,177 | 0.08% |
| 49 | but i | 131,380 | 0.08% |
| 50 | was a | 126,161 | 0.08% |
完全なリスト:top-bigrams.csv
3つ気づくことがあります。
you knowがどんな文法的定型句よりも上回っています。話される英語で最も多い2語ペアであり、of the や in the よりも頻出します。- トップ50は一人称構文で密に占められています。and i、i think、i was、i don't、i mean。発話とは多くの場合、話している本人についての話です。
kind of、a lot、a little、like a、was like── 砕けたヘッジ表現や引用的な構文がトップ50のあらゆるところに現れます。
3語連続トップ50
| 順位 | フレーズ | 出現回数 | 割合 |
|---|---|---|---|
| 1 | a lot of | 170,961 | 0.13% |
| 2 | i don't know | 96,455 | 0.07% |
| 3 | one of the | 82,693 | 0.06% |
| 4 | going to be | 72,293 | 0.05% |
| 5 | a little bit | 64,930 | 0.05% |
| 6 | i was like | 60,915 | 0.05% |
| 7 | i'm going to | 55,940 | 0.04% |
| 8 | i want to | 55,071 | 0.04% |
| 9 | you want to | 54,908 | 0.04% |
| 10 | you know what | 52,925 | 0.04% |
| 11 | you have to | 44,985 | 0.03% |
| 12 | you know i | 43,538 | 0.03% |
| 13 | this is a | 43,457 | 0.03% |
| 14 | this is the | 41,664 | 0.03% |
| 15 | and i think | 40,214 | 0.03% |
| 16 | and i was | 39,340 | 0.03% |
| 17 | i feel like | 38,019 | 0.03% |
| 18 | we're going to | 35,687 | 0.03% |
| 19 | oh my god | 35,203 | 0.03% |
| 20 | to be a | 33,229 | 0.03% |
| 21 | what do you | 32,747 | 0.02% |
| 22 | be able to | 32,263 | 0.02% |
| 23 | i don't think | 31,986 | 0.02% |
| 24 | it was a | 30,717 | 0.02% |
| 25 | and you know | 30,321 | 0.02% |
| 26 | you're going to | 29,731 | 0.02% |
| 27 | like you know | 29,420 | 0.02% |
| 28 | don't want to | 29,249 | 0.02% |
| 29 | some of the | 28,953 | 0.02% |
| 30 | is going to | 28,787 | 0.02% |
| 31 | i think it's | 28,719 | 0.02% |
| 32 | not going to | 27,406 | 0.02% |
| 33 | do you think | 27,196 | 0.02% |
| 34 | and this is | 25,763 | 0.02% |
| 35 | i think that | 25,762 | 0.02% |
| 36 | i mean i | 25,419 | 0.02% |
| 37 | in the world | 25,310 | 0.02% |
| 38 | and it was | 25,303 | 0.02% |
| 39 | and then i | 25,091 | 0.02% |
| 40 | you have a | 23,988 | 0.02% |
| 41 | the end of | 23,885 | 0.02% |
| 42 | and then you | 23,471 | 0.02% |
| 43 | i think i | 23,393 | 0.02% |
| 44 | out of the | 23,054 | 0.02% |
| 45 | it was like | 22,869 | 0.02% |
| 46 | you know the | 22,783 | 0.02% |
| 47 | when i was | 22,755 | 0.02% |
| 48 | you got to | 22,220 | 0.02% |
| 49 | want to be | 22,218 | 0.02% |
| 50 | know what i | 22,117 | 0.02% |
完全なリスト:top-trigrams.csv
3語連続トップ15のうち、11個が代名詞で始まります。6個には明示的な一人称 I が含まれています。話される英語は、誰がリアルタイムで誰に何を言っているかが圧倒的に中心であり、高頻度フレーズもそれを反映しています。
フォーマルな英語には現れないという点で注目に値する連続もいくつかあります。i was like(6位)、you know what(10位)、i feel like(17位)、oh my god(19位)、you got to(48位)。これらは洒落た慣用句ではなく、カジュアルな発話の結合組織です。
この分布が示唆すること
これらの数字から3つのことが導かれます。
コストパフォーマンスの良い語彙は小さい。 話される3,000語を確実に認識できる学習者は、YouTube上のネイティブ英語の89%を追える言語的素材を持っていることになります。それを95%まで広げるにはさらに5,500語が必要で、その大半は1億8,300万語のコーパス全体で数回しか登場しません。
頻度に基づいた重み付けは、語彙サイズより重要です。 ほとんどの教材やアプリは、語彙リストをほぼ等価に扱っています。データが示すのはその逆です。すべての作業の50%は最初の67語が担っています。それを反映していない学習スケジュールは、努力配分を誤っています。
1語ずつの翻訳は、適切な単位ではありません。 3語連続の上位の半分は機能的なチャンク(a lot of、i don't know、a little bit、going to be)で、ひとつの単位として働きます。これらをまとめて認識することは、3つの別々の単語として解析するのとは別の認知操作です。実際の発話では、その違いは「ついていける」か「ついていけない」かの差として現れます。
方法論
これらの数字を生み出したパイプラインは以下の通りです。
- ソース。 37,632本の英語YouTube動画の字幕。
- トークン化。 テキストを小文字化し、正規表現
[a-z]+(?:'[a-z]+)?でマッチさせます。これにより don't、gonna、it's などの短縮形は1トークンとして残り、数字は除外され、句読点は無視されます。 - ノイズフィルタリング。
^\[.*\]$にマッチするセグメント(例:[Music]、[Applause]、[Inaudible])はトークン化前にスキップします。これで196,433セグメントを除去しました。 - カウント。 ユニグラムは全トークンを数えます。バイグラムとトライグラムは、1つの字幕セグメント内のすべての隣接N語連続を数え、セグメント境界をまたぐ連続は許しません。
- 累積割合は、出現回数で並べ替えて加算することで算出します。
この分析が行わないこと:
- 見出し語化(lemmatization)は行いません。 go、going、went、gone は別々の語彙項目として数えられます。これは学習者が聞いて実際に認識する必要があるものを測るには適切ですが、見出し語化された分析と比べると生の語彙数は膨らみます。
- 品詞タグ付けは行いません。 動詞の like と談話標識の like はまとめて数えています。
- 自動生成字幕のフィルタリングは行いません。 人手編集の字幕の動画もあれば、自動生成の動画もあります。後者は特にロングテールで多少の文字起こしノイズを含みます。
この分析が信頼できる対象は、分布の形と高頻度の単語・フレーズの正体です。リスト上位 ── the、and、to、I、like、it's、you know、i don't know ── は、合理的なクリーニングを行ってもびくともしません。
コーパスに関する注意点
この37,632本の動画は、すべての話される英語からのランダムサンプルではありません。これは、私たちの動画クリップ内フレーズ検索エンジンClipPhraseを支えるために収集された、人気の英語YouTubeチャンネルからの厳選セットです。コーパスは以下に偏っています。
- アメリカ英語。 ほとんどのチャンネルは米国拠点です。
- 職業的に話す人々。 深夜トーク番組のホスト、ポッドキャスター、YouTuber、ニュースキャスターなど ── 一般人のカジュアルな私的会話の代表的な断面ではありません。
- 人気コンテンツ。 チャンネルは再生数と幅広い文化的リーチで選ばれており、方言や言語使用域の多様性のためではありません。
これらの注意点は、数字が厳密に何を示しているかの範囲を狭めます。しかし、分布の形や、話される英語が高頻度の機能語とチャンクからなる小さな語彙に確率の重みを集中させるという定性的な所見は変わりません。
自分で試してみる
この分析の対象となったコーパスは、検索インデックスでもあります。本記事で言及したすべての単語とフレーズは、何万本もの実際の動画クリップに存在し、クエリで取り出せます。ClipPhraseに I was like と入力すれば、50人の異なる話者がそれを使っている動画が見つかります。gonnaと入力すれば、数千件の結果が返ってきます。それが背後にあるツールです。
ダウンロード
- top-words.csv ── 順位、出現回数、割合、累積割合付きのトップ10,000語
- top-bigrams.csv ── 2語連続トップ5,000
- top-trigrams.csv ── 3語連続トップ5,000
このデータをご自身の執筆や研究で利用される場合は、本ページへのリンクをいただけると幸いです。