ClipPhrase
← ブログに戻る

37,000本のYouTube動画を分析しました。話される英語の実態はこれです

37,632本の英語YouTube動画から1億8,290万語。たった67語で発話の半分が成り立っています。単語とフレーズの完全な頻度リスト、グラフ、ダウンロード可能なデータ。

2026年5月4日12分で読めるClipPhrase Team

私たちは検索インデックスから37,632本の英語YouTube動画の字幕を取り出しました。深夜トーク番組、ドキュメンタリー、ポッドキャスト、サイエンス解説、ニュース、トーク番組、Vlogなど、ジャンルは多岐にわたります。そこで話されたすべての単語と短いフレーズに対して頻度分析を行いました。総語数は1億8,290万語です。

本記事はその全文レポートです。元データのCSVはすべて末尾にリンクしてありますので、生データを見たい方はそちらをご覧ください。

コーパスを数字で見る

分析対象動画数37,632
字幕セグメント数26,203,765
スキップした非発話セグメント([Music][Applause]など)196,433
総発話トークン数182,933,444
ユニークな単語数(語彙サイズ)384,132
動画あたりの平均語数4,861
ユニークな2語連続11,240,282
ユニークな3語連続42,037,127

話される英語の半分はわずか67語

分布は容赦なく偏っています。

話される英語のX%をカバーするのに必要な単語数

知っておくべき単語数……で話される英語のこれだけをカバー
67語50%
505語75%
906語80%
1,677語85%
2,900語89%
3,368語90%
8,381語95%
36,916語99%

注目すべき点をいくつか挙げます。

  • 単一の単語 the だけで話される英語全体の**4.04%**を占めます。耳にする25語に1語は the です。
  • 上位10語だけで発話の**23.2%**をカバーします。ネイティブの会話のほぼ4分の1が、たった10個の使い回された語で動いています。
  • リターンは急速に逓減します。理解度を89%から95%に引き上げるには、必要な語彙はほぼ3倍になります。95%から99%に上げるにはさらに4倍が必要です。

これは書き言葉のコーパスに見られるよりも鋭いジップの法則の現れ方です。書籍は確率の重みをより多くの語彙に分散しますが、発話はそれを集中させます。

37K本のYouTube動画から得た話される英語のジップ分布

上のプロットは両対数軸です。純粋なジップ的言語であれば直線になりますが、話される英語はほぼそれに近く、最高頻度域でわずかに折れ、ランク10⁵以下では稀少語のロングテールが下がっていきます。

話される単語トップ50

順位単語出現回数割合累積
1the7,387,2374.04%4.04%
2and5,202,1562.84%6.88%
3to4,806,2422.63%9.51%
4i4,324,5922.36%11.87%
5a4,264,0552.33%14.20%
6you4,064,5552.22%16.43%
7of3,724,2772.04%18.46%
8that3,492,1101.91%20.37%
9it2,634,6901.44%21.81%
10in2,521,0461.38%23.19%
11like2,494,1841.36%24.55%
12is2,369,9261.30%25.85%
13this1,781,7150.97%26.82%
14so1,654,6330.90%27.73%
15was1,501,0380.82%28.55%
16it's1,410,8620.77%29.32%
17for1,305,4700.71%30.03%
18but1,274,1940.70%30.73%
19we1,248,3370.68%31.41%
20on1,216,2940.66%32.08%
21know1,167,9080.64%32.71%
22have1,137,6730.62%33.34%
23just1,134,7930.62%33.96%
24what1,032,6890.56%34.52%
25they1,020,6700.56%35.08%
26with1,007,6530.55%35.63%
27yeah962,1910.53%36.16%
28be957,7830.52%36.68%
29are898,6260.49%37.17%
30not872,7340.48%37.65%
31do870,8120.48%38.12%
32i'm821,4780.45%38.57%
33my804,9930.44%39.01%
34all799,5430.44%39.45%
35if756,3600.41%39.86%
36that's738,8510.40%40.27%
37at732,3600.40%40.67%
38about717,3880.39%41.06%
39he714,4070.39%41.45%
40your696,6360.38%41.83%
41one695,2270.38%42.21%
42as684,7050.37%42.59%
43or678,8710.37%42.96%
44can672,3880.37%43.32%
45think654,5090.36%43.68%
46right647,7160.35%44.04%
47don't637,1340.35%44.38%
48me616,9440.34%44.72%
49there597,2790.33%45.05%
50people592,2960.32%45.37%

トップ10,000語の完全なリストはCSVで公開しています。

このトップ50で目を引くのは、何が入っているか(theandto はどんな英語コーパスでも上位)ではなく、どこに位置しているかです。

  • like が11位に入っているのは、動詞ではなく談話標識としての用法です。書籍コーパスでは、これより遥かに低い順位に来ます。
  • 短縮形が5つトップ50に食い込んでいます。it's(16位)、i'm(32位)、that's(36位)、don't(47位)、そしておそらく下位にもいくつか。書き言葉コーパスではこれらは元の形に分解されます。
  • yeah の27位は、純粋に会話のつなぎです。書籍ではほとんど使われません。
  • knowjustright は、ここでは主に談話を和らげる語(you knowI just wantedyeah, right)として使われており、辞書的な意味で使われているわけではありません。

このリストの上位は、話し言葉が書き言葉とどう違うかのスナップショットです。短縮形、フィラー、ヘッジ表現が、冠詞や代名詞と並んで主要な語彙として機能しています。

発話はチャンクで組み立てられている

単語1語ではなく2語、3語の連続で数えると、別の構造が見えてきます。話される英語の最頻出単位は、孤立した単語ではなく、繰り返し現れる短いフレーズなのです。

2語連続トップ50

順位フレーズ出現回数割合
1you know651,6590.42%
2of the610,4730.39%
3in the597,9730.38%
4going to391,9620.25%
5and i369,0690.24%
6i think360,6050.23%
7this is354,8860.23%
8to be349,2930.22%
9i was294,7490.19%
10i don't280,1650.18%
11it was279,4920.18%
12and then279,0610.18%
13to the271,4830.17%
14on the269,6980.17%
15kind of253,8900.16%
16a lot248,7870.16%
17want to240,1290.15%
18if you239,7040.15%
19you can214,7970.14%
20and the211,5770.13%
21i mean198,8830.13%
22lot of188,4010.12%
23to do188,3010.12%
24in a185,9600.12%
25is a183,8380.12%
26like a180,6150.12%
27at the169,4240.11%
28have to168,8630.11%
29one of161,6570.10%
30have a160,1630.10%
31that i159,8870.10%
32is the159,8620.10%
33you have158,2250.10%
34do you158,1540.10%
35and you156,4100.10%
36that you150,8180.10%
37for the147,4920.09%
38a little146,5850.09%
39to get143,0310.09%
40like i141,1390.09%
41so i140,1930.09%
42it is137,3250.09%
43don't know136,7140.09%
44was like136,3960.09%
45it's a136,0950.09%
46and so135,2090.09%
47of a134,5890.09%
48with the132,1770.08%
49but i131,3800.08%
50was a126,1610.08%

完全なリスト:top-bigrams.csv

3つ気づくことがあります。

  1. you know がどんな文法的定型句よりも上回っています。話される英語で最も多い2語ペアであり、of thein the よりも頻出します。
  2. トップ50は一人称構文で密に占められています。and ii thinki wasi don'ti mean。発話とは多くの場合、話している本人についての話です。
  3. kind ofa lota littlelike awas like ── 砕けたヘッジ表現や引用的な構文がトップ50のあらゆるところに現れます。

3語連続トップ50

順位フレーズ出現回数割合
1a lot of170,9610.13%
2i don't know96,4550.07%
3one of the82,6930.06%
4going to be72,2930.05%
5a little bit64,9300.05%
6i was like60,9150.05%
7i'm going to55,9400.04%
8i want to55,0710.04%
9you want to54,9080.04%
10you know what52,9250.04%
11you have to44,9850.03%
12you know i43,5380.03%
13this is a43,4570.03%
14this is the41,6640.03%
15and i think40,2140.03%
16and i was39,3400.03%
17i feel like38,0190.03%
18we're going to35,6870.03%
19oh my god35,2030.03%
20to be a33,2290.03%
21what do you32,7470.02%
22be able to32,2630.02%
23i don't think31,9860.02%
24it was a30,7170.02%
25and you know30,3210.02%
26you're going to29,7310.02%
27like you know29,4200.02%
28don't want to29,2490.02%
29some of the28,9530.02%
30is going to28,7870.02%
31i think it's28,7190.02%
32not going to27,4060.02%
33do you think27,1960.02%
34and this is25,7630.02%
35i think that25,7620.02%
36i mean i25,4190.02%
37in the world25,3100.02%
38and it was25,3030.02%
39and then i25,0910.02%
40you have a23,9880.02%
41the end of23,8850.02%
42and then you23,4710.02%
43i think i23,3930.02%
44out of the23,0540.02%
45it was like22,8690.02%
46you know the22,7830.02%
47when i was22,7550.02%
48you got to22,2200.02%
49want to be22,2180.02%
50know what i22,1170.02%

完全なリスト:top-trigrams.csv

3語連続トップ15のうち、11個が代名詞で始まります。6個には明示的な一人称 I が含まれています。話される英語は、誰がリアルタイムで誰に何を言っているかが圧倒的に中心であり、高頻度フレーズもそれを反映しています。

フォーマルな英語には現れないという点で注目に値する連続もいくつかあります。i was like(6位)、you know what(10位)、i feel like(17位)、oh my god(19位)、you got to(48位)。これらは洒落た慣用句ではなく、カジュアルな発話の結合組織です。

この分布が示唆すること

これらの数字から3つのことが導かれます。

コストパフォーマンスの良い語彙は小さい。 話される3,000語を確実に認識できる学習者は、YouTube上のネイティブ英語の89%を追える言語的素材を持っていることになります。それを95%まで広げるにはさらに5,500語が必要で、その大半は1億8,300万語のコーパス全体で数回しか登場しません。

頻度に基づいた重み付けは、語彙サイズより重要です。 ほとんどの教材やアプリは、語彙リストをほぼ等価に扱っています。データが示すのはその逆です。すべての作業の50%は最初の67語が担っています。それを反映していない学習スケジュールは、努力配分を誤っています。

1語ずつの翻訳は、適切な単位ではありません。 3語連続の上位の半分は機能的なチャンク(a lot ofi don't knowa little bitgoing to be)で、ひとつの単位として働きます。これらをまとめて認識することは、3つの別々の単語として解析するのとは別の認知操作です。実際の発話では、その違いは「ついていける」か「ついていけない」かの差として現れます。

方法論

これらの数字を生み出したパイプラインは以下の通りです。

  1. ソース。 37,632本の英語YouTube動画の字幕。
  2. トークン化。 テキストを小文字化し、正規表現 [a-z]+(?:'[a-z]+)? でマッチさせます。これにより don'tgonnait's などの短縮形は1トークンとして残り、数字は除外され、句読点は無視されます。
  3. ノイズフィルタリング。 ^\[.*\]$ にマッチするセグメント(例:[Music][Applause][Inaudible])はトークン化前にスキップします。これで196,433セグメントを除去しました。
  4. カウント。 ユニグラムは全トークンを数えます。バイグラムとトライグラムは、1つの字幕セグメント内のすべての隣接N語連続を数え、セグメント境界をまたぐ連続は許しません。
  5. 累積割合は、出現回数で並べ替えて加算することで算出します。

この分析が行わないこと:

  • 見出し語化(lemmatization)は行いません。 gogoingwentgone は別々の語彙項目として数えられます。これは学習者が聞いて実際に認識する必要があるものを測るには適切ですが、見出し語化された分析と比べると生の語彙数は膨らみます。
  • 品詞タグ付けは行いません。 動詞の like と談話標識の like はまとめて数えています。
  • 自動生成字幕のフィルタリングは行いません。 人手編集の字幕の動画もあれば、自動生成の動画もあります。後者は特にロングテールで多少の文字起こしノイズを含みます。

この分析が信頼できる対象は、分布のと高頻度の単語・フレーズの正体です。リスト上位 ── theandtoIlikeit'syou knowi don't know ── は、合理的なクリーニングを行ってもびくともしません。

コーパスに関する注意点

この37,632本の動画は、すべての話される英語からのランダムサンプルではありません。これは、私たちの動画クリップ内フレーズ検索エンジンClipPhraseを支えるために収集された、人気の英語YouTubeチャンネルからの厳選セットです。コーパスは以下に偏っています。

  • アメリカ英語。 ほとんどのチャンネルは米国拠点です。
  • 職業的に話す人々。 深夜トーク番組のホスト、ポッドキャスター、YouTuber、ニュースキャスターなど ── 一般人のカジュアルな私的会話の代表的な断面ではありません。
  • 人気コンテンツ。 チャンネルは再生数と幅広い文化的リーチで選ばれており、方言や言語使用域の多様性のためではありません。

これらの注意点は、数字が厳密に何を示しているかの範囲を狭めます。しかし、分布の形や、話される英語が高頻度の機能語とチャンクからなる小さな語彙に確率の重みを集中させるという定性的な所見は変わりません。

自分で試してみる

この分析の対象となったコーパスは、検索インデックスでもあります。本記事で言及したすべての単語とフレーズは、何万本もの実際の動画クリップに存在し、クエリで取り出せます。ClipPhraseI was like と入力すれば、50人の異なる話者がそれを使っている動画が見つかります。gonnaと入力すれば、数千件の結果が返ってきます。それが背後にあるツールです。

ダウンロード

このデータをご自身の執筆や研究で利用される場合は、本ページへのリンクをいただけると幸いです。