37,000本のYouTube動画を分析しました。話される英語の実態はこれです

37,632本の英語YouTube動画から1億8,290万語。たった67語で発話の半分が成り立っています。単語とフレーズの完全な頻度リスト、グラフ、ダウンロード可能なデータ。

2026年5月4日12分で読めるClipPhrase Team

私たちは検索インデックスから37,632本の英語YouTube動画の字幕を取り出しました。深夜トーク番組、ドキュメンタリー、ポッドキャスト、サイエンス解説、ニュース、トーク番組、Vlogなど、ジャンルは多岐にわたります。そこで話されたすべての単語と短いフレーズに対して頻度分析を行いました。総語数は1億8,290万語です。

本記事はその全文レポートです。元データのCSVはすべて末尾にリンクしてありますので、生データを見たい方はそちらをご覧ください。

コーパスを数字で見る


分析対象動画数	37,632
字幕セグメント数	26,203,765
スキップした非発話セグメント（`[Music]`、`[Applause]`など）	196,433
総発話トークン数	182,933,444
ユニークな単語数（語彙サイズ）	384,132
動画あたりの平均語数	4,861
ユニークな2語連続	11,240,282
ユニークな3語連続	42,037,127

話される英語の半分はわずか67語

分布は容赦なく偏っています。

話される英語のX%をカバーするのに必要な単語数

知っておくべき単語数…	…で話される英語のこれだけをカバー
67語	50%
505語	75%
906語	80%
1,677語	85%
2,900語	89%
3,368語	90%
8,381語	95%
36,916語	99%

注目すべき点をいくつか挙げます。

単一の単語 the だけで話される英語全体の**4.04%**を占めます。耳にする25語に1語は the です。
上位10語だけで発話の**23.2%**をカバーします。ネイティブの会話のほぼ4分の1が、たった10個の使い回された語で動いています。
リターンは急速に逓減します。理解度を89%から95%に引き上げるには、必要な語彙はほぼ3倍になります。95%から99%に上げるにはさらに4倍が必要です。

これは書き言葉のコーパスに見られるよりも鋭いジップの法則の現れ方です。書籍は確率の重みをより多くの語彙に分散しますが、発話はそれを集中させます。

37K本のYouTube動画から得た話される英語のジップ分布

上のプロットは両対数軸です。純粋なジップ的言語であれば直線になりますが、話される英語はほぼそれに近く、最高頻度域でわずかに折れ、ランク10⁵以下では稀少語のロングテールが下がっていきます。

話される単語トップ50

順位	単語	出現回数	割合	累積
1	the	7,387,237	4.04%	4.04%
2	and	5,202,156	2.84%	6.88%
3	to	4,806,242	2.63%	9.51%
4	i	4,324,592	2.36%	11.87%
5	a	4,264,055	2.33%	14.20%
6	you	4,064,555	2.22%	16.43%
7	of	3,724,277	2.04%	18.46%
8	that	3,492,110	1.91%	20.37%
9	it	2,634,690	1.44%	21.81%
10	in	2,521,046	1.38%	23.19%
11	like	2,494,184	1.36%	24.55%
12	is	2,369,926	1.30%	25.85%
13	this	1,781,715	0.97%	26.82%
14	so	1,654,633	0.90%	27.73%
15	was	1,501,038	0.82%	28.55%
16	it's	1,410,862	0.77%	29.32%
17	for	1,305,470	0.71%	30.03%
18	but	1,274,194	0.70%	30.73%
19	we	1,248,337	0.68%	31.41%
20	on	1,216,294	0.66%	32.08%
21	know	1,167,908	0.64%	32.71%
22	have	1,137,673	0.62%	33.34%
23	just	1,134,793	0.62%	33.96%
24	what	1,032,689	0.56%	34.52%
25	they	1,020,670	0.56%	35.08%
26	with	1,007,653	0.55%	35.63%
27	yeah	962,191	0.53%	36.16%
28	be	957,783	0.52%	36.68%
29	are	898,626	0.49%	37.17%
30	not	872,734	0.48%	37.65%
31	do	870,812	0.48%	38.12%
32	i'm	821,478	0.45%	38.57%
33	my	804,993	0.44%	39.01%
34	all	799,543	0.44%	39.45%
35	if	756,360	0.41%	39.86%
36	that's	738,851	0.40%	40.27%
37	at	732,360	0.40%	40.67%
38	about	717,388	0.39%	41.06%
39	he	714,407	0.39%	41.45%
40	your	696,636	0.38%	41.83%
41	one	695,227	0.38%	42.21%
42	as	684,705	0.37%	42.59%
43	or	678,871	0.37%	42.96%
44	can	672,388	0.37%	43.32%
45	think	654,509	0.36%	43.68%
46	right	647,716	0.35%	44.04%
47	don't	637,134	0.35%	44.38%
48	me	616,944	0.34%	44.72%
49	there	597,279	0.33%	45.05%
50	people	592,296	0.32%	45.37%

トップ10,000語の完全なリストはCSVで公開しています。

このトップ50で目を引くのは、何が入っているか（the、and、to はどんな英語コーパスでも上位）ではなく、どこに位置しているかです。

like が11位に入っているのは、動詞ではなく談話標識としての用法です。書籍コーパスでは、これより遥かに低い順位に来ます。
短縮形が5つトップ50に食い込んでいます。it's（16位）、i'm（32位）、that's（36位）、don't（47位）、そしておそらく下位にもいくつか。書き言葉コーパスではこれらは元の形に分解されます。
yeah の27位は、純粋に会話のつなぎです。書籍ではほとんど使われません。
know、just、right は、ここでは主に談話を和らげる語（you know、I just wanted、yeah, right）として使われており、辞書的な意味で使われているわけではありません。

このリストの上位は、話し言葉が書き言葉とどう違うかのスナップショットです。短縮形、フィラー、ヘッジ表現が、冠詞や代名詞と並んで主要な語彙として機能しています。

発話はチャンクで組み立てられている

単語1語ではなく2語、3語の連続で数えると、別の構造が見えてきます。話される英語の最頻出単位は、孤立した単語ではなく、繰り返し現れる短いフレーズなのです。

2語連続トップ50

順位	フレーズ	出現回数	割合
1	you know	651,659	0.42%
2	of the	610,473	0.39%
3	in the	597,973	0.38%
4	going to	391,962	0.25%
5	and i	369,069	0.24%
6	i think	360,605	0.23%
7	this is	354,886	0.23%
8	to be	349,293	0.22%
9	i was	294,749	0.19%
10	i don't	280,165	0.18%
11	it was	279,492	0.18%
12	and then	279,061	0.18%
13	to the	271,483	0.17%
14	on the	269,698	0.17%
15	kind of	253,890	0.16%
16	a lot	248,787	0.16%
17	want to	240,129	0.15%
18	if you	239,704	0.15%
19	you can	214,797	0.14%
20	and the	211,577	0.13%
21	i mean	198,883	0.13%
22	lot of	188,401	0.12%
23	to do	188,301	0.12%
24	in a	185,960	0.12%
25	is a	183,838	0.12%
26	like a	180,615	0.12%
27	at the	169,424	0.11%
28	have to	168,863	0.11%
29	one of	161,657	0.10%
30	have a	160,163	0.10%
31	that i	159,887	0.10%
32	is the	159,862	0.10%
33	you have	158,225	0.10%
34	do you	158,154	0.10%
35	and you	156,410	0.10%
36	that you	150,818	0.10%
37	for the	147,492	0.09%
38	a little	146,585	0.09%
39	to get	143,031	0.09%
40	like i	141,139	0.09%
41	so i	140,193	0.09%
42	it is	137,325	0.09%
43	don't know	136,714	0.09%
44	was like	136,396	0.09%
45	it's a	136,095	0.09%
46	and so	135,209	0.09%
47	of a	134,589	0.09%
48	with the	132,177	0.08%
49	but i	131,380	0.08%
50	was a	126,161	0.08%

完全なリスト：top-bigrams.csv

3つ気づくことがあります。

you know がどんな文法的定型句よりも上回っています。話される英語で最も多い2語ペアであり、of the や in the よりも頻出します。
トップ50は一人称構文で密に占められています。and i、i think、i was、i don't、i mean。発話とは多くの場合、話している本人についての話です。
kind of、a lot、a little、like a、was like ── 砕けたヘッジ表現や引用的な構文がトップ50のあらゆるところに現れます。

3語連続トップ50

順位	フレーズ	出現回数	割合
1	a lot of	170,961	0.13%
2	i don't know	96,455	0.07%
3	one of the	82,693	0.06%
4	going to be	72,293	0.05%
5	a little bit	64,930	0.05%
6	i was like	60,915	0.05%
7	i'm going to	55,940	0.04%
8	i want to	55,071	0.04%
9	you want to	54,908	0.04%
10	you know what	52,925	0.04%
11	you have to	44,985	0.03%
12	you know i	43,538	0.03%
13	this is a	43,457	0.03%
14	this is the	41,664	0.03%
15	and i think	40,214	0.03%
16	and i was	39,340	0.03%
17	i feel like	38,019	0.03%
18	we're going to	35,687	0.03%
19	oh my god	35,203	0.03%
20	to be a	33,229	0.03%
21	what do you	32,747	0.02%
22	be able to	32,263	0.02%
23	i don't think	31,986	0.02%
24	it was a	30,717	0.02%
25	and you know	30,321	0.02%
26	you're going to	29,731	0.02%
27	like you know	29,420	0.02%
28	don't want to	29,249	0.02%
29	some of the	28,953	0.02%
30	is going to	28,787	0.02%
31	i think it's	28,719	0.02%
32	not going to	27,406	0.02%
33	do you think	27,196	0.02%
34	and this is	25,763	0.02%
35	i think that	25,762	0.02%
36	i mean i	25,419	0.02%
37	in the world	25,310	0.02%
38	and it was	25,303	0.02%
39	and then i	25,091	0.02%
40	you have a	23,988	0.02%
41	the end of	23,885	0.02%
42	and then you	23,471	0.02%
43	i think i	23,393	0.02%
44	out of the	23,054	0.02%
45	it was like	22,869	0.02%
46	you know the	22,783	0.02%
47	when i was	22,755	0.02%
48	you got to	22,220	0.02%
49	want to be	22,218	0.02%
50	know what i	22,117	0.02%

完全なリスト：top-trigrams.csv

3語連続トップ15のうち、11個が代名詞で始まります。6個には明示的な一人称 I が含まれています。話される英語は、誰がリアルタイムで誰に何を言っているかが圧倒的に中心であり、高頻度フレーズもそれを反映しています。

フォーマルな英語には現れないという点で注目に値する連続もいくつかあります。i was like（6位）、you know what（10位）、i feel like（17位）、oh my god（19位）、you got to（48位）。これらは洒落た慣用句ではなく、カジュアルな発話の結合組織です。

この分布が示唆すること

これらの数字から3つのことが導かれます。

コストパフォーマンスの良い語彙は小さい。 話される3,000語を確実に認識できる学習者は、YouTube上のネイティブ英語の89%を追える言語的素材を持っていることになります。それを95%まで広げるにはさらに5,500語が必要で、その大半は1億8,300万語のコーパス全体で数回しか登場しません。

頻度に基づいた重み付けは、語彙サイズより重要です。 ほとんどの教材やアプリは、語彙リストをほぼ等価に扱っています。データが示すのはその逆です。すべての作業の50%は最初の67語が担っています。それを反映していない学習スケジュールは、努力配分を誤っています。

1語ずつの翻訳は、適切な単位ではありません。 3語連続の上位の半分は機能的なチャンク（a lot of、i don't know、a little bit、going to be）で、ひとつの単位として働きます。これらをまとめて認識することは、3つの別々の単語として解析するのとは別の認知操作です。実際の発話では、その違いは「ついていける」か「ついていけない」かの差として現れます。

方法論

これらの数字を生み出したパイプラインは以下の通りです。

ソース。 37,632本の英語YouTube動画の字幕。
トークン化。 テキストを小文字化し、正規表現 [a-z]+(?:'[a-z]+)? でマッチさせます。これにより don't、gonna、it's などの短縮形は1トークンとして残り、数字は除外され、句読点は無視されます。
ノイズフィルタリング。 ^\[.*\]$ にマッチするセグメント（例：[Music]、[Applause]、[Inaudible]）はトークン化前にスキップします。これで196,433セグメントを除去しました。
カウント。 ユニグラムは全トークンを数えます。バイグラムとトライグラムは、1つの字幕セグメント内のすべての隣接N語連続を数え、セグメント境界をまたぐ連続は許しません。
累積割合は、出現回数で並べ替えて加算することで算出します。

この分析が行わないこと：

見出し語化（lemmatization）は行いません。 go、going、went、gone は別々の語彙項目として数えられます。これは学習者が聞いて実際に認識する必要があるものを測るには適切ですが、見出し語化された分析と比べると生の語彙数は膨らみます。
品詞タグ付けは行いません。 動詞の like と談話標識の like はまとめて数えています。
自動生成字幕のフィルタリングは行いません。 人手編集の字幕の動画もあれば、自動生成の動画もあります。後者は特にロングテールで多少の文字起こしノイズを含みます。

この分析が信頼できる対象は、分布の形と高頻度の単語・フレーズの正体です。リスト上位 ── the、and、to、I、like、it's、you know、i don't know ── は、合理的なクリーニングを行ってもびくともしません。

コーパスに関する注意点

この37,632本の動画は、すべての話される英語からのランダムサンプルではありません。これは、私たちの動画クリップ内フレーズ検索エンジンClipPhraseを支えるために収集された、人気の英語YouTubeチャンネルからの厳選セットです。コーパスは以下に偏っています。

アメリカ英語。 ほとんどのチャンネルは米国拠点です。
職業的に話す人々。 深夜トーク番組のホスト、ポッドキャスター、YouTuber、ニュースキャスターなど ── 一般人のカジュアルな私的会話の代表的な断面ではありません。
人気コンテンツ。 チャンネルは再生数と幅広い文化的リーチで選ばれており、方言や言語使用域の多様性のためではありません。

これらの注意点は、数字が厳密に何を示しているかの範囲を狭めます。しかし、分布の形や、話される英語が高頻度の機能語とチャンクからなる小さな語彙に確率の重みを集中させるという定性的な所見は変わりません。

自分で試してみる

この分析の対象となったコーパスは、検索インデックスでもあります。本記事で言及したすべての単語とフレーズは、何万本もの実際の動画クリップに存在し、クエリで取り出せます。ClipPhraseに I was like と入力すれば、50人の異なる話者がそれを使っている動画が見つかります。gonnaと入力すれば、数千件の結果が返ってきます。それが背後にあるツールです。

ダウンロード

top-words.csv ── 順位、出現回数、割合、累積割合付きのトップ10,000語
top-bigrams.csv ── 2語連続トップ5,000
top-trigrams.csv ── 3語連続トップ5,000

このデータをご自身の執筆や研究で利用される場合は、本ページへのリンクをいただけると幸いです。