我們分析了 37,000 部 YouTube 影片，發現口說英語真實的樣貌

37,632 部英語 YouTube 影片中的 1.829 億個口說單字。光是 67 個單字就佔了所有口說內容的一半。完整的單字與片語頻率清單、圖表，以及可下載的原始資料。

2026年5月4日12分鐘閱讀ClipPhrase Team

我們從搜尋索引中取出 37,632 部英語 YouTube 影片的字幕——深夜脫口秀、紀錄片、Podcast、科普頻道、新聞節目、訪談節目、Vlog——並對其中所有的單字與短片語進行頻率分析。總計1.829 億個單字。

本文是完整的分析報告。所有原始 CSV 檔案連結都附在文末，供想自行檢視原始資料的讀者使用。

語料庫數據一覽


分析的影片數	37,632
字幕片段數	26,203,765
跳過的非語音片段（`[Music]`、`[Applause]` 等）	196,433
口說 token 總數	182,933,444
不重複單字數（詞彙量）	384,132
每部影片平均單字數	4,861
不重複的雙字組合	11,240,282
不重複的三字組合	42,037,127

一半的口說英語只用 67 個單字

這個分布之懸殊，到了殘酷的地步。

覆蓋 X% 口說英語所需的單字數

你需要認識……	……才能聽懂這麼多比例的口說英語
67 個單字	50%
505 個單字	75%
906 個單字	80%
1,677 個單字	85%
2,900 個單字	89%
3,368 個單字	90%
8,381 個單字	95%
36,916 個單字	99%

幾個值得特別點出的觀察：

單一個 the 就佔了所有口說英語的 4.04%——你聽到的每 25 個單字中，就有 1 個是 the。
前 10 個單字加起來涵蓋了 23.2% 的口說內容。將近四分之一的母語對話，都靠這 10 個重複出現的 token 撐著。
邊際效益迅速崩塌。從 89% 提升到 95% 的理解度，所需的詞彙量幾乎要增加為 3 倍。從 95% 到 99%，又得再乘以 4。

這是比書面語料庫中所見更加極端的齊夫定律（Zipf's law）版本。書本將機率質量分散到更廣的詞彙上；口說語言則是高度集中。

37K YouTube 影片口說英語的 Zipf 分布

上圖採用對數—對數座標。純粹符合齊夫定律的語言會呈現一條直線；口說英語非常接近這個情形，僅在最高頻處有些微的轉折，並在排名 10⁵ 之後出現罕見字的長尾下滑。

口說頻率前 50 名單字

排名	單字	次數	佔比	累計
1	the	7,387,237	4.04%	4.04%
2	and	5,202,156	2.84%	6.88%
3	to	4,806,242	2.63%	9.51%
4	i	4,324,592	2.36%	11.87%
5	a	4,264,055	2.33%	14.20%
6	you	4,064,555	2.22%	16.43%
7	of	3,724,277	2.04%	18.46%
8	that	3,492,110	1.91%	20.37%
9	it	2,634,690	1.44%	21.81%
10	in	2,521,046	1.38%	23.19%
11	like	2,494,184	1.36%	24.55%
12	is	2,369,926	1.30%	25.85%
13	this	1,781,715	0.97%	26.82%
14	so	1,654,633	0.90%	27.73%
15	was	1,501,038	0.82%	28.55%
16	it's	1,410,862	0.77%	29.32%
17	for	1,305,470	0.71%	30.03%
18	but	1,274,194	0.70%	30.73%
19	we	1,248,337	0.68%	31.41%
20	on	1,216,294	0.66%	32.08%
21	know	1,167,908	0.64%	32.71%
22	have	1,137,673	0.62%	33.34%
23	just	1,134,793	0.62%	33.96%
24	what	1,032,689	0.56%	34.52%
25	they	1,020,670	0.56%	35.08%
26	with	1,007,653	0.55%	35.63%
27	yeah	962,191	0.53%	36.16%
28	be	957,783	0.52%	36.68%
29	are	898,626	0.49%	37.17%
30	not	872,734	0.48%	37.65%
31	do	870,812	0.48%	38.12%
32	i'm	821,478	0.45%	38.57%
33	my	804,993	0.44%	39.01%
34	all	799,543	0.44%	39.45%
35	if	756,360	0.41%	39.86%
36	that's	738,851	0.40%	40.27%
37	at	732,360	0.40%	40.67%
38	about	717,388	0.39%	41.06%
39	he	714,407	0.39%	41.45%
40	your	696,636	0.38%	41.83%
41	one	695,227	0.38%	42.21%
42	as	684,705	0.37%	42.59%
43	or	678,871	0.37%	42.96%
44	can	672,388	0.37%	43.32%
45	think	654,509	0.36%	43.68%
46	right	647,716	0.35%	44.04%
47	don't	637,134	0.35%	44.38%
48	me	616,944	0.34%	44.72%
49	there	597,279	0.33%	45.05%
50	people	592,296	0.32%	45.37%

完整前 10,000 名清單請見 CSV。

這份前 50 名清單真正有趣的地方並不在於它包含什麼——the、and、to 在任何英語語料庫中都會名列前茅——而是某些單字所在的位置：

like 排在第 11 名，這裡指的是話語標記，而不是動詞。在書本語料庫中，它的排名會遠低於此。
有 5 個縮寫闖進前 50 名：it's（#16）、i'm（#32）、that's（#36）、don't（#47），更後面還有一些。書面語料庫通常會把這些拆回完整形式。
yeah 排在第 27 名，純粹是會話的潤滑劑。書本幾乎不會用它。
know、just 與 right 在這裡多半是用來緩和語氣的話語標記（you know、I just wanted、yeah, right），而不是字典裡的本義。

清單頂端展現了口說與書面的差異：縮寫、填充詞與緩和語，與冠詞、代名詞並列為承擔表達主力的核心詞彙。

口語是由「組塊」搭起來的

當我們改為計算雙字與三字組合，而不只是單字時，會浮現出另一種結構。口說英語中最常出現的單位，並不是孤立的單字，而是反覆出現的短片語。

雙字組合前 50 名

排名	片語	次數	佔比
1	you know	651,659	0.42%
2	of the	610,473	0.39%
3	in the	597,973	0.38%
4	going to	391,962	0.25%
5	and i	369,069	0.24%
6	i think	360,605	0.23%
7	this is	354,886	0.23%
8	to be	349,293	0.22%
9	i was	294,749	0.19%
10	i don't	280,165	0.18%
11	it was	279,492	0.18%
12	and then	279,061	0.18%
13	to the	271,483	0.17%
14	on the	269,698	0.17%
15	kind of	253,890	0.16%
16	a lot	248,787	0.16%
17	want to	240,129	0.15%
18	if you	239,704	0.15%
19	you can	214,797	0.14%
20	and the	211,577	0.13%
21	i mean	198,883	0.13%
22	lot of	188,401	0.12%
23	to do	188,301	0.12%
24	in a	185,960	0.12%
25	is a	183,838	0.12%
26	like a	180,615	0.12%
27	at the	169,424	0.11%
28	have to	168,863	0.11%
29	one of	161,657	0.10%
30	have a	160,163	0.10%
31	that i	159,887	0.10%
32	is the	159,862	0.10%
33	you have	158,225	0.10%
34	do you	158,154	0.10%
35	and you	156,410	0.10%
36	that you	150,818	0.10%
37	for the	147,492	0.09%
38	a little	146,585	0.09%
39	to get	143,031	0.09%
40	like i	141,139	0.09%
41	so i	140,193	0.09%
42	it is	137,325	0.09%
43	don't know	136,714	0.09%
44	was like	136,396	0.09%
45	it's a	136,095	0.09%
46	and so	135,209	0.09%
47	of a	134,589	0.09%
48	with the	132,177	0.08%
49	but i	131,380	0.08%
50	was a	126,161	0.08%

完整清單：top-bigrams.csv。

三點觀察：

you know 打敗了所有的文法核心字。它是口說英語中最常見的單一雙字組合——比 of the 或 in the 都還要頻繁。
前 50 名密集出現第一人稱結構：and i、i think、i was、i don't、i mean。口語內容大多繞著「說話的人自己」打轉。
kind of、a lot、a little、like a、was like——非正式的緩和語與類引述結構，在前 50 名中俯拾皆是。

三字組合前 50 名

排名	片語	次數	佔比
1	a lot of	170,961	0.13%
2	i don't know	96,455	0.07%
3	one of the	82,693	0.06%
4	going to be	72,293	0.05%
5	a little bit	64,930	0.05%
6	i was like	60,915	0.05%
7	i'm going to	55,940	0.04%
8	i want to	55,071	0.04%
9	you want to	54,908	0.04%
10	you know what	52,925	0.04%
11	you have to	44,985	0.03%
12	you know i	43,538	0.03%
13	this is a	43,457	0.03%
14	this is the	41,664	0.03%
15	and i think	40,214	0.03%
16	and i was	39,340	0.03%
17	i feel like	38,019	0.03%
18	we're going to	35,687	0.03%
19	oh my god	35,203	0.03%
20	to be a	33,229	0.03%
21	what do you	32,747	0.02%
22	be able to	32,263	0.02%
23	i don't think	31,986	0.02%
24	it was a	30,717	0.02%
25	and you know	30,321	0.02%
26	you're going to	29,731	0.02%
27	like you know	29,420	0.02%
28	don't want to	29,249	0.02%
29	some of the	28,953	0.02%
30	is going to	28,787	0.02%
31	i think it's	28,719	0.02%
32	not going to	27,406	0.02%
33	do you think	27,196	0.02%
34	and this is	25,763	0.02%
35	i think that	25,762	0.02%
36	i mean i	25,419	0.02%
37	in the world	25,310	0.02%
38	and it was	25,303	0.02%
39	and then i	25,091	0.02%
40	you have a	23,988	0.02%
41	the end of	23,885	0.02%
42	and then you	23,471	0.02%
43	i think i	23,393	0.02%
44	out of the	23,054	0.02%
45	it was like	22,869	0.02%
46	you know the	22,783	0.02%
47	when i was	22,755	0.02%
48	you got to	22,220	0.02%
49	want to be	22,218	0.02%
50	know what i	22,117	0.02%

完整清單：top-trigrams.csv。

在前 15 名的三字組合中，有 11 個以代名詞開頭。其中 6 個含有明確的第一人稱 I。口說英語壓倒性地圍繞著「誰，當下，正在對誰說什麼」展開，而這些高頻片語也忠實反映了這一點。

有幾個片語特別值得注意，因為它們不會出現在正式英語中：i was like（#6）、you know what（#10）、i feel like（#17）、oh my god（#19）、you got to（#48）。這些並不是什麼華麗的成語——它們是日常口語裡的「結締組織」。

從這個分布可以推論什麼

從這些數據可以推論出三件事。

真正划算的詞彙量其實很小。 一位學習者只要能穩定辨認 3,000 個口說單字，就具備了聽懂 89% YouTube 上母語英語的語言素材。把這個比例拉高到 95%，還得再學 5,500 個單字——而其中大多數在整個 1.83 億單字的語料庫中只出現寥寥幾次。

頻率校準比詞彙量大小更重要。 大多數課程與 App 把詞彙清單視為地位大致相同。資料卻指出相反的事實：所有工作量的 50% 都由前 67 個單字承擔。沒有反映這一點的學習計畫，等同於資源的錯置。

逐字翻譯是錯誤的處理單位。 三字組合前段中有一半是功能性的「組塊」（a lot of、i don't know、a little bit、going to be），它們是以一個整體在運作。把它們當作整體辨識，與把它們當成三個獨立的字去解析，是完全不同的認知作業。在即時口語中，這個差別正是「跟得上」與「跟不上」之間的差別。

方法論

產生這些數據的流程：

資料來源。 37,632 部英語 YouTube 影片的字幕。
斷詞（Tokenization）。 將文字轉為小寫，再以正規表示式 [a-z]+(?:'[a-z]+)? 比對。這會把 don't、gonna、it's 等縮寫保留為單一 token，去除數字，並忽略標點符號。
雜訊過濾。 在斷詞之前，跳過符合 ^\[.*\]$ 的片段（例如 [Music]、[Applause]、[Inaudible]）。這共移除了 196,433 個片段。
計次。 Unigram 是計算每一個 token；Bigram 與 trigram 則是在單一字幕片段內，計算每一段相鄰的 N 個 token 序列；序列不允許跨越字幕片段邊界。
累計佔比是依次數排序後再加總計算而成。

本分析沒有做的事：

未做詞形還原（lemmatization）。 go、going、went、gone 各自被當作不同的詞彙計算。這對於衡量學習者「實際聽到時要能辨認」的單字數量來說是合理的，但相較於做過詞形還原的分析，會使原始詞彙量數字偏高。
未做詞性標註。 動詞 like 與作為話語標記的 like 被合併計算。
未過濾自動產生的字幕。 部分影片有人工編輯的字幕，部分則是自動產生的字幕；後者會引入一些轉錄雜訊，尤其是在長尾部分。

本分析的可靠之處在於：分布的形狀，以及高頻單字與片語的身分。清單的頂端——the、and、to、I、like、it's、you know、i don't know——在任何合理的清理之下都依然存活。

關於語料庫的須知

這 37,632 部影片並不是所有口說英語的隨機抽樣。它們是為了支持我們的真實影片片語搜尋引擎 ClipPhrase 而蒐集的一組精選熱門英語 YouTube 頻道。這個語料庫有以下偏向：

美式英語。 多數頻道位於美國。
以說話為職業的人。 深夜秀主持人、Podcaster、YouTuber、新聞主播——並不是日常私下對話的代表性樣本。
熱門內容。 頻道是依觀看數與廣泛文化影響力篩選的，並非依方言或語體的多樣性來挑選。

這些須知限縮了這些數字嚴格意義上能證明的範圍，但並不會改變分布的形狀，也不會改變一項質性結論：口說英語把機率質量集中在少量高頻功能字與組塊上。

自己動手試試

本分析所使用的語料庫，本身也是一個搜尋索引。本文中提到的每一個單字與片語，都存在於數萬個真實影片片段中，可以透過搜尋取得。在 ClipPhrase 中輸入 I was like，你會看到 50 位不同的講者使用它；輸入 gonna，則會得到數千筆結果。這就是這個工具的本質。

下載

top-words.csv — 前 10,000 名單字，含排名、次數、佔比與累計佔比
top-bigrams.csv — 前 5,000 名雙字組合
top-trigrams.csv — 前 5,000 名三字組合

如果你在自己的文章或研究中使用了這份資料，歡迎附上本頁的連結。