ClipPhrase
← 返回部落格

我們分析了 37,000 部 YouTube 影片,發現口說英語真實的樣貌

37,632 部英語 YouTube 影片中的 1.829 億個口說單字。光是 67 個單字就佔了所有口說內容的一半。完整的單字與片語頻率清單、圖表,以及可下載的原始資料。

2026年5月4日12分鐘閱讀ClipPhrase Team

我們從搜尋索引中取出 37,632 部英語 YouTube 影片的字幕——深夜脫口秀、紀錄片、Podcast、科普頻道、新聞節目、訪談節目、Vlog——並對其中所有的單字與短片語進行頻率分析。總計1.829 億個單字

本文是完整的分析報告。所有原始 CSV 檔案連結都附在文末,供想自行檢視原始資料的讀者使用。

語料庫數據一覽

分析的影片數37,632
字幕片段數26,203,765
跳過的非語音片段([Music][Applause] 等)196,433
口說 token 總數182,933,444
不重複單字數(詞彙量)384,132
每部影片平均單字數4,861
不重複的雙字組合11,240,282
不重複的三字組合42,037,127

一半的口說英語只用 67 個單字

這個分布之懸殊,到了殘酷的地步。

覆蓋 X% 口說英語所需的單字數

你需要認識…………才能聽懂這麼多比例的口說英語
67 個單字50%
505 個單字75%
906 個單字80%
1,677 個單字85%
2,900 個單字89%
3,368 個單字90%
8,381 個單字95%
36,916 個單字99%

幾個值得特別點出的觀察:

  • 單一個 the 就佔了所有口說英語的 4.04%——你聽到的每 25 個單字中,就有 1 個是 the
  • 前 10 個單字加起來涵蓋了 23.2% 的口說內容。將近四分之一的母語對話,都靠這 10 個重複出現的 token 撐著。
  • 邊際效益迅速崩塌。從 89% 提升到 95% 的理解度,所需的詞彙量幾乎要增加為 3 倍。從 95% 到 99%,又得再乘以 4。

這是比書面語料庫中所見更加極端的齊夫定律(Zipf's law)版本。書本將機率質量分散到更廣的詞彙上;口說語言則是高度集中。

37K YouTube 影片口說英語的 Zipf 分布

上圖採用對數—對數座標。純粹符合齊夫定律的語言會呈現一條直線;口說英語非常接近這個情形,僅在最高頻處有些微的轉折,並在排名 10⁵ 之後出現罕見字的長尾下滑。

口說頻率前 50 名單字

排名單字次數佔比累計
1the7,387,2374.04%4.04%
2and5,202,1562.84%6.88%
3to4,806,2422.63%9.51%
4i4,324,5922.36%11.87%
5a4,264,0552.33%14.20%
6you4,064,5552.22%16.43%
7of3,724,2772.04%18.46%
8that3,492,1101.91%20.37%
9it2,634,6901.44%21.81%
10in2,521,0461.38%23.19%
11like2,494,1841.36%24.55%
12is2,369,9261.30%25.85%
13this1,781,7150.97%26.82%
14so1,654,6330.90%27.73%
15was1,501,0380.82%28.55%
16it's1,410,8620.77%29.32%
17for1,305,4700.71%30.03%
18but1,274,1940.70%30.73%
19we1,248,3370.68%31.41%
20on1,216,2940.66%32.08%
21know1,167,9080.64%32.71%
22have1,137,6730.62%33.34%
23just1,134,7930.62%33.96%
24what1,032,6890.56%34.52%
25they1,020,6700.56%35.08%
26with1,007,6530.55%35.63%
27yeah962,1910.53%36.16%
28be957,7830.52%36.68%
29are898,6260.49%37.17%
30not872,7340.48%37.65%
31do870,8120.48%38.12%
32i'm821,4780.45%38.57%
33my804,9930.44%39.01%
34all799,5430.44%39.45%
35if756,3600.41%39.86%
36that's738,8510.40%40.27%
37at732,3600.40%40.67%
38about717,3880.39%41.06%
39he714,4070.39%41.45%
40your696,6360.38%41.83%
41one695,2270.38%42.21%
42as684,7050.37%42.59%
43or678,8710.37%42.96%
44can672,3880.37%43.32%
45think654,5090.36%43.68%
46right647,7160.35%44.04%
47don't637,1340.35%44.38%
48me616,9440.34%44.72%
49there597,2790.33%45.05%
50people592,2960.32%45.37%

完整前 10,000 名清單請見 CSV

這份前 50 名清單真正有趣的地方並不在於它包含什麼——theandto 在任何英語語料庫中都會名列前茅——而是某些單字所在的位置:

  • like 排在第 11 名,這裡指的是話語標記,而不是動詞。在書本語料庫中,它的排名會遠低於此。
  • 有 5 個縮寫闖進前 50 名:it's(#16)、i'm(#32)、that's(#36)、don't(#47),更後面還有一些。書面語料庫通常會把這些拆回完整形式。
  • yeah 排在第 27 名,純粹是會話的潤滑劑。書本幾乎不會用它。
  • knowjustright 在這裡多半是用來緩和語氣的話語標記(you knowI just wantedyeah, right),而不是字典裡的本義。

清單頂端展現了口說與書面的差異:縮寫、填充詞與緩和語,與冠詞、代名詞並列為承擔表達主力的核心詞彙。

口語是由「組塊」搭起來的

當我們改為計算雙字與三字組合,而不只是單字時,會浮現出另一種結構。口說英語中最常出現的單位,並不是孤立的單字,而是反覆出現的短片語。

雙字組合前 50 名

排名片語次數佔比
1you know651,6590.42%
2of the610,4730.39%
3in the597,9730.38%
4going to391,9620.25%
5and i369,0690.24%
6i think360,6050.23%
7this is354,8860.23%
8to be349,2930.22%
9i was294,7490.19%
10i don't280,1650.18%
11it was279,4920.18%
12and then279,0610.18%
13to the271,4830.17%
14on the269,6980.17%
15kind of253,8900.16%
16a lot248,7870.16%
17want to240,1290.15%
18if you239,7040.15%
19you can214,7970.14%
20and the211,5770.13%
21i mean198,8830.13%
22lot of188,4010.12%
23to do188,3010.12%
24in a185,9600.12%
25is a183,8380.12%
26like a180,6150.12%
27at the169,4240.11%
28have to168,8630.11%
29one of161,6570.10%
30have a160,1630.10%
31that i159,8870.10%
32is the159,8620.10%
33you have158,2250.10%
34do you158,1540.10%
35and you156,4100.10%
36that you150,8180.10%
37for the147,4920.09%
38a little146,5850.09%
39to get143,0310.09%
40like i141,1390.09%
41so i140,1930.09%
42it is137,3250.09%
43don't know136,7140.09%
44was like136,3960.09%
45it's a136,0950.09%
46and so135,2090.09%
47of a134,5890.09%
48with the132,1770.08%
49but i131,3800.08%
50was a126,1610.08%

完整清單:top-bigrams.csv

三點觀察:

  1. you know 打敗了所有的文法核心字。它是口說英語中最常見的單一雙字組合——比 of thein the 都還要頻繁。
  2. 前 50 名密集出現第一人稱結構:and ii thinki wasi don'ti mean。口語內容大多繞著「說話的人自己」打轉。
  3. kind ofa lota littlelike awas like——非正式的緩和語與類引述結構,在前 50 名中俯拾皆是。

三字組合前 50 名

排名片語次數佔比
1a lot of170,9610.13%
2i don't know96,4550.07%
3one of the82,6930.06%
4going to be72,2930.05%
5a little bit64,9300.05%
6i was like60,9150.05%
7i'm going to55,9400.04%
8i want to55,0710.04%
9you want to54,9080.04%
10you know what52,9250.04%
11you have to44,9850.03%
12you know i43,5380.03%
13this is a43,4570.03%
14this is the41,6640.03%
15and i think40,2140.03%
16and i was39,3400.03%
17i feel like38,0190.03%
18we're going to35,6870.03%
19oh my god35,2030.03%
20to be a33,2290.03%
21what do you32,7470.02%
22be able to32,2630.02%
23i don't think31,9860.02%
24it was a30,7170.02%
25and you know30,3210.02%
26you're going to29,7310.02%
27like you know29,4200.02%
28don't want to29,2490.02%
29some of the28,9530.02%
30is going to28,7870.02%
31i think it's28,7190.02%
32not going to27,4060.02%
33do you think27,1960.02%
34and this is25,7630.02%
35i think that25,7620.02%
36i mean i25,4190.02%
37in the world25,3100.02%
38and it was25,3030.02%
39and then i25,0910.02%
40you have a23,9880.02%
41the end of23,8850.02%
42and then you23,4710.02%
43i think i23,3930.02%
44out of the23,0540.02%
45it was like22,8690.02%
46you know the22,7830.02%
47when i was22,7550.02%
48you got to22,2200.02%
49want to be22,2180.02%
50know what i22,1170.02%

完整清單:top-trigrams.csv

在前 15 名的三字組合中,有 11 個以代名詞開頭。其中 6 個含有明確的第一人稱 I。口說英語壓倒性地圍繞著「誰,當下,正在對誰說什麼」展開,而這些高頻片語也忠實反映了這一點。

有幾個片語特別值得注意,因為它們不會出現在正式英語中:i was like(#6)、you know what(#10)、i feel like(#17)、oh my god(#19)、you got to(#48)。這些並不是什麼華麗的成語——它們是日常口語裡的「結締組織」。

從這個分布可以推論什麼

從這些數據可以推論出三件事。

真正划算的詞彙量其實很小。 一位學習者只要能穩定辨認 3,000 個口說單字,就具備了聽懂 89% YouTube 上母語英語的語言素材。把這個比例拉高到 95%,還得再學 5,500 個單字——而其中大多數在整個 1.83 億單字的語料庫中只出現寥寥幾次。

頻率校準比詞彙量大小更重要。 大多數課程與 App 把詞彙清單視為地位大致相同。資料卻指出相反的事實:所有工作量的 50% 都由前 67 個單字承擔。沒有反映這一點的學習計畫,等同於資源的錯置。

逐字翻譯是錯誤的處理單位。 三字組合前段中有一半是功能性的「組塊」(a lot ofi don't knowa little bitgoing to be),它們是以一個整體在運作。把它們當作整體辨識,與把它們當成三個獨立的字去解析,是完全不同的認知作業。在即時口語中,這個差別正是「跟得上」與「跟不上」之間的差別。

方法論

產生這些數據的流程:

  1. 資料來源。 37,632 部英語 YouTube 影片的字幕。
  2. 斷詞(Tokenization)。 將文字轉為小寫,再以正規表示式 [a-z]+(?:'[a-z]+)? 比對。這會把 don'tgonnait's 等縮寫保留為單一 token,去除數字,並忽略標點符號。
  3. 雜訊過濾。 在斷詞之前,跳過符合 ^\[.*\]$ 的片段(例如 [Music][Applause][Inaudible])。這共移除了 196,433 個片段。
  4. 計次。 Unigram 是計算每一個 token;Bigram 與 trigram 則是在單一字幕片段內,計算每一段相鄰的 N 個 token 序列;序列不允許跨越字幕片段邊界。
  5. 累計佔比是依次數排序後再加總計算而成。

本分析沒有做的事:

  • 未做詞形還原(lemmatization)。 gogoingwentgone 各自被當作不同的詞彙計算。這對於衡量學習者「實際聽到時要能辨認」的單字數量來說是合理的,但相較於做過詞形還原的分析,會使原始詞彙量數字偏高。
  • 未做詞性標註。 動詞 like 與作為話語標記的 like 被合併計算。
  • 未過濾自動產生的字幕。 部分影片有人工編輯的字幕,部分則是自動產生的字幕;後者會引入一些轉錄雜訊,尤其是在長尾部分。

本分析的可靠之處在於:分布的形狀,以及高頻單字與片語的身分。清單的頂端——theandtoIlikeit'syou knowi don't know——在任何合理的清理之下都依然存活。

關於語料庫的須知

這 37,632 部影片並不是所有口說英語的隨機抽樣。它們是為了支持我們的真實影片片語搜尋引擎 ClipPhrase 而蒐集的一組精選熱門英語 YouTube 頻道。這個語料庫有以下偏向:

  • 美式英語。 多數頻道位於美國。
  • 以說話為職業的人。 深夜秀主持人、Podcaster、YouTuber、新聞主播——並不是日常私下對話的代表性樣本。
  • 熱門內容。 頻道是依觀看數與廣泛文化影響力篩選的,並非依方言或語體的多樣性來挑選。

這些須知限縮了這些數字嚴格意義上能證明的範圍,但並不會改變分布的形狀,也不會改變一項質性結論:口說英語把機率質量集中在少量高頻功能字與組塊上。

自己動手試試

本分析所使用的語料庫,本身也是一個搜尋索引。本文中提到的每一個單字與片語,都存在於數萬個真實影片片段中,可以透過搜尋取得。在 ClipPhrase 中輸入 I was like,你會看到 50 位不同的講者使用它;輸入 gonna,則會得到數千筆結果。這就是這個工具的本質。

下載

如果你在自己的文章或研究中使用了這份資料,歡迎附上本頁的連結。