我們分析了 37,000 部 YouTube 影片,發現口說英語真實的樣貌
37,632 部英語 YouTube 影片中的 1.829 億個口說單字。光是 67 個單字就佔了所有口說內容的一半。完整的單字與片語頻率清單、圖表,以及可下載的原始資料。
我們從搜尋索引中取出 37,632 部英語 YouTube 影片的字幕——深夜脫口秀、紀錄片、Podcast、科普頻道、新聞節目、訪談節目、Vlog——並對其中所有的單字與短片語進行頻率分析。總計1.829 億個單字。
本文是完整的分析報告。所有原始 CSV 檔案連結都附在文末,供想自行檢視原始資料的讀者使用。
語料庫數據一覽
| 分析的影片數 | 37,632 |
| 字幕片段數 | 26,203,765 |
跳過的非語音片段([Music]、[Applause] 等) | 196,433 |
| 口說 token 總數 | 182,933,444 |
| 不重複單字數(詞彙量) | 384,132 |
| 每部影片平均單字數 | 4,861 |
| 不重複的雙字組合 | 11,240,282 |
| 不重複的三字組合 | 42,037,127 |
一半的口說英語只用 67 個單字
這個分布之懸殊,到了殘酷的地步。

| 你需要認識…… | ……才能聽懂這麼多比例的口說英語 |
|---|---|
| 67 個單字 | 50% |
| 505 個單字 | 75% |
| 906 個單字 | 80% |
| 1,677 個單字 | 85% |
| 2,900 個單字 | 89% |
| 3,368 個單字 | 90% |
| 8,381 個單字 | 95% |
| 36,916 個單字 | 99% |
幾個值得特別點出的觀察:
- 單一個 the 就佔了所有口說英語的 4.04%——你聽到的每 25 個單字中,就有 1 個是 the。
- 前 10 個單字加起來涵蓋了 23.2% 的口說內容。將近四分之一的母語對話,都靠這 10 個重複出現的 token 撐著。
- 邊際效益迅速崩塌。從 89% 提升到 95% 的理解度,所需的詞彙量幾乎要增加為 3 倍。從 95% 到 99%,又得再乘以 4。
這是比書面語料庫中所見更加極端的齊夫定律(Zipf's law)版本。書本將機率質量分散到更廣的詞彙上;口說語言則是高度集中。

上圖採用對數—對數座標。純粹符合齊夫定律的語言會呈現一條直線;口說英語非常接近這個情形,僅在最高頻處有些微的轉折,並在排名 10⁵ 之後出現罕見字的長尾下滑。
口說頻率前 50 名單字
| 排名 | 單字 | 次數 | 佔比 | 累計 |
|---|---|---|---|---|
| 1 | the | 7,387,237 | 4.04% | 4.04% |
| 2 | and | 5,202,156 | 2.84% | 6.88% |
| 3 | to | 4,806,242 | 2.63% | 9.51% |
| 4 | i | 4,324,592 | 2.36% | 11.87% |
| 5 | a | 4,264,055 | 2.33% | 14.20% |
| 6 | you | 4,064,555 | 2.22% | 16.43% |
| 7 | of | 3,724,277 | 2.04% | 18.46% |
| 8 | that | 3,492,110 | 1.91% | 20.37% |
| 9 | it | 2,634,690 | 1.44% | 21.81% |
| 10 | in | 2,521,046 | 1.38% | 23.19% |
| 11 | like | 2,494,184 | 1.36% | 24.55% |
| 12 | is | 2,369,926 | 1.30% | 25.85% |
| 13 | this | 1,781,715 | 0.97% | 26.82% |
| 14 | so | 1,654,633 | 0.90% | 27.73% |
| 15 | was | 1,501,038 | 0.82% | 28.55% |
| 16 | it's | 1,410,862 | 0.77% | 29.32% |
| 17 | for | 1,305,470 | 0.71% | 30.03% |
| 18 | but | 1,274,194 | 0.70% | 30.73% |
| 19 | we | 1,248,337 | 0.68% | 31.41% |
| 20 | on | 1,216,294 | 0.66% | 32.08% |
| 21 | know | 1,167,908 | 0.64% | 32.71% |
| 22 | have | 1,137,673 | 0.62% | 33.34% |
| 23 | just | 1,134,793 | 0.62% | 33.96% |
| 24 | what | 1,032,689 | 0.56% | 34.52% |
| 25 | they | 1,020,670 | 0.56% | 35.08% |
| 26 | with | 1,007,653 | 0.55% | 35.63% |
| 27 | yeah | 962,191 | 0.53% | 36.16% |
| 28 | be | 957,783 | 0.52% | 36.68% |
| 29 | are | 898,626 | 0.49% | 37.17% |
| 30 | not | 872,734 | 0.48% | 37.65% |
| 31 | do | 870,812 | 0.48% | 38.12% |
| 32 | i'm | 821,478 | 0.45% | 38.57% |
| 33 | my | 804,993 | 0.44% | 39.01% |
| 34 | all | 799,543 | 0.44% | 39.45% |
| 35 | if | 756,360 | 0.41% | 39.86% |
| 36 | that's | 738,851 | 0.40% | 40.27% |
| 37 | at | 732,360 | 0.40% | 40.67% |
| 38 | about | 717,388 | 0.39% | 41.06% |
| 39 | he | 714,407 | 0.39% | 41.45% |
| 40 | your | 696,636 | 0.38% | 41.83% |
| 41 | one | 695,227 | 0.38% | 42.21% |
| 42 | as | 684,705 | 0.37% | 42.59% |
| 43 | or | 678,871 | 0.37% | 42.96% |
| 44 | can | 672,388 | 0.37% | 43.32% |
| 45 | think | 654,509 | 0.36% | 43.68% |
| 46 | right | 647,716 | 0.35% | 44.04% |
| 47 | don't | 637,134 | 0.35% | 44.38% |
| 48 | me | 616,944 | 0.34% | 44.72% |
| 49 | there | 597,279 | 0.33% | 45.05% |
| 50 | people | 592,296 | 0.32% | 45.37% |
完整前 10,000 名清單請見 CSV。
這份前 50 名清單真正有趣的地方並不在於它包含什麼——the、and、to 在任何英語語料庫中都會名列前茅——而是某些單字所在的位置:
like排在第 11 名,這裡指的是話語標記,而不是動詞。在書本語料庫中,它的排名會遠低於此。- 有 5 個縮寫闖進前 50 名:it's(#16)、i'm(#32)、that's(#36)、don't(#47),更後面還有一些。書面語料庫通常會把這些拆回完整形式。
yeah排在第 27 名,純粹是會話的潤滑劑。書本幾乎不會用它。know、just與right在這裡多半是用來緩和語氣的話語標記(you know、I just wanted、yeah, right),而不是字典裡的本義。
清單頂端展現了口說與書面的差異:縮寫、填充詞與緩和語,與冠詞、代名詞並列為承擔表達主力的核心詞彙。
口語是由「組塊」搭起來的
當我們改為計算雙字與三字組合,而不只是單字時,會浮現出另一種結構。口說英語中最常出現的單位,並不是孤立的單字,而是反覆出現的短片語。
雙字組合前 50 名
| 排名 | 片語 | 次數 | 佔比 |
|---|---|---|---|
| 1 | you know | 651,659 | 0.42% |
| 2 | of the | 610,473 | 0.39% |
| 3 | in the | 597,973 | 0.38% |
| 4 | going to | 391,962 | 0.25% |
| 5 | and i | 369,069 | 0.24% |
| 6 | i think | 360,605 | 0.23% |
| 7 | this is | 354,886 | 0.23% |
| 8 | to be | 349,293 | 0.22% |
| 9 | i was | 294,749 | 0.19% |
| 10 | i don't | 280,165 | 0.18% |
| 11 | it was | 279,492 | 0.18% |
| 12 | and then | 279,061 | 0.18% |
| 13 | to the | 271,483 | 0.17% |
| 14 | on the | 269,698 | 0.17% |
| 15 | kind of | 253,890 | 0.16% |
| 16 | a lot | 248,787 | 0.16% |
| 17 | want to | 240,129 | 0.15% |
| 18 | if you | 239,704 | 0.15% |
| 19 | you can | 214,797 | 0.14% |
| 20 | and the | 211,577 | 0.13% |
| 21 | i mean | 198,883 | 0.13% |
| 22 | lot of | 188,401 | 0.12% |
| 23 | to do | 188,301 | 0.12% |
| 24 | in a | 185,960 | 0.12% |
| 25 | is a | 183,838 | 0.12% |
| 26 | like a | 180,615 | 0.12% |
| 27 | at the | 169,424 | 0.11% |
| 28 | have to | 168,863 | 0.11% |
| 29 | one of | 161,657 | 0.10% |
| 30 | have a | 160,163 | 0.10% |
| 31 | that i | 159,887 | 0.10% |
| 32 | is the | 159,862 | 0.10% |
| 33 | you have | 158,225 | 0.10% |
| 34 | do you | 158,154 | 0.10% |
| 35 | and you | 156,410 | 0.10% |
| 36 | that you | 150,818 | 0.10% |
| 37 | for the | 147,492 | 0.09% |
| 38 | a little | 146,585 | 0.09% |
| 39 | to get | 143,031 | 0.09% |
| 40 | like i | 141,139 | 0.09% |
| 41 | so i | 140,193 | 0.09% |
| 42 | it is | 137,325 | 0.09% |
| 43 | don't know | 136,714 | 0.09% |
| 44 | was like | 136,396 | 0.09% |
| 45 | it's a | 136,095 | 0.09% |
| 46 | and so | 135,209 | 0.09% |
| 47 | of a | 134,589 | 0.09% |
| 48 | with the | 132,177 | 0.08% |
| 49 | but i | 131,380 | 0.08% |
| 50 | was a | 126,161 | 0.08% |
完整清單:top-bigrams.csv。
三點觀察:
you know打敗了所有的文法核心字。它是口說英語中最常見的單一雙字組合——比 of the 或 in the 都還要頻繁。- 前 50 名密集出現第一人稱結構:and i、i think、i was、i don't、i mean。口語內容大多繞著「說話的人自己」打轉。
kind of、a lot、a little、like a、was like——非正式的緩和語與類引述結構,在前 50 名中俯拾皆是。
三字組合前 50 名
| 排名 | 片語 | 次數 | 佔比 |
|---|---|---|---|
| 1 | a lot of | 170,961 | 0.13% |
| 2 | i don't know | 96,455 | 0.07% |
| 3 | one of the | 82,693 | 0.06% |
| 4 | going to be | 72,293 | 0.05% |
| 5 | a little bit | 64,930 | 0.05% |
| 6 | i was like | 60,915 | 0.05% |
| 7 | i'm going to | 55,940 | 0.04% |
| 8 | i want to | 55,071 | 0.04% |
| 9 | you want to | 54,908 | 0.04% |
| 10 | you know what | 52,925 | 0.04% |
| 11 | you have to | 44,985 | 0.03% |
| 12 | you know i | 43,538 | 0.03% |
| 13 | this is a | 43,457 | 0.03% |
| 14 | this is the | 41,664 | 0.03% |
| 15 | and i think | 40,214 | 0.03% |
| 16 | and i was | 39,340 | 0.03% |
| 17 | i feel like | 38,019 | 0.03% |
| 18 | we're going to | 35,687 | 0.03% |
| 19 | oh my god | 35,203 | 0.03% |
| 20 | to be a | 33,229 | 0.03% |
| 21 | what do you | 32,747 | 0.02% |
| 22 | be able to | 32,263 | 0.02% |
| 23 | i don't think | 31,986 | 0.02% |
| 24 | it was a | 30,717 | 0.02% |
| 25 | and you know | 30,321 | 0.02% |
| 26 | you're going to | 29,731 | 0.02% |
| 27 | like you know | 29,420 | 0.02% |
| 28 | don't want to | 29,249 | 0.02% |
| 29 | some of the | 28,953 | 0.02% |
| 30 | is going to | 28,787 | 0.02% |
| 31 | i think it's | 28,719 | 0.02% |
| 32 | not going to | 27,406 | 0.02% |
| 33 | do you think | 27,196 | 0.02% |
| 34 | and this is | 25,763 | 0.02% |
| 35 | i think that | 25,762 | 0.02% |
| 36 | i mean i | 25,419 | 0.02% |
| 37 | in the world | 25,310 | 0.02% |
| 38 | and it was | 25,303 | 0.02% |
| 39 | and then i | 25,091 | 0.02% |
| 40 | you have a | 23,988 | 0.02% |
| 41 | the end of | 23,885 | 0.02% |
| 42 | and then you | 23,471 | 0.02% |
| 43 | i think i | 23,393 | 0.02% |
| 44 | out of the | 23,054 | 0.02% |
| 45 | it was like | 22,869 | 0.02% |
| 46 | you know the | 22,783 | 0.02% |
| 47 | when i was | 22,755 | 0.02% |
| 48 | you got to | 22,220 | 0.02% |
| 49 | want to be | 22,218 | 0.02% |
| 50 | know what i | 22,117 | 0.02% |
完整清單:top-trigrams.csv。
在前 15 名的三字組合中,有 11 個以代名詞開頭。其中 6 個含有明確的第一人稱 I。口說英語壓倒性地圍繞著「誰,當下,正在對誰說什麼」展開,而這些高頻片語也忠實反映了這一點。
有幾個片語特別值得注意,因為它們不會出現在正式英語中:i was like(#6)、you know what(#10)、i feel like(#17)、oh my god(#19)、you got to(#48)。這些並不是什麼華麗的成語——它們是日常口語裡的「結締組織」。
從這個分布可以推論什麼
從這些數據可以推論出三件事。
真正划算的詞彙量其實很小。 一位學習者只要能穩定辨認 3,000 個口說單字,就具備了聽懂 89% YouTube 上母語英語的語言素材。把這個比例拉高到 95%,還得再學 5,500 個單字——而其中大多數在整個 1.83 億單字的語料庫中只出現寥寥幾次。
頻率校準比詞彙量大小更重要。 大多數課程與 App 把詞彙清單視為地位大致相同。資料卻指出相反的事實:所有工作量的 50% 都由前 67 個單字承擔。沒有反映這一點的學習計畫,等同於資源的錯置。
逐字翻譯是錯誤的處理單位。 三字組合前段中有一半是功能性的「組塊」(a lot of、i don't know、a little bit、going to be),它們是以一個整體在運作。把它們當作整體辨識,與把它們當成三個獨立的字去解析,是完全不同的認知作業。在即時口語中,這個差別正是「跟得上」與「跟不上」之間的差別。
方法論
產生這些數據的流程:
- 資料來源。 37,632 部英語 YouTube 影片的字幕。
- 斷詞(Tokenization)。 將文字轉為小寫,再以正規表示式
[a-z]+(?:'[a-z]+)?比對。這會把 don't、gonna、it's 等縮寫保留為單一 token,去除數字,並忽略標點符號。 - 雜訊過濾。 在斷詞之前,跳過符合
^\[.*\]$的片段(例如[Music]、[Applause]、[Inaudible])。這共移除了 196,433 個片段。 - 計次。 Unigram 是計算每一個 token;Bigram 與 trigram 則是在單一字幕片段內,計算每一段相鄰的 N 個 token 序列;序列不允許跨越字幕片段邊界。
- 累計佔比是依次數排序後再加總計算而成。
本分析沒有做的事:
- 未做詞形還原(lemmatization)。 go、going、went、gone 各自被當作不同的詞彙計算。這對於衡量學習者「實際聽到時要能辨認」的單字數量來說是合理的,但相較於做過詞形還原的分析,會使原始詞彙量數字偏高。
- 未做詞性標註。 動詞 like 與作為話語標記的 like 被合併計算。
- 未過濾自動產生的字幕。 部分影片有人工編輯的字幕,部分則是自動產生的字幕;後者會引入一些轉錄雜訊,尤其是在長尾部分。
本分析的可靠之處在於:分布的形狀,以及高頻單字與片語的身分。清單的頂端——the、and、to、I、like、it's、you know、i don't know——在任何合理的清理之下都依然存活。
關於語料庫的須知
這 37,632 部影片並不是所有口說英語的隨機抽樣。它們是為了支持我們的真實影片片語搜尋引擎 ClipPhrase 而蒐集的一組精選熱門英語 YouTube 頻道。這個語料庫有以下偏向:
- 美式英語。 多數頻道位於美國。
- 以說話為職業的人。 深夜秀主持人、Podcaster、YouTuber、新聞主播——並不是日常私下對話的代表性樣本。
- 熱門內容。 頻道是依觀看數與廣泛文化影響力篩選的,並非依方言或語體的多樣性來挑選。
這些須知限縮了這些數字嚴格意義上能證明的範圍,但並不會改變分布的形狀,也不會改變一項質性結論:口說英語把機率質量集中在少量高頻功能字與組塊上。
自己動手試試
本分析所使用的語料庫,本身也是一個搜尋索引。本文中提到的每一個單字與片語,都存在於數萬個真實影片片段中,可以透過搜尋取得。在 ClipPhrase 中輸入 I was like,你會看到 50 位不同的講者使用它;輸入 gonna,則會得到數千筆結果。這就是這個工具的本質。
下載
- top-words.csv — 前 10,000 名單字,含排名、次數、佔比與累計佔比
- top-bigrams.csv — 前 5,000 名雙字組合
- top-trigrams.csv — 前 5,000 名三字組合
如果你在自己的文章或研究中使用了這份資料,歡迎附上本頁的連結。