ClipPhrase
← 返回博客

我们分析了37,000个YouTube视频。这就是英语口语的真实面貌

37,632个英语YouTube视频中的1.829亿口语词。仅67个单词就占了所有口语的一半。完整的词频与短语频率列表、图表,以及可下载的原始数据。

2026年5月4日12分钟阅读ClipPhrase Team

我们从自己的搜索索引中取出了37,632个英语YouTube视频的字幕——深夜脱口秀、纪录片、播客、科普讲解、新闻、访谈节目、Vlog——并对其中出现的每一个单词与短语做了频率分析。总计1.829亿个词

本文是完整的分析报告。所有原始CSV数据均在文末提供链接,方便希望查看原始数据的读者下载。

语料库的核心数据

分析视频数37,632
字幕片段数26,203,765
跳过的非语音片段([Music][Applause]等)196,433
口语词总量182,933,444
独立词数(词汇量)384,132
平均每个视频词数4,861
独立的二元词组(bigram)11,240,282
独立的三元词组(trigram)42,037,127

一半的英语口语只用67个单词

这种分布极端不均衡。

覆盖英语口语X%所需的单词量

你需要掌握…………才能听懂这么多英语口语
67个词50%
505个词75%
906个词80%
1,677个词85%
2,900个词89%
3,368个词90%
8,381个词95%
36,916个词99%

几个值得单独指出的点:

  • 单词the一个词就占了所有英语口语的4.04%——你听到的每25个词里就有一个是the
  • 仅前10个单词就覆盖了**23.2%**的口语内容。母语对话里几乎四分之一的内容由这十个反复出现的词构成。
  • 边际收益迅速崩塌。从89%的理解度提升到95%,所需词汇量几乎要翻三倍。从95%再到99%,又要再乘以四。

这是齐普夫定律(Zipf's law)的一种更极端的体现,比书面语料中观察到的更陡峭。书籍把概率质量分散到更多词汇上;口语则把它高度集中。

3.7万个YouTube视频英语口语的Zipf分布

上图采用双对数坐标。纯Zipf分布的语言会形成一条直线;英语口语非常接近这条直线,仅在最高频区有轻微弯折,长尾的稀有词在排名10⁵之后逐渐消散。

最常见的50个口语单词

排名单词数量占比累计
1the7,387,2374.04%4.04%
2and5,202,1562.84%6.88%
3to4,806,2422.63%9.51%
4i4,324,5922.36%11.87%
5a4,264,0552.33%14.20%
6you4,064,5552.22%16.43%
7of3,724,2772.04%18.46%
8that3,492,1101.91%20.37%
9it2,634,6901.44%21.81%
10in2,521,0461.38%23.19%
11like2,494,1841.36%24.55%
12is2,369,9261.30%25.85%
13this1,781,7150.97%26.82%
14so1,654,6330.90%27.73%
15was1,501,0380.82%28.55%
16it's1,410,8620.77%29.32%
17for1,305,4700.71%30.03%
18but1,274,1940.70%30.73%
19we1,248,3370.68%31.41%
20on1,216,2940.66%32.08%
21know1,167,9080.64%32.71%
22have1,137,6730.62%33.34%
23just1,134,7930.62%33.96%
24what1,032,6890.56%34.52%
25they1,020,6700.56%35.08%
26with1,007,6530.55%35.63%
27yeah962,1910.53%36.16%
28be957,7830.52%36.68%
29are898,6260.49%37.17%
30not872,7340.48%37.65%
31do870,8120.48%38.12%
32i'm821,4780.45%38.57%
33my804,9930.44%39.01%
34all799,5430.44%39.45%
35if756,3600.41%39.86%
36that's738,8510.40%40.27%
37at732,3600.40%40.67%
38about717,3880.39%41.06%
39he714,4070.39%41.45%
40your696,6360.38%41.83%
41one695,2270.38%42.21%
42as684,7050.37%42.59%
43or678,8710.37%42.96%
44can672,3880.37%43.32%
45think654,5090.36%43.68%
46right647,7160.35%44.04%
47don't637,1340.35%44.38%
48me616,9440.34%44.72%
49there597,2790.33%45.05%
50people592,2960.32%45.37%

完整的前10,000词列表见CSV文件

这个前50榜单引人注目的不是榜上有谁——theandto会在任何英语语料中都名列前茅——而是某些词的位置:

  • **like**位列第11,这里是话语标记,而不是动词。在书籍语料中它的位置会低得多。
  • 五个缩略形式挤进了前50:it's(第16)、i'm(第32)、that's(第36)、don't(第47),更靠后还有一些。书面语料通常把它们拆回完整形式。
  • **yeah**位列第27,纯属对话中的衔接词。书籍里几乎不会用它。
  • knowjust、**right**在这里大多用作话语缓和词(you knowI just wantedyeah, right),而不是它们的字典义。

榜单顶端清晰地展示了口语与文本的差异:缩略形式、填充词和缓和语与冠词、代词一起,构成了口语中的承重词汇。

口语是由"语块"搭起来的

如果我们不再统计单个单词,而是统计二元和三元词组,便会浮现出另一种结构。英语口语中最高频的单位不是孤立的单词,而是反复出现的短语。

最常见的50个二元词组

排名短语数量占比
1you know651,6590.42%
2of the610,4730.39%
3in the597,9730.38%
4going to391,9620.25%
5and i369,0690.24%
6i think360,6050.23%
7this is354,8860.23%
8to be349,2930.22%
9i was294,7490.19%
10i don't280,1650.18%
11it was279,4920.18%
12and then279,0610.18%
13to the271,4830.17%
14on the269,6980.17%
15kind of253,8900.16%
16a lot248,7870.16%
17want to240,1290.15%
18if you239,7040.15%
19you can214,7970.14%
20and the211,5770.13%
21i mean198,8830.13%
22lot of188,4010.12%
23to do188,3010.12%
24in a185,9600.12%
25is a183,8380.12%
26like a180,6150.12%
27at the169,4240.11%
28have to168,8630.11%
29one of161,6570.10%
30have a160,1630.10%
31that i159,8870.10%
32is the159,8620.10%
33you have158,2250.10%
34do you158,1540.10%
35and you156,4100.10%
36that you150,8180.10%
37for the147,4920.09%
38a little146,5850.09%
39to get143,0310.09%
40like i141,1390.09%
41so i140,1930.09%
42it is137,3250.09%
43don't know136,7140.09%
44was like136,3960.09%
45it's a136,0950.09%
46and so135,2090.09%
47of a134,5890.09%
48with the132,1770.08%
49but i131,3800.08%
50was a126,1610.08%

完整列表:top-bigrams.csv

三个观察:

  1. **you know**力压所有语法骨架词。它是英语口语中最高频的一对单词——比of thein the出现得还多。
  2. 前50里第一人称结构密度极高:and ii thinki wasi don'ti mean。口语大多是说话人在谈论自己。
  3. kind ofa lota littlelike awas like——非正式的缓和语和类引语结构充斥前50。

最常见的50个三元词组

排名短语数量占比
1a lot of170,9610.13%
2i don't know96,4550.07%
3one of the82,6930.06%
4going to be72,2930.05%
5a little bit64,9300.05%
6i was like60,9150.05%
7i'm going to55,9400.04%
8i want to55,0710.04%
9you want to54,9080.04%
10you know what52,9250.04%
11you have to44,9850.03%
12you know i43,5380.03%
13this is a43,4570.03%
14this is the41,6640.03%
15and i think40,2140.03%
16and i was39,3400.03%
17i feel like38,0190.03%
18we're going to35,6870.03%
19oh my god35,2030.03%
20to be a33,2290.03%
21what do you32,7470.02%
22be able to32,2630.02%
23i don't think31,9860.02%
24it was a30,7170.02%
25and you know30,3210.02%
26you're going to29,7310.02%
27like you know29,4200.02%
28don't want to29,2490.02%
29some of the28,9530.02%
30is going to28,7870.02%
31i think it's28,7190.02%
32not going to27,4060.02%
33do you think27,1960.02%
34and this is25,7630.02%
35i think that25,7620.02%
36i mean i25,4190.02%
37in the world25,3100.02%
38and it was25,3030.02%
39and then i25,0910.02%
40you have a23,9880.02%
41the end of23,8850.02%
42and then you23,4710.02%
43i think i23,3930.02%
44out of the23,0540.02%
45it was like22,8690.02%
46you know the22,7830.02%
47when i was22,7550.02%
48you got to22,2200.02%
49want to be22,2180.02%
50know what i22,1170.02%

完整列表:top-trigrams.csv

在前15个三元词组里,有11个以代词开头,6个明确包含第一人称I。英语口语压倒性地是关于"谁在实时对谁说什么",而这些高频短语正好印证了这一点。

还有几个值得注意的序列,因为它们在正式英语中并不会出现:i was like(第6)、you know what(第10)、i feel like(第17)、oh my god(第19)、you got to(第48)。它们不是什么花哨的习语——而是日常口语中的连接组织。

这一分布说明了什么

从这些数字里能得出三个结论。

**性价比最高的词汇量其实不大。**一位能稳定听辨3,000个口语单词的学习者,已经具备听懂YouTube上89%母语英语的语言素材。要把这一比例推高到95%,还得再额外掌握5,500个词——其中大多数在整个1.83亿词的语料里只会出现寥寥几次。

**频率校准比词汇量大小更重要。**多数课程和App把词表里的词当作大致同等重要来对待。但数据并非如此:所有"工作量"的50%都由前67个词承担。如果学习计划没有反映这一点,就是在错配努力。

**逐词翻译是错误的最小单位。**前列三元词组里有一半是功能性语块(a lot ofi don't knowa little bitgoing to be),它们作为一个整体在起作用。把它们整体识别和把它们当作三个独立单词来解析,是两种不同的认知操作。在实时口语中,这一差别就是"跟得上"和"跟不上"的区别。

方法论

得出这些数字的处理流程:

  1. **来源。**37,632个英语YouTube视频的字幕。
  2. **分词。**先把文本转为小写,再用正则[a-z]+(?:'[a-z]+)?匹配。这样可以把don'tgonnait's等缩略形式作为单个token保留,丢弃数字,并忽略标点。
  3. **噪声过滤。**匹配^\[.*\]$的片段(如[Music][Applause][Inaudible])在分词之前就被跳过。本步去除了196,433个片段。
  4. **计数。**对一元词,每个token都计入。对二元词组和三元词组,仅在同一字幕片段内统计相邻的N个token序列;序列不允许跨片段边界。
  5. 累计占比通过按计数排序后逐项求和得到。

本分析没有做的事:

  • **未做词形还原。**gogoingwentgone被视为不同的词项。这对衡量学习者听到时实际需要识别的内容是合适的,但相比做了词形还原的分析会高估词汇总量。
  • **未做词性标注。**作为动词的like和作为话语标记的like被一起统计。
  • **未过滤自动生成的字幕。**部分视频有人工编辑的字幕,部分则是自动生成的字幕;后者会带来一定的转写噪声,尤其是在长尾部分。

本分析的可靠之处在于:分布的形态,以及高频词与高频短语的身份。榜首的那些词——theandtoIlikeit'syou knowi don't know——经得起任何合理的清洗与处理。

关于语料的几点说明

这37,632个视频并不是所有英语口语的随机样本。它们是为我们的视频片段搜索引擎ClipPhrase精心整理的一组热门英语YouTube频道。这一语料库存在以下偏向:

  • **美式英语为主。**大多数频道位于美国。
  • **以专业说话人为主。**深夜秀主持人、播客主、YouTuber、新闻主播——并不能代表日常私人口语的横截面。
  • **偏向热门内容。**频道是按观看量和广泛文化影响力筛选的,而不是为了覆盖各种方言或语域。

这些限制收窄了这些数字严格意义上能证明什么。但它们并不会改变分布的形态,也不会动摇这一定性的发现:英语口语把概率质量高度集中在很小的一组高频功能词与语块上。

自己来试试

这套语料同时也是一个搜索索引。本文中提到的每一个单词和短语,都在数以万计的真实视频片段里出现过,可按查询检索。在ClipPhrase中输入I was like,你能看到五十位不同的说话人在使用它;输入gonna,能找到几千条结果。这就是支撑本文的底层工具。

数据下载

如果你在自己的写作或研究中使用了这些数据,欢迎注明来源并附上本页面的链接。