Мы проанализировали 37 000 YouTube-видео. Вот как на самом деле выглядит разговорный английский

182,9 миллиона произнесённых слов из 37 632 англоязычных YouTube-видео. Всего 67 слов составляют половину всей речи. Полные списки слов и сочетаний, графики и доступные для скачивания данные.

4 мая 2026 г.12 мин. чтенияClipPhrase Team

Мы взяли субтитры 37 632 англоязычных YouTube-видео из нашего поискового индекса (late-night шоу, документальные фильмы, подкасты, научно-популярные каналы, новости, talk show, влоги) и провели частотный анализ каждого слова и каждой короткой последовательности слов. В сумме — 182,9 миллиона слов.

Эта статья — полный отчёт. Все исходные CSV-файлы со ссылками для скачивания приведены в конце.

Корпус в цифрах


Видео проанализировано	37 632
Сегментов субтитров	26 203 765
Не-речевых сегментов пропущено (`[Music]`, `[Applause]` и т.п.)	196 433
Всего произнесённых слов	182 933 444
Уникальных слов (размер словаря)	384 132
Среднее число слов на видео	4 861
Уникальных двухсловных сочетаний	11 240 282
Уникальных трёхсловных сочетаний	42 037 127

Половина всей произнесённой речи — это 67 слов

Распределение получилось предельно неравномерным.

Сколько слов нужно знать чтобы покрыть X% разговорного английского

Если знаешь…	…то узнаёшь столько от всей разговорной речи
67 слов	50%
505 слов	75%
906 слов	80%
1 677 слов	85%
2 900 слов	89%
3 368 слов	90%
8 381 слово	95%
36 916 слов	99%

Несколько наблюдений:

Одно слово the даёт 4,04% всей произнесённой речи. Каждое двадцать пятое услышанное слово — это the.
Первые десять слов вместе покрывают 23,2% речи. Почти четверть любого живого разговора — это десять слов на повторе.
Отдача быстро падает. Чтобы перейти от 89% к 95% понимания, словарный запас нужно почти утроить. Чтобы перейти от 95% к 99% — умножить ещё на четыре.

Это более выраженный закон Ципфа, чем то, что наблюдается в письменных корпусах. Книги распределяют вероятностную массу по более широкому словарю; речь её концентрирует.

Распределение Ципфа для разговорного английского из 37K YouTube-видео

График выше построен в логарифмическом масштабе по обеим осям. Чисто Ципфовский язык дал бы прямую линию; разговорный английский почти даёт — с лёгким изломом на самых высоких частотах и хвостом редких слов, уходящим вниз после ранга 10⁵.

Топ-50 произнесённых слов

Ранг	Слово	Кол-во	Доля	Накопит.
1	the	7 387 237	4,04%	4,04%
2	and	5 202 156	2,84%	6,88%
3	to	4 806 242	2,63%	9,51%
4	i	4 324 592	2,36%	11,87%
5	a	4 264 055	2,33%	14,20%
6	you	4 064 555	2,22%	16,43%
7	of	3 724 277	2,04%	18,46%
8	that	3 492 110	1,91%	20,37%
9	it	2 634 690	1,44%	21,81%
10	in	2 521 046	1,38%	23,19%
11	like	2 494 184	1,36%	24,55%
12	is	2 369 926	1,30%	25,85%
13	this	1 781 715	0,97%	26,82%
14	so	1 654 633	0,90%	27,73%
15	was	1 501 038	0,82%	28,55%
16	it's	1 410 862	0,77%	29,32%
17	for	1 305 470	0,71%	30,03%
18	but	1 274 194	0,70%	30,73%
19	we	1 248 337	0,68%	31,41%
20	on	1 216 294	0,66%	32,08%
21	know	1 167 908	0,64%	32,71%
22	have	1 137 673	0,62%	33,34%
23	just	1 134 793	0,62%	33,96%
24	what	1 032 689	0,56%	34,52%
25	they	1 020 670	0,56%	35,08%
26	with	1 007 653	0,55%	35,63%
27	yeah	962 191	0,53%	36,16%
28	be	957 783	0,52%	36,68%
29	are	898 626	0,49%	37,17%
30	not	872 734	0,48%	37,65%
31	do	870 812	0,48%	38,12%
32	i'm	821 478	0,45%	38,57%
33	my	804 993	0,44%	39,01%
34	all	799 543	0,44%	39,45%
35	if	756 360	0,41%	39,86%
36	that's	738 851	0,40%	40,27%
37	at	732 360	0,40%	40,67%
38	about	717 388	0,39%	41,06%
39	he	714 407	0,39%	41,45%
40	your	696 636	0,38%	41,83%
41	one	695 227	0,38%	42,21%
42	as	684 705	0,37%	42,59%
43	or	678 871	0,37%	42,96%
44	can	672 388	0,37%	43,32%
45	think	654 509	0,36%	43,68%
46	right	647 716	0,35%	44,04%
47	don't	637 134	0,35%	44,38%
48	me	616 944	0,34%	44,72%
49	there	597 279	0,33%	45,05%
50	people	592 296	0,32%	45,37%

Полный список топ-10 000 слов: CSV.

В этом топ-50 примечательны не сами слова — the, and, to возглавили бы любой англоязычный корпус — а то, на каких местах оказалось всё остальное:

like на 11-м месте — это разговорная связка ("It's like, really cold"), а не глагол "нравиться". В корпусе книг оно бы стояло сильно ниже.
Пять сокращений пробились в топ-50: it's (#16), i'm (#32), that's (#36), don't (#47) и другие ниже. Письменные корпусы разбивают их на полные формы (it is, I am, do not).
yeah на 27-м месте — чистая разговорная связка. В книгах её почти нет.
know, just, right в основном используются здесь как смягчающие связки (you know, I just wanted, yeah, right), а не в словарных значениях.

Верхушка списка — это снимок того, чем речь отличается от текста: сокращения, слова-связки и смягчения занимают позиции наравне с артиклями и местоимениями.

Речь строится из готовых блоков

Если считать не отдельные слова, а двух- и трёхсловные последовательности, проявляется другая структура. Самые частые единицы разговорного английского — это не отдельные слова, а короткие повторяющиеся сочетания.

Топ-50 двухсловных сочетаний

Ранг	Сочетание	Кол-во	Доля
1	you know	651 659	0,42%
2	of the	610 473	0,39%
3	in the	597 973	0,38%
4	going to	391 962	0,25%
5	and i	369 069	0,24%
6	i think	360 605	0,23%
7	this is	354 886	0,23%
8	to be	349 293	0,22%
9	i was	294 749	0,19%
10	i don't	280 165	0,18%
11	it was	279 492	0,18%
12	and then	279 061	0,18%
13	to the	271 483	0,17%
14	on the	269 698	0,17%
15	kind of	253 890	0,16%
16	a lot	248 787	0,16%
17	want to	240 129	0,15%
18	if you	239 704	0,15%
19	you can	214 797	0,14%
20	and the	211 577	0,13%
21	i mean	198 883	0,13%
22	lot of	188 401	0,12%
23	to do	188 301	0,12%
24	in a	185 960	0,12%
25	is a	183 838	0,12%
26	like a	180 615	0,12%
27	at the	169 424	0,11%
28	have to	168 863	0,11%
29	one of	161 657	0,10%
30	have a	160 163	0,10%
31	that i	159 887	0,10%
32	is the	159 862	0,10%
33	you have	158 225	0,10%
34	do you	158 154	0,10%
35	and you	156 410	0,10%
36	that you	150 818	0,10%
37	for the	147 492	0,09%
38	a little	146 585	0,09%
39	to get	143 031	0,09%
40	like i	141 139	0,09%
41	so i	140 193	0,09%
42	it is	137 325	0,09%
43	don't know	136 714	0,09%
44	was like	136 396	0,09%
45	it's a	136 095	0,09%
46	and so	135 209	0,09%
47	of a	134 589	0,09%
48	with the	132 177	0,08%
49	but i	131 380	0,08%
50	was a	126 161	0,08%

Полный список: top-bigrams.csv.

Три наблюдения:

you know обходит все грамматические "столпы". Это самая частая пара слов в разговорном английском — чаще, чем of the и in the.
Топ-50 насыщен конструкциями от первого лица: and i, i think, i was, i don't, i mean. Речь в основном про того, кто говорит.
kind of, a lot, a little, like a, was like — неформальные смягчения и обороты с like распределены по всему топ-50.

Топ-50 трёхсловных сочетаний

Ранг	Сочетание	Кол-во	Доля
1	a lot of	170 961	0,13%
2	i don't know	96 455	0,07%
3	one of the	82 693	0,06%
4	going to be	72 293	0,05%
5	a little bit	64 930	0,05%
6	i was like	60 915	0,05%
7	i'm going to	55 940	0,04%
8	i want to	55 071	0,04%
9	you want to	54 908	0,04%
10	you know what	52 925	0,04%
11	you have to	44 985	0,03%
12	you know i	43 538	0,03%
13	this is a	43 457	0,03%
14	this is the	41 664	0,03%
15	and i think	40 214	0,03%
16	and i was	39 340	0,03%
17	i feel like	38 019	0,03%
18	we're going to	35 687	0,03%
19	oh my god	35 203	0,03%
20	to be a	33 229	0,03%
21	what do you	32 747	0,02%
22	be able to	32 263	0,02%
23	i don't think	31 986	0,02%
24	it was a	30 717	0,02%
25	and you know	30 321	0,02%
26	you're going to	29 731	0,02%
27	like you know	29 420	0,02%
28	don't want to	29 249	0,02%
29	some of the	28 953	0,02%
30	is going to	28 787	0,02%
31	i think it's	28 719	0,02%
32	not going to	27 406	0,02%
33	do you think	27 196	0,02%
34	and this is	25 763	0,02%
35	i think that	25 762	0,02%
36	i mean i	25 419	0,02%
37	in the world	25 310	0,02%
38	and it was	25 303	0,02%
39	and then i	25 091	0,02%
40	you have a	23 988	0,02%
41	the end of	23 885	0,02%
42	and then you	23 471	0,02%
43	i think i	23 393	0,02%
44	out of the	23 054	0,02%
45	it was like	22 869	0,02%
46	you know the	22 783	0,02%
47	when i was	22 755	0,02%
48	you got to	22 220	0,02%
49	want to be	22 218	0,02%
50	know what i	22 117	0,02%

Полный список: top-trigrams.csv.

Из топ-15 трёхсловных сочетаний одиннадцать начинаются с местоимения. Шесть содержат прямое I. Разговорный английский почти всегда про то, кто говорит и кому — в реальном времени. Высокочастотные сочетания это и отражают.

Несколько последовательностей, которые не встретишь в формальном английском: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Это не пафосные идиомы — это соединительная ткань живого разговора.

Что из распределения следует

Из этих чисел вытекают три практических вывода.

Эффективный словарный минимум — небольшой. Учащийся с уверенным распознаванием 3 000 разговорных слов располагает материалом для понимания 89% англоязычного YouTube. Расширение до 95% потребует ещё 5 500 слов, большинство из которых встречается во всём корпусе из 183 миллионов слов считанные разы.

Калибровка по частоте важнее объёма словаря. Большинство курсов и приложений подаёт списки слов как примерно равноценные. Данные говорят обратное: 50% работы делают первые 67 слов. План занятий, который этого не учитывает, распределяет усилия неэффективно.

Перевод по словам — неправильная единица. Половина топ-15 трёхсловных сочетаний — это функциональные блоки (a lot of, i don't know, a little bit, going to be), которые работают как единое целое. Распознавать их целиком — это другая операция, чем разбирать пословно. В живой речи разница оборачивается разницей между "успеваю" и "не успеваю".

Методология

Пайплайн, который дал эти числа:

Источник. Субтитры 37 632 англоязычных YouTube-видео.
Токенизация. Текст приведён к нижнему регистру, затем применён регэксп [a-z]+(?:'[a-z]+)?. Это сохраняет сокращения вроде don't, gonna, it's как единые токены, отбрасывает числа и игнорирует пунктуацию.
Фильтрация шума. Сегменты, соответствующие ^\[.*\]$ (например [Music], [Applause], [Inaudible]), пропускаются до токенизации. Так мы убрали 196 433 сегмента.
Подсчёт. Для отдельных слов считается каждый токен. Для двух- и трёхсловных сочетаний считается каждая последовательность из соседних токенов внутри одного субтитра; границы сегментов не пересекаются.
Накопительная доля считается сортировкой по частоте и последовательным суммированием.

Чего этот анализ не делает:

Без лемматизации. go, going, went, gone считаются как разные слова. Это правильно для измерения того, что учащийся реально должен распознать на слух, но завышает размер словаря по сравнению с лемматизированным анализом.
Без разметки частей речи. like как глагол и like как разговорная связка считаются вместе.
Без отделения автогенерируемых субтитров от ручных. В одних видео субтитры написаны людьми, в других — автоматически распознаны, и вторые добавляют шума, особенно в длинном хвосте.

На что анализ можно надёжно опираться: форма распределения и состав высокочастотных слов и сочетаний. Верхушка списка — the, and, to, I, like, it's, you know, i don't know — переживёт любую разумную чистку.

Оговорки про корпус

37 632 видео — не случайная выборка всего разговорного английского. Это курируемый набор популярных англоязычных YouTube-каналов, собранный для нужд ClipPhrase, нашего поисковика по фразам в реальных видеоклипах. Корпус смещён в сторону:

Американского английского. Большинство каналов из США.
Людей, говорящих профессионально. Ведущие late-night, подкастеры, ютуберы, дикторы новостей — а не репрезентативный срез частной разговорной речи.
Популярного контента. Каналы выбирались по числу просмотров и широте культурного охвата, а не по разнообразию диалектов и регистров.

Эти оговорки сужают то, что строго доказывают цифры. Они не меняют форму распределения и качественный вывод о том, что разговорный английский концентрирует вероятностную массу на крошечном словаре высокочастотных служебных слов и блоков.

Попробуйте сами

Корпус, на котором сделан этот анализ, — это одновременно поисковый индекс. Каждое слово и сочетание из статьи существует в десятках тысяч реальных видеофрагментов, доступных по запросу. Введите I was like в ClipPhrase — получите пятьдесят разных носителей языка, использующих это сочетание; введите gonna — получите несколько тысяч. Это и есть исходный инструмент.

Скачать данные

top-words.csv — топ-10 000 слов с рангом, частотой, долей и накопительной долей
top-bigrams.csv — топ-5 000 двухсловных сочетаний
top-trigrams.csv — топ-5 000 трёхсловных сочетаний

Если вы используете эти данные в собственной публикации или исследовании, ссылка на эту страницу будет уместна.