ClipPhrase
← Назад к блогу

Мы проанализировали 37 000 YouTube-видео. Вот как на самом деле выглядит разговорный английский

182,9 миллиона произнесённых слов из 37 632 англоязычных YouTube-видео. Всего 67 слов составляют половину всей речи. Полные списки слов и сочетаний, графики и доступные для скачивания данные.

4 мая 2026 г.12 мин. чтенияClipPhrase Team

Мы взяли субтитры 37 632 англоязычных YouTube-видео из нашего поискового индекса (late-night шоу, документальные фильмы, подкасты, научно-популярные каналы, новости, talk show, влоги) и провели частотный анализ каждого слова и каждой короткой последовательности слов. В сумме — 182,9 миллиона слов.

Эта статья — полный отчёт. Все исходные CSV-файлы со ссылками для скачивания приведены в конце.

Корпус в цифрах

Видео проанализировано37 632
Сегментов субтитров26 203 765
Не-речевых сегментов пропущено ([Music], [Applause] и т.п.)196 433
Всего произнесённых слов182 933 444
Уникальных слов (размер словаря)384 132
Среднее число слов на видео4 861
Уникальных двухсловных сочетаний11 240 282
Уникальных трёхсловных сочетаний42 037 127

Половина всей произнесённой речи — это 67 слов

Распределение получилось предельно неравномерным.

Сколько слов нужно знать чтобы покрыть X% разговорного английского

Если знаешь……то узнаёшь столько от всей разговорной речи
67 слов50%
505 слов75%
906 слов80%
1 677 слов85%
2 900 слов89%
3 368 слов90%
8 381 слово95%
36 916 слов99%

Несколько наблюдений:

  • Одно слово the даёт 4,04% всей произнесённой речи. Каждое двадцать пятое услышанное слово — это the.
  • Первые десять слов вместе покрывают 23,2% речи. Почти четверть любого живого разговора — это десять слов на повторе.
  • Отдача быстро падает. Чтобы перейти от 89% к 95% понимания, словарный запас нужно почти утроить. Чтобы перейти от 95% к 99% — умножить ещё на четыре.

Это более выраженный закон Ципфа, чем то, что наблюдается в письменных корпусах. Книги распределяют вероятностную массу по более широкому словарю; речь её концентрирует.

Распределение Ципфа для разговорного английского из 37K YouTube-видео

График выше построен в логарифмическом масштабе по обеим осям. Чисто Ципфовский язык дал бы прямую линию; разговорный английский почти даёт — с лёгким изломом на самых высоких частотах и хвостом редких слов, уходящим вниз после ранга 10⁵.

Топ-50 произнесённых слов

РангСловоКол-воДоляНакопит.
1the7 387 2374,04%4,04%
2and5 202 1562,84%6,88%
3to4 806 2422,63%9,51%
4i4 324 5922,36%11,87%
5a4 264 0552,33%14,20%
6you4 064 5552,22%16,43%
7of3 724 2772,04%18,46%
8that3 492 1101,91%20,37%
9it2 634 6901,44%21,81%
10in2 521 0461,38%23,19%
11like2 494 1841,36%24,55%
12is2 369 9261,30%25,85%
13this1 781 7150,97%26,82%
14so1 654 6330,90%27,73%
15was1 501 0380,82%28,55%
16it's1 410 8620,77%29,32%
17for1 305 4700,71%30,03%
18but1 274 1940,70%30,73%
19we1 248 3370,68%31,41%
20on1 216 2940,66%32,08%
21know1 167 9080,64%32,71%
22have1 137 6730,62%33,34%
23just1 134 7930,62%33,96%
24what1 032 6890,56%34,52%
25they1 020 6700,56%35,08%
26with1 007 6530,55%35,63%
27yeah962 1910,53%36,16%
28be957 7830,52%36,68%
29are898 6260,49%37,17%
30not872 7340,48%37,65%
31do870 8120,48%38,12%
32i'm821 4780,45%38,57%
33my804 9930,44%39,01%
34all799 5430,44%39,45%
35if756 3600,41%39,86%
36that's738 8510,40%40,27%
37at732 3600,40%40,67%
38about717 3880,39%41,06%
39he714 4070,39%41,45%
40your696 6360,38%41,83%
41one695 2270,38%42,21%
42as684 7050,37%42,59%
43or678 8710,37%42,96%
44can672 3880,37%43,32%
45think654 5090,36%43,68%
46right647 7160,35%44,04%
47don't637 1340,35%44,38%
48me616 9440,34%44,72%
49there597 2790,33%45,05%
50people592 2960,32%45,37%

Полный список топ-10 000 слов: CSV.

В этом топ-50 примечательны не сами слова — the, and, to возглавили бы любой англоязычный корпус — а то, на каких местах оказалось всё остальное:

  • like на 11-м месте — это разговорная связка ("It's like, really cold"), а не глагол "нравиться". В корпусе книг оно бы стояло сильно ниже.
  • Пять сокращений пробились в топ-50: it's (#16), i'm (#32), that's (#36), don't (#47) и другие ниже. Письменные корпусы разбивают их на полные формы (it is, I am, do not).
  • yeah на 27-м месте — чистая разговорная связка. В книгах её почти нет.
  • know, just, right в основном используются здесь как смягчающие связки (you know, I just wanted, yeah, right), а не в словарных значениях.

Верхушка списка — это снимок того, чем речь отличается от текста: сокращения, слова-связки и смягчения занимают позиции наравне с артиклями и местоимениями.

Речь строится из готовых блоков

Если считать не отдельные слова, а двух- и трёхсловные последовательности, проявляется другая структура. Самые частые единицы разговорного английского — это не отдельные слова, а короткие повторяющиеся сочетания.

Топ-50 двухсловных сочетаний

РангСочетаниеКол-воДоля
1you know651 6590,42%
2of the610 4730,39%
3in the597 9730,38%
4going to391 9620,25%
5and i369 0690,24%
6i think360 6050,23%
7this is354 8860,23%
8to be349 2930,22%
9i was294 7490,19%
10i don't280 1650,18%
11it was279 4920,18%
12and then279 0610,18%
13to the271 4830,17%
14on the269 6980,17%
15kind of253 8900,16%
16a lot248 7870,16%
17want to240 1290,15%
18if you239 7040,15%
19you can214 7970,14%
20and the211 5770,13%
21i mean198 8830,13%
22lot of188 4010,12%
23to do188 3010,12%
24in a185 9600,12%
25is a183 8380,12%
26like a180 6150,12%
27at the169 4240,11%
28have to168 8630,11%
29one of161 6570,10%
30have a160 1630,10%
31that i159 8870,10%
32is the159 8620,10%
33you have158 2250,10%
34do you158 1540,10%
35and you156 4100,10%
36that you150 8180,10%
37for the147 4920,09%
38a little146 5850,09%
39to get143 0310,09%
40like i141 1390,09%
41so i140 1930,09%
42it is137 3250,09%
43don't know136 7140,09%
44was like136 3960,09%
45it's a136 0950,09%
46and so135 2090,09%
47of a134 5890,09%
48with the132 1770,08%
49but i131 3800,08%
50was a126 1610,08%

Полный список: top-bigrams.csv.

Три наблюдения:

  1. you know обходит все грамматические "столпы". Это самая частая пара слов в разговорном английском — чаще, чем of the и in the.
  2. Топ-50 насыщен конструкциями от первого лица: and i, i think, i was, i don't, i mean. Речь в основном про того, кто говорит.
  3. kind of, a lot, a little, like a, was like — неформальные смягчения и обороты с like распределены по всему топ-50.

Топ-50 трёхсловных сочетаний

РангСочетаниеКол-воДоля
1a lot of170 9610,13%
2i don't know96 4550,07%
3one of the82 6930,06%
4going to be72 2930,05%
5a little bit64 9300,05%
6i was like60 9150,05%
7i'm going to55 9400,04%
8i want to55 0710,04%
9you want to54 9080,04%
10you know what52 9250,04%
11you have to44 9850,03%
12you know i43 5380,03%
13this is a43 4570,03%
14this is the41 6640,03%
15and i think40 2140,03%
16and i was39 3400,03%
17i feel like38 0190,03%
18we're going to35 6870,03%
19oh my god35 2030,03%
20to be a33 2290,03%
21what do you32 7470,02%
22be able to32 2630,02%
23i don't think31 9860,02%
24it was a30 7170,02%
25and you know30 3210,02%
26you're going to29 7310,02%
27like you know29 4200,02%
28don't want to29 2490,02%
29some of the28 9530,02%
30is going to28 7870,02%
31i think it's28 7190,02%
32not going to27 4060,02%
33do you think27 1960,02%
34and this is25 7630,02%
35i think that25 7620,02%
36i mean i25 4190,02%
37in the world25 3100,02%
38and it was25 3030,02%
39and then i25 0910,02%
40you have a23 9880,02%
41the end of23 8850,02%
42and then you23 4710,02%
43i think i23 3930,02%
44out of the23 0540,02%
45it was like22 8690,02%
46you know the22 7830,02%
47when i was22 7550,02%
48you got to22 2200,02%
49want to be22 2180,02%
50know what i22 1170,02%

Полный список: top-trigrams.csv.

Из топ-15 трёхсловных сочетаний одиннадцать начинаются с местоимения. Шесть содержат прямое I. Разговорный английский почти всегда про то, кто говорит и кому — в реальном времени. Высокочастотные сочетания это и отражают.

Несколько последовательностей, которые не встретишь в формальном английском: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Это не пафосные идиомы — это соединительная ткань живого разговора.

Что из распределения следует

Из этих чисел вытекают три практических вывода.

Эффективный словарный минимум — небольшой. Учащийся с уверенным распознаванием 3 000 разговорных слов располагает материалом для понимания 89% англоязычного YouTube. Расширение до 95% потребует ещё 5 500 слов, большинство из которых встречается во всём корпусе из 183 миллионов слов считанные разы.

Калибровка по частоте важнее объёма словаря. Большинство курсов и приложений подаёт списки слов как примерно равноценные. Данные говорят обратное: 50% работы делают первые 67 слов. План занятий, который этого не учитывает, распределяет усилия неэффективно.

Перевод по словам — неправильная единица. Половина топ-15 трёхсловных сочетаний — это функциональные блоки (a lot of, i don't know, a little bit, going to be), которые работают как единое целое. Распознавать их целиком — это другая операция, чем разбирать пословно. В живой речи разница оборачивается разницей между "успеваю" и "не успеваю".

Методология

Пайплайн, который дал эти числа:

  1. Источник. Субтитры 37 632 англоязычных YouTube-видео.
  2. Токенизация. Текст приведён к нижнему регистру, затем применён регэксп [a-z]+(?:'[a-z]+)?. Это сохраняет сокращения вроде don't, gonna, it's как единые токены, отбрасывает числа и игнорирует пунктуацию.
  3. Фильтрация шума. Сегменты, соответствующие ^\[.*\]$ (например [Music], [Applause], [Inaudible]), пропускаются до токенизации. Так мы убрали 196 433 сегмента.
  4. Подсчёт. Для отдельных слов считается каждый токен. Для двух- и трёхсловных сочетаний считается каждая последовательность из соседних токенов внутри одного субтитра; границы сегментов не пересекаются.
  5. Накопительная доля считается сортировкой по частоте и последовательным суммированием.

Чего этот анализ не делает:

  • Без лемматизации. go, going, went, gone считаются как разные слова. Это правильно для измерения того, что учащийся реально должен распознать на слух, но завышает размер словаря по сравнению с лемматизированным анализом.
  • Без разметки частей речи. like как глагол и like как разговорная связка считаются вместе.
  • Без отделения автогенерируемых субтитров от ручных. В одних видео субтитры написаны людьми, в других — автоматически распознаны, и вторые добавляют шума, особенно в длинном хвосте.

На что анализ можно надёжно опираться: форма распределения и состав высокочастотных слов и сочетаний. Верхушка списка — the, and, to, I, like, it's, you know, i don't know — переживёт любую разумную чистку.

Оговорки про корпус

37 632 видео — не случайная выборка всего разговорного английского. Это курируемый набор популярных англоязычных YouTube-каналов, собранный для нужд ClipPhrase, нашего поисковика по фразам в реальных видеоклипах. Корпус смещён в сторону:

  • Американского английского. Большинство каналов из США.
  • Людей, говорящих профессионально. Ведущие late-night, подкастеры, ютуберы, дикторы новостей — а не репрезентативный срез частной разговорной речи.
  • Популярного контента. Каналы выбирались по числу просмотров и широте культурного охвата, а не по разнообразию диалектов и регистров.

Эти оговорки сужают то, что строго доказывают цифры. Они не меняют форму распределения и качественный вывод о том, что разговорный английский концентрирует вероятностную массу на крошечном словаре высокочастотных служебных слов и блоков.

Попробуйте сами

Корпус, на котором сделан этот анализ, — это одновременно поисковый индекс. Каждое слово и сочетание из статьи существует в десятках тысяч реальных видеофрагментов, доступных по запросу. Введите I was like в ClipPhrase — получите пятьдесят разных носителей языка, использующих это сочетание; введите gonna — получите несколько тысяч. Это и есть исходный инструмент.

Скачать данные

  • top-words.csv — топ-10 000 слов с рангом, частотой, долей и накопительной долей
  • top-bigrams.csv — топ-5 000 двухсловных сочетаний
  • top-trigrams.csv — топ-5 000 трёхсловных сочетаний

Если вы используете эти данные в собственной публикации или исследовании, ссылка на эту страницу будет уместна.