Мы проанализировали 37 000 YouTube-видео. Вот как на самом деле выглядит разговорный английский
182,9 миллиона произнесённых слов из 37 632 англоязычных YouTube-видео. Всего 67 слов составляют половину всей речи. Полные списки слов и сочетаний, графики и доступные для скачивания данные.
Мы взяли субтитры 37 632 англоязычных YouTube-видео из нашего поискового индекса (late-night шоу, документальные фильмы, подкасты, научно-популярные каналы, новости, talk show, влоги) и провели частотный анализ каждого слова и каждой короткой последовательности слов. В сумме — 182,9 миллиона слов.
Эта статья — полный отчёт. Все исходные CSV-файлы со ссылками для скачивания приведены в конце.
Корпус в цифрах
| Видео проанализировано | 37 632 |
| Сегментов субтитров | 26 203 765 |
Не-речевых сегментов пропущено ([Music], [Applause] и т.п.) | 196 433 |
| Всего произнесённых слов | 182 933 444 |
| Уникальных слов (размер словаря) | 384 132 |
| Среднее число слов на видео | 4 861 |
| Уникальных двухсловных сочетаний | 11 240 282 |
| Уникальных трёхсловных сочетаний | 42 037 127 |
Половина всей произнесённой речи — это 67 слов
Распределение получилось предельно неравномерным.

| Если знаешь… | …то узнаёшь столько от всей разговорной речи |
|---|---|
| 67 слов | 50% |
| 505 слов | 75% |
| 906 слов | 80% |
| 1 677 слов | 85% |
| 2 900 слов | 89% |
| 3 368 слов | 90% |
| 8 381 слово | 95% |
| 36 916 слов | 99% |
Несколько наблюдений:
- Одно слово the даёт 4,04% всей произнесённой речи. Каждое двадцать пятое услышанное слово — это the.
- Первые десять слов вместе покрывают 23,2% речи. Почти четверть любого живого разговора — это десять слов на повторе.
- Отдача быстро падает. Чтобы перейти от 89% к 95% понимания, словарный запас нужно почти утроить. Чтобы перейти от 95% к 99% — умножить ещё на четыре.
Это более выраженный закон Ципфа, чем то, что наблюдается в письменных корпусах. Книги распределяют вероятностную массу по более широкому словарю; речь её концентрирует.

График выше построен в логарифмическом масштабе по обеим осям. Чисто Ципфовский язык дал бы прямую линию; разговорный английский почти даёт — с лёгким изломом на самых высоких частотах и хвостом редких слов, уходящим вниз после ранга 10⁵.
Топ-50 произнесённых слов
| Ранг | Слово | Кол-во | Доля | Накопит. |
|---|---|---|---|---|
| 1 | the | 7 387 237 | 4,04% | 4,04% |
| 2 | and | 5 202 156 | 2,84% | 6,88% |
| 3 | to | 4 806 242 | 2,63% | 9,51% |
| 4 | i | 4 324 592 | 2,36% | 11,87% |
| 5 | a | 4 264 055 | 2,33% | 14,20% |
| 6 | you | 4 064 555 | 2,22% | 16,43% |
| 7 | of | 3 724 277 | 2,04% | 18,46% |
| 8 | that | 3 492 110 | 1,91% | 20,37% |
| 9 | it | 2 634 690 | 1,44% | 21,81% |
| 10 | in | 2 521 046 | 1,38% | 23,19% |
| 11 | like | 2 494 184 | 1,36% | 24,55% |
| 12 | is | 2 369 926 | 1,30% | 25,85% |
| 13 | this | 1 781 715 | 0,97% | 26,82% |
| 14 | so | 1 654 633 | 0,90% | 27,73% |
| 15 | was | 1 501 038 | 0,82% | 28,55% |
| 16 | it's | 1 410 862 | 0,77% | 29,32% |
| 17 | for | 1 305 470 | 0,71% | 30,03% |
| 18 | but | 1 274 194 | 0,70% | 30,73% |
| 19 | we | 1 248 337 | 0,68% | 31,41% |
| 20 | on | 1 216 294 | 0,66% | 32,08% |
| 21 | know | 1 167 908 | 0,64% | 32,71% |
| 22 | have | 1 137 673 | 0,62% | 33,34% |
| 23 | just | 1 134 793 | 0,62% | 33,96% |
| 24 | what | 1 032 689 | 0,56% | 34,52% |
| 25 | they | 1 020 670 | 0,56% | 35,08% |
| 26 | with | 1 007 653 | 0,55% | 35,63% |
| 27 | yeah | 962 191 | 0,53% | 36,16% |
| 28 | be | 957 783 | 0,52% | 36,68% |
| 29 | are | 898 626 | 0,49% | 37,17% |
| 30 | not | 872 734 | 0,48% | 37,65% |
| 31 | do | 870 812 | 0,48% | 38,12% |
| 32 | i'm | 821 478 | 0,45% | 38,57% |
| 33 | my | 804 993 | 0,44% | 39,01% |
| 34 | all | 799 543 | 0,44% | 39,45% |
| 35 | if | 756 360 | 0,41% | 39,86% |
| 36 | that's | 738 851 | 0,40% | 40,27% |
| 37 | at | 732 360 | 0,40% | 40,67% |
| 38 | about | 717 388 | 0,39% | 41,06% |
| 39 | he | 714 407 | 0,39% | 41,45% |
| 40 | your | 696 636 | 0,38% | 41,83% |
| 41 | one | 695 227 | 0,38% | 42,21% |
| 42 | as | 684 705 | 0,37% | 42,59% |
| 43 | or | 678 871 | 0,37% | 42,96% |
| 44 | can | 672 388 | 0,37% | 43,32% |
| 45 | think | 654 509 | 0,36% | 43,68% |
| 46 | right | 647 716 | 0,35% | 44,04% |
| 47 | don't | 637 134 | 0,35% | 44,38% |
| 48 | me | 616 944 | 0,34% | 44,72% |
| 49 | there | 597 279 | 0,33% | 45,05% |
| 50 | people | 592 296 | 0,32% | 45,37% |
Полный список топ-10 000 слов: CSV.
В этом топ-50 примечательны не сами слова — the, and, to возглавили бы любой англоязычный корпус — а то, на каких местах оказалось всё остальное:
likeна 11-м месте — это разговорная связка ("It's like, really cold"), а не глагол "нравиться". В корпусе книг оно бы стояло сильно ниже.- Пять сокращений пробились в топ-50: it's (#16), i'm (#32), that's (#36), don't (#47) и другие ниже. Письменные корпусы разбивают их на полные формы (it is, I am, do not).
yeahна 27-м месте — чистая разговорная связка. В книгах её почти нет.know,just,rightв основном используются здесь как смягчающие связки (you know, I just wanted, yeah, right), а не в словарных значениях.
Верхушка списка — это снимок того, чем речь отличается от текста: сокращения, слова-связки и смягчения занимают позиции наравне с артиклями и местоимениями.
Речь строится из готовых блоков
Если считать не отдельные слова, а двух- и трёхсловные последовательности, проявляется другая структура. Самые частые единицы разговорного английского — это не отдельные слова, а короткие повторяющиеся сочетания.
Топ-50 двухсловных сочетаний
| Ранг | Сочетание | Кол-во | Доля |
|---|---|---|---|
| 1 | you know | 651 659 | 0,42% |
| 2 | of the | 610 473 | 0,39% |
| 3 | in the | 597 973 | 0,38% |
| 4 | going to | 391 962 | 0,25% |
| 5 | and i | 369 069 | 0,24% |
| 6 | i think | 360 605 | 0,23% |
| 7 | this is | 354 886 | 0,23% |
| 8 | to be | 349 293 | 0,22% |
| 9 | i was | 294 749 | 0,19% |
| 10 | i don't | 280 165 | 0,18% |
| 11 | it was | 279 492 | 0,18% |
| 12 | and then | 279 061 | 0,18% |
| 13 | to the | 271 483 | 0,17% |
| 14 | on the | 269 698 | 0,17% |
| 15 | kind of | 253 890 | 0,16% |
| 16 | a lot | 248 787 | 0,16% |
| 17 | want to | 240 129 | 0,15% |
| 18 | if you | 239 704 | 0,15% |
| 19 | you can | 214 797 | 0,14% |
| 20 | and the | 211 577 | 0,13% |
| 21 | i mean | 198 883 | 0,13% |
| 22 | lot of | 188 401 | 0,12% |
| 23 | to do | 188 301 | 0,12% |
| 24 | in a | 185 960 | 0,12% |
| 25 | is a | 183 838 | 0,12% |
| 26 | like a | 180 615 | 0,12% |
| 27 | at the | 169 424 | 0,11% |
| 28 | have to | 168 863 | 0,11% |
| 29 | one of | 161 657 | 0,10% |
| 30 | have a | 160 163 | 0,10% |
| 31 | that i | 159 887 | 0,10% |
| 32 | is the | 159 862 | 0,10% |
| 33 | you have | 158 225 | 0,10% |
| 34 | do you | 158 154 | 0,10% |
| 35 | and you | 156 410 | 0,10% |
| 36 | that you | 150 818 | 0,10% |
| 37 | for the | 147 492 | 0,09% |
| 38 | a little | 146 585 | 0,09% |
| 39 | to get | 143 031 | 0,09% |
| 40 | like i | 141 139 | 0,09% |
| 41 | so i | 140 193 | 0,09% |
| 42 | it is | 137 325 | 0,09% |
| 43 | don't know | 136 714 | 0,09% |
| 44 | was like | 136 396 | 0,09% |
| 45 | it's a | 136 095 | 0,09% |
| 46 | and so | 135 209 | 0,09% |
| 47 | of a | 134 589 | 0,09% |
| 48 | with the | 132 177 | 0,08% |
| 49 | but i | 131 380 | 0,08% |
| 50 | was a | 126 161 | 0,08% |
Полный список: top-bigrams.csv.
Три наблюдения:
you knowобходит все грамматические "столпы". Это самая частая пара слов в разговорном английском — чаще, чем of the и in the.- Топ-50 насыщен конструкциями от первого лица: and i, i think, i was, i don't, i mean. Речь в основном про того, кто говорит.
kind of,a lot,a little,like a,was like— неформальные смягчения и обороты с like распределены по всему топ-50.
Топ-50 трёхсловных сочетаний
| Ранг | Сочетание | Кол-во | Доля |
|---|---|---|---|
| 1 | a lot of | 170 961 | 0,13% |
| 2 | i don't know | 96 455 | 0,07% |
| 3 | one of the | 82 693 | 0,06% |
| 4 | going to be | 72 293 | 0,05% |
| 5 | a little bit | 64 930 | 0,05% |
| 6 | i was like | 60 915 | 0,05% |
| 7 | i'm going to | 55 940 | 0,04% |
| 8 | i want to | 55 071 | 0,04% |
| 9 | you want to | 54 908 | 0,04% |
| 10 | you know what | 52 925 | 0,04% |
| 11 | you have to | 44 985 | 0,03% |
| 12 | you know i | 43 538 | 0,03% |
| 13 | this is a | 43 457 | 0,03% |
| 14 | this is the | 41 664 | 0,03% |
| 15 | and i think | 40 214 | 0,03% |
| 16 | and i was | 39 340 | 0,03% |
| 17 | i feel like | 38 019 | 0,03% |
| 18 | we're going to | 35 687 | 0,03% |
| 19 | oh my god | 35 203 | 0,03% |
| 20 | to be a | 33 229 | 0,03% |
| 21 | what do you | 32 747 | 0,02% |
| 22 | be able to | 32 263 | 0,02% |
| 23 | i don't think | 31 986 | 0,02% |
| 24 | it was a | 30 717 | 0,02% |
| 25 | and you know | 30 321 | 0,02% |
| 26 | you're going to | 29 731 | 0,02% |
| 27 | like you know | 29 420 | 0,02% |
| 28 | don't want to | 29 249 | 0,02% |
| 29 | some of the | 28 953 | 0,02% |
| 30 | is going to | 28 787 | 0,02% |
| 31 | i think it's | 28 719 | 0,02% |
| 32 | not going to | 27 406 | 0,02% |
| 33 | do you think | 27 196 | 0,02% |
| 34 | and this is | 25 763 | 0,02% |
| 35 | i think that | 25 762 | 0,02% |
| 36 | i mean i | 25 419 | 0,02% |
| 37 | in the world | 25 310 | 0,02% |
| 38 | and it was | 25 303 | 0,02% |
| 39 | and then i | 25 091 | 0,02% |
| 40 | you have a | 23 988 | 0,02% |
| 41 | the end of | 23 885 | 0,02% |
| 42 | and then you | 23 471 | 0,02% |
| 43 | i think i | 23 393 | 0,02% |
| 44 | out of the | 23 054 | 0,02% |
| 45 | it was like | 22 869 | 0,02% |
| 46 | you know the | 22 783 | 0,02% |
| 47 | when i was | 22 755 | 0,02% |
| 48 | you got to | 22 220 | 0,02% |
| 49 | want to be | 22 218 | 0,02% |
| 50 | know what i | 22 117 | 0,02% |
Полный список: top-trigrams.csv.
Из топ-15 трёхсловных сочетаний одиннадцать начинаются с местоимения. Шесть содержат прямое I. Разговорный английский почти всегда про то, кто говорит и кому — в реальном времени. Высокочастотные сочетания это и отражают.
Несколько последовательностей, которые не встретишь в формальном английском: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Это не пафосные идиомы — это соединительная ткань живого разговора.
Что из распределения следует
Из этих чисел вытекают три практических вывода.
Эффективный словарный минимум — небольшой. Учащийся с уверенным распознаванием 3 000 разговорных слов располагает материалом для понимания 89% англоязычного YouTube. Расширение до 95% потребует ещё 5 500 слов, большинство из которых встречается во всём корпусе из 183 миллионов слов считанные разы.
Калибровка по частоте важнее объёма словаря. Большинство курсов и приложений подаёт списки слов как примерно равноценные. Данные говорят обратное: 50% работы делают первые 67 слов. План занятий, который этого не учитывает, распределяет усилия неэффективно.
Перевод по словам — неправильная единица. Половина топ-15 трёхсловных сочетаний — это функциональные блоки (a lot of, i don't know, a little bit, going to be), которые работают как единое целое. Распознавать их целиком — это другая операция, чем разбирать пословно. В живой речи разница оборачивается разницей между "успеваю" и "не успеваю".
Методология
Пайплайн, который дал эти числа:
- Источник. Субтитры 37 632 англоязычных YouTube-видео.
- Токенизация. Текст приведён к нижнему регистру, затем применён регэксп
[a-z]+(?:'[a-z]+)?. Это сохраняет сокращения вроде don't, gonna, it's как единые токены, отбрасывает числа и игнорирует пунктуацию. - Фильтрация шума. Сегменты, соответствующие
^\[.*\]$(например[Music],[Applause],[Inaudible]), пропускаются до токенизации. Так мы убрали 196 433 сегмента. - Подсчёт. Для отдельных слов считается каждый токен. Для двух- и трёхсловных сочетаний считается каждая последовательность из соседних токенов внутри одного субтитра; границы сегментов не пересекаются.
- Накопительная доля считается сортировкой по частоте и последовательным суммированием.
Чего этот анализ не делает:
- Без лемматизации. go, going, went, gone считаются как разные слова. Это правильно для измерения того, что учащийся реально должен распознать на слух, но завышает размер словаря по сравнению с лемматизированным анализом.
- Без разметки частей речи. like как глагол и like как разговорная связка считаются вместе.
- Без отделения автогенерируемых субтитров от ручных. В одних видео субтитры написаны людьми, в других — автоматически распознаны, и вторые добавляют шума, особенно в длинном хвосте.
На что анализ можно надёжно опираться: форма распределения и состав высокочастотных слов и сочетаний. Верхушка списка — the, and, to, I, like, it's, you know, i don't know — переживёт любую разумную чистку.
Оговорки про корпус
37 632 видео — не случайная выборка всего разговорного английского. Это курируемый набор популярных англоязычных YouTube-каналов, собранный для нужд ClipPhrase, нашего поисковика по фразам в реальных видеоклипах. Корпус смещён в сторону:
- Американского английского. Большинство каналов из США.
- Людей, говорящих профессионально. Ведущие late-night, подкастеры, ютуберы, дикторы новостей — а не репрезентативный срез частной разговорной речи.
- Популярного контента. Каналы выбирались по числу просмотров и широте культурного охвата, а не по разнообразию диалектов и регистров.
Эти оговорки сужают то, что строго доказывают цифры. Они не меняют форму распределения и качественный вывод о том, что разговорный английский концентрирует вероятностную массу на крошечном словаре высокочастотных служебных слов и блоков.
Попробуйте сами
Корпус, на котором сделан этот анализ, — это одновременно поисковый индекс. Каждое слово и сочетание из статьи существует в десятках тысяч реальных видеофрагментов, доступных по запросу. Введите I was like в ClipPhrase — получите пятьдесят разных носителей языка, использующих это сочетание; введите gonna — получите несколько тысяч. Это и есть исходный инструмент.
Скачать данные
- top-words.csv — топ-10 000 слов с рангом, частотой, долей и накопительной долей
- top-bigrams.csv — топ-5 000 двухсловных сочетаний
- top-trigrams.csv — топ-5 000 трёхсловных сочетаний
Если вы используете эти данные в собственной публикации или исследовании, ссылка на эту страницу будет уместна.