Nous avons analysé 37 000 vidéos YouTube. Voici à quoi ressemble vraiment l'anglais parlé
182,9 millions de mots prononcés dans 37 632 vidéos YouTube en anglais. À peine 67 mots représentent la moitié de tout ce qui est dit. Listes complètes de fréquence des mots et des expressions, graphiques et données téléchargeables.
Nous avons pris les sous-titres de 37 632 vidéos YouTube en anglais issues de notre index de recherche — talk-shows nocturnes, documentaires, podcasts, vulgarisation scientifique, journaux, émissions de plateau, vlogs — et nous avons effectué une analyse de fréquence sur chaque mot et chaque courte expression qui y est prononcée. 182,9 millions de mots au total.
Cet article en présente le compte-rendu complet. Tous les CSV sous-jacents sont accessibles en bas de page pour quiconque souhaite consulter les données brutes.
Le corpus, en chiffres
| Vidéos analysées | 37 632 |
| Segments de sous-titres | 26 203 765 |
Segments non vocaux ignorés ([Music], [Applause], etc.) | 196 433 |
| Total de jetons prononcés | 182 933 444 |
| Mots uniques (taille du vocabulaire) | 384 132 |
| Moyenne de mots par vidéo | 4 861 |
| Séquences uniques de deux mots | 11 240 282 |
| Séquences uniques de trois mots | 42 037 127 |
La moitié de tout l'anglais parlé tient en 67 mots
La distribution est brutalement déséquilibrée.

| Vous devez connaître… | …pour reconnaître cette part de tout l'anglais parlé |
|---|---|
| 67 mots | 50 % |
| 505 mots | 75 % |
| 906 mots | 80 % |
| 1 677 mots | 85 % |
| 2 900 mots | 89 % |
| 3 368 mots | 90 % |
| 8 381 mots | 95 % |
| 36 916 mots | 99 % |
Quelques points qui méritent d'être soulignés :
- À lui seul, le mot the représente 4,04 % de tout l'anglais parlé — un mot sur vingt-cinq que vous entendez est the.
- Les 10 premiers mots couvrent à eux seuls 23,2 % de tout le discours. Près d'un quart de chaque conversation native repose sur dix jetons recyclés.
- Le rendement décroissant s'effondre vite. Passer de 89 % à 95 % de compréhension triple presque le vocabulaire requis. De 95 % à 99 %, on le multiplie encore par quatre.
C'est une version plus marquée de la loi de Zipf que ce que l'on observe dans les corpus écrits. Les livres répartissent leur masse de probabilité sur un vocabulaire plus large ; le discours la concentre.

Le graphique ci-dessus est en échelle log-log. Une langue purement zipfienne formerait une ligne droite ; l'anglais parlé s'en approche de très près, avec un léger coude aux fréquences les plus élevées et la longue traîne des mots rares qui décroche en dessous du rang 10⁵.
Top 50 des mots prononcés
| Rang | Mot | Nombre | Part | Cumul |
|---|---|---|---|---|
| 1 | the | 7 387 237 | 4,04 % | 4,04 % |
| 2 | and | 5 202 156 | 2,84 % | 6,88 % |
| 3 | to | 4 806 242 | 2,63 % | 9,51 % |
| 4 | i | 4 324 592 | 2,36 % | 11,87 % |
| 5 | a | 4 264 055 | 2,33 % | 14,20 % |
| 6 | you | 4 064 555 | 2,22 % | 16,43 % |
| 7 | of | 3 724 277 | 2,04 % | 18,46 % |
| 8 | that | 3 492 110 | 1,91 % | 20,37 % |
| 9 | it | 2 634 690 | 1,44 % | 21,81 % |
| 10 | in | 2 521 046 | 1,38 % | 23,19 % |
| 11 | like | 2 494 184 | 1,36 % | 24,55 % |
| 12 | is | 2 369 926 | 1,30 % | 25,85 % |
| 13 | this | 1 781 715 | 0,97 % | 26,82 % |
| 14 | so | 1 654 633 | 0,90 % | 27,73 % |
| 15 | was | 1 501 038 | 0,82 % | 28,55 % |
| 16 | it's | 1 410 862 | 0,77 % | 29,32 % |
| 17 | for | 1 305 470 | 0,71 % | 30,03 % |
| 18 | but | 1 274 194 | 0,70 % | 30,73 % |
| 19 | we | 1 248 337 | 0,68 % | 31,41 % |
| 20 | on | 1 216 294 | 0,66 % | 32,08 % |
| 21 | know | 1 167 908 | 0,64 % | 32,71 % |
| 22 | have | 1 137 673 | 0,62 % | 33,34 % |
| 23 | just | 1 134 793 | 0,62 % | 33,96 % |
| 24 | what | 1 032 689 | 0,56 % | 34,52 % |
| 25 | they | 1 020 670 | 0,56 % | 35,08 % |
| 26 | with | 1 007 653 | 0,55 % | 35,63 % |
| 27 | yeah | 962 191 | 0,53 % | 36,16 % |
| 28 | be | 957 783 | 0,52 % | 36,68 % |
| 29 | are | 898 626 | 0,49 % | 37,17 % |
| 30 | not | 872 734 | 0,48 % | 37,65 % |
| 31 | do | 870 812 | 0,48 % | 38,12 % |
| 32 | i'm | 821 478 | 0,45 % | 38,57 % |
| 33 | my | 804 993 | 0,44 % | 39,01 % |
| 34 | all | 799 543 | 0,44 % | 39,45 % |
| 35 | if | 756 360 | 0,41 % | 39,86 % |
| 36 | that's | 738 851 | 0,40 % | 40,27 % |
| 37 | at | 732 360 | 0,40 % | 40,67 % |
| 38 | about | 717 388 | 0,39 % | 41,06 % |
| 39 | he | 714 407 | 0,39 % | 41,45 % |
| 40 | your | 696 636 | 0,38 % | 41,83 % |
| 41 | one | 695 227 | 0,38 % | 42,21 % |
| 42 | as | 684 705 | 0,37 % | 42,59 % |
| 43 | or | 678 871 | 0,37 % | 42,96 % |
| 44 | can | 672 388 | 0,37 % | 43,32 % |
| 45 | think | 654 509 | 0,36 % | 43,68 % |
| 46 | right | 647 716 | 0,35 % | 44,04 % |
| 47 | don't | 637 134 | 0,35 % | 44,38 % |
| 48 | me | 616 944 | 0,34 % | 44,72 % |
| 49 | there | 597 279 | 0,33 % | 45,05 % |
| 50 | people | 592 296 | 0,32 % | 45,37 % |
La liste complète des 10 000 premiers mots est disponible au format CSV.
Ce qui frappe dans ce top 50, ce n'est pas ce qui s'y trouve — the, and, to domineraient n'importe quel corpus anglais — mais le rang qu'occupent certains éléments :
likeau n° 11 est un marqueur discursif, et non le verbe. Dans un corpus de livres, il serait bien plus bas.- Cinq contractions s'invitent dans le top 50 : it's (n° 16), i'm (n° 32), that's (n° 36), don't (n° 47), et probablement d'autres plus bas. Les corpus écrits les décomposent en leurs formes pleines.
yeahau n° 27 est une pure cheville conversationnelle. Les livres l'utilisent à peine.know,justetrightsont ici employés surtout comme atténuateurs discursifs (you know, I just wanted, yeah, right), et non dans leur sens dictionnairique.
Le haut de la liste donne un instantané de ce qui distingue le discours du texte : contractions, tics de langage et atténuateurs côtoient articles et pronoms comme vocabulaire porteur.
Le discours est bâti à partir de blocs
Lorsqu'on compte les séquences de deux et trois mots plutôt que les mots isolés, une autre structure apparaît. Les unités les plus fréquentes de l'anglais parlé ne sont pas des mots isolés mais de courtes expressions récurrentes.
Top 50 des séquences de deux mots
| Rang | Expression | Nombre | Part |
|---|---|---|---|
| 1 | you know | 651 659 | 0,42 % |
| 2 | of the | 610 473 | 0,39 % |
| 3 | in the | 597 973 | 0,38 % |
| 4 | going to | 391 962 | 0,25 % |
| 5 | and i | 369 069 | 0,24 % |
| 6 | i think | 360 605 | 0,23 % |
| 7 | this is | 354 886 | 0,23 % |
| 8 | to be | 349 293 | 0,22 % |
| 9 | i was | 294 749 | 0,19 % |
| 10 | i don't | 280 165 | 0,18 % |
| 11 | it was | 279 492 | 0,18 % |
| 12 | and then | 279 061 | 0,18 % |
| 13 | to the | 271 483 | 0,17 % |
| 14 | on the | 269 698 | 0,17 % |
| 15 | kind of | 253 890 | 0,16 % |
| 16 | a lot | 248 787 | 0,16 % |
| 17 | want to | 240 129 | 0,15 % |
| 18 | if you | 239 704 | 0,15 % |
| 19 | you can | 214 797 | 0,14 % |
| 20 | and the | 211 577 | 0,13 % |
| 21 | i mean | 198 883 | 0,13 % |
| 22 | lot of | 188 401 | 0,12 % |
| 23 | to do | 188 301 | 0,12 % |
| 24 | in a | 185 960 | 0,12 % |
| 25 | is a | 183 838 | 0,12 % |
| 26 | like a | 180 615 | 0,12 % |
| 27 | at the | 169 424 | 0,11 % |
| 28 | have to | 168 863 | 0,11 % |
| 29 | one of | 161 657 | 0,10 % |
| 30 | have a | 160 163 | 0,10 % |
| 31 | that i | 159 887 | 0,10 % |
| 32 | is the | 159 862 | 0,10 % |
| 33 | you have | 158 225 | 0,10 % |
| 34 | do you | 158 154 | 0,10 % |
| 35 | and you | 156 410 | 0,10 % |
| 36 | that you | 150 818 | 0,10 % |
| 37 | for the | 147 492 | 0,09 % |
| 38 | a little | 146 585 | 0,09 % |
| 39 | to get | 143 031 | 0,09 % |
| 40 | like i | 141 139 | 0,09 % |
| 41 | so i | 140 193 | 0,09 % |
| 42 | it is | 137 325 | 0,09 % |
| 43 | don't know | 136 714 | 0,09 % |
| 44 | was like | 136 396 | 0,09 % |
| 45 | it's a | 136 095 | 0,09 % |
| 46 | and so | 135 209 | 0,09 % |
| 47 | of a | 134 589 | 0,09 % |
| 48 | with the | 132 177 | 0,08 % |
| 49 | but i | 131 380 | 0,08 % |
| 50 | was a | 126 161 | 0,08 % |
Liste complète : top-bigrams.csv.
Trois observations :
you knowdevance toutes les briques grammaticales. C'est la paire de mots la plus fréquente de l'anglais parlé — plus fréquente que of the ou in the.- Le top 50 regorge de constructions à la première personne : and i, i think, i was, i don't, i mean. Le discours porte surtout sur celui qui est en train de parler.
kind of,a lot,a little,like a,was like— atténuateurs informels et constructions quasi citatives sont omniprésents dans le top 50.
Top 50 des séquences de trois mots
| Rang | Expression | Nombre | Part |
|---|---|---|---|
| 1 | a lot of | 170 961 | 0,13 % |
| 2 | i don't know | 96 455 | 0,07 % |
| 3 | one of the | 82 693 | 0,06 % |
| 4 | going to be | 72 293 | 0,05 % |
| 5 | a little bit | 64 930 | 0,05 % |
| 6 | i was like | 60 915 | 0,05 % |
| 7 | i'm going to | 55 940 | 0,04 % |
| 8 | i want to | 55 071 | 0,04 % |
| 9 | you want to | 54 908 | 0,04 % |
| 10 | you know what | 52 925 | 0,04 % |
| 11 | you have to | 44 985 | 0,03 % |
| 12 | you know i | 43 538 | 0,03 % |
| 13 | this is a | 43 457 | 0,03 % |
| 14 | this is the | 41 664 | 0,03 % |
| 15 | and i think | 40 214 | 0,03 % |
| 16 | and i was | 39 340 | 0,03 % |
| 17 | i feel like | 38 019 | 0,03 % |
| 18 | we're going to | 35 687 | 0,03 % |
| 19 | oh my god | 35 203 | 0,03 % |
| 20 | to be a | 33 229 | 0,03 % |
| 21 | what do you | 32 747 | 0,02 % |
| 22 | be able to | 32 263 | 0,02 % |
| 23 | i don't think | 31 986 | 0,02 % |
| 24 | it was a | 30 717 | 0,02 % |
| 25 | and you know | 30 321 | 0,02 % |
| 26 | you're going to | 29 731 | 0,02 % |
| 27 | like you know | 29 420 | 0,02 % |
| 28 | don't want to | 29 249 | 0,02 % |
| 29 | some of the | 28 953 | 0,02 % |
| 30 | is going to | 28 787 | 0,02 % |
| 31 | i think it's | 28 719 | 0,02 % |
| 32 | not going to | 27 406 | 0,02 % |
| 33 | do you think | 27 196 | 0,02 % |
| 34 | and this is | 25 763 | 0,02 % |
| 35 | i think that | 25 762 | 0,02 % |
| 36 | i mean i | 25 419 | 0,02 % |
| 37 | in the world | 25 310 | 0,02 % |
| 38 | and it was | 25 303 | 0,02 % |
| 39 | and then i | 25 091 | 0,02 % |
| 40 | you have a | 23 988 | 0,02 % |
| 41 | the end of | 23 885 | 0,02 % |
| 42 | and then you | 23 471 | 0,02 % |
| 43 | i think i | 23 393 | 0,02 % |
| 44 | out of the | 23 054 | 0,02 % |
| 45 | it was like | 22 869 | 0,02 % |
| 46 | you know the | 22 783 | 0,02 % |
| 47 | when i was | 22 755 | 0,02 % |
| 48 | you got to | 22 220 | 0,02 % |
| 49 | want to be | 22 218 | 0,02 % |
| 50 | know what i | 22 117 | 0,02 % |
Liste complète : top-trigrams.csv.
Sur les 15 premières séquences de trois mots, onze commencent par un pronom. Six contiennent un I explicite à la première personne. L'anglais parlé tourne très majoritairement autour de qui dit quoi à qui en temps réel, et les expressions à haute fréquence le reflètent.
Quelques séquences méritent d'être remarquées car elles n'apparaissent pas dans l'anglais formel : i was like (n° 6), you know what (n° 10), i feel like (n° 17), oh my god (n° 19), you got to (n° 48). Ce ne sont pas des idiomes raffinés — c'est le tissu conjonctif du langage parlé courant.
Ce que la distribution implique
Trois enseignements ressortent de ces chiffres.
Le vocabulaire au meilleur rapport coût-efficacité est restreint. Un apprenant capable de reconnaître de manière fiable 3 000 mots parlés dispose de la matière première linguistique pour suivre 89 % de l'anglais natif sur YouTube. Pousser jusqu'à 95 % demande 5 500 mots supplémentaires — dont la plupart n'apparaissent qu'une poignée de fois dans l'ensemble du corpus de 183 millions de mots.
Le calibrage par fréquence importe plus que la taille du vocabulaire. La plupart des cours et applications traitent leurs listes de vocabulaire comme à peu près équivalentes. Les données disent autre chose : 50 % du travail est accompli par les 67 premiers mots. Un programme d'étude qui ne tient pas compte de cela répartit mal l'effort.
Traduire mot à mot est une mauvaise unité de base. La moitié des séquences de trois mots du top sont des blocs fonctionnels (a lot of, i don't know, a little bit, going to be) qui s'utilisent d'un seul tenant. Les reconnaître comme un bloc relève d'une opération cognitive différente de leur analyse en trois mots distincts. Dans le discours en direct, cette différence se traduit par celle entre suivre la conversation ou décrocher.
Méthodologie
Le pipeline qui a produit ces chiffres :
- Source. Les sous-titres de 37 632 vidéos YouTube en anglais.
- Tokenisation. Mise en minuscules du texte, puis application de la regex
[a-z]+(?:'[a-z]+)?. Cela conserve les contractions comme don't, gonna, it's en un seul jeton, écarte les nombres et ignore la ponctuation. - Filtrage du bruit. Les segments correspondant à
^\[.*\]$(par ex.[Music],[Applause],[Inaudible]) sont écartés avant la tokenisation. Cela a supprimé 196 433 segments. - Décompte. Pour les unigrammes, chaque jeton est compté. Pour les bigrammes et trigrammes, chaque séquence de N jetons adjacents à l'intérieur d'un même segment de sous-titres est comptée ; les séquences ne peuvent pas franchir les frontières de segment.
- Les parts cumulées sont calculées en triant par effectif puis en sommant.
Ce que cette analyse ne fait pas :
- Pas de lemmatisation. go, going, went et gone sont comptés comme des entrées de vocabulaire distinctes. C'est pertinent pour mesurer ce qu'un apprenant doit effectivement reconnaître à l'oral, mais cela gonfle le nombre brut de vocabulaire par rapport à une analyse lemmatisée.
- Pas d'étiquetage morphosyntaxique. like le verbe et like le marqueur discursif sont comptés ensemble.
- Pas de filtrage des sous-titres générés automatiquement. Certaines vidéos disposent de sous-titres édités par un humain, d'autres de sous-titres générés automatiquement ; ces derniers introduisent un certain bruit de transcription, en particulier dans la longue traîne.
Ce sur quoi l'analyse est fiable : la forme de la distribution et l'identité des mots et expressions à haute fréquence. Le haut de la liste — the, and, to, I, like, it's, you know, i don't know — survit à n'importe quel nettoyage raisonnable.
Réserves sur le corpus
Les 37 632 vidéos ne sont pas un échantillon aléatoire de tout l'anglais parlé. C'est un ensemble curé de chaînes YouTube populaires en anglais, rassemblé pour alimenter ClipPhrase, notre moteur de recherche d'expressions dans des extraits vidéo réels. Le corpus est biaisé en faveur de :
- L'anglais américain. La plupart des chaînes sont basées aux États-Unis.
- Des personnes qui parlent à titre professionnel. Animateurs de talk-shows nocturnes, podcasteurs, YouTubeurs, présentateurs de journaux — pas un échantillon représentatif de la conversation privée informelle.
- Du contenu populaire. Les chaînes ont été sélectionnées pour leur audience et leur portée culturelle large, et non pour la diversité dialectale ou registrielle.
Ces réserves limitent strictement ce que les chiffres démontrent. Elles ne changent rien à la forme de la distribution ni au constat qualitatif selon lequel l'anglais parlé concentre sa masse de probabilité sur un tout petit vocabulaire de mots-outils et de blocs à haute fréquence.
Essayez par vous-même
Le corpus sur lequel cette analyse a tourné est aussi un index de recherche. Chaque mot et chaque expression cités dans cet article existent dans des dizaines de milliers d'extraits vidéo réels, accessibles par requête. Tapez I was like dans ClipPhrase et vous obtenez cinquante locuteurs différents qui l'emploient ; tapez gonna et vous en obtenez quelques milliers. C'est l'outil sous-jacent.
Téléchargements
- top-words.csv — les 10 000 premiers mots avec rang, effectif, part et part cumulée
- top-bigrams.csv — les 5 000 premières séquences de deux mots
- top-trigrams.csv — les 5 000 premières séquences de trois mots
Si vous utilisez ces données dans vos propres écrits ou recherches, un lien vers cette page est apprécié.