ClipPhrase
← Retour au blog

Nous avons analysé 37 000 vidéos YouTube. Voici à quoi ressemble vraiment l'anglais parlé

182,9 millions de mots prononcés dans 37 632 vidéos YouTube en anglais. À peine 67 mots représentent la moitié de tout ce qui est dit. Listes complètes de fréquence des mots et des expressions, graphiques et données téléchargeables.

4 mai 202612 min de lectureClipPhrase Team

Nous avons pris les sous-titres de 37 632 vidéos YouTube en anglais issues de notre index de recherche — talk-shows nocturnes, documentaires, podcasts, vulgarisation scientifique, journaux, émissions de plateau, vlogs — et nous avons effectué une analyse de fréquence sur chaque mot et chaque courte expression qui y est prononcée. 182,9 millions de mots au total.

Cet article en présente le compte-rendu complet. Tous les CSV sous-jacents sont accessibles en bas de page pour quiconque souhaite consulter les données brutes.

Le corpus, en chiffres

Vidéos analysées37 632
Segments de sous-titres26 203 765
Segments non vocaux ignorés ([Music], [Applause], etc.)196 433
Total de jetons prononcés182 933 444
Mots uniques (taille du vocabulaire)384 132
Moyenne de mots par vidéo4 861
Séquences uniques de deux mots11 240 282
Séquences uniques de trois mots42 037 127

La moitié de tout l'anglais parlé tient en 67 mots

La distribution est brutalement déséquilibrée.

Combien de mots faut-il connaître pour couvrir X % de l'anglais parlé

Vous devez connaître……pour reconnaître cette part de tout l'anglais parlé
67 mots50 %
505 mots75 %
906 mots80 %
1 677 mots85 %
2 900 mots89 %
3 368 mots90 %
8 381 mots95 %
36 916 mots99 %

Quelques points qui méritent d'être soulignés :

  • À lui seul, le mot the représente 4,04 % de tout l'anglais parlé — un mot sur vingt-cinq que vous entendez est the.
  • Les 10 premiers mots couvrent à eux seuls 23,2 % de tout le discours. Près d'un quart de chaque conversation native repose sur dix jetons recyclés.
  • Le rendement décroissant s'effondre vite. Passer de 89 % à 95 % de compréhension triple presque le vocabulaire requis. De 95 % à 99 %, on le multiplie encore par quatre.

C'est une version plus marquée de la loi de Zipf que ce que l'on observe dans les corpus écrits. Les livres répartissent leur masse de probabilité sur un vocabulaire plus large ; le discours la concentre.

Distribution de Zipf de l'anglais parlé d'après 37 K vidéos YouTube

Le graphique ci-dessus est en échelle log-log. Une langue purement zipfienne formerait une ligne droite ; l'anglais parlé s'en approche de très près, avec un léger coude aux fréquences les plus élevées et la longue traîne des mots rares qui décroche en dessous du rang 10⁵.

Top 50 des mots prononcés

RangMotNombrePartCumul
1the7 387 2374,04 %4,04 %
2and5 202 1562,84 %6,88 %
3to4 806 2422,63 %9,51 %
4i4 324 5922,36 %11,87 %
5a4 264 0552,33 %14,20 %
6you4 064 5552,22 %16,43 %
7of3 724 2772,04 %18,46 %
8that3 492 1101,91 %20,37 %
9it2 634 6901,44 %21,81 %
10in2 521 0461,38 %23,19 %
11like2 494 1841,36 %24,55 %
12is2 369 9261,30 %25,85 %
13this1 781 7150,97 %26,82 %
14so1 654 6330,90 %27,73 %
15was1 501 0380,82 %28,55 %
16it's1 410 8620,77 %29,32 %
17for1 305 4700,71 %30,03 %
18but1 274 1940,70 %30,73 %
19we1 248 3370,68 %31,41 %
20on1 216 2940,66 %32,08 %
21know1 167 9080,64 %32,71 %
22have1 137 6730,62 %33,34 %
23just1 134 7930,62 %33,96 %
24what1 032 6890,56 %34,52 %
25they1 020 6700,56 %35,08 %
26with1 007 6530,55 %35,63 %
27yeah962 1910,53 %36,16 %
28be957 7830,52 %36,68 %
29are898 6260,49 %37,17 %
30not872 7340,48 %37,65 %
31do870 8120,48 %38,12 %
32i'm821 4780,45 %38,57 %
33my804 9930,44 %39,01 %
34all799 5430,44 %39,45 %
35if756 3600,41 %39,86 %
36that's738 8510,40 %40,27 %
37at732 3600,40 %40,67 %
38about717 3880,39 %41,06 %
39he714 4070,39 %41,45 %
40your696 6360,38 %41,83 %
41one695 2270,38 %42,21 %
42as684 7050,37 %42,59 %
43or678 8710,37 %42,96 %
44can672 3880,37 %43,32 %
45think654 5090,36 %43,68 %
46right647 7160,35 %44,04 %
47don't637 1340,35 %44,38 %
48me616 9440,34 %44,72 %
49there597 2790,33 %45,05 %
50people592 2960,32 %45,37 %

La liste complète des 10 000 premiers mots est disponible au format CSV.

Ce qui frappe dans ce top 50, ce n'est pas ce qui s'y trouve — the, and, to domineraient n'importe quel corpus anglais — mais le rang qu'occupent certains éléments :

  • like au n° 11 est un marqueur discursif, et non le verbe. Dans un corpus de livres, il serait bien plus bas.
  • Cinq contractions s'invitent dans le top 50 : it's (n° 16), i'm (n° 32), that's (n° 36), don't (n° 47), et probablement d'autres plus bas. Les corpus écrits les décomposent en leurs formes pleines.
  • yeah au n° 27 est une pure cheville conversationnelle. Les livres l'utilisent à peine.
  • know, just et right sont ici employés surtout comme atténuateurs discursifs (you know, I just wanted, yeah, right), et non dans leur sens dictionnairique.

Le haut de la liste donne un instantané de ce qui distingue le discours du texte : contractions, tics de langage et atténuateurs côtoient articles et pronoms comme vocabulaire porteur.

Le discours est bâti à partir de blocs

Lorsqu'on compte les séquences de deux et trois mots plutôt que les mots isolés, une autre structure apparaît. Les unités les plus fréquentes de l'anglais parlé ne sont pas des mots isolés mais de courtes expressions récurrentes.

Top 50 des séquences de deux mots

RangExpressionNombrePart
1you know651 6590,42 %
2of the610 4730,39 %
3in the597 9730,38 %
4going to391 9620,25 %
5and i369 0690,24 %
6i think360 6050,23 %
7this is354 8860,23 %
8to be349 2930,22 %
9i was294 7490,19 %
10i don't280 1650,18 %
11it was279 4920,18 %
12and then279 0610,18 %
13to the271 4830,17 %
14on the269 6980,17 %
15kind of253 8900,16 %
16a lot248 7870,16 %
17want to240 1290,15 %
18if you239 7040,15 %
19you can214 7970,14 %
20and the211 5770,13 %
21i mean198 8830,13 %
22lot of188 4010,12 %
23to do188 3010,12 %
24in a185 9600,12 %
25is a183 8380,12 %
26like a180 6150,12 %
27at the169 4240,11 %
28have to168 8630,11 %
29one of161 6570,10 %
30have a160 1630,10 %
31that i159 8870,10 %
32is the159 8620,10 %
33you have158 2250,10 %
34do you158 1540,10 %
35and you156 4100,10 %
36that you150 8180,10 %
37for the147 4920,09 %
38a little146 5850,09 %
39to get143 0310,09 %
40like i141 1390,09 %
41so i140 1930,09 %
42it is137 3250,09 %
43don't know136 7140,09 %
44was like136 3960,09 %
45it's a136 0950,09 %
46and so135 2090,09 %
47of a134 5890,09 %
48with the132 1770,08 %
49but i131 3800,08 %
50was a126 1610,08 %

Liste complète : top-bigrams.csv.

Trois observations :

  1. you know devance toutes les briques grammaticales. C'est la paire de mots la plus fréquente de l'anglais parlé — plus fréquente que of the ou in the.
  2. Le top 50 regorge de constructions à la première personne : and i, i think, i was, i don't, i mean. Le discours porte surtout sur celui qui est en train de parler.
  3. kind of, a lot, a little, like a, was like — atténuateurs informels et constructions quasi citatives sont omniprésents dans le top 50.

Top 50 des séquences de trois mots

RangExpressionNombrePart
1a lot of170 9610,13 %
2i don't know96 4550,07 %
3one of the82 6930,06 %
4going to be72 2930,05 %
5a little bit64 9300,05 %
6i was like60 9150,05 %
7i'm going to55 9400,04 %
8i want to55 0710,04 %
9you want to54 9080,04 %
10you know what52 9250,04 %
11you have to44 9850,03 %
12you know i43 5380,03 %
13this is a43 4570,03 %
14this is the41 6640,03 %
15and i think40 2140,03 %
16and i was39 3400,03 %
17i feel like38 0190,03 %
18we're going to35 6870,03 %
19oh my god35 2030,03 %
20to be a33 2290,03 %
21what do you32 7470,02 %
22be able to32 2630,02 %
23i don't think31 9860,02 %
24it was a30 7170,02 %
25and you know30 3210,02 %
26you're going to29 7310,02 %
27like you know29 4200,02 %
28don't want to29 2490,02 %
29some of the28 9530,02 %
30is going to28 7870,02 %
31i think it's28 7190,02 %
32not going to27 4060,02 %
33do you think27 1960,02 %
34and this is25 7630,02 %
35i think that25 7620,02 %
36i mean i25 4190,02 %
37in the world25 3100,02 %
38and it was25 3030,02 %
39and then i25 0910,02 %
40you have a23 9880,02 %
41the end of23 8850,02 %
42and then you23 4710,02 %
43i think i23 3930,02 %
44out of the23 0540,02 %
45it was like22 8690,02 %
46you know the22 7830,02 %
47when i was22 7550,02 %
48you got to22 2200,02 %
49want to be22 2180,02 %
50know what i22 1170,02 %

Liste complète : top-trigrams.csv.

Sur les 15 premières séquences de trois mots, onze commencent par un pronom. Six contiennent un I explicite à la première personne. L'anglais parlé tourne très majoritairement autour de qui dit quoi à qui en temps réel, et les expressions à haute fréquence le reflètent.

Quelques séquences méritent d'être remarquées car elles n'apparaissent pas dans l'anglais formel : i was like (n° 6), you know what (n° 10), i feel like (n° 17), oh my god (n° 19), you got to (n° 48). Ce ne sont pas des idiomes raffinés — c'est le tissu conjonctif du langage parlé courant.

Ce que la distribution implique

Trois enseignements ressortent de ces chiffres.

Le vocabulaire au meilleur rapport coût-efficacité est restreint. Un apprenant capable de reconnaître de manière fiable 3 000 mots parlés dispose de la matière première linguistique pour suivre 89 % de l'anglais natif sur YouTube. Pousser jusqu'à 95 % demande 5 500 mots supplémentaires — dont la plupart n'apparaissent qu'une poignée de fois dans l'ensemble du corpus de 183 millions de mots.

Le calibrage par fréquence importe plus que la taille du vocabulaire. La plupart des cours et applications traitent leurs listes de vocabulaire comme à peu près équivalentes. Les données disent autre chose : 50 % du travail est accompli par les 67 premiers mots. Un programme d'étude qui ne tient pas compte de cela répartit mal l'effort.

Traduire mot à mot est une mauvaise unité de base. La moitié des séquences de trois mots du top sont des blocs fonctionnels (a lot of, i don't know, a little bit, going to be) qui s'utilisent d'un seul tenant. Les reconnaître comme un bloc relève d'une opération cognitive différente de leur analyse en trois mots distincts. Dans le discours en direct, cette différence se traduit par celle entre suivre la conversation ou décrocher.

Méthodologie

Le pipeline qui a produit ces chiffres :

  1. Source. Les sous-titres de 37 632 vidéos YouTube en anglais.
  2. Tokenisation. Mise en minuscules du texte, puis application de la regex [a-z]+(?:'[a-z]+)?. Cela conserve les contractions comme don't, gonna, it's en un seul jeton, écarte les nombres et ignore la ponctuation.
  3. Filtrage du bruit. Les segments correspondant à ^\[.*\]$ (par ex. [Music], [Applause], [Inaudible]) sont écartés avant la tokenisation. Cela a supprimé 196 433 segments.
  4. Décompte. Pour les unigrammes, chaque jeton est compté. Pour les bigrammes et trigrammes, chaque séquence de N jetons adjacents à l'intérieur d'un même segment de sous-titres est comptée ; les séquences ne peuvent pas franchir les frontières de segment.
  5. Les parts cumulées sont calculées en triant par effectif puis en sommant.

Ce que cette analyse ne fait pas :

  • Pas de lemmatisation. go, going, went et gone sont comptés comme des entrées de vocabulaire distinctes. C'est pertinent pour mesurer ce qu'un apprenant doit effectivement reconnaître à l'oral, mais cela gonfle le nombre brut de vocabulaire par rapport à une analyse lemmatisée.
  • Pas d'étiquetage morphosyntaxique. like le verbe et like le marqueur discursif sont comptés ensemble.
  • Pas de filtrage des sous-titres générés automatiquement. Certaines vidéos disposent de sous-titres édités par un humain, d'autres de sous-titres générés automatiquement ; ces derniers introduisent un certain bruit de transcription, en particulier dans la longue traîne.

Ce sur quoi l'analyse est fiable : la forme de la distribution et l'identité des mots et expressions à haute fréquence. Le haut de la liste — the, and, to, I, like, it's, you know, i don't know — survit à n'importe quel nettoyage raisonnable.

Réserves sur le corpus

Les 37 632 vidéos ne sont pas un échantillon aléatoire de tout l'anglais parlé. C'est un ensemble curé de chaînes YouTube populaires en anglais, rassemblé pour alimenter ClipPhrase, notre moteur de recherche d'expressions dans des extraits vidéo réels. Le corpus est biaisé en faveur de :

  • L'anglais américain. La plupart des chaînes sont basées aux États-Unis.
  • Des personnes qui parlent à titre professionnel. Animateurs de talk-shows nocturnes, podcasteurs, YouTubeurs, présentateurs de journaux — pas un échantillon représentatif de la conversation privée informelle.
  • Du contenu populaire. Les chaînes ont été sélectionnées pour leur audience et leur portée culturelle large, et non pour la diversité dialectale ou registrielle.

Ces réserves limitent strictement ce que les chiffres démontrent. Elles ne changent rien à la forme de la distribution ni au constat qualitatif selon lequel l'anglais parlé concentre sa masse de probabilité sur un tout petit vocabulaire de mots-outils et de blocs à haute fréquence.

Essayez par vous-même

Le corpus sur lequel cette analyse a tourné est aussi un index de recherche. Chaque mot et chaque expression cités dans cet article existent dans des dizaines de milliers d'extraits vidéo réels, accessibles par requête. Tapez I was like dans ClipPhrase et vous obtenez cinquante locuteurs différents qui l'emploient ; tapez gonna et vous en obtenez quelques milliers. C'est l'outil sous-jacent.

Téléchargements

Si vous utilisez ces données dans vos propres écrits ou recherches, un lien vers cette page est apprécié.