Nous avons analysé 37 000 vidéos YouTube. Voici à quoi ressemble vraiment l'anglais parlé

182,9 millions de mots prononcés dans 37 632 vidéos YouTube en anglais. À peine 67 mots représentent la moitié de tout ce qui est dit. Listes complètes de fréquence des mots et des expressions, graphiques et données téléchargeables.

4 mai 202612 min de lectureClipPhrase Team

Nous avons pris les sous-titres de 37 632 vidéos YouTube en anglais issues de notre index de recherche — talk-shows nocturnes, documentaires, podcasts, vulgarisation scientifique, journaux, émissions de plateau, vlogs — et nous avons effectué une analyse de fréquence sur chaque mot et chaque courte expression qui y est prononcée. 182,9 millions de mots au total.

Cet article en présente le compte-rendu complet. Tous les CSV sous-jacents sont accessibles en bas de page pour quiconque souhaite consulter les données brutes.

Le corpus, en chiffres


Vidéos analysées	37 632
Segments de sous-titres	26 203 765
Segments non vocaux ignorés (`[Music]`, `[Applause]`, etc.)	196 433
Total de jetons prononcés	182 933 444
Mots uniques (taille du vocabulaire)	384 132
Moyenne de mots par vidéo	4 861
Séquences uniques de deux mots	11 240 282
Séquences uniques de trois mots	42 037 127

La moitié de tout l'anglais parlé tient en 67 mots

La distribution est brutalement déséquilibrée.

Combien de mots faut-il connaître pour couvrir X % de l'anglais parlé

Vous devez connaître…	…pour reconnaître cette part de tout l'anglais parlé
67 mots	50 %
505 mots	75 %
906 mots	80 %
1 677 mots	85 %
2 900 mots	89 %
3 368 mots	90 %
8 381 mots	95 %
36 916 mots	99 %

Quelques points qui méritent d'être soulignés :

À lui seul, le mot the représente 4,04 % de tout l'anglais parlé — un mot sur vingt-cinq que vous entendez est the.
Les 10 premiers mots couvrent à eux seuls 23,2 % de tout le discours. Près d'un quart de chaque conversation native repose sur dix jetons recyclés.
Le rendement décroissant s'effondre vite. Passer de 89 % à 95 % de compréhension triple presque le vocabulaire requis. De 95 % à 99 %, on le multiplie encore par quatre.

C'est une version plus marquée de la loi de Zipf que ce que l'on observe dans les corpus écrits. Les livres répartissent leur masse de probabilité sur un vocabulaire plus large ; le discours la concentre.

Distribution de Zipf de l'anglais parlé d'après 37 K vidéos YouTube

Le graphique ci-dessus est en échelle log-log. Une langue purement zipfienne formerait une ligne droite ; l'anglais parlé s'en approche de très près, avec un léger coude aux fréquences les plus élevées et la longue traîne des mots rares qui décroche en dessous du rang 10⁵.

Top 50 des mots prononcés

Rang	Mot	Nombre	Part	Cumul
1	the	7 387 237	4,04 %	4,04 %
2	and	5 202 156	2,84 %	6,88 %
3	to	4 806 242	2,63 %	9,51 %
4	i	4 324 592	2,36 %	11,87 %
5	a	4 264 055	2,33 %	14,20 %
6	you	4 064 555	2,22 %	16,43 %
7	of	3 724 277	2,04 %	18,46 %
8	that	3 492 110	1,91 %	20,37 %
9	it	2 634 690	1,44 %	21,81 %
10	in	2 521 046	1,38 %	23,19 %
11	like	2 494 184	1,36 %	24,55 %
12	is	2 369 926	1,30 %	25,85 %
13	this	1 781 715	0,97 %	26,82 %
14	so	1 654 633	0,90 %	27,73 %
15	was	1 501 038	0,82 %	28,55 %
16	it's	1 410 862	0,77 %	29,32 %
17	for	1 305 470	0,71 %	30,03 %
18	but	1 274 194	0,70 %	30,73 %
19	we	1 248 337	0,68 %	31,41 %
20	on	1 216 294	0,66 %	32,08 %
21	know	1 167 908	0,64 %	32,71 %
22	have	1 137 673	0,62 %	33,34 %
23	just	1 134 793	0,62 %	33,96 %
24	what	1 032 689	0,56 %	34,52 %
25	they	1 020 670	0,56 %	35,08 %
26	with	1 007 653	0,55 %	35,63 %
27	yeah	962 191	0,53 %	36,16 %
28	be	957 783	0,52 %	36,68 %
29	are	898 626	0,49 %	37,17 %
30	not	872 734	0,48 %	37,65 %
31	do	870 812	0,48 %	38,12 %
32	i'm	821 478	0,45 %	38,57 %
33	my	804 993	0,44 %	39,01 %
34	all	799 543	0,44 %	39,45 %
35	if	756 360	0,41 %	39,86 %
36	that's	738 851	0,40 %	40,27 %
37	at	732 360	0,40 %	40,67 %
38	about	717 388	0,39 %	41,06 %
39	he	714 407	0,39 %	41,45 %
40	your	696 636	0,38 %	41,83 %
41	one	695 227	0,38 %	42,21 %
42	as	684 705	0,37 %	42,59 %
43	or	678 871	0,37 %	42,96 %
44	can	672 388	0,37 %	43,32 %
45	think	654 509	0,36 %	43,68 %
46	right	647 716	0,35 %	44,04 %
47	don't	637 134	0,35 %	44,38 %
48	me	616 944	0,34 %	44,72 %
49	there	597 279	0,33 %	45,05 %
50	people	592 296	0,32 %	45,37 %

La liste complète des 10 000 premiers mots est disponible au format CSV.

Ce qui frappe dans ce top 50, ce n'est pas ce qui s'y trouve — the, and, to domineraient n'importe quel corpus anglais — mais le rang qu'occupent certains éléments :

like au n° 11 est un marqueur discursif, et non le verbe. Dans un corpus de livres, il serait bien plus bas.
Cinq contractions s'invitent dans le top 50 : it's (n° 16), i'm (n° 32), that's (n° 36), don't (n° 47), et probablement d'autres plus bas. Les corpus écrits les décomposent en leurs formes pleines.
yeah au n° 27 est une pure cheville conversationnelle. Les livres l'utilisent à peine.
know, just et right sont ici employés surtout comme atténuateurs discursifs (you know, I just wanted, yeah, right), et non dans leur sens dictionnairique.

Le haut de la liste donne un instantané de ce qui distingue le discours du texte : contractions, tics de langage et atténuateurs côtoient articles et pronoms comme vocabulaire porteur.

Le discours est bâti à partir de blocs

Lorsqu'on compte les séquences de deux et trois mots plutôt que les mots isolés, une autre structure apparaît. Les unités les plus fréquentes de l'anglais parlé ne sont pas des mots isolés mais de courtes expressions récurrentes.

Top 50 des séquences de deux mots

Rang	Expression	Nombre	Part
1	you know	651 659	0,42 %
2	of the	610 473	0,39 %
3	in the	597 973	0,38 %
4	going to	391 962	0,25 %
5	and i	369 069	0,24 %
6	i think	360 605	0,23 %
7	this is	354 886	0,23 %
8	to be	349 293	0,22 %
9	i was	294 749	0,19 %
10	i don't	280 165	0,18 %
11	it was	279 492	0,18 %
12	and then	279 061	0,18 %
13	to the	271 483	0,17 %
14	on the	269 698	0,17 %
15	kind of	253 890	0,16 %
16	a lot	248 787	0,16 %
17	want to	240 129	0,15 %
18	if you	239 704	0,15 %
19	you can	214 797	0,14 %
20	and the	211 577	0,13 %
21	i mean	198 883	0,13 %
22	lot of	188 401	0,12 %
23	to do	188 301	0,12 %
24	in a	185 960	0,12 %
25	is a	183 838	0,12 %
26	like a	180 615	0,12 %
27	at the	169 424	0,11 %
28	have to	168 863	0,11 %
29	one of	161 657	0,10 %
30	have a	160 163	0,10 %
31	that i	159 887	0,10 %
32	is the	159 862	0,10 %
33	you have	158 225	0,10 %
34	do you	158 154	0,10 %
35	and you	156 410	0,10 %
36	that you	150 818	0,10 %
37	for the	147 492	0,09 %
38	a little	146 585	0,09 %
39	to get	143 031	0,09 %
40	like i	141 139	0,09 %
41	so i	140 193	0,09 %
42	it is	137 325	0,09 %
43	don't know	136 714	0,09 %
44	was like	136 396	0,09 %
45	it's a	136 095	0,09 %
46	and so	135 209	0,09 %
47	of a	134 589	0,09 %
48	with the	132 177	0,08 %
49	but i	131 380	0,08 %
50	was a	126 161	0,08 %

Liste complète : top-bigrams.csv.

Trois observations :

you know devance toutes les briques grammaticales. C'est la paire de mots la plus fréquente de l'anglais parlé — plus fréquente que of the ou in the.
Le top 50 regorge de constructions à la première personne : and i, i think, i was, i don't, i mean. Le discours porte surtout sur celui qui est en train de parler.
kind of, a lot, a little, like a, was like — atténuateurs informels et constructions quasi citatives sont omniprésents dans le top 50.

Top 50 des séquences de trois mots

Rang	Expression	Nombre	Part
1	a lot of	170 961	0,13 %
2	i don't know	96 455	0,07 %
3	one of the	82 693	0,06 %
4	going to be	72 293	0,05 %
5	a little bit	64 930	0,05 %
6	i was like	60 915	0,05 %
7	i'm going to	55 940	0,04 %
8	i want to	55 071	0,04 %
9	you want to	54 908	0,04 %
10	you know what	52 925	0,04 %
11	you have to	44 985	0,03 %
12	you know i	43 538	0,03 %
13	this is a	43 457	0,03 %
14	this is the	41 664	0,03 %
15	and i think	40 214	0,03 %
16	and i was	39 340	0,03 %
17	i feel like	38 019	0,03 %
18	we're going to	35 687	0,03 %
19	oh my god	35 203	0,03 %
20	to be a	33 229	0,03 %
21	what do you	32 747	0,02 %
22	be able to	32 263	0,02 %
23	i don't think	31 986	0,02 %
24	it was a	30 717	0,02 %
25	and you know	30 321	0,02 %
26	you're going to	29 731	0,02 %
27	like you know	29 420	0,02 %
28	don't want to	29 249	0,02 %
29	some of the	28 953	0,02 %
30	is going to	28 787	0,02 %
31	i think it's	28 719	0,02 %
32	not going to	27 406	0,02 %
33	do you think	27 196	0,02 %
34	and this is	25 763	0,02 %
35	i think that	25 762	0,02 %
36	i mean i	25 419	0,02 %
37	in the world	25 310	0,02 %
38	and it was	25 303	0,02 %
39	and then i	25 091	0,02 %
40	you have a	23 988	0,02 %
41	the end of	23 885	0,02 %
42	and then you	23 471	0,02 %
43	i think i	23 393	0,02 %
44	out of the	23 054	0,02 %
45	it was like	22 869	0,02 %
46	you know the	22 783	0,02 %
47	when i was	22 755	0,02 %
48	you got to	22 220	0,02 %
49	want to be	22 218	0,02 %
50	know what i	22 117	0,02 %

Liste complète : top-trigrams.csv.

Sur les 15 premières séquences de trois mots, onze commencent par un pronom. Six contiennent un I explicite à la première personne. L'anglais parlé tourne très majoritairement autour de qui dit quoi à qui en temps réel, et les expressions à haute fréquence le reflètent.

Quelques séquences méritent d'être remarquées car elles n'apparaissent pas dans l'anglais formel : i was like (n° 6), you know what (n° 10), i feel like (n° 17), oh my god (n° 19), you got to (n° 48). Ce ne sont pas des idiomes raffinés — c'est le tissu conjonctif du langage parlé courant.

Ce que la distribution implique

Trois enseignements ressortent de ces chiffres.

Le vocabulaire au meilleur rapport coût-efficacité est restreint. Un apprenant capable de reconnaître de manière fiable 3 000 mots parlés dispose de la matière première linguistique pour suivre 89 % de l'anglais natif sur YouTube. Pousser jusqu'à 95 % demande 5 500 mots supplémentaires — dont la plupart n'apparaissent qu'une poignée de fois dans l'ensemble du corpus de 183 millions de mots.

Le calibrage par fréquence importe plus que la taille du vocabulaire. La plupart des cours et applications traitent leurs listes de vocabulaire comme à peu près équivalentes. Les données disent autre chose : 50 % du travail est accompli par les 67 premiers mots. Un programme d'étude qui ne tient pas compte de cela répartit mal l'effort.

Traduire mot à mot est une mauvaise unité de base. La moitié des séquences de trois mots du top sont des blocs fonctionnels (a lot of, i don't know, a little bit, going to be) qui s'utilisent d'un seul tenant. Les reconnaître comme un bloc relève d'une opération cognitive différente de leur analyse en trois mots distincts. Dans le discours en direct, cette différence se traduit par celle entre suivre la conversation ou décrocher.

Méthodologie

Le pipeline qui a produit ces chiffres :

Source. Les sous-titres de 37 632 vidéos YouTube en anglais.
Tokenisation. Mise en minuscules du texte, puis application de la regex [a-z]+(?:'[a-z]+)?. Cela conserve les contractions comme don't, gonna, it's en un seul jeton, écarte les nombres et ignore la ponctuation.
Filtrage du bruit. Les segments correspondant à ^\[.*\]$ (par ex. [Music], [Applause], [Inaudible]) sont écartés avant la tokenisation. Cela a supprimé 196 433 segments.
Décompte. Pour les unigrammes, chaque jeton est compté. Pour les bigrammes et trigrammes, chaque séquence de N jetons adjacents à l'intérieur d'un même segment de sous-titres est comptée ; les séquences ne peuvent pas franchir les frontières de segment.
Les parts cumulées sont calculées en triant par effectif puis en sommant.

Ce que cette analyse ne fait pas :

Pas de lemmatisation. go, going, went et gone sont comptés comme des entrées de vocabulaire distinctes. C'est pertinent pour mesurer ce qu'un apprenant doit effectivement reconnaître à l'oral, mais cela gonfle le nombre brut de vocabulaire par rapport à une analyse lemmatisée.
Pas d'étiquetage morphosyntaxique. like le verbe et like le marqueur discursif sont comptés ensemble.
Pas de filtrage des sous-titres générés automatiquement. Certaines vidéos disposent de sous-titres édités par un humain, d'autres de sous-titres générés automatiquement ; ces derniers introduisent un certain bruit de transcription, en particulier dans la longue traîne.

Ce sur quoi l'analyse est fiable : la forme de la distribution et l'identité des mots et expressions à haute fréquence. Le haut de la liste — the, and, to, I, like, it's, you know, i don't know — survit à n'importe quel nettoyage raisonnable.

Réserves sur le corpus

Les 37 632 vidéos ne sont pas un échantillon aléatoire de tout l'anglais parlé. C'est un ensemble curé de chaînes YouTube populaires en anglais, rassemblé pour alimenter ClipPhrase, notre moteur de recherche d'expressions dans des extraits vidéo réels. Le corpus est biaisé en faveur de :

L'anglais américain. La plupart des chaînes sont basées aux États-Unis.
Des personnes qui parlent à titre professionnel. Animateurs de talk-shows nocturnes, podcasteurs, YouTubeurs, présentateurs de journaux — pas un échantillon représentatif de la conversation privée informelle.
Du contenu populaire. Les chaînes ont été sélectionnées pour leur audience et leur portée culturelle large, et non pour la diversité dialectale ou registrielle.

Ces réserves limitent strictement ce que les chiffres démontrent. Elles ne changent rien à la forme de la distribution ni au constat qualitatif selon lequel l'anglais parlé concentre sa masse de probabilité sur un tout petit vocabulaire de mots-outils et de blocs à haute fréquence.

Essayez par vous-même

Le corpus sur lequel cette analyse a tourné est aussi un index de recherche. Chaque mot et chaque expression cités dans cet article existent dans des dizaines de milliers d'extraits vidéo réels, accessibles par requête. Tapez I was like dans ClipPhrase et vous obtenez cinquante locuteurs différents qui l'emploient ; tapez gonna et vous en obtenez quelques milliers. C'est l'outil sous-jacent.

Téléchargements

top-words.csv — les 10 000 premiers mots avec rang, effectif, part et part cumulée
top-bigrams.csv — les 5 000 premières séquences de deux mots
top-trigrams.csv — les 5 000 premières séquences de trois mots

Si vous utilisez ces données dans vos propres écrits ou recherches, un lien vers cette page est apprécié.