Abbiamo analizzato 37.000 video di YouTube. Ecco com'è davvero l'inglese parlato

182,9 milioni di parole pronunciate in 37.632 video di YouTube in inglese. Bastano 67 parole per coprire metà di tutto ciò che viene detto. Liste di frequenza complete di parole e frasi, grafici e dati scaricabili.

4 maggio 202612 min di letturaClipPhrase Team

Abbiamo preso i sottotitoli di 37.632 video di YouTube in inglese dal nostro indice di ricerca — late-night show, documentari, podcast, divulgazione scientifica, notiziari, talk show, vlog — e abbiamo eseguito un'analisi di frequenza su ogni parola e ogni breve sequenza di parole pronunciata. 182,9 milioni di parole in totale.

Questo articolo ne è il resoconto completo. Tutti i CSV sottostanti sono linkati in fondo, per chi voglia consultare i dati grezzi.

Il corpus, in numeri


Video analizzati	37.632
Segmenti di sottotitoli	26.203.765
Segmenti non vocali esclusi (`[Music]`, `[Applause]`, ecc.)	196.433
Token vocali totali	182.933.444
Parole uniche (dimensione del vocabolario)	384.132
Media di parole per video	4.861
Sequenze uniche di due parole	11.240.282
Sequenze uniche di tre parole	42.037.127

Metà di tutto l'inglese parlato sta in 67 parole

La distribuzione è di una sproporzione brutale.

Quante parole servono per coprire l'X% dell'inglese parlato

Devi conoscere…	…per riconoscere questa quota di tutto l'inglese parlato
67 parole	50%
505 parole	75%
906 parole	80%
1.677 parole	85%
2.900 parole	89%
3.368 parole	90%
8.381 parole	95%
36.916 parole	99%

Vale la pena evidenziare alcuni punti:

La sola parola the rappresenta il 4,04% di tutto l'inglese parlato — una parola su venticinque che senti è the.
Le prime 10 parole da sole coprono il 23,2% del parlato. Quasi un quarto di ogni conversazione tra madrelingua poggia su dieci token riciclati.
I rendimenti decrescenti arrivano in fretta. Passare dall'89% al 95% di comprensione triplica quasi il vocabolario richiesto. Dal 95% al 99% lo moltiplica per altre quattro volte.

Si tratta di una versione più marcata della legge di Zipf rispetto a quella che emerge dai corpora scritti. I libri distribuiscono la massa di probabilità su un vocabolario più ampio; il parlato la concentra.

Distribuzione di Zipf dell'inglese parlato in 37K video di YouTube

Il grafico qui sopra è in scala log-log. Una lingua puramente zipfiana formerebbe una linea retta; l'inglese parlato ci si avvicina molto, con una leggera piega alle frequenze più alte e la lunga coda di parole rare che si dirada sotto il rango 10⁵.

Top 50 delle parole parlate

Posizione	Parola	Conteggio	Quota	Cumulativo
1	the	7.387.237	4,04%	4,04%
2	and	5.202.156	2,84%	6,88%
3	to	4.806.242	2,63%	9,51%
4	i	4.324.592	2,36%	11,87%
5	a	4.264.055	2,33%	14,20%
6	you	4.064.555	2,22%	16,43%
7	of	3.724.277	2,04%	18,46%
8	that	3.492.110	1,91%	20,37%
9	it	2.634.690	1,44%	21,81%
10	in	2.521.046	1,38%	23,19%
11	like	2.494.184	1,36%	24,55%
12	is	2.369.926	1,30%	25,85%
13	this	1.781.715	0,97%	26,82%
14	so	1.654.633	0,90%	27,73%
15	was	1.501.038	0,82%	28,55%
16	it's	1.410.862	0,77%	29,32%
17	for	1.305.470	0,71%	30,03%
18	but	1.274.194	0,70%	30,73%
19	we	1.248.337	0,68%	31,41%
20	on	1.216.294	0,66%	32,08%
21	know	1.167.908	0,64%	32,71%
22	have	1.137.673	0,62%	33,34%
23	just	1.134.793	0,62%	33,96%
24	what	1.032.689	0,56%	34,52%
25	they	1.020.670	0,56%	35,08%
26	with	1.007.653	0,55%	35,63%
27	yeah	962.191	0,53%	36,16%
28	be	957.783	0,52%	36,68%
29	are	898.626	0,49%	37,17%
30	not	872.734	0,48%	37,65%
31	do	870.812	0,48%	38,12%
32	i'm	821.478	0,45%	38,57%
33	my	804.993	0,44%	39,01%
34	all	799.543	0,44%	39,45%
35	if	756.360	0,41%	39,86%
36	that's	738.851	0,40%	40,27%
37	at	732.360	0,40%	40,67%
38	about	717.388	0,39%	41,06%
39	he	714.407	0,39%	41,45%
40	your	696.636	0,38%	41,83%
41	one	695.227	0,38%	42,21%
42	as	684.705	0,37%	42,59%
43	or	678.871	0,37%	42,96%
44	can	672.388	0,37%	43,32%
45	think	654.509	0,36%	43,68%
46	right	647.716	0,35%	44,04%
47	don't	637.134	0,35%	44,38%
48	me	616.944	0,34%	44,72%
49	there	597.279	0,33%	45,05%
50	people	592.296	0,32%	45,37%

La lista completa delle prime 10.000 parole è disponibile come CSV.

Ciò che colpisce di questa top 50 non è cosa c'è — the, and, to sarebbero in cima a qualsiasi corpus inglese — ma dove certi elementi si collocano:

like all'#11 è un marcatore discorsivo, non il verbo. In un corpus di libri sarebbe molto più in basso.
Cinque contrazioni entrano nella top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e probabilmente altre più giù. I corpora scritti le scompongono nelle loro forme estese.
yeah al #27 è puro collante conversazionale. Nei libri compare a malapena.
know, just e right sono usati qui prevalentemente come attenuatori del discorso (you know, I just wanted, yeah, right), non nei loro significati da dizionario.

La cima della lista è un'istantanea di come il parlato differisca dalla scrittura: contrazioni, intercalari e attenuatori figurano insieme ad articoli e pronomi come vocabolario portante.

Il parlato è costruito a blocchi

Quando contiamo sequenze di due e tre parole anziché parole singole, emerge una struttura diversa. Le unità più frequenti dell'inglese parlato non sono parole isolate, ma brevi frasi ricorrenti.

Top 50 delle sequenze di due parole

Posizione	Frase	Conteggio	Quota
1	you know	651.659	0,42%
2	of the	610.473	0,39%
3	in the	597.973	0,38%
4	going to	391.962	0,25%
5	and i	369.069	0,24%
6	i think	360.605	0,23%
7	this is	354.886	0,23%
8	to be	349.293	0,22%
9	i was	294.749	0,19%
10	i don't	280.165	0,18%
11	it was	279.492	0,18%
12	and then	279.061	0,18%
13	to the	271.483	0,17%
14	on the	269.698	0,17%
15	kind of	253.890	0,16%
16	a lot	248.787	0,16%
17	want to	240.129	0,15%
18	if you	239.704	0,15%
19	you can	214.797	0,14%
20	and the	211.577	0,13%
21	i mean	198.883	0,13%
22	lot of	188.401	0,12%
23	to do	188.301	0,12%
24	in a	185.960	0,12%
25	is a	183.838	0,12%
26	like a	180.615	0,12%
27	at the	169.424	0,11%
28	have to	168.863	0,11%
29	one of	161.657	0,10%
30	have a	160.163	0,10%
31	that i	159.887	0,10%
32	is the	159.862	0,10%
33	you have	158.225	0,10%
34	do you	158.154	0,10%
35	and you	156.410	0,10%
36	that you	150.818	0,10%
37	for the	147.492	0,09%
38	a little	146.585	0,09%
39	to get	143.031	0,09%
40	like i	141.139	0,09%
41	so i	140.193	0,09%
42	it is	137.325	0,09%
43	don't know	136.714	0,09%
44	was like	136.396	0,09%
45	it's a	136.095	0,09%
46	and so	135.209	0,09%
47	of a	134.589	0,09%
48	with the	132.177	0,08%
49	but i	131.380	0,08%
50	was a	126.161	0,08%

Lista completa: top-bigrams.csv.

Tre osservazioni:

you know batte qualsiasi pilastro grammaticale. È la coppia di parole singolarmente più comune dell'inglese parlato — più frequente di of the o in the.
La top 50 è densa di costruzioni in prima persona: and i, i think, i was, i don't, i mean. Il parlato riguarda perlopiù chi sta parlando.
kind of, a lot, a little, like a, was like — attenuatori informali e costruzioni quotative tipo like sono ovunque nella top 50.

Top 50 delle sequenze di tre parole

Posizione	Frase	Conteggio	Quota
1	a lot of	170.961	0,13%
2	i don't know	96.455	0,07%
3	one of the	82.693	0,06%
4	going to be	72.293	0,05%
5	a little bit	64.930	0,05%
6	i was like	60.915	0,05%
7	i'm going to	55.940	0,04%
8	i want to	55.071	0,04%
9	you want to	54.908	0,04%
10	you know what	52.925	0,04%
11	you have to	44.985	0,03%
12	you know i	43.538	0,03%
13	this is a	43.457	0,03%
14	this is the	41.664	0,03%
15	and i think	40.214	0,03%
16	and i was	39.340	0,03%
17	i feel like	38.019	0,03%
18	we're going to	35.687	0,03%
19	oh my god	35.203	0,03%
20	to be a	33.229	0,03%
21	what do you	32.747	0,02%
22	be able to	32.263	0,02%
23	i don't think	31.986	0,02%
24	it was a	30.717	0,02%
25	and you know	30.321	0,02%
26	you're going to	29.731	0,02%
27	like you know	29.420	0,02%
28	don't want to	29.249	0,02%
29	some of the	28.953	0,02%
30	is going to	28.787	0,02%
31	i think it's	28.719	0,02%
32	not going to	27.406	0,02%
33	do you think	27.196	0,02%
34	and this is	25.763	0,02%
35	i think that	25.762	0,02%
36	i mean i	25.419	0,02%
37	in the world	25.310	0,02%
38	and it was	25.303	0,02%
39	and then i	25.091	0,02%
40	you have a	23.988	0,02%
41	the end of	23.885	0,02%
42	and then you	23.471	0,02%
43	i think i	23.393	0,02%
44	out of the	23.054	0,02%
45	it was like	22.869	0,02%
46	you know the	22.783	0,02%
47	when i was	22.755	0,02%
48	you got to	22.220	0,02%
49	want to be	22.218	0,02%
50	know what i	22.117	0,02%

Lista completa: top-trigrams.csv.

Delle prime 15 sequenze di tre parole, undici cominciano con un pronome. Sei contengono un esplicito I in prima persona. L'inglese parlato riguarda in modo schiacciante chi dice cosa a chi in tempo reale, e le frasi ad alta frequenza lo riflettono.

Alcune sequenze meritano attenzione perché non compaiono nell'inglese formale: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Non sono modi di dire ricercati — sono il tessuto connettivo del parlato informale.

Cosa implica la distribuzione

Da questi numeri emergono tre cose.

Il vocabolario costo-efficace è piccolo. Chi impara con un riconoscimento affidabile di 3.000 parole parlate ha la materia prima linguistica per seguire l'89% dell'inglese madrelingua su YouTube. Estendere la copertura al 95% richiede altre 5.500 parole — la maggior parte delle quali compare solo una manciata di volte nell'intero corpus da 183 milioni di parole.

La calibrazione per frequenza conta più della dimensione del vocabolario. Molti corsi e app trattano le proprie liste di vocaboli come grosso modo equivalenti. I dati dicono il contrario: il 50% di tutto il lavoro è svolto dalle prime 67 parole. Un piano di studio che non lo rispecchi è uno sforzo mal allocato.

La traduzione parola per parola è la primitiva sbagliata. Metà delle prime sequenze di tre parole sono blocchi funzionali (a lot of, i don't know, a little bit, going to be) che operano come unità. Riconoscerli per intero è un'operazione cognitiva diversa dall'analizzarli come tre parole separate. Nel parlato dal vivo, la differenza si traduce nel tenere il passo o no.

Metodologia

La pipeline che ha prodotto questi numeri:

Fonte. Sottotitoli di 37.632 video di YouTube in inglese.
Tokenizzazione. Testo in minuscolo, poi match della regex [a-z]+(?:'[a-z]+)?. In questo modo le contrazioni come don't, gonna, it's restano un singolo token, i numeri vengono scartati e la punteggiatura ignorata.
Filtraggio del rumore. I segmenti che corrispondono a ^\[.*\]$ (es. [Music], [Applause], [Inaudible]) vengono saltati prima della tokenizzazione. Sono stati rimossi così 196.433 segmenti.
Conteggio. Per gli unigrammi, si conta ogni token. Per bigrammi e trigrammi, si conta ogni sequenza di N token adiacenti all'interno di un singolo segmento di sottotitolo; le sequenze non possono attraversare i confini tra segmenti.
Le quote cumulative si calcolano ordinando per conteggio e sommando.

Cosa questa analisi non fa:

Nessuna lemmatizzazione. go, going, went e gone sono contati come voci di vocabolario distinte. È appropriato per misurare ciò che chi impara deve effettivamente riconoscere all'ascolto, ma gonfia il conteggio grezzo del vocabolario rispetto a un'analisi lemmatizzata.
Nessun tagging delle parti del discorso. like come verbo e like come marcatore discorsivo vengono contati insieme.
Nessun filtraggio dei sottotitoli generati automaticamente. Alcuni video hanno sottotitoli rivisti da persone, altri hanno didascalie auto-generate; queste ultime introducono un po' di rumore di trascrizione, soprattutto nella coda lunga.

Per cosa l'analisi è affidabile: la forma della distribuzione e l'identità delle parole e frasi ad alta frequenza. La cima della lista — the, and, to, I, like, it's, you know, i don't know — sopravvive a qualsiasi pulizia ragionevole.

Avvertenze sul corpus

I 37.632 video non sono un campione casuale di tutto l'inglese parlato. Sono un insieme curato di canali YouTube popolari in inglese, raccolti per alimentare ClipPhrase, il nostro motore di ricerca per frasi in clip video reali. Il corpus è sbilanciato verso:

Inglese americano. La maggior parte dei canali ha sede negli Stati Uniti.
Persone che parlano per professione. Conduttori di late-night, podcaster, YouTuber, anchor di telegiornali — non uno spaccato rappresentativo del parlato privato informale.
Contenuti popolari. I canali sono stati selezionati per numero di visualizzazioni e ampia portata culturale, non per varietà di dialetto o di registro.

Queste avvertenze restringono ciò che i numeri dimostrano in senso stretto. Non cambiano la forma della distribuzione né il risultato qualitativo: l'inglese parlato concentra la massa di probabilità su un piccolo vocabolario di parole funzionali e blocchi ad alta frequenza.

Provalo tu stesso

Il corpus su cui è stata eseguita questa analisi è anche un indice di ricerca. Ogni parola e ogni frase citata in questo articolo esiste in decine di migliaia di clip video reali, recuperabili tramite query. Digita I was like su ClipPhrase e ottieni cinquanta speaker diversi che la usano; digita gonna e ne ottieni qualche migliaio. Questo è lo strumento sottostante.

Download

top-words.csv — top 10.000 parole con posizione, conteggio, quota e quota cumulativa
top-bigrams.csv — top 5.000 sequenze di due parole
top-trigrams.csv — top 5.000 sequenze di tre parole

Se usi questi dati nei tuoi scritti o nella tua ricerca, un link a questa pagina è apprezzato.