Abbiamo analizzato 37.000 video di YouTube. Ecco com'è davvero l'inglese parlato
182,9 milioni di parole pronunciate in 37.632 video di YouTube in inglese. Bastano 67 parole per coprire metà di tutto ciò che viene detto. Liste di frequenza complete di parole e frasi, grafici e dati scaricabili.
Abbiamo preso i sottotitoli di 37.632 video di YouTube in inglese dal nostro indice di ricerca — late-night show, documentari, podcast, divulgazione scientifica, notiziari, talk show, vlog — e abbiamo eseguito un'analisi di frequenza su ogni parola e ogni breve sequenza di parole pronunciata. 182,9 milioni di parole in totale.
Questo articolo ne è il resoconto completo. Tutti i CSV sottostanti sono linkati in fondo, per chi voglia consultare i dati grezzi.
Il corpus, in numeri
| Video analizzati | 37.632 |
| Segmenti di sottotitoli | 26.203.765 |
Segmenti non vocali esclusi ([Music], [Applause], ecc.) | 196.433 |
| Token vocali totali | 182.933.444 |
| Parole uniche (dimensione del vocabolario) | 384.132 |
| Media di parole per video | 4.861 |
| Sequenze uniche di due parole | 11.240.282 |
| Sequenze uniche di tre parole | 42.037.127 |
Metà di tutto l'inglese parlato sta in 67 parole
La distribuzione è di una sproporzione brutale.

| Devi conoscere… | …per riconoscere questa quota di tutto l'inglese parlato |
|---|---|
| 67 parole | 50% |
| 505 parole | 75% |
| 906 parole | 80% |
| 1.677 parole | 85% |
| 2.900 parole | 89% |
| 3.368 parole | 90% |
| 8.381 parole | 95% |
| 36.916 parole | 99% |
Vale la pena evidenziare alcuni punti:
- La sola parola the rappresenta il 4,04% di tutto l'inglese parlato — una parola su venticinque che senti è the.
- Le prime 10 parole da sole coprono il 23,2% del parlato. Quasi un quarto di ogni conversazione tra madrelingua poggia su dieci token riciclati.
- I rendimenti decrescenti arrivano in fretta. Passare dall'89% al 95% di comprensione triplica quasi il vocabolario richiesto. Dal 95% al 99% lo moltiplica per altre quattro volte.
Si tratta di una versione più marcata della legge di Zipf rispetto a quella che emerge dai corpora scritti. I libri distribuiscono la massa di probabilità su un vocabolario più ampio; il parlato la concentra.

Il grafico qui sopra è in scala log-log. Una lingua puramente zipfiana formerebbe una linea retta; l'inglese parlato ci si avvicina molto, con una leggera piega alle frequenze più alte e la lunga coda di parole rare che si dirada sotto il rango 10⁵.
Top 50 delle parole parlate
| Posizione | Parola | Conteggio | Quota | Cumulativo |
|---|---|---|---|---|
| 1 | the | 7.387.237 | 4,04% | 4,04% |
| 2 | and | 5.202.156 | 2,84% | 6,88% |
| 3 | to | 4.806.242 | 2,63% | 9,51% |
| 4 | i | 4.324.592 | 2,36% | 11,87% |
| 5 | a | 4.264.055 | 2,33% | 14,20% |
| 6 | you | 4.064.555 | 2,22% | 16,43% |
| 7 | of | 3.724.277 | 2,04% | 18,46% |
| 8 | that | 3.492.110 | 1,91% | 20,37% |
| 9 | it | 2.634.690 | 1,44% | 21,81% |
| 10 | in | 2.521.046 | 1,38% | 23,19% |
| 11 | like | 2.494.184 | 1,36% | 24,55% |
| 12 | is | 2.369.926 | 1,30% | 25,85% |
| 13 | this | 1.781.715 | 0,97% | 26,82% |
| 14 | so | 1.654.633 | 0,90% | 27,73% |
| 15 | was | 1.501.038 | 0,82% | 28,55% |
| 16 | it's | 1.410.862 | 0,77% | 29,32% |
| 17 | for | 1.305.470 | 0,71% | 30,03% |
| 18 | but | 1.274.194 | 0,70% | 30,73% |
| 19 | we | 1.248.337 | 0,68% | 31,41% |
| 20 | on | 1.216.294 | 0,66% | 32,08% |
| 21 | know | 1.167.908 | 0,64% | 32,71% |
| 22 | have | 1.137.673 | 0,62% | 33,34% |
| 23 | just | 1.134.793 | 0,62% | 33,96% |
| 24 | what | 1.032.689 | 0,56% | 34,52% |
| 25 | they | 1.020.670 | 0,56% | 35,08% |
| 26 | with | 1.007.653 | 0,55% | 35,63% |
| 27 | yeah | 962.191 | 0,53% | 36,16% |
| 28 | be | 957.783 | 0,52% | 36,68% |
| 29 | are | 898.626 | 0,49% | 37,17% |
| 30 | not | 872.734 | 0,48% | 37,65% |
| 31 | do | 870.812 | 0,48% | 38,12% |
| 32 | i'm | 821.478 | 0,45% | 38,57% |
| 33 | my | 804.993 | 0,44% | 39,01% |
| 34 | all | 799.543 | 0,44% | 39,45% |
| 35 | if | 756.360 | 0,41% | 39,86% |
| 36 | that's | 738.851 | 0,40% | 40,27% |
| 37 | at | 732.360 | 0,40% | 40,67% |
| 38 | about | 717.388 | 0,39% | 41,06% |
| 39 | he | 714.407 | 0,39% | 41,45% |
| 40 | your | 696.636 | 0,38% | 41,83% |
| 41 | one | 695.227 | 0,38% | 42,21% |
| 42 | as | 684.705 | 0,37% | 42,59% |
| 43 | or | 678.871 | 0,37% | 42,96% |
| 44 | can | 672.388 | 0,37% | 43,32% |
| 45 | think | 654.509 | 0,36% | 43,68% |
| 46 | right | 647.716 | 0,35% | 44,04% |
| 47 | don't | 637.134 | 0,35% | 44,38% |
| 48 | me | 616.944 | 0,34% | 44,72% |
| 49 | there | 597.279 | 0,33% | 45,05% |
| 50 | people | 592.296 | 0,32% | 45,37% |
La lista completa delle prime 10.000 parole è disponibile come CSV.
Ciò che colpisce di questa top 50 non è cosa c'è — the, and, to sarebbero in cima a qualsiasi corpus inglese — ma dove certi elementi si collocano:
likeall'#11 è un marcatore discorsivo, non il verbo. In un corpus di libri sarebbe molto più in basso.- Cinque contrazioni entrano nella top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e probabilmente altre più giù. I corpora scritti le scompongono nelle loro forme estese.
yeahal #27 è puro collante conversazionale. Nei libri compare a malapena.know,justerightsono usati qui prevalentemente come attenuatori del discorso (you know, I just wanted, yeah, right), non nei loro significati da dizionario.
La cima della lista è un'istantanea di come il parlato differisca dalla scrittura: contrazioni, intercalari e attenuatori figurano insieme ad articoli e pronomi come vocabolario portante.
Il parlato è costruito a blocchi
Quando contiamo sequenze di due e tre parole anziché parole singole, emerge una struttura diversa. Le unità più frequenti dell'inglese parlato non sono parole isolate, ma brevi frasi ricorrenti.
Top 50 delle sequenze di due parole
| Posizione | Frase | Conteggio | Quota |
|---|---|---|---|
| 1 | you know | 651.659 | 0,42% |
| 2 | of the | 610.473 | 0,39% |
| 3 | in the | 597.973 | 0,38% |
| 4 | going to | 391.962 | 0,25% |
| 5 | and i | 369.069 | 0,24% |
| 6 | i think | 360.605 | 0,23% |
| 7 | this is | 354.886 | 0,23% |
| 8 | to be | 349.293 | 0,22% |
| 9 | i was | 294.749 | 0,19% |
| 10 | i don't | 280.165 | 0,18% |
| 11 | it was | 279.492 | 0,18% |
| 12 | and then | 279.061 | 0,18% |
| 13 | to the | 271.483 | 0,17% |
| 14 | on the | 269.698 | 0,17% |
| 15 | kind of | 253.890 | 0,16% |
| 16 | a lot | 248.787 | 0,16% |
| 17 | want to | 240.129 | 0,15% |
| 18 | if you | 239.704 | 0,15% |
| 19 | you can | 214.797 | 0,14% |
| 20 | and the | 211.577 | 0,13% |
| 21 | i mean | 198.883 | 0,13% |
| 22 | lot of | 188.401 | 0,12% |
| 23 | to do | 188.301 | 0,12% |
| 24 | in a | 185.960 | 0,12% |
| 25 | is a | 183.838 | 0,12% |
| 26 | like a | 180.615 | 0,12% |
| 27 | at the | 169.424 | 0,11% |
| 28 | have to | 168.863 | 0,11% |
| 29 | one of | 161.657 | 0,10% |
| 30 | have a | 160.163 | 0,10% |
| 31 | that i | 159.887 | 0,10% |
| 32 | is the | 159.862 | 0,10% |
| 33 | you have | 158.225 | 0,10% |
| 34 | do you | 158.154 | 0,10% |
| 35 | and you | 156.410 | 0,10% |
| 36 | that you | 150.818 | 0,10% |
| 37 | for the | 147.492 | 0,09% |
| 38 | a little | 146.585 | 0,09% |
| 39 | to get | 143.031 | 0,09% |
| 40 | like i | 141.139 | 0,09% |
| 41 | so i | 140.193 | 0,09% |
| 42 | it is | 137.325 | 0,09% |
| 43 | don't know | 136.714 | 0,09% |
| 44 | was like | 136.396 | 0,09% |
| 45 | it's a | 136.095 | 0,09% |
| 46 | and so | 135.209 | 0,09% |
| 47 | of a | 134.589 | 0,09% |
| 48 | with the | 132.177 | 0,08% |
| 49 | but i | 131.380 | 0,08% |
| 50 | was a | 126.161 | 0,08% |
Lista completa: top-bigrams.csv.
Tre osservazioni:
you knowbatte qualsiasi pilastro grammaticale. È la coppia di parole singolarmente più comune dell'inglese parlato — più frequente di of the o in the.- La top 50 è densa di costruzioni in prima persona: and i, i think, i was, i don't, i mean. Il parlato riguarda perlopiù chi sta parlando.
kind of,a lot,a little,like a,was like— attenuatori informali e costruzioni quotative tipo like sono ovunque nella top 50.
Top 50 delle sequenze di tre parole
| Posizione | Frase | Conteggio | Quota |
|---|---|---|---|
| 1 | a lot of | 170.961 | 0,13% |
| 2 | i don't know | 96.455 | 0,07% |
| 3 | one of the | 82.693 | 0,06% |
| 4 | going to be | 72.293 | 0,05% |
| 5 | a little bit | 64.930 | 0,05% |
| 6 | i was like | 60.915 | 0,05% |
| 7 | i'm going to | 55.940 | 0,04% |
| 8 | i want to | 55.071 | 0,04% |
| 9 | you want to | 54.908 | 0,04% |
| 10 | you know what | 52.925 | 0,04% |
| 11 | you have to | 44.985 | 0,03% |
| 12 | you know i | 43.538 | 0,03% |
| 13 | this is a | 43.457 | 0,03% |
| 14 | this is the | 41.664 | 0,03% |
| 15 | and i think | 40.214 | 0,03% |
| 16 | and i was | 39.340 | 0,03% |
| 17 | i feel like | 38.019 | 0,03% |
| 18 | we're going to | 35.687 | 0,03% |
| 19 | oh my god | 35.203 | 0,03% |
| 20 | to be a | 33.229 | 0,03% |
| 21 | what do you | 32.747 | 0,02% |
| 22 | be able to | 32.263 | 0,02% |
| 23 | i don't think | 31.986 | 0,02% |
| 24 | it was a | 30.717 | 0,02% |
| 25 | and you know | 30.321 | 0,02% |
| 26 | you're going to | 29.731 | 0,02% |
| 27 | like you know | 29.420 | 0,02% |
| 28 | don't want to | 29.249 | 0,02% |
| 29 | some of the | 28.953 | 0,02% |
| 30 | is going to | 28.787 | 0,02% |
| 31 | i think it's | 28.719 | 0,02% |
| 32 | not going to | 27.406 | 0,02% |
| 33 | do you think | 27.196 | 0,02% |
| 34 | and this is | 25.763 | 0,02% |
| 35 | i think that | 25.762 | 0,02% |
| 36 | i mean i | 25.419 | 0,02% |
| 37 | in the world | 25.310 | 0,02% |
| 38 | and it was | 25.303 | 0,02% |
| 39 | and then i | 25.091 | 0,02% |
| 40 | you have a | 23.988 | 0,02% |
| 41 | the end of | 23.885 | 0,02% |
| 42 | and then you | 23.471 | 0,02% |
| 43 | i think i | 23.393 | 0,02% |
| 44 | out of the | 23.054 | 0,02% |
| 45 | it was like | 22.869 | 0,02% |
| 46 | you know the | 22.783 | 0,02% |
| 47 | when i was | 22.755 | 0,02% |
| 48 | you got to | 22.220 | 0,02% |
| 49 | want to be | 22.218 | 0,02% |
| 50 | know what i | 22.117 | 0,02% |
Lista completa: top-trigrams.csv.
Delle prime 15 sequenze di tre parole, undici cominciano con un pronome. Sei contengono un esplicito I in prima persona. L'inglese parlato riguarda in modo schiacciante chi dice cosa a chi in tempo reale, e le frasi ad alta frequenza lo riflettono.
Alcune sequenze meritano attenzione perché non compaiono nell'inglese formale: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Non sono modi di dire ricercati — sono il tessuto connettivo del parlato informale.
Cosa implica la distribuzione
Da questi numeri emergono tre cose.
Il vocabolario costo-efficace è piccolo. Chi impara con un riconoscimento affidabile di 3.000 parole parlate ha la materia prima linguistica per seguire l'89% dell'inglese madrelingua su YouTube. Estendere la copertura al 95% richiede altre 5.500 parole — la maggior parte delle quali compare solo una manciata di volte nell'intero corpus da 183 milioni di parole.
La calibrazione per frequenza conta più della dimensione del vocabolario. Molti corsi e app trattano le proprie liste di vocaboli come grosso modo equivalenti. I dati dicono il contrario: il 50% di tutto il lavoro è svolto dalle prime 67 parole. Un piano di studio che non lo rispecchi è uno sforzo mal allocato.
La traduzione parola per parola è la primitiva sbagliata. Metà delle prime sequenze di tre parole sono blocchi funzionali (a lot of, i don't know, a little bit, going to be) che operano come unità. Riconoscerli per intero è un'operazione cognitiva diversa dall'analizzarli come tre parole separate. Nel parlato dal vivo, la differenza si traduce nel tenere il passo o no.
Metodologia
La pipeline che ha prodotto questi numeri:
- Fonte. Sottotitoli di 37.632 video di YouTube in inglese.
- Tokenizzazione. Testo in minuscolo, poi match della regex
[a-z]+(?:'[a-z]+)?. In questo modo le contrazioni come don't, gonna, it's restano un singolo token, i numeri vengono scartati e la punteggiatura ignorata. - Filtraggio del rumore. I segmenti che corrispondono a
^\[.*\]$(es.[Music],[Applause],[Inaudible]) vengono saltati prima della tokenizzazione. Sono stati rimossi così 196.433 segmenti. - Conteggio. Per gli unigrammi, si conta ogni token. Per bigrammi e trigrammi, si conta ogni sequenza di N token adiacenti all'interno di un singolo segmento di sottotitolo; le sequenze non possono attraversare i confini tra segmenti.
- Le quote cumulative si calcolano ordinando per conteggio e sommando.
Cosa questa analisi non fa:
- Nessuna lemmatizzazione. go, going, went e gone sono contati come voci di vocabolario distinte. È appropriato per misurare ciò che chi impara deve effettivamente riconoscere all'ascolto, ma gonfia il conteggio grezzo del vocabolario rispetto a un'analisi lemmatizzata.
- Nessun tagging delle parti del discorso. like come verbo e like come marcatore discorsivo vengono contati insieme.
- Nessun filtraggio dei sottotitoli generati automaticamente. Alcuni video hanno sottotitoli rivisti da persone, altri hanno didascalie auto-generate; queste ultime introducono un po' di rumore di trascrizione, soprattutto nella coda lunga.
Per cosa l'analisi è affidabile: la forma della distribuzione e l'identità delle parole e frasi ad alta frequenza. La cima della lista — the, and, to, I, like, it's, you know, i don't know — sopravvive a qualsiasi pulizia ragionevole.
Avvertenze sul corpus
I 37.632 video non sono un campione casuale di tutto l'inglese parlato. Sono un insieme curato di canali YouTube popolari in inglese, raccolti per alimentare ClipPhrase, il nostro motore di ricerca per frasi in clip video reali. Il corpus è sbilanciato verso:
- Inglese americano. La maggior parte dei canali ha sede negli Stati Uniti.
- Persone che parlano per professione. Conduttori di late-night, podcaster, YouTuber, anchor di telegiornali — non uno spaccato rappresentativo del parlato privato informale.
- Contenuti popolari. I canali sono stati selezionati per numero di visualizzazioni e ampia portata culturale, non per varietà di dialetto o di registro.
Queste avvertenze restringono ciò che i numeri dimostrano in senso stretto. Non cambiano la forma della distribuzione né il risultato qualitativo: l'inglese parlato concentra la massa di probabilità su un piccolo vocabolario di parole funzionali e blocchi ad alta frequenza.
Provalo tu stesso
Il corpus su cui è stata eseguita questa analisi è anche un indice di ricerca. Ogni parola e ogni frase citata in questo articolo esiste in decine di migliaia di clip video reali, recuperabili tramite query. Digita I was like su ClipPhrase e ottieni cinquanta speaker diversi che la usano; digita gonna e ne ottieni qualche migliaio. Questo è lo strumento sottostante.
Download
- top-words.csv — top 10.000 parole con posizione, conteggio, quota e quota cumulativa
- top-bigrams.csv — top 5.000 sequenze di due parole
- top-trigrams.csv — top 5.000 sequenze di tre parole
Se usi questi dati nei tuoi scritti o nella tua ricerca, un link a questa pagina è apprezzato.