ClipPhrase
← Torna al blog

Abbiamo analizzato 37.000 video di YouTube. Ecco com'è davvero l'inglese parlato

182,9 milioni di parole pronunciate in 37.632 video di YouTube in inglese. Bastano 67 parole per coprire metà di tutto ciò che viene detto. Liste di frequenza complete di parole e frasi, grafici e dati scaricabili.

4 maggio 202612 min di letturaClipPhrase Team

Abbiamo preso i sottotitoli di 37.632 video di YouTube in inglese dal nostro indice di ricerca — late-night show, documentari, podcast, divulgazione scientifica, notiziari, talk show, vlog — e abbiamo eseguito un'analisi di frequenza su ogni parola e ogni breve sequenza di parole pronunciata. 182,9 milioni di parole in totale.

Questo articolo ne è il resoconto completo. Tutti i CSV sottostanti sono linkati in fondo, per chi voglia consultare i dati grezzi.

Il corpus, in numeri

Video analizzati37.632
Segmenti di sottotitoli26.203.765
Segmenti non vocali esclusi ([Music], [Applause], ecc.)196.433
Token vocali totali182.933.444
Parole uniche (dimensione del vocabolario)384.132
Media di parole per video4.861
Sequenze uniche di due parole11.240.282
Sequenze uniche di tre parole42.037.127

Metà di tutto l'inglese parlato sta in 67 parole

La distribuzione è di una sproporzione brutale.

Quante parole servono per coprire l'X% dell'inglese parlato

Devi conoscere……per riconoscere questa quota di tutto l'inglese parlato
67 parole50%
505 parole75%
906 parole80%
1.677 parole85%
2.900 parole89%
3.368 parole90%
8.381 parole95%
36.916 parole99%

Vale la pena evidenziare alcuni punti:

  • La sola parola the rappresenta il 4,04% di tutto l'inglese parlato — una parola su venticinque che senti è the.
  • Le prime 10 parole da sole coprono il 23,2% del parlato. Quasi un quarto di ogni conversazione tra madrelingua poggia su dieci token riciclati.
  • I rendimenti decrescenti arrivano in fretta. Passare dall'89% al 95% di comprensione triplica quasi il vocabolario richiesto. Dal 95% al 99% lo moltiplica per altre quattro volte.

Si tratta di una versione più marcata della legge di Zipf rispetto a quella che emerge dai corpora scritti. I libri distribuiscono la massa di probabilità su un vocabolario più ampio; il parlato la concentra.

Distribuzione di Zipf dell'inglese parlato in 37K video di YouTube

Il grafico qui sopra è in scala log-log. Una lingua puramente zipfiana formerebbe una linea retta; l'inglese parlato ci si avvicina molto, con una leggera piega alle frequenze più alte e la lunga coda di parole rare che si dirada sotto il rango 10⁵.

Top 50 delle parole parlate

PosizioneParolaConteggioQuotaCumulativo
1the7.387.2374,04%4,04%
2and5.202.1562,84%6,88%
3to4.806.2422,63%9,51%
4i4.324.5922,36%11,87%
5a4.264.0552,33%14,20%
6you4.064.5552,22%16,43%
7of3.724.2772,04%18,46%
8that3.492.1101,91%20,37%
9it2.634.6901,44%21,81%
10in2.521.0461,38%23,19%
11like2.494.1841,36%24,55%
12is2.369.9261,30%25,85%
13this1.781.7150,97%26,82%
14so1.654.6330,90%27,73%
15was1.501.0380,82%28,55%
16it's1.410.8620,77%29,32%
17for1.305.4700,71%30,03%
18but1.274.1940,70%30,73%
19we1.248.3370,68%31,41%
20on1.216.2940,66%32,08%
21know1.167.9080,64%32,71%
22have1.137.6730,62%33,34%
23just1.134.7930,62%33,96%
24what1.032.6890,56%34,52%
25they1.020.6700,56%35,08%
26with1.007.6530,55%35,63%
27yeah962.1910,53%36,16%
28be957.7830,52%36,68%
29are898.6260,49%37,17%
30not872.7340,48%37,65%
31do870.8120,48%38,12%
32i'm821.4780,45%38,57%
33my804.9930,44%39,01%
34all799.5430,44%39,45%
35if756.3600,41%39,86%
36that's738.8510,40%40,27%
37at732.3600,40%40,67%
38about717.3880,39%41,06%
39he714.4070,39%41,45%
40your696.6360,38%41,83%
41one695.2270,38%42,21%
42as684.7050,37%42,59%
43or678.8710,37%42,96%
44can672.3880,37%43,32%
45think654.5090,36%43,68%
46right647.7160,35%44,04%
47don't637.1340,35%44,38%
48me616.9440,34%44,72%
49there597.2790,33%45,05%
50people592.2960,32%45,37%

La lista completa delle prime 10.000 parole è disponibile come CSV.

Ciò che colpisce di questa top 50 non è cosa c'è — the, and, to sarebbero in cima a qualsiasi corpus inglese — ma dove certi elementi si collocano:

  • like all'#11 è un marcatore discorsivo, non il verbo. In un corpus di libri sarebbe molto più in basso.
  • Cinque contrazioni entrano nella top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e probabilmente altre più giù. I corpora scritti le scompongono nelle loro forme estese.
  • yeah al #27 è puro collante conversazionale. Nei libri compare a malapena.
  • know, just e right sono usati qui prevalentemente come attenuatori del discorso (you know, I just wanted, yeah, right), non nei loro significati da dizionario.

La cima della lista è un'istantanea di come il parlato differisca dalla scrittura: contrazioni, intercalari e attenuatori figurano insieme ad articoli e pronomi come vocabolario portante.

Il parlato è costruito a blocchi

Quando contiamo sequenze di due e tre parole anziché parole singole, emerge una struttura diversa. Le unità più frequenti dell'inglese parlato non sono parole isolate, ma brevi frasi ricorrenti.

Top 50 delle sequenze di due parole

PosizioneFraseConteggioQuota
1you know651.6590,42%
2of the610.4730,39%
3in the597.9730,38%
4going to391.9620,25%
5and i369.0690,24%
6i think360.6050,23%
7this is354.8860,23%
8to be349.2930,22%
9i was294.7490,19%
10i don't280.1650,18%
11it was279.4920,18%
12and then279.0610,18%
13to the271.4830,17%
14on the269.6980,17%
15kind of253.8900,16%
16a lot248.7870,16%
17want to240.1290,15%
18if you239.7040,15%
19you can214.7970,14%
20and the211.5770,13%
21i mean198.8830,13%
22lot of188.4010,12%
23to do188.3010,12%
24in a185.9600,12%
25is a183.8380,12%
26like a180.6150,12%
27at the169.4240,11%
28have to168.8630,11%
29one of161.6570,10%
30have a160.1630,10%
31that i159.8870,10%
32is the159.8620,10%
33you have158.2250,10%
34do you158.1540,10%
35and you156.4100,10%
36that you150.8180,10%
37for the147.4920,09%
38a little146.5850,09%
39to get143.0310,09%
40like i141.1390,09%
41so i140.1930,09%
42it is137.3250,09%
43don't know136.7140,09%
44was like136.3960,09%
45it's a136.0950,09%
46and so135.2090,09%
47of a134.5890,09%
48with the132.1770,08%
49but i131.3800,08%
50was a126.1610,08%

Lista completa: top-bigrams.csv.

Tre osservazioni:

  1. you know batte qualsiasi pilastro grammaticale. È la coppia di parole singolarmente più comune dell'inglese parlato — più frequente di of the o in the.
  2. La top 50 è densa di costruzioni in prima persona: and i, i think, i was, i don't, i mean. Il parlato riguarda perlopiù chi sta parlando.
  3. kind of, a lot, a little, like a, was like — attenuatori informali e costruzioni quotative tipo like sono ovunque nella top 50.

Top 50 delle sequenze di tre parole

PosizioneFraseConteggioQuota
1a lot of170.9610,13%
2i don't know96.4550,07%
3one of the82.6930,06%
4going to be72.2930,05%
5a little bit64.9300,05%
6i was like60.9150,05%
7i'm going to55.9400,04%
8i want to55.0710,04%
9you want to54.9080,04%
10you know what52.9250,04%
11you have to44.9850,03%
12you know i43.5380,03%
13this is a43.4570,03%
14this is the41.6640,03%
15and i think40.2140,03%
16and i was39.3400,03%
17i feel like38.0190,03%
18we're going to35.6870,03%
19oh my god35.2030,03%
20to be a33.2290,03%
21what do you32.7470,02%
22be able to32.2630,02%
23i don't think31.9860,02%
24it was a30.7170,02%
25and you know30.3210,02%
26you're going to29.7310,02%
27like you know29.4200,02%
28don't want to29.2490,02%
29some of the28.9530,02%
30is going to28.7870,02%
31i think it's28.7190,02%
32not going to27.4060,02%
33do you think27.1960,02%
34and this is25.7630,02%
35i think that25.7620,02%
36i mean i25.4190,02%
37in the world25.3100,02%
38and it was25.3030,02%
39and then i25.0910,02%
40you have a23.9880,02%
41the end of23.8850,02%
42and then you23.4710,02%
43i think i23.3930,02%
44out of the23.0540,02%
45it was like22.8690,02%
46you know the22.7830,02%
47when i was22.7550,02%
48you got to22.2200,02%
49want to be22.2180,02%
50know what i22.1170,02%

Lista completa: top-trigrams.csv.

Delle prime 15 sequenze di tre parole, undici cominciano con un pronome. Sei contengono un esplicito I in prima persona. L'inglese parlato riguarda in modo schiacciante chi dice cosa a chi in tempo reale, e le frasi ad alta frequenza lo riflettono.

Alcune sequenze meritano attenzione perché non compaiono nell'inglese formale: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Non sono modi di dire ricercati — sono il tessuto connettivo del parlato informale.

Cosa implica la distribuzione

Da questi numeri emergono tre cose.

Il vocabolario costo-efficace è piccolo. Chi impara con un riconoscimento affidabile di 3.000 parole parlate ha la materia prima linguistica per seguire l'89% dell'inglese madrelingua su YouTube. Estendere la copertura al 95% richiede altre 5.500 parole — la maggior parte delle quali compare solo una manciata di volte nell'intero corpus da 183 milioni di parole.

La calibrazione per frequenza conta più della dimensione del vocabolario. Molti corsi e app trattano le proprie liste di vocaboli come grosso modo equivalenti. I dati dicono il contrario: il 50% di tutto il lavoro è svolto dalle prime 67 parole. Un piano di studio che non lo rispecchi è uno sforzo mal allocato.

La traduzione parola per parola è la primitiva sbagliata. Metà delle prime sequenze di tre parole sono blocchi funzionali (a lot of, i don't know, a little bit, going to be) che operano come unità. Riconoscerli per intero è un'operazione cognitiva diversa dall'analizzarli come tre parole separate. Nel parlato dal vivo, la differenza si traduce nel tenere il passo o no.

Metodologia

La pipeline che ha prodotto questi numeri:

  1. Fonte. Sottotitoli di 37.632 video di YouTube in inglese.
  2. Tokenizzazione. Testo in minuscolo, poi match della regex [a-z]+(?:'[a-z]+)?. In questo modo le contrazioni come don't, gonna, it's restano un singolo token, i numeri vengono scartati e la punteggiatura ignorata.
  3. Filtraggio del rumore. I segmenti che corrispondono a ^\[.*\]$ (es. [Music], [Applause], [Inaudible]) vengono saltati prima della tokenizzazione. Sono stati rimossi così 196.433 segmenti.
  4. Conteggio. Per gli unigrammi, si conta ogni token. Per bigrammi e trigrammi, si conta ogni sequenza di N token adiacenti all'interno di un singolo segmento di sottotitolo; le sequenze non possono attraversare i confini tra segmenti.
  5. Le quote cumulative si calcolano ordinando per conteggio e sommando.

Cosa questa analisi non fa:

  • Nessuna lemmatizzazione. go, going, went e gone sono contati come voci di vocabolario distinte. È appropriato per misurare ciò che chi impara deve effettivamente riconoscere all'ascolto, ma gonfia il conteggio grezzo del vocabolario rispetto a un'analisi lemmatizzata.
  • Nessun tagging delle parti del discorso. like come verbo e like come marcatore discorsivo vengono contati insieme.
  • Nessun filtraggio dei sottotitoli generati automaticamente. Alcuni video hanno sottotitoli rivisti da persone, altri hanno didascalie auto-generate; queste ultime introducono un po' di rumore di trascrizione, soprattutto nella coda lunga.

Per cosa l'analisi è affidabile: la forma della distribuzione e l'identità delle parole e frasi ad alta frequenza. La cima della lista — the, and, to, I, like, it's, you know, i don't know — sopravvive a qualsiasi pulizia ragionevole.

Avvertenze sul corpus

I 37.632 video non sono un campione casuale di tutto l'inglese parlato. Sono un insieme curato di canali YouTube popolari in inglese, raccolti per alimentare ClipPhrase, il nostro motore di ricerca per frasi in clip video reali. Il corpus è sbilanciato verso:

  • Inglese americano. La maggior parte dei canali ha sede negli Stati Uniti.
  • Persone che parlano per professione. Conduttori di late-night, podcaster, YouTuber, anchor di telegiornali — non uno spaccato rappresentativo del parlato privato informale.
  • Contenuti popolari. I canali sono stati selezionati per numero di visualizzazioni e ampia portata culturale, non per varietà di dialetto o di registro.

Queste avvertenze restringono ciò che i numeri dimostrano in senso stretto. Non cambiano la forma della distribuzione né il risultato qualitativo: l'inglese parlato concentra la massa di probabilità su un piccolo vocabolario di parole funzionali e blocchi ad alta frequenza.

Provalo tu stesso

Il corpus su cui è stata eseguita questa analisi è anche un indice di ricerca. Ogni parola e ogni frase citata in questo articolo esiste in decine di migliaia di clip video reali, recuperabili tramite query. Digita I was like su ClipPhrase e ottieni cinquanta speaker diversi che la usano; digita gonna e ne ottieni qualche migliaio. Questo è lo strumento sottostante.

Download

Se usi questi dati nei tuoi scritti o nella tua ricerca, un link a questa pagina è apprezzato.