ClipPhrase
← Voltar ao blog

Analisamos 37.000 vídeos do YouTube. Veja como o inglês falado realmente é

182,9 milhões de palavras faladas em 37.632 vídeos do YouTube em inglês. Apenas 67 palavras compõem metade de tudo o que se diz. Listas completas de frequência de palavras e frases, gráficos e dados para download.

4 de maio de 202612 min de leituraClipPhrase Team

Pegamos as legendas de 37.632 vídeos do YouTube em inglês do nosso índice de busca — programas noturnos, documentários, podcasts, canais de divulgação científica, jornais, talk shows, vlogs — e rodamos uma análise de frequência sobre cada palavra e cada frase curta dita ali. 182,9 milhões de palavras no total.

Este artigo é o relato completo. Todos os CSVs que sustentam a análise estão linkados no final, para quem quiser olhar os dados brutos.

O corpus, em números

Vídeos analisados37.632
Segmentos de legenda26.203.765
Segmentos não-falados ignorados ([Music], [Applause] etc.)196.433
Total de tokens falados182.933.444
Palavras únicas (tamanho do vocabulário)384.132
Média de palavras por vídeo4.861
Sequências únicas de duas palavras11.240.282
Sequências únicas de três palavras42.037.127

Metade de todo o inglês falado são 67 palavras

A distribuição é brutalmente desigual.

Quantas palavras você precisa para cobrir X% do inglês falado

Você precisa conhecer……para reconhecer esta fração de todo o inglês falado
67 palavras50%
505 palavras75%
906 palavras80%
1.677 palavras85%
2.900 palavras89%
3.368 palavras90%
8.381 palavras95%
36.916 palavras99%

Alguns pontos que vale destacar:

  • A palavra the, sozinha, responde por 4,04% de todo o inglês falado — uma a cada vinte e cinco palavras que você ouve é the.
  • As 10 palavras mais frequentes cobrem 23,2% de toda a fala. Quase um quarto de qualquer conversa entre nativos roda sobre dez tokens reciclados.
  • Os retornos despencam rápido. Sair de 89% para 95% de compreensão quase triplica o vocabulário necessário. De 95% para 99%, multiplica por mais quatro.

Essa é uma versão mais acentuada da lei de Zipf do que a observada em corpora escritos. Os livros distribuem sua massa de probabilidade por um vocabulário maior; a fala a concentra.

Distribuição de Zipf do inglês falado em 37 mil vídeos do YouTube

O gráfico acima está em eixos log-log. Uma língua puramente zipfiana formaria uma linha reta; o inglês falado quase faz isso, com uma leve curvatura nas frequências mais altas e a longa cauda de palavras raras se afinando depois da posição 10⁵.

As 50 palavras faladas mais comuns

PosiçãoPalavraContagemPorcentagemAcumulado
1the7.387.2374,04%4,04%
2and5.202.1562,84%6,88%
3to4.806.2422,63%9,51%
4i4.324.5922,36%11,87%
5a4.264.0552,33%14,20%
6you4.064.5552,22%16,43%
7of3.724.2772,04%18,46%
8that3.492.1101,91%20,37%
9it2.634.6901,44%21,81%
10in2.521.0461,38%23,19%
11like2.494.1841,36%24,55%
12is2.369.9261,30%25,85%
13this1.781.7150,97%26,82%
14so1.654.6330,90%27,73%
15was1.501.0380,82%28,55%
16it's1.410.8620,77%29,32%
17for1.305.4700,71%30,03%
18but1.274.1940,70%30,73%
19we1.248.3370,68%31,41%
20on1.216.2940,66%32,08%
21know1.167.9080,64%32,71%
22have1.137.6730,62%33,34%
23just1.134.7930,62%33,96%
24what1.032.6890,56%34,52%
25they1.020.6700,56%35,08%
26with1.007.6530,55%35,63%
27yeah962.1910,53%36,16%
28be957.7830,52%36,68%
29are898.6260,49%37,17%
30not872.7340,48%37,65%
31do870.8120,48%38,12%
32i'm821.4780,45%38,57%
33my804.9930,44%39,01%
34all799.5430,44%39,45%
35if756.3600,41%39,86%
36that's738.8510,40%40,27%
37at732.3600,40%40,67%
38about717.3880,39%41,06%
39he714.4070,39%41,45%
40your696.6360,38%41,83%
41one695.2270,38%42,21%
42as684.7050,37%42,59%
43or678.8710,37%42,96%
44can672.3880,37%43,32%
45think654.5090,36%43,68%
46right647.7160,35%44,04%
47don't637.1340,35%44,38%
48me616.9440,34%44,72%
49there597.2790,33%45,05%
50people592.2960,32%45,37%

A lista completa com as 10.000 palavras mais frequentes está disponível em CSV.

O que chama a atenção neste top 50 não é o que está lá — the, and, to lideram qualquer corpus de inglês — mas onde algumas coisas aparecem:

  • like na posição 11 é um marcador discursivo, não o verbo. Em um corpus de livros, estaria muito mais abaixo.
  • Cinco contrações entram no top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e provavelmente outras mais abaixo. Corpora escritos as desmembram em suas formas completas.
  • yeah na posição 27 é cola puramente conversacional. Em livros, quase não aparece.
  • know, just e right são usadas aqui sobretudo como atenuadores de discurso (you know, I just wanted, yeah, right), e não em seus sentidos de dicionário.

O topo da lista é uma fotografia de como a fala difere do texto: contrações, bordões e atenuadores aparecem lado a lado com artigos e pronomes como vocabulário de sustentação.

A fala é construída em blocos

Quando contamos sequências de duas e três palavras em vez de palavras isoladas, surge uma estrutura diferente. As unidades mais frequentes do inglês falado não são palavras isoladas, mas frases curtas e recorrentes.

Top 50 sequências de duas palavras

PosiçãoFraseContagemPorcentagem
1you know651.6590,42%
2of the610.4730,39%
3in the597.9730,38%
4going to391.9620,25%
5and i369.0690,24%
6i think360.6050,23%
7this is354.8860,23%
8to be349.2930,22%
9i was294.7490,19%
10i don't280.1650,18%
11it was279.4920,18%
12and then279.0610,18%
13to the271.4830,17%
14on the269.6980,17%
15kind of253.8900,16%
16a lot248.7870,16%
17want to240.1290,15%
18if you239.7040,15%
19you can214.7970,14%
20and the211.5770,13%
21i mean198.8830,13%
22lot of188.4010,12%
23to do188.3010,12%
24in a185.9600,12%
25is a183.8380,12%
26like a180.6150,12%
27at the169.4240,11%
28have to168.8630,11%
29one of161.6570,10%
30have a160.1630,10%
31that i159.8870,10%
32is the159.8620,10%
33you have158.2250,10%
34do you158.1540,10%
35and you156.4100,10%
36that you150.8180,10%
37for the147.4920,09%
38a little146.5850,09%
39to get143.0310,09%
40like i141.1390,09%
41so i140.1930,09%
42it is137.3250,09%
43don't know136.7140,09%
44was like136.3960,09%
45it's a136.0950,09%
46and so135.2090,09%
47of a134.5890,09%
48with the132.1770,08%
49but i131.3800,08%
50was a126.1610,08%

Lista completa: top-bigrams.csv.

Três observações:

  1. you know supera qualquer pilar gramatical. É o par de palavras mais frequente do inglês falado — mais comum do que of the ou in the.
  2. O top 50 é denso em construções de primeira pessoa: and i, i think, i was, i don't, i mean. A fala gira majoritariamente em torno de quem está falando.
  3. kind of, a lot, a little, like a, was like — atenuadores informais e construções de citação aproximada estão por toda parte no top 50.

Top 50 sequências de três palavras

PosiçãoFraseContagemPorcentagem
1a lot of170.9610,13%
2i don't know96.4550,07%
3one of the82.6930,06%
4going to be72.2930,05%
5a little bit64.9300,05%
6i was like60.9150,05%
7i'm going to55.9400,04%
8i want to55.0710,04%
9you want to54.9080,04%
10you know what52.9250,04%
11you have to44.9850,03%
12you know i43.5380,03%
13this is a43.4570,03%
14this is the41.6640,03%
15and i think40.2140,03%
16and i was39.3400,03%
17i feel like38.0190,03%
18we're going to35.6870,03%
19oh my god35.2030,03%
20to be a33.2290,03%
21what do you32.7470,02%
22be able to32.2630,02%
23i don't think31.9860,02%
24it was a30.7170,02%
25and you know30.3210,02%
26you're going to29.7310,02%
27like you know29.4200,02%
28don't want to29.2490,02%
29some of the28.9530,02%
30is going to28.7870,02%
31i think it's28.7190,02%
32not going to27.4060,02%
33do you think27.1960,02%
34and this is25.7630,02%
35i think that25.7620,02%
36i mean i25.4190,02%
37in the world25.3100,02%
38and it was25.3030,02%
39and then i25.0910,02%
40you have a23.9880,02%
41the end of23.8850,02%
42and then you23.4710,02%
43i think i23.3930,02%
44out of the23.0540,02%
45it was like22.8690,02%
46you know the22.7830,02%
47when i was22.7550,02%
48you got to22.2200,02%
49want to be22.2180,02%
50know what i22.1170,02%

Lista completa: top-trigrams.csv.

Das 15 sequências de três palavras mais frequentes, onze começam com um pronome. Seis contêm explicitamente um I de primeira pessoa. O inglês falado trata, esmagadoramente, de quem está dizendo o quê a quem em tempo real — e as frases de alta frequência refletem isso.

Algumas sequências merecem atenção porque não aparecem no inglês formal: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Não são idiomatismos rebuscados — são o tecido conjuntivo da fala cotidiana.

O que a distribuição implica

Três coisas saltam desses números.

O vocabulário com melhor custo-benefício é pequeno. Um aprendiz capaz de reconhecer com segurança 3.000 palavras faladas tem matéria-prima linguística para acompanhar 89% do inglês nativo no YouTube. Esticar isso para 95% exige outras 5.500 palavras — a maioria delas aparece apenas algumas vezes em todo o corpus de 183 milhões de palavras.

Calibrar pela frequência importa mais do que o tamanho do vocabulário. A maioria dos cursos e aplicativos trata as listas de vocabulário como mais ou menos equivalentes. Os dados dizem outra coisa: 50% de todo o trabalho é feito pelas primeiras 67 palavras. Um cronograma de estudos que não reflita isso é esforço mal alocado.

A tradução palavra por palavra é a primitiva errada. Metade das três palavras mais frequentes formam blocos funcionais (a lot of, i don't know, a little bit, going to be) que funcionam como uma unidade. Reconhecê-los inteiros é uma operação cognitiva diferente de analisá-los como três palavras separadas. Na fala em tempo real, essa diferença vira a diferença entre acompanhar ou não.

Metodologia

O pipeline que produziu estes números:

  1. Fonte. Legendas de 37.632 vídeos do YouTube em inglês.
  2. Tokenização. Converte o texto para minúsculas e aplica a regex [a-z]+(?:'[a-z]+)?. Isso preserva contrações como don't, gonna, it's como tokens únicos, descarta números e ignora pontuação.
  3. Filtragem de ruído. Segmentos que casam com ^\[.*\]$ (por exemplo, [Music], [Applause], [Inaudible]) são ignorados antes da tokenização. Isso removeu 196.433 segmentos.
  4. Contagem. Para unigramas, conta-se cada token. Para bigramas e trigramas, conta-se cada sequência adjacente de N tokens dentro de um mesmo segmento de legenda; sequências não podem cruzar fronteiras de segmento.
  5. Frações acumuladas são calculadas ordenando-se por contagem e somando.

O que esta análise não faz:

  • Sem lematização. go, going, went e gone são contadas como itens de vocabulário separados. Isso é apropriado para medir o que um aprendiz precisa de fato reconhecer ao ouvir, mas infla a contagem bruta de vocabulário em comparação a uma análise lematizada.
  • Sem etiquetagem morfossintática. like verbo e like marcador discursivo são contados juntos.
  • Sem filtragem de legendas autogeradas. Alguns vídeos têm legendas editadas por humanos, outros têm legendas automáticas; estas últimas introduzem algum ruído de transcrição, sobretudo na cauda longa.

Para o que a análise é confiável: a forma da distribuição e a identidade das palavras e frases de alta frequência. O topo da lista — the, and, to, I, like, it's, you know, i don't know — sobrevive a qualquer limpeza razoável.

Ressalvas sobre o corpus

Os 37.632 vídeos não são uma amostra aleatória de todo o inglês falado. São um conjunto curado de canais populares do YouTube em inglês reunidos para alimentar o ClipPhrase, nosso buscador de frases em clipes reais de vídeo. O corpus tende para:

  • Inglês americano. A maioria dos canais é dos EUA.
  • Pessoas que falam profissionalmente. Apresentadores noturnos, podcasters, youtubers, âncoras de jornal — não um recorte representativo da fala privada cotidiana.
  • Conteúdo popular. Os canais foram selecionados por número de visualizações e alcance cultural amplo, não por variedade de dialeto ou registro.

Essas ressalvas estreitam o que os números demonstram em sentido estrito. Não mudam a forma da distribuição nem a constatação qualitativa de que o inglês falado concentra a massa de probabilidade em um vocabulário minúsculo de palavras funcionais e blocos de alta frequência.

Experimente você mesmo

O corpus em que esta análise foi rodada também é um índice de busca. Cada palavra e frase mencionada neste artigo existe em dezenas de milhares de clipes reais de vídeo, recuperáveis por consulta. Digite I was like no ClipPhrase e você encontra cinquenta falantes diferentes usando a expressão; digite gonna e aparecem alguns milhares. Essa é a ferramenta por trás da análise.

Downloads

  • top-words.csv — top 10.000 palavras com posição, contagem, porcentagem e porcentagem acumulada
  • top-bigrams.csv — top 5.000 sequências de duas palavras
  • top-trigrams.csv — top 5.000 sequências de três palavras

Se você usar estes dados em algum texto ou pesquisa, um link de volta para esta página é apreciado.