Analisamos 37.000 vídeos do YouTube. Veja como o inglês falado realmente é
182,9 milhões de palavras faladas em 37.632 vídeos do YouTube em inglês. Apenas 67 palavras compõem metade de tudo o que se diz. Listas completas de frequência de palavras e frases, gráficos e dados para download.
Pegamos as legendas de 37.632 vídeos do YouTube em inglês do nosso índice de busca — programas noturnos, documentários, podcasts, canais de divulgação científica, jornais, talk shows, vlogs — e rodamos uma análise de frequência sobre cada palavra e cada frase curta dita ali. 182,9 milhões de palavras no total.
Este artigo é o relato completo. Todos os CSVs que sustentam a análise estão linkados no final, para quem quiser olhar os dados brutos.
O corpus, em números
| Vídeos analisados | 37.632 |
| Segmentos de legenda | 26.203.765 |
Segmentos não-falados ignorados ([Music], [Applause] etc.) | 196.433 |
| Total de tokens falados | 182.933.444 |
| Palavras únicas (tamanho do vocabulário) | 384.132 |
| Média de palavras por vídeo | 4.861 |
| Sequências únicas de duas palavras | 11.240.282 |
| Sequências únicas de três palavras | 42.037.127 |
Metade de todo o inglês falado são 67 palavras
A distribuição é brutalmente desigual.

| Você precisa conhecer… | …para reconhecer esta fração de todo o inglês falado |
|---|---|
| 67 palavras | 50% |
| 505 palavras | 75% |
| 906 palavras | 80% |
| 1.677 palavras | 85% |
| 2.900 palavras | 89% |
| 3.368 palavras | 90% |
| 8.381 palavras | 95% |
| 36.916 palavras | 99% |
Alguns pontos que vale destacar:
- A palavra the, sozinha, responde por 4,04% de todo o inglês falado — uma a cada vinte e cinco palavras que você ouve é the.
- As 10 palavras mais frequentes cobrem 23,2% de toda a fala. Quase um quarto de qualquer conversa entre nativos roda sobre dez tokens reciclados.
- Os retornos despencam rápido. Sair de 89% para 95% de compreensão quase triplica o vocabulário necessário. De 95% para 99%, multiplica por mais quatro.
Essa é uma versão mais acentuada da lei de Zipf do que a observada em corpora escritos. Os livros distribuem sua massa de probabilidade por um vocabulário maior; a fala a concentra.

O gráfico acima está em eixos log-log. Uma língua puramente zipfiana formaria uma linha reta; o inglês falado quase faz isso, com uma leve curvatura nas frequências mais altas e a longa cauda de palavras raras se afinando depois da posição 10⁵.
As 50 palavras faladas mais comuns
| Posição | Palavra | Contagem | Porcentagem | Acumulado |
|---|---|---|---|---|
| 1 | the | 7.387.237 | 4,04% | 4,04% |
| 2 | and | 5.202.156 | 2,84% | 6,88% |
| 3 | to | 4.806.242 | 2,63% | 9,51% |
| 4 | i | 4.324.592 | 2,36% | 11,87% |
| 5 | a | 4.264.055 | 2,33% | 14,20% |
| 6 | you | 4.064.555 | 2,22% | 16,43% |
| 7 | of | 3.724.277 | 2,04% | 18,46% |
| 8 | that | 3.492.110 | 1,91% | 20,37% |
| 9 | it | 2.634.690 | 1,44% | 21,81% |
| 10 | in | 2.521.046 | 1,38% | 23,19% |
| 11 | like | 2.494.184 | 1,36% | 24,55% |
| 12 | is | 2.369.926 | 1,30% | 25,85% |
| 13 | this | 1.781.715 | 0,97% | 26,82% |
| 14 | so | 1.654.633 | 0,90% | 27,73% |
| 15 | was | 1.501.038 | 0,82% | 28,55% |
| 16 | it's | 1.410.862 | 0,77% | 29,32% |
| 17 | for | 1.305.470 | 0,71% | 30,03% |
| 18 | but | 1.274.194 | 0,70% | 30,73% |
| 19 | we | 1.248.337 | 0,68% | 31,41% |
| 20 | on | 1.216.294 | 0,66% | 32,08% |
| 21 | know | 1.167.908 | 0,64% | 32,71% |
| 22 | have | 1.137.673 | 0,62% | 33,34% |
| 23 | just | 1.134.793 | 0,62% | 33,96% |
| 24 | what | 1.032.689 | 0,56% | 34,52% |
| 25 | they | 1.020.670 | 0,56% | 35,08% |
| 26 | with | 1.007.653 | 0,55% | 35,63% |
| 27 | yeah | 962.191 | 0,53% | 36,16% |
| 28 | be | 957.783 | 0,52% | 36,68% |
| 29 | are | 898.626 | 0,49% | 37,17% |
| 30 | not | 872.734 | 0,48% | 37,65% |
| 31 | do | 870.812 | 0,48% | 38,12% |
| 32 | i'm | 821.478 | 0,45% | 38,57% |
| 33 | my | 804.993 | 0,44% | 39,01% |
| 34 | all | 799.543 | 0,44% | 39,45% |
| 35 | if | 756.360 | 0,41% | 39,86% |
| 36 | that's | 738.851 | 0,40% | 40,27% |
| 37 | at | 732.360 | 0,40% | 40,67% |
| 38 | about | 717.388 | 0,39% | 41,06% |
| 39 | he | 714.407 | 0,39% | 41,45% |
| 40 | your | 696.636 | 0,38% | 41,83% |
| 41 | one | 695.227 | 0,38% | 42,21% |
| 42 | as | 684.705 | 0,37% | 42,59% |
| 43 | or | 678.871 | 0,37% | 42,96% |
| 44 | can | 672.388 | 0,37% | 43,32% |
| 45 | think | 654.509 | 0,36% | 43,68% |
| 46 | right | 647.716 | 0,35% | 44,04% |
| 47 | don't | 637.134 | 0,35% | 44,38% |
| 48 | me | 616.944 | 0,34% | 44,72% |
| 49 | there | 597.279 | 0,33% | 45,05% |
| 50 | people | 592.296 | 0,32% | 45,37% |
A lista completa com as 10.000 palavras mais frequentes está disponível em CSV.
O que chama a atenção neste top 50 não é o que está lá — the, and, to lideram qualquer corpus de inglês — mas onde algumas coisas aparecem:
likena posição 11 é um marcador discursivo, não o verbo. Em um corpus de livros, estaria muito mais abaixo.- Cinco contrações entram no top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e provavelmente outras mais abaixo. Corpora escritos as desmembram em suas formas completas.
yeahna posição 27 é cola puramente conversacional. Em livros, quase não aparece.know,justerightsão usadas aqui sobretudo como atenuadores de discurso (you know, I just wanted, yeah, right), e não em seus sentidos de dicionário.
O topo da lista é uma fotografia de como a fala difere do texto: contrações, bordões e atenuadores aparecem lado a lado com artigos e pronomes como vocabulário de sustentação.
A fala é construída em blocos
Quando contamos sequências de duas e três palavras em vez de palavras isoladas, surge uma estrutura diferente. As unidades mais frequentes do inglês falado não são palavras isoladas, mas frases curtas e recorrentes.
Top 50 sequências de duas palavras
| Posição | Frase | Contagem | Porcentagem |
|---|---|---|---|
| 1 | you know | 651.659 | 0,42% |
| 2 | of the | 610.473 | 0,39% |
| 3 | in the | 597.973 | 0,38% |
| 4 | going to | 391.962 | 0,25% |
| 5 | and i | 369.069 | 0,24% |
| 6 | i think | 360.605 | 0,23% |
| 7 | this is | 354.886 | 0,23% |
| 8 | to be | 349.293 | 0,22% |
| 9 | i was | 294.749 | 0,19% |
| 10 | i don't | 280.165 | 0,18% |
| 11 | it was | 279.492 | 0,18% |
| 12 | and then | 279.061 | 0,18% |
| 13 | to the | 271.483 | 0,17% |
| 14 | on the | 269.698 | 0,17% |
| 15 | kind of | 253.890 | 0,16% |
| 16 | a lot | 248.787 | 0,16% |
| 17 | want to | 240.129 | 0,15% |
| 18 | if you | 239.704 | 0,15% |
| 19 | you can | 214.797 | 0,14% |
| 20 | and the | 211.577 | 0,13% |
| 21 | i mean | 198.883 | 0,13% |
| 22 | lot of | 188.401 | 0,12% |
| 23 | to do | 188.301 | 0,12% |
| 24 | in a | 185.960 | 0,12% |
| 25 | is a | 183.838 | 0,12% |
| 26 | like a | 180.615 | 0,12% |
| 27 | at the | 169.424 | 0,11% |
| 28 | have to | 168.863 | 0,11% |
| 29 | one of | 161.657 | 0,10% |
| 30 | have a | 160.163 | 0,10% |
| 31 | that i | 159.887 | 0,10% |
| 32 | is the | 159.862 | 0,10% |
| 33 | you have | 158.225 | 0,10% |
| 34 | do you | 158.154 | 0,10% |
| 35 | and you | 156.410 | 0,10% |
| 36 | that you | 150.818 | 0,10% |
| 37 | for the | 147.492 | 0,09% |
| 38 | a little | 146.585 | 0,09% |
| 39 | to get | 143.031 | 0,09% |
| 40 | like i | 141.139 | 0,09% |
| 41 | so i | 140.193 | 0,09% |
| 42 | it is | 137.325 | 0,09% |
| 43 | don't know | 136.714 | 0,09% |
| 44 | was like | 136.396 | 0,09% |
| 45 | it's a | 136.095 | 0,09% |
| 46 | and so | 135.209 | 0,09% |
| 47 | of a | 134.589 | 0,09% |
| 48 | with the | 132.177 | 0,08% |
| 49 | but i | 131.380 | 0,08% |
| 50 | was a | 126.161 | 0,08% |
Lista completa: top-bigrams.csv.
Três observações:
you knowsupera qualquer pilar gramatical. É o par de palavras mais frequente do inglês falado — mais comum do que of the ou in the.- O top 50 é denso em construções de primeira pessoa: and i, i think, i was, i don't, i mean. A fala gira majoritariamente em torno de quem está falando.
kind of,a lot,a little,like a,was like— atenuadores informais e construções de citação aproximada estão por toda parte no top 50.
Top 50 sequências de três palavras
| Posição | Frase | Contagem | Porcentagem |
|---|---|---|---|
| 1 | a lot of | 170.961 | 0,13% |
| 2 | i don't know | 96.455 | 0,07% |
| 3 | one of the | 82.693 | 0,06% |
| 4 | going to be | 72.293 | 0,05% |
| 5 | a little bit | 64.930 | 0,05% |
| 6 | i was like | 60.915 | 0,05% |
| 7 | i'm going to | 55.940 | 0,04% |
| 8 | i want to | 55.071 | 0,04% |
| 9 | you want to | 54.908 | 0,04% |
| 10 | you know what | 52.925 | 0,04% |
| 11 | you have to | 44.985 | 0,03% |
| 12 | you know i | 43.538 | 0,03% |
| 13 | this is a | 43.457 | 0,03% |
| 14 | this is the | 41.664 | 0,03% |
| 15 | and i think | 40.214 | 0,03% |
| 16 | and i was | 39.340 | 0,03% |
| 17 | i feel like | 38.019 | 0,03% |
| 18 | we're going to | 35.687 | 0,03% |
| 19 | oh my god | 35.203 | 0,03% |
| 20 | to be a | 33.229 | 0,03% |
| 21 | what do you | 32.747 | 0,02% |
| 22 | be able to | 32.263 | 0,02% |
| 23 | i don't think | 31.986 | 0,02% |
| 24 | it was a | 30.717 | 0,02% |
| 25 | and you know | 30.321 | 0,02% |
| 26 | you're going to | 29.731 | 0,02% |
| 27 | like you know | 29.420 | 0,02% |
| 28 | don't want to | 29.249 | 0,02% |
| 29 | some of the | 28.953 | 0,02% |
| 30 | is going to | 28.787 | 0,02% |
| 31 | i think it's | 28.719 | 0,02% |
| 32 | not going to | 27.406 | 0,02% |
| 33 | do you think | 27.196 | 0,02% |
| 34 | and this is | 25.763 | 0,02% |
| 35 | i think that | 25.762 | 0,02% |
| 36 | i mean i | 25.419 | 0,02% |
| 37 | in the world | 25.310 | 0,02% |
| 38 | and it was | 25.303 | 0,02% |
| 39 | and then i | 25.091 | 0,02% |
| 40 | you have a | 23.988 | 0,02% |
| 41 | the end of | 23.885 | 0,02% |
| 42 | and then you | 23.471 | 0,02% |
| 43 | i think i | 23.393 | 0,02% |
| 44 | out of the | 23.054 | 0,02% |
| 45 | it was like | 22.869 | 0,02% |
| 46 | you know the | 22.783 | 0,02% |
| 47 | when i was | 22.755 | 0,02% |
| 48 | you got to | 22.220 | 0,02% |
| 49 | want to be | 22.218 | 0,02% |
| 50 | know what i | 22.117 | 0,02% |
Lista completa: top-trigrams.csv.
Das 15 sequências de três palavras mais frequentes, onze começam com um pronome. Seis contêm explicitamente um I de primeira pessoa. O inglês falado trata, esmagadoramente, de quem está dizendo o quê a quem em tempo real — e as frases de alta frequência refletem isso.
Algumas sequências merecem atenção porque não aparecem no inglês formal: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Não são idiomatismos rebuscados — são o tecido conjuntivo da fala cotidiana.
O que a distribuição implica
Três coisas saltam desses números.
O vocabulário com melhor custo-benefício é pequeno. Um aprendiz capaz de reconhecer com segurança 3.000 palavras faladas tem matéria-prima linguística para acompanhar 89% do inglês nativo no YouTube. Esticar isso para 95% exige outras 5.500 palavras — a maioria delas aparece apenas algumas vezes em todo o corpus de 183 milhões de palavras.
Calibrar pela frequência importa mais do que o tamanho do vocabulário. A maioria dos cursos e aplicativos trata as listas de vocabulário como mais ou menos equivalentes. Os dados dizem outra coisa: 50% de todo o trabalho é feito pelas primeiras 67 palavras. Um cronograma de estudos que não reflita isso é esforço mal alocado.
A tradução palavra por palavra é a primitiva errada. Metade das três palavras mais frequentes formam blocos funcionais (a lot of, i don't know, a little bit, going to be) que funcionam como uma unidade. Reconhecê-los inteiros é uma operação cognitiva diferente de analisá-los como três palavras separadas. Na fala em tempo real, essa diferença vira a diferença entre acompanhar ou não.
Metodologia
O pipeline que produziu estes números:
- Fonte. Legendas de 37.632 vídeos do YouTube em inglês.
- Tokenização. Converte o texto para minúsculas e aplica a regex
[a-z]+(?:'[a-z]+)?. Isso preserva contrações como don't, gonna, it's como tokens únicos, descarta números e ignora pontuação. - Filtragem de ruído. Segmentos que casam com
^\[.*\]$(por exemplo,[Music],[Applause],[Inaudible]) são ignorados antes da tokenização. Isso removeu 196.433 segmentos. - Contagem. Para unigramas, conta-se cada token. Para bigramas e trigramas, conta-se cada sequência adjacente de N tokens dentro de um mesmo segmento de legenda; sequências não podem cruzar fronteiras de segmento.
- Frações acumuladas são calculadas ordenando-se por contagem e somando.
O que esta análise não faz:
- Sem lematização. go, going, went e gone são contadas como itens de vocabulário separados. Isso é apropriado para medir o que um aprendiz precisa de fato reconhecer ao ouvir, mas infla a contagem bruta de vocabulário em comparação a uma análise lematizada.
- Sem etiquetagem morfossintática. like verbo e like marcador discursivo são contados juntos.
- Sem filtragem de legendas autogeradas. Alguns vídeos têm legendas editadas por humanos, outros têm legendas automáticas; estas últimas introduzem algum ruído de transcrição, sobretudo na cauda longa.
Para o que a análise é confiável: a forma da distribuição e a identidade das palavras e frases de alta frequência. O topo da lista — the, and, to, I, like, it's, you know, i don't know — sobrevive a qualquer limpeza razoável.
Ressalvas sobre o corpus
Os 37.632 vídeos não são uma amostra aleatória de todo o inglês falado. São um conjunto curado de canais populares do YouTube em inglês reunidos para alimentar o ClipPhrase, nosso buscador de frases em clipes reais de vídeo. O corpus tende para:
- Inglês americano. A maioria dos canais é dos EUA.
- Pessoas que falam profissionalmente. Apresentadores noturnos, podcasters, youtubers, âncoras de jornal — não um recorte representativo da fala privada cotidiana.
- Conteúdo popular. Os canais foram selecionados por número de visualizações e alcance cultural amplo, não por variedade de dialeto ou registro.
Essas ressalvas estreitam o que os números demonstram em sentido estrito. Não mudam a forma da distribuição nem a constatação qualitativa de que o inglês falado concentra a massa de probabilidade em um vocabulário minúsculo de palavras funcionais e blocos de alta frequência.
Experimente você mesmo
O corpus em que esta análise foi rodada também é um índice de busca. Cada palavra e frase mencionada neste artigo existe em dezenas de milhares de clipes reais de vídeo, recuperáveis por consulta. Digite I was like no ClipPhrase e você encontra cinquenta falantes diferentes usando a expressão; digite gonna e aparecem alguns milhares. Essa é a ferramenta por trás da análise.
Downloads
- top-words.csv — top 10.000 palavras com posição, contagem, porcentagem e porcentagem acumulada
- top-bigrams.csv — top 5.000 sequências de duas palavras
- top-trigrams.csv — top 5.000 sequências de três palavras
Se você usar estes dados em algum texto ou pesquisa, um link de volta para esta página é apreciado.