Analisamos 37.000 vídeos do YouTube. Veja como o inglês falado realmente é

182,9 milhões de palavras faladas em 37.632 vídeos do YouTube em inglês. Apenas 67 palavras compõem metade de tudo o que se diz. Listas completas de frequência de palavras e frases, gráficos e dados para download.

4 de maio de 202612 min de leituraClipPhrase Team

Pegamos as legendas de 37.632 vídeos do YouTube em inglês do nosso índice de busca — programas noturnos, documentários, podcasts, canais de divulgação científica, jornais, talk shows, vlogs — e rodamos uma análise de frequência sobre cada palavra e cada frase curta dita ali. 182,9 milhões de palavras no total.

Este artigo é o relato completo. Todos os CSVs que sustentam a análise estão linkados no final, para quem quiser olhar os dados brutos.

O corpus, em números


Vídeos analisados	37.632
Segmentos de legenda	26.203.765
Segmentos não-falados ignorados (`[Music]`, `[Applause]` etc.)	196.433
Total de tokens falados	182.933.444
Palavras únicas (tamanho do vocabulário)	384.132
Média de palavras por vídeo	4.861
Sequências únicas de duas palavras	11.240.282
Sequências únicas de três palavras	42.037.127

Metade de todo o inglês falado são 67 palavras

A distribuição é brutalmente desigual.

Quantas palavras você precisa para cobrir X% do inglês falado

Você precisa conhecer…	…para reconhecer esta fração de todo o inglês falado
67 palavras	50%
505 palavras	75%
906 palavras	80%
1.677 palavras	85%
2.900 palavras	89%
3.368 palavras	90%
8.381 palavras	95%
36.916 palavras	99%

Alguns pontos que vale destacar:

A palavra the, sozinha, responde por 4,04% de todo o inglês falado — uma a cada vinte e cinco palavras que você ouve é the.
As 10 palavras mais frequentes cobrem 23,2% de toda a fala. Quase um quarto de qualquer conversa entre nativos roda sobre dez tokens reciclados.
Os retornos despencam rápido. Sair de 89% para 95% de compreensão quase triplica o vocabulário necessário. De 95% para 99%, multiplica por mais quatro.

Essa é uma versão mais acentuada da lei de Zipf do que a observada em corpora escritos. Os livros distribuem sua massa de probabilidade por um vocabulário maior; a fala a concentra.

Distribuição de Zipf do inglês falado em 37 mil vídeos do YouTube

O gráfico acima está em eixos log-log. Uma língua puramente zipfiana formaria uma linha reta; o inglês falado quase faz isso, com uma leve curvatura nas frequências mais altas e a longa cauda de palavras raras se afinando depois da posição 10⁵.

As 50 palavras faladas mais comuns

Posição	Palavra	Contagem	Porcentagem	Acumulado
1	the	7.387.237	4,04%	4,04%
2	and	5.202.156	2,84%	6,88%
3	to	4.806.242	2,63%	9,51%
4	i	4.324.592	2,36%	11,87%
5	a	4.264.055	2,33%	14,20%
6	you	4.064.555	2,22%	16,43%
7	of	3.724.277	2,04%	18,46%
8	that	3.492.110	1,91%	20,37%
9	it	2.634.690	1,44%	21,81%
10	in	2.521.046	1,38%	23,19%
11	like	2.494.184	1,36%	24,55%
12	is	2.369.926	1,30%	25,85%
13	this	1.781.715	0,97%	26,82%
14	so	1.654.633	0,90%	27,73%
15	was	1.501.038	0,82%	28,55%
16	it's	1.410.862	0,77%	29,32%
17	for	1.305.470	0,71%	30,03%
18	but	1.274.194	0,70%	30,73%
19	we	1.248.337	0,68%	31,41%
20	on	1.216.294	0,66%	32,08%
21	know	1.167.908	0,64%	32,71%
22	have	1.137.673	0,62%	33,34%
23	just	1.134.793	0,62%	33,96%
24	what	1.032.689	0,56%	34,52%
25	they	1.020.670	0,56%	35,08%
26	with	1.007.653	0,55%	35,63%
27	yeah	962.191	0,53%	36,16%
28	be	957.783	0,52%	36,68%
29	are	898.626	0,49%	37,17%
30	not	872.734	0,48%	37,65%
31	do	870.812	0,48%	38,12%
32	i'm	821.478	0,45%	38,57%
33	my	804.993	0,44%	39,01%
34	all	799.543	0,44%	39,45%
35	if	756.360	0,41%	39,86%
36	that's	738.851	0,40%	40,27%
37	at	732.360	0,40%	40,67%
38	about	717.388	0,39%	41,06%
39	he	714.407	0,39%	41,45%
40	your	696.636	0,38%	41,83%
41	one	695.227	0,38%	42,21%
42	as	684.705	0,37%	42,59%
43	or	678.871	0,37%	42,96%
44	can	672.388	0,37%	43,32%
45	think	654.509	0,36%	43,68%
46	right	647.716	0,35%	44,04%
47	don't	637.134	0,35%	44,38%
48	me	616.944	0,34%	44,72%
49	there	597.279	0,33%	45,05%
50	people	592.296	0,32%	45,37%

A lista completa com as 10.000 palavras mais frequentes está disponível em CSV.

O que chama a atenção neste top 50 não é o que está lá — the, and, to lideram qualquer corpus de inglês — mas onde algumas coisas aparecem:

like na posição 11 é um marcador discursivo, não o verbo. Em um corpus de livros, estaria muito mais abaixo.
Cinco contrações entram no top 50: it's (#16), i'm (#32), that's (#36), don't (#47), e provavelmente outras mais abaixo. Corpora escritos as desmembram em suas formas completas.
yeah na posição 27 é cola puramente conversacional. Em livros, quase não aparece.
know, just e right são usadas aqui sobretudo como atenuadores de discurso (you know, I just wanted, yeah, right), e não em seus sentidos de dicionário.

O topo da lista é uma fotografia de como a fala difere do texto: contrações, bordões e atenuadores aparecem lado a lado com artigos e pronomes como vocabulário de sustentação.

A fala é construída em blocos

Quando contamos sequências de duas e três palavras em vez de palavras isoladas, surge uma estrutura diferente. As unidades mais frequentes do inglês falado não são palavras isoladas, mas frases curtas e recorrentes.

Top 50 sequências de duas palavras

Posição	Frase	Contagem	Porcentagem
1	you know	651.659	0,42%
2	of the	610.473	0,39%
3	in the	597.973	0,38%
4	going to	391.962	0,25%
5	and i	369.069	0,24%
6	i think	360.605	0,23%
7	this is	354.886	0,23%
8	to be	349.293	0,22%
9	i was	294.749	0,19%
10	i don't	280.165	0,18%
11	it was	279.492	0,18%
12	and then	279.061	0,18%
13	to the	271.483	0,17%
14	on the	269.698	0,17%
15	kind of	253.890	0,16%
16	a lot	248.787	0,16%
17	want to	240.129	0,15%
18	if you	239.704	0,15%
19	you can	214.797	0,14%
20	and the	211.577	0,13%
21	i mean	198.883	0,13%
22	lot of	188.401	0,12%
23	to do	188.301	0,12%
24	in a	185.960	0,12%
25	is a	183.838	0,12%
26	like a	180.615	0,12%
27	at the	169.424	0,11%
28	have to	168.863	0,11%
29	one of	161.657	0,10%
30	have a	160.163	0,10%
31	that i	159.887	0,10%
32	is the	159.862	0,10%
33	you have	158.225	0,10%
34	do you	158.154	0,10%
35	and you	156.410	0,10%
36	that you	150.818	0,10%
37	for the	147.492	0,09%
38	a little	146.585	0,09%
39	to get	143.031	0,09%
40	like i	141.139	0,09%
41	so i	140.193	0,09%
42	it is	137.325	0,09%
43	don't know	136.714	0,09%
44	was like	136.396	0,09%
45	it's a	136.095	0,09%
46	and so	135.209	0,09%
47	of a	134.589	0,09%
48	with the	132.177	0,08%
49	but i	131.380	0,08%
50	was a	126.161	0,08%

Lista completa: top-bigrams.csv.

Três observações:

you know supera qualquer pilar gramatical. É o par de palavras mais frequente do inglês falado — mais comum do que of the ou in the.
O top 50 é denso em construções de primeira pessoa: and i, i think, i was, i don't, i mean. A fala gira majoritariamente em torno de quem está falando.
kind of, a lot, a little, like a, was like — atenuadores informais e construções de citação aproximada estão por toda parte no top 50.

Top 50 sequências de três palavras

Posição	Frase	Contagem	Porcentagem
1	a lot of	170.961	0,13%
2	i don't know	96.455	0,07%
3	one of the	82.693	0,06%
4	going to be	72.293	0,05%
5	a little bit	64.930	0,05%
6	i was like	60.915	0,05%
7	i'm going to	55.940	0,04%
8	i want to	55.071	0,04%
9	you want to	54.908	0,04%
10	you know what	52.925	0,04%
11	you have to	44.985	0,03%
12	you know i	43.538	0,03%
13	this is a	43.457	0,03%
14	this is the	41.664	0,03%
15	and i think	40.214	0,03%
16	and i was	39.340	0,03%
17	i feel like	38.019	0,03%
18	we're going to	35.687	0,03%
19	oh my god	35.203	0,03%
20	to be a	33.229	0,03%
21	what do you	32.747	0,02%
22	be able to	32.263	0,02%
23	i don't think	31.986	0,02%
24	it was a	30.717	0,02%
25	and you know	30.321	0,02%
26	you're going to	29.731	0,02%
27	like you know	29.420	0,02%
28	don't want to	29.249	0,02%
29	some of the	28.953	0,02%
30	is going to	28.787	0,02%
31	i think it's	28.719	0,02%
32	not going to	27.406	0,02%
33	do you think	27.196	0,02%
34	and this is	25.763	0,02%
35	i think that	25.762	0,02%
36	i mean i	25.419	0,02%
37	in the world	25.310	0,02%
38	and it was	25.303	0,02%
39	and then i	25.091	0,02%
40	you have a	23.988	0,02%
41	the end of	23.885	0,02%
42	and then you	23.471	0,02%
43	i think i	23.393	0,02%
44	out of the	23.054	0,02%
45	it was like	22.869	0,02%
46	you know the	22.783	0,02%
47	when i was	22.755	0,02%
48	you got to	22.220	0,02%
49	want to be	22.218	0,02%
50	know what i	22.117	0,02%

Lista completa: top-trigrams.csv.

Das 15 sequências de três palavras mais frequentes, onze começam com um pronome. Seis contêm explicitamente um I de primeira pessoa. O inglês falado trata, esmagadoramente, de quem está dizendo o quê a quem em tempo real — e as frases de alta frequência refletem isso.

Algumas sequências merecem atenção porque não aparecem no inglês formal: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Não são idiomatismos rebuscados — são o tecido conjuntivo da fala cotidiana.

O que a distribuição implica

Três coisas saltam desses números.

O vocabulário com melhor custo-benefício é pequeno. Um aprendiz capaz de reconhecer com segurança 3.000 palavras faladas tem matéria-prima linguística para acompanhar 89% do inglês nativo no YouTube. Esticar isso para 95% exige outras 5.500 palavras — a maioria delas aparece apenas algumas vezes em todo o corpus de 183 milhões de palavras.

Calibrar pela frequência importa mais do que o tamanho do vocabulário. A maioria dos cursos e aplicativos trata as listas de vocabulário como mais ou menos equivalentes. Os dados dizem outra coisa: 50% de todo o trabalho é feito pelas primeiras 67 palavras. Um cronograma de estudos que não reflita isso é esforço mal alocado.

A tradução palavra por palavra é a primitiva errada. Metade das três palavras mais frequentes formam blocos funcionais (a lot of, i don't know, a little bit, going to be) que funcionam como uma unidade. Reconhecê-los inteiros é uma operação cognitiva diferente de analisá-los como três palavras separadas. Na fala em tempo real, essa diferença vira a diferença entre acompanhar ou não.

Metodologia

O pipeline que produziu estes números:

Fonte. Legendas de 37.632 vídeos do YouTube em inglês.
Tokenização. Converte o texto para minúsculas e aplica a regex [a-z]+(?:'[a-z]+)?. Isso preserva contrações como don't, gonna, it's como tokens únicos, descarta números e ignora pontuação.
Filtragem de ruído. Segmentos que casam com ^\[.*\]$ (por exemplo, [Music], [Applause], [Inaudible]) são ignorados antes da tokenização. Isso removeu 196.433 segmentos.
Contagem. Para unigramas, conta-se cada token. Para bigramas e trigramas, conta-se cada sequência adjacente de N tokens dentro de um mesmo segmento de legenda; sequências não podem cruzar fronteiras de segmento.
Frações acumuladas são calculadas ordenando-se por contagem e somando.

O que esta análise não faz:

Sem lematização. go, going, went e gone são contadas como itens de vocabulário separados. Isso é apropriado para medir o que um aprendiz precisa de fato reconhecer ao ouvir, mas infla a contagem bruta de vocabulário em comparação a uma análise lematizada.
Sem etiquetagem morfossintática. like verbo e like marcador discursivo são contados juntos.
Sem filtragem de legendas autogeradas. Alguns vídeos têm legendas editadas por humanos, outros têm legendas automáticas; estas últimas introduzem algum ruído de transcrição, sobretudo na cauda longa.

Para o que a análise é confiável: a forma da distribuição e a identidade das palavras e frases de alta frequência. O topo da lista — the, and, to, I, like, it's, you know, i don't know — sobrevive a qualquer limpeza razoável.

Ressalvas sobre o corpus

Os 37.632 vídeos não são uma amostra aleatória de todo o inglês falado. São um conjunto curado de canais populares do YouTube em inglês reunidos para alimentar o ClipPhrase, nosso buscador de frases em clipes reais de vídeo. O corpus tende para:

Inglês americano. A maioria dos canais é dos EUA.
Pessoas que falam profissionalmente. Apresentadores noturnos, podcasters, youtubers, âncoras de jornal — não um recorte representativo da fala privada cotidiana.
Conteúdo popular. Os canais foram selecionados por número de visualizações e alcance cultural amplo, não por variedade de dialeto ou registro.

Essas ressalvas estreitam o que os números demonstram em sentido estrito. Não mudam a forma da distribuição nem a constatação qualitativa de que o inglês falado concentra a massa de probabilidade em um vocabulário minúsculo de palavras funcionais e blocos de alta frequência.

Experimente você mesmo

O corpus em que esta análise foi rodada também é um índice de busca. Cada palavra e frase mencionada neste artigo existe em dezenas de milhares de clipes reais de vídeo, recuperáveis por consulta. Digite I was like no ClipPhrase e você encontra cinquenta falantes diferentes usando a expressão; digite gonna e aparecem alguns milhares. Essa é a ferramenta por trás da análise.

Downloads

top-words.csv — top 10.000 palavras com posição, contagem, porcentagem e porcentagem acumulada
top-bigrams.csv — top 5.000 sequências de duas palavras
top-trigrams.csv — top 5.000 sequências de três palavras

Se você usar estes dados em algum texto ou pesquisa, um link de volta para esta página é apreciado.