Analizamos 37.000 vídeos de YouTube. Así es realmente el inglés hablado

182,9 millones de palabras habladas en 37.632 vídeos en inglés de YouTube. Solo 67 palabras representan la mitad de todo lo que se dice. Listas completas de frecuencia de palabras y frases, gráficos y datos descargables.

4 de mayo de 202612 min de lecturaClipPhrase Team

Tomamos los subtítulos de 37.632 vídeos de YouTube en inglés de nuestro índice de búsqueda —programas nocturnos, documentales, pódcast, divulgación científica, noticias, talk shows, vlogs— y ejecutamos un análisis de frecuencia sobre cada palabra y cada frase corta pronunciada. 182,9 millones de palabras en total.

Este artículo es el informe completo. Todos los CSV de origen están enlazados al final para quien quiera examinar los datos en bruto.

El corpus, en cifras


Vídeos analizados	37.632
Segmentos de subtítulos	26.203.765
Segmentos sin habla descartados (`[Music]`, `[Applause]`, etc.)	196.433
Total de tokens hablados	182.933.444
Palabras únicas (tamaño del vocabulario)	384.132
Promedio de palabras por vídeo	4.861
Secuencias únicas de dos palabras	11.240.282
Secuencias únicas de tres palabras	42.037.127

La mitad del inglés hablado son 67 palabras

La distribución es brutalmente desequilibrada.

Cuántas palabras hay que conocer para cubrir el X% del inglés hablado

Necesitas conocer…	…para reconocer esta proporción del inglés hablado
67 palabras	50%
505 palabras	75%
906 palabras	80%
1.677 palabras	85%
2.900 palabras	89%
3.368 palabras	90%
8.381 palabras	95%
36.916 palabras	99%

Algunas observaciones que vale la pena destacar:

La sola palabra the representa el 4,04% de todo el inglés hablado: una de cada veinticinco palabras que oyes es the.
Las 10 palabras más frecuentes cubren, por sí solas, el 23,2% del habla. Casi una cuarta parte de cualquier conversación nativa funciona con diez tokens reciclados.
Los rendimientos decrecen rápido. Pasar del 89% al 95% de comprensión casi triplica el vocabulario necesario. Del 95% al 99% lo multiplica por otros cuatro.

Es una versión más acentuada de la ley de Zipf que la que aparece en los corpus escritos. Los libros reparten su masa de probabilidad entre más vocabulario; el habla la concentra.

Distribución según Zipf del inglés hablado en 37.000 vídeos de YouTube

El gráfico anterior usa ejes log-log. Una lengua puramente zipfiana formaría una línea recta; el inglés hablado se aproxima mucho, con una ligera curvatura en las frecuencias más altas y la larga cola de palabras raras decayendo por debajo del rango 10⁵.

Las 50 palabras más habladas

Rango	Palabra	Cantidad	Porcentaje	Acumulado
1	the	7.387.237	4,04%	4,04%
2	and	5.202.156	2,84%	6,88%
3	to	4.806.242	2,63%	9,51%
4	i	4.324.592	2,36%	11,87%
5	a	4.264.055	2,33%	14,20%
6	you	4.064.555	2,22%	16,43%
7	of	3.724.277	2,04%	18,46%
8	that	3.492.110	1,91%	20,37%
9	it	2.634.690	1,44%	21,81%
10	in	2.521.046	1,38%	23,19%
11	like	2.494.184	1,36%	24,55%
12	is	2.369.926	1,30%	25,85%
13	this	1.781.715	0,97%	26,82%
14	so	1.654.633	0,90%	27,73%
15	was	1.501.038	0,82%	28,55%
16	it's	1.410.862	0,77%	29,32%
17	for	1.305.470	0,71%	30,03%
18	but	1.274.194	0,70%	30,73%
19	we	1.248.337	0,68%	31,41%
20	on	1.216.294	0,66%	32,08%
21	know	1.167.908	0,64%	32,71%
22	have	1.137.673	0,62%	33,34%
23	just	1.134.793	0,62%	33,96%
24	what	1.032.689	0,56%	34,52%
25	they	1.020.670	0,56%	35,08%
26	with	1.007.653	0,55%	35,63%
27	yeah	962.191	0,53%	36,16%
28	be	957.783	0,52%	36,68%
29	are	898.626	0,49%	37,17%
30	not	872.734	0,48%	37,65%
31	do	870.812	0,48%	38,12%
32	i'm	821.478	0,45%	38,57%
33	my	804.993	0,44%	39,01%
34	all	799.543	0,44%	39,45%
35	if	756.360	0,41%	39,86%
36	that's	738.851	0,40%	40,27%
37	at	732.360	0,40%	40,67%
38	about	717.388	0,39%	41,06%
39	he	714.407	0,39%	41,45%
40	your	696.636	0,38%	41,83%
41	one	695.227	0,38%	42,21%
42	as	684.705	0,37%	42,59%
43	or	678.871	0,37%	42,96%
44	can	672.388	0,37%	43,32%
45	think	654.509	0,36%	43,68%
46	right	647.716	0,35%	44,04%
47	don't	637.134	0,35%	44,38%
48	me	616.944	0,34%	44,72%
49	there	597.279	0,33%	45,05%
50	people	592.296	0,32%	45,37%

La lista completa de las 10.000 más frecuentes está disponible en CSV.

Lo llamativo de este top 50 no es lo que aparece —the, and, to encabezarían cualquier corpus en inglés—, sino dónde se ubican algunas piezas:

like en el puesto 11 es un marcador discursivo, no el verbo. En un corpus de libros estaría muy por debajo de esa posición.
Cinco contracciones se cuelan en el top 50: it's (16), i'm (32), that's (36), don't (47) y posiblemente alguna más abajo. Los corpus escritos las separan en sus formas plenas.
yeah en el puesto 27 es pegamento puramente conversacional. Los libros apenas lo usan.
know, just y right se usan aquí mayormente como atenuadores discursivos (you know, I just wanted, yeah, right), no en sus acepciones de diccionario.

La cabeza de la lista es una instantánea de cómo el habla se diferencia del texto: contracciones, muletillas y atenuadores conviven con artículos y pronombres como vocabulario portante.

El habla está hecha de bloques

Cuando contamos secuencias de dos y de tres palabras en lugar de palabras sueltas, aparece otra estructura. Las unidades más frecuentes del inglés hablado no son palabras aisladas, sino frases cortas y recurrentes.

Las 50 secuencias de dos palabras más frecuentes

Rango	Frase	Cantidad	Porcentaje
1	you know	651.659	0,42%
2	of the	610.473	0,39%
3	in the	597.973	0,38%
4	going to	391.962	0,25%
5	and i	369.069	0,24%
6	i think	360.605	0,23%
7	this is	354.886	0,23%
8	to be	349.293	0,22%
9	i was	294.749	0,19%
10	i don't	280.165	0,18%
11	it was	279.492	0,18%
12	and then	279.061	0,18%
13	to the	271.483	0,17%
14	on the	269.698	0,17%
15	kind of	253.890	0,16%
16	a lot	248.787	0,16%
17	want to	240.129	0,15%
18	if you	239.704	0,15%
19	you can	214.797	0,14%
20	and the	211.577	0,13%
21	i mean	198.883	0,13%
22	lot of	188.401	0,12%
23	to do	188.301	0,12%
24	in a	185.960	0,12%
25	is a	183.838	0,12%
26	like a	180.615	0,12%
27	at the	169.424	0,11%
28	have to	168.863	0,11%
29	one of	161.657	0,10%
30	have a	160.163	0,10%
31	that i	159.887	0,10%
32	is the	159.862	0,10%
33	you have	158.225	0,10%
34	do you	158.154	0,10%
35	and you	156.410	0,10%
36	that you	150.818	0,10%
37	for the	147.492	0,09%
38	a little	146.585	0,09%
39	to get	143.031	0,09%
40	like i	141.139	0,09%
41	so i	140.193	0,09%
42	it is	137.325	0,09%
43	don't know	136.714	0,09%
44	was like	136.396	0,09%
45	it's a	136.095	0,09%
46	and so	135.209	0,09%
47	of a	134.589	0,09%
48	with the	132.177	0,08%
49	but i	131.380	0,08%
50	was a	126.161	0,08%

Lista completa: top-bigrams.csv.

Tres observaciones:

you know supera a cualquier estructura gramatical estándar. Es el par de palabras más frecuente del inglés hablado, por encima de of the o in the.
El top 50 está densamente poblado de construcciones en primera persona: and i, i think, i was, i don't, i mean. El habla trata, sobre todo, de quien está hablando.
kind of, a lot, a little, like a, was like: atenuadores informales y construcciones cuasi-citativas pueblan el top 50.

Las 50 secuencias de tres palabras más frecuentes

Rango	Frase	Cantidad	Porcentaje
1	a lot of	170.961	0,13%
2	i don't know	96.455	0,07%
3	one of the	82.693	0,06%
4	going to be	72.293	0,05%
5	a little bit	64.930	0,05%
6	i was like	60.915	0,05%
7	i'm going to	55.940	0,04%
8	i want to	55.071	0,04%
9	you want to	54.908	0,04%
10	you know what	52.925	0,04%
11	you have to	44.985	0,03%
12	you know i	43.538	0,03%
13	this is a	43.457	0,03%
14	this is the	41.664	0,03%
15	and i think	40.214	0,03%
16	and i was	39.340	0,03%
17	i feel like	38.019	0,03%
18	we're going to	35.687	0,03%
19	oh my god	35.203	0,03%
20	to be a	33.229	0,03%
21	what do you	32.747	0,02%
22	be able to	32.263	0,02%
23	i don't think	31.986	0,02%
24	it was a	30.717	0,02%
25	and you know	30.321	0,02%
26	you're going to	29.731	0,02%
27	like you know	29.420	0,02%
28	don't want to	29.249	0,02%
29	some of the	28.953	0,02%
30	is going to	28.787	0,02%
31	i think it's	28.719	0,02%
32	not going to	27.406	0,02%
33	do you think	27.196	0,02%
34	and this is	25.763	0,02%
35	i think that	25.762	0,02%
36	i mean i	25.419	0,02%
37	in the world	25.310	0,02%
38	and it was	25.303	0,02%
39	and then i	25.091	0,02%
40	you have a	23.988	0,02%
41	the end of	23.885	0,02%
42	and then you	23.471	0,02%
43	i think i	23.393	0,02%
44	out of the	23.054	0,02%
45	it was like	22.869	0,02%
46	you know the	22.783	0,02%
47	when i was	22.755	0,02%
48	you got to	22.220	0,02%
49	want to be	22.218	0,02%
50	know what i	22.117	0,02%

Lista completa: top-trigrams.csv.

De las 15 secuencias de tres palabras más frecuentes, once empiezan por un pronombre. Seis contienen un I explícito en primera persona. El inglés hablado gira de forma abrumadora en torno a quién dice qué a quién en tiempo real, y las frases de alta frecuencia lo reflejan.

Hay secuencias que llaman la atención porque no aparecen en el inglés formal: i was like (6), you know what (10), i feel like (17), oh my god (19), you got to (48). No son modismos rebuscados: son el tejido conector del habla informal.

Lo que implica esta distribución

De estos números se desprenden tres ideas.

El vocabulario rentable es pequeño. Un aprendiz que reconozca de forma fiable 3.000 palabras habladas tiene la materia prima lingüística para seguir el 89% del inglés nativo en YouTube. Estirar esa cifra hasta el 95% exige otras 5.500 palabras, la mayoría de las cuales aparece solo un puñado de veces en todo el corpus de 183 millones de palabras.

Calibrar la frecuencia importa más que el tamaño del vocabulario. La mayoría de cursos y aplicaciones tratan sus listas de vocabulario como si todas las entradas pesaran lo mismo. Los datos dicen lo contrario: el 50% del trabajo lo hacen las primeras 67 palabras. Un plan de estudio que no refleje eso es esfuerzo mal asignado.

La traducción palabra por palabra es la unidad equivocada. La mitad de las secuencias de tres palabras más frecuentes son bloques funcionales (a lot of, i don't know, a little bit, going to be) que operan como una sola unidad. Reconocerlos enteros es una operación cognitiva distinta de procesarlos como tres palabras separadas. En el habla en vivo, esa diferencia se traduce en seguir el ritmo o quedarse atrás.

Metodología

El proceso que produjo estas cifras:

Fuente. Subtítulos de 37.632 vídeos en inglés de YouTube.
Tokenización. Pasar el texto a minúsculas y aplicar la expresión regular [a-z]+(?:'[a-z]+)?. Esto mantiene contracciones como don't, gonna, it's como tokens únicos, descarta los números e ignora la puntuación.
Filtrado de ruido. Los segmentos que coinciden con ^\[.*\]$ (por ejemplo, [Music], [Applause], [Inaudible]) se descartan antes de la tokenización. Esto eliminó 196.433 segmentos.
Conteo. Para los unigramas se cuenta cada token. Para bigramas y trigramas se cuenta toda secuencia de N tokens adyacentes dentro de un mismo segmento de subtítulo; las secuencias no pueden cruzar fronteras de segmento.
Las cuotas acumuladas se calculan ordenando por cantidad y sumando.

Lo que este análisis no hace:

Sin lematización. go, going, went y gone se cuentan como entradas de vocabulario separadas. Es lo apropiado si se quiere medir lo que el aprendiz tiene que reconocer realmente al oír, pero infla el recuento bruto de vocabulario respecto a un análisis lematizado.
Sin etiquetado morfosintáctico. like como verbo y like como marcador discursivo se cuentan juntos.
Sin filtrado de subtítulos autogenerados. Algunos vídeos tienen subtítulos editados por humanos, otros usan transcripción automática; estos últimos introducen algo de ruido, sobre todo en la cola larga.

Para lo que el análisis sí es fiable: la forma de la distribución y la identidad de las palabras y frases de alta frecuencia. La cabeza de la lista —the, and, to, I, like, it's, you know, i don't know— sobrevive a cualquier limpieza razonable.

Salvedades sobre el corpus

Los 37.632 vídeos no son una muestra aleatoria de todo el inglés hablado. Son un conjunto curado de canales populares de YouTube en inglés, recopilado para alimentar ClipPhrase, nuestro motor de búsqueda de frases en clips de vídeo reales. El corpus está sesgado hacia:

Inglés americano. La mayoría de los canales son estadounidenses.
Personas que hablan profesionalmente. Presentadores nocturnos, podcasters, youtubers, presentadores de informativos: no es un corte representativo del habla privada cotidiana.
Contenido popular. Los canales se seleccionaron por número de visualizaciones y alcance cultural amplio, no por variedad dialectal o de registro.

Estas salvedades acotan lo que las cifras demuestran en sentido estricto. No alteran la forma de la distribución ni el hallazgo cualitativo de que el inglés hablado concentra la masa de probabilidad en un vocabulario diminuto de palabras funcionales y bloques de alta frecuencia.

Pruébalo tú mismo

El corpus sobre el que corrió este análisis es también un índice de búsqueda. Cada palabra y frase mencionada en este artículo existe en decenas de miles de clips de vídeo reales, recuperables mediante consulta. Escribe I was like en ClipPhrase y obtienes cincuenta hablantes distintos usándolo; escribe gonna y obtienes unos cuantos miles. Esa es la herramienta de fondo.

Descargas

top-words.csv — las 10.000 palabras principales con rango, cantidad, porcentaje y porcentaje acumulado
top-bigrams.csv — las 5.000 secuencias de dos palabras principales
top-trigrams.csv — las 5.000 secuencias de tres palabras principales

Si usas estos datos en tu propio texto o investigación, agradecemos un enlace a esta página.