ClipPhrase
← Volver al blog

Analizamos 37.000 vídeos de YouTube. Así es realmente el inglés hablado

182,9 millones de palabras habladas en 37.632 vídeos en inglés de YouTube. Solo 67 palabras representan la mitad de todo lo que se dice. Listas completas de frecuencia de palabras y frases, gráficos y datos descargables.

4 de mayo de 202612 min de lecturaClipPhrase Team

Tomamos los subtítulos de 37.632 vídeos de YouTube en inglés de nuestro índice de búsqueda —programas nocturnos, documentales, pódcast, divulgación científica, noticias, talk shows, vlogs— y ejecutamos un análisis de frecuencia sobre cada palabra y cada frase corta pronunciada. 182,9 millones de palabras en total.

Este artículo es el informe completo. Todos los CSV de origen están enlazados al final para quien quiera examinar los datos en bruto.

El corpus, en cifras

Vídeos analizados37.632
Segmentos de subtítulos26.203.765
Segmentos sin habla descartados ([Music], [Applause], etc.)196.433
Total de tokens hablados182.933.444
Palabras únicas (tamaño del vocabulario)384.132
Promedio de palabras por vídeo4.861
Secuencias únicas de dos palabras11.240.282
Secuencias únicas de tres palabras42.037.127

La mitad del inglés hablado son 67 palabras

La distribución es brutalmente desequilibrada.

Cuántas palabras hay que conocer para cubrir el X% del inglés hablado

Necesitas conocer……para reconocer esta proporción del inglés hablado
67 palabras50%
505 palabras75%
906 palabras80%
1.677 palabras85%
2.900 palabras89%
3.368 palabras90%
8.381 palabras95%
36.916 palabras99%

Algunas observaciones que vale la pena destacar:

  • La sola palabra the representa el 4,04% de todo el inglés hablado: una de cada veinticinco palabras que oyes es the.
  • Las 10 palabras más frecuentes cubren, por sí solas, el 23,2% del habla. Casi una cuarta parte de cualquier conversación nativa funciona con diez tokens reciclados.
  • Los rendimientos decrecen rápido. Pasar del 89% al 95% de comprensión casi triplica el vocabulario necesario. Del 95% al 99% lo multiplica por otros cuatro.

Es una versión más acentuada de la ley de Zipf que la que aparece en los corpus escritos. Los libros reparten su masa de probabilidad entre más vocabulario; el habla la concentra.

Distribución según Zipf del inglés hablado en 37.000 vídeos de YouTube

El gráfico anterior usa ejes log-log. Una lengua puramente zipfiana formaría una línea recta; el inglés hablado se aproxima mucho, con una ligera curvatura en las frecuencias más altas y la larga cola de palabras raras decayendo por debajo del rango 10⁵.

Las 50 palabras más habladas

RangoPalabraCantidadPorcentajeAcumulado
1the7.387.2374,04%4,04%
2and5.202.1562,84%6,88%
3to4.806.2422,63%9,51%
4i4.324.5922,36%11,87%
5a4.264.0552,33%14,20%
6you4.064.5552,22%16,43%
7of3.724.2772,04%18,46%
8that3.492.1101,91%20,37%
9it2.634.6901,44%21,81%
10in2.521.0461,38%23,19%
11like2.494.1841,36%24,55%
12is2.369.9261,30%25,85%
13this1.781.7150,97%26,82%
14so1.654.6330,90%27,73%
15was1.501.0380,82%28,55%
16it's1.410.8620,77%29,32%
17for1.305.4700,71%30,03%
18but1.274.1940,70%30,73%
19we1.248.3370,68%31,41%
20on1.216.2940,66%32,08%
21know1.167.9080,64%32,71%
22have1.137.6730,62%33,34%
23just1.134.7930,62%33,96%
24what1.032.6890,56%34,52%
25they1.020.6700,56%35,08%
26with1.007.6530,55%35,63%
27yeah962.1910,53%36,16%
28be957.7830,52%36,68%
29are898.6260,49%37,17%
30not872.7340,48%37,65%
31do870.8120,48%38,12%
32i'm821.4780,45%38,57%
33my804.9930,44%39,01%
34all799.5430,44%39,45%
35if756.3600,41%39,86%
36that's738.8510,40%40,27%
37at732.3600,40%40,67%
38about717.3880,39%41,06%
39he714.4070,39%41,45%
40your696.6360,38%41,83%
41one695.2270,38%42,21%
42as684.7050,37%42,59%
43or678.8710,37%42,96%
44can672.3880,37%43,32%
45think654.5090,36%43,68%
46right647.7160,35%44,04%
47don't637.1340,35%44,38%
48me616.9440,34%44,72%
49there597.2790,33%45,05%
50people592.2960,32%45,37%

La lista completa de las 10.000 más frecuentes está disponible en CSV.

Lo llamativo de este top 50 no es lo que aparece —the, and, to encabezarían cualquier corpus en inglés—, sino dónde se ubican algunas piezas:

  • like en el puesto 11 es un marcador discursivo, no el verbo. En un corpus de libros estaría muy por debajo de esa posición.
  • Cinco contracciones se cuelan en el top 50: it's (16), i'm (32), that's (36), don't (47) y posiblemente alguna más abajo. Los corpus escritos las separan en sus formas plenas.
  • yeah en el puesto 27 es pegamento puramente conversacional. Los libros apenas lo usan.
  • know, just y right se usan aquí mayormente como atenuadores discursivos (you know, I just wanted, yeah, right), no en sus acepciones de diccionario.

La cabeza de la lista es una instantánea de cómo el habla se diferencia del texto: contracciones, muletillas y atenuadores conviven con artículos y pronombres como vocabulario portante.

El habla está hecha de bloques

Cuando contamos secuencias de dos y de tres palabras en lugar de palabras sueltas, aparece otra estructura. Las unidades más frecuentes del inglés hablado no son palabras aisladas, sino frases cortas y recurrentes.

Las 50 secuencias de dos palabras más frecuentes

RangoFraseCantidadPorcentaje
1you know651.6590,42%
2of the610.4730,39%
3in the597.9730,38%
4going to391.9620,25%
5and i369.0690,24%
6i think360.6050,23%
7this is354.8860,23%
8to be349.2930,22%
9i was294.7490,19%
10i don't280.1650,18%
11it was279.4920,18%
12and then279.0610,18%
13to the271.4830,17%
14on the269.6980,17%
15kind of253.8900,16%
16a lot248.7870,16%
17want to240.1290,15%
18if you239.7040,15%
19you can214.7970,14%
20and the211.5770,13%
21i mean198.8830,13%
22lot of188.4010,12%
23to do188.3010,12%
24in a185.9600,12%
25is a183.8380,12%
26like a180.6150,12%
27at the169.4240,11%
28have to168.8630,11%
29one of161.6570,10%
30have a160.1630,10%
31that i159.8870,10%
32is the159.8620,10%
33you have158.2250,10%
34do you158.1540,10%
35and you156.4100,10%
36that you150.8180,10%
37for the147.4920,09%
38a little146.5850,09%
39to get143.0310,09%
40like i141.1390,09%
41so i140.1930,09%
42it is137.3250,09%
43don't know136.7140,09%
44was like136.3960,09%
45it's a136.0950,09%
46and so135.2090,09%
47of a134.5890,09%
48with the132.1770,08%
49but i131.3800,08%
50was a126.1610,08%

Lista completa: top-bigrams.csv.

Tres observaciones:

  1. you know supera a cualquier estructura gramatical estándar. Es el par de palabras más frecuente del inglés hablado, por encima de of the o in the.
  2. El top 50 está densamente poblado de construcciones en primera persona: and i, i think, i was, i don't, i mean. El habla trata, sobre todo, de quien está hablando.
  3. kind of, a lot, a little, like a, was like: atenuadores informales y construcciones cuasi-citativas pueblan el top 50.

Las 50 secuencias de tres palabras más frecuentes

RangoFraseCantidadPorcentaje
1a lot of170.9610,13%
2i don't know96.4550,07%
3one of the82.6930,06%
4going to be72.2930,05%
5a little bit64.9300,05%
6i was like60.9150,05%
7i'm going to55.9400,04%
8i want to55.0710,04%
9you want to54.9080,04%
10you know what52.9250,04%
11you have to44.9850,03%
12you know i43.5380,03%
13this is a43.4570,03%
14this is the41.6640,03%
15and i think40.2140,03%
16and i was39.3400,03%
17i feel like38.0190,03%
18we're going to35.6870,03%
19oh my god35.2030,03%
20to be a33.2290,03%
21what do you32.7470,02%
22be able to32.2630,02%
23i don't think31.9860,02%
24it was a30.7170,02%
25and you know30.3210,02%
26you're going to29.7310,02%
27like you know29.4200,02%
28don't want to29.2490,02%
29some of the28.9530,02%
30is going to28.7870,02%
31i think it's28.7190,02%
32not going to27.4060,02%
33do you think27.1960,02%
34and this is25.7630,02%
35i think that25.7620,02%
36i mean i25.4190,02%
37in the world25.3100,02%
38and it was25.3030,02%
39and then i25.0910,02%
40you have a23.9880,02%
41the end of23.8850,02%
42and then you23.4710,02%
43i think i23.3930,02%
44out of the23.0540,02%
45it was like22.8690,02%
46you know the22.7830,02%
47when i was22.7550,02%
48you got to22.2200,02%
49want to be22.2180,02%
50know what i22.1170,02%

Lista completa: top-trigrams.csv.

De las 15 secuencias de tres palabras más frecuentes, once empiezan por un pronombre. Seis contienen un I explícito en primera persona. El inglés hablado gira de forma abrumadora en torno a quién dice qué a quién en tiempo real, y las frases de alta frecuencia lo reflejan.

Hay secuencias que llaman la atención porque no aparecen en el inglés formal: i was like (6), you know what (10), i feel like (17), oh my god (19), you got to (48). No son modismos rebuscados: son el tejido conector del habla informal.

Lo que implica esta distribución

De estos números se desprenden tres ideas.

El vocabulario rentable es pequeño. Un aprendiz que reconozca de forma fiable 3.000 palabras habladas tiene la materia prima lingüística para seguir el 89% del inglés nativo en YouTube. Estirar esa cifra hasta el 95% exige otras 5.500 palabras, la mayoría de las cuales aparece solo un puñado de veces en todo el corpus de 183 millones de palabras.

Calibrar la frecuencia importa más que el tamaño del vocabulario. La mayoría de cursos y aplicaciones tratan sus listas de vocabulario como si todas las entradas pesaran lo mismo. Los datos dicen lo contrario: el 50% del trabajo lo hacen las primeras 67 palabras. Un plan de estudio que no refleje eso es esfuerzo mal asignado.

La traducción palabra por palabra es la unidad equivocada. La mitad de las secuencias de tres palabras más frecuentes son bloques funcionales (a lot of, i don't know, a little bit, going to be) que operan como una sola unidad. Reconocerlos enteros es una operación cognitiva distinta de procesarlos como tres palabras separadas. En el habla en vivo, esa diferencia se traduce en seguir el ritmo o quedarse atrás.

Metodología

El proceso que produjo estas cifras:

  1. Fuente. Subtítulos de 37.632 vídeos en inglés de YouTube.
  2. Tokenización. Pasar el texto a minúsculas y aplicar la expresión regular [a-z]+(?:'[a-z]+)?. Esto mantiene contracciones como don't, gonna, it's como tokens únicos, descarta los números e ignora la puntuación.
  3. Filtrado de ruido. Los segmentos que coinciden con ^\[.*\]$ (por ejemplo, [Music], [Applause], [Inaudible]) se descartan antes de la tokenización. Esto eliminó 196.433 segmentos.
  4. Conteo. Para los unigramas se cuenta cada token. Para bigramas y trigramas se cuenta toda secuencia de N tokens adyacentes dentro de un mismo segmento de subtítulo; las secuencias no pueden cruzar fronteras de segmento.
  5. Las cuotas acumuladas se calculan ordenando por cantidad y sumando.

Lo que este análisis no hace:

  • Sin lematización. go, going, went y gone se cuentan como entradas de vocabulario separadas. Es lo apropiado si se quiere medir lo que el aprendiz tiene que reconocer realmente al oír, pero infla el recuento bruto de vocabulario respecto a un análisis lematizado.
  • Sin etiquetado morfosintáctico. like como verbo y like como marcador discursivo se cuentan juntos.
  • Sin filtrado de subtítulos autogenerados. Algunos vídeos tienen subtítulos editados por humanos, otros usan transcripción automática; estos últimos introducen algo de ruido, sobre todo en la cola larga.

Para lo que el análisis sí es fiable: la forma de la distribución y la identidad de las palabras y frases de alta frecuencia. La cabeza de la lista —the, and, to, I, like, it's, you know, i don't know— sobrevive a cualquier limpieza razonable.

Salvedades sobre el corpus

Los 37.632 vídeos no son una muestra aleatoria de todo el inglés hablado. Son un conjunto curado de canales populares de YouTube en inglés, recopilado para alimentar ClipPhrase, nuestro motor de búsqueda de frases en clips de vídeo reales. El corpus está sesgado hacia:

  • Inglés americano. La mayoría de los canales son estadounidenses.
  • Personas que hablan profesionalmente. Presentadores nocturnos, podcasters, youtubers, presentadores de informativos: no es un corte representativo del habla privada cotidiana.
  • Contenido popular. Los canales se seleccionaron por número de visualizaciones y alcance cultural amplio, no por variedad dialectal o de registro.

Estas salvedades acotan lo que las cifras demuestran en sentido estricto. No alteran la forma de la distribución ni el hallazgo cualitativo de que el inglés hablado concentra la masa de probabilidad en un vocabulario diminuto de palabras funcionales y bloques de alta frecuencia.

Pruébalo tú mismo

El corpus sobre el que corrió este análisis es también un índice de búsqueda. Cada palabra y frase mencionada en este artículo existe en decenas de miles de clips de vídeo reales, recuperables mediante consulta. Escribe I was like en ClipPhrase y obtienes cincuenta hablantes distintos usándolo; escribe gonna y obtienes unos cuantos miles. Esa es la herramienta de fondo.

Descargas

  • top-words.csv — las 10.000 palabras principales con rango, cantidad, porcentaje y porcentaje acumulado
  • top-bigrams.csv — las 5.000 secuencias de dos palabras principales
  • top-trigrams.csv — las 5.000 secuencias de tres palabras principales

Si usas estos datos en tu propio texto o investigación, agradecemos un enlace a esta página.