Analizamos 37.000 vídeos de YouTube. Así es realmente el inglés hablado
182,9 millones de palabras habladas en 37.632 vídeos en inglés de YouTube. Solo 67 palabras representan la mitad de todo lo que se dice. Listas completas de frecuencia de palabras y frases, gráficos y datos descargables.
Tomamos los subtítulos de 37.632 vídeos de YouTube en inglés de nuestro índice de búsqueda —programas nocturnos, documentales, pódcast, divulgación científica, noticias, talk shows, vlogs— y ejecutamos un análisis de frecuencia sobre cada palabra y cada frase corta pronunciada. 182,9 millones de palabras en total.
Este artículo es el informe completo. Todos los CSV de origen están enlazados al final para quien quiera examinar los datos en bruto.
El corpus, en cifras
| Vídeos analizados | 37.632 |
| Segmentos de subtítulos | 26.203.765 |
Segmentos sin habla descartados ([Music], [Applause], etc.) | 196.433 |
| Total de tokens hablados | 182.933.444 |
| Palabras únicas (tamaño del vocabulario) | 384.132 |
| Promedio de palabras por vídeo | 4.861 |
| Secuencias únicas de dos palabras | 11.240.282 |
| Secuencias únicas de tres palabras | 42.037.127 |
La mitad del inglés hablado son 67 palabras
La distribución es brutalmente desequilibrada.

| Necesitas conocer… | …para reconocer esta proporción del inglés hablado |
|---|---|
| 67 palabras | 50% |
| 505 palabras | 75% |
| 906 palabras | 80% |
| 1.677 palabras | 85% |
| 2.900 palabras | 89% |
| 3.368 palabras | 90% |
| 8.381 palabras | 95% |
| 36.916 palabras | 99% |
Algunas observaciones que vale la pena destacar:
- La sola palabra the representa el 4,04% de todo el inglés hablado: una de cada veinticinco palabras que oyes es the.
- Las 10 palabras más frecuentes cubren, por sí solas, el 23,2% del habla. Casi una cuarta parte de cualquier conversación nativa funciona con diez tokens reciclados.
- Los rendimientos decrecen rápido. Pasar del 89% al 95% de comprensión casi triplica el vocabulario necesario. Del 95% al 99% lo multiplica por otros cuatro.
Es una versión más acentuada de la ley de Zipf que la que aparece en los corpus escritos. Los libros reparten su masa de probabilidad entre más vocabulario; el habla la concentra.

El gráfico anterior usa ejes log-log. Una lengua puramente zipfiana formaría una línea recta; el inglés hablado se aproxima mucho, con una ligera curvatura en las frecuencias más altas y la larga cola de palabras raras decayendo por debajo del rango 10⁵.
Las 50 palabras más habladas
| Rango | Palabra | Cantidad | Porcentaje | Acumulado |
|---|---|---|---|---|
| 1 | the | 7.387.237 | 4,04% | 4,04% |
| 2 | and | 5.202.156 | 2,84% | 6,88% |
| 3 | to | 4.806.242 | 2,63% | 9,51% |
| 4 | i | 4.324.592 | 2,36% | 11,87% |
| 5 | a | 4.264.055 | 2,33% | 14,20% |
| 6 | you | 4.064.555 | 2,22% | 16,43% |
| 7 | of | 3.724.277 | 2,04% | 18,46% |
| 8 | that | 3.492.110 | 1,91% | 20,37% |
| 9 | it | 2.634.690 | 1,44% | 21,81% |
| 10 | in | 2.521.046 | 1,38% | 23,19% |
| 11 | like | 2.494.184 | 1,36% | 24,55% |
| 12 | is | 2.369.926 | 1,30% | 25,85% |
| 13 | this | 1.781.715 | 0,97% | 26,82% |
| 14 | so | 1.654.633 | 0,90% | 27,73% |
| 15 | was | 1.501.038 | 0,82% | 28,55% |
| 16 | it's | 1.410.862 | 0,77% | 29,32% |
| 17 | for | 1.305.470 | 0,71% | 30,03% |
| 18 | but | 1.274.194 | 0,70% | 30,73% |
| 19 | we | 1.248.337 | 0,68% | 31,41% |
| 20 | on | 1.216.294 | 0,66% | 32,08% |
| 21 | know | 1.167.908 | 0,64% | 32,71% |
| 22 | have | 1.137.673 | 0,62% | 33,34% |
| 23 | just | 1.134.793 | 0,62% | 33,96% |
| 24 | what | 1.032.689 | 0,56% | 34,52% |
| 25 | they | 1.020.670 | 0,56% | 35,08% |
| 26 | with | 1.007.653 | 0,55% | 35,63% |
| 27 | yeah | 962.191 | 0,53% | 36,16% |
| 28 | be | 957.783 | 0,52% | 36,68% |
| 29 | are | 898.626 | 0,49% | 37,17% |
| 30 | not | 872.734 | 0,48% | 37,65% |
| 31 | do | 870.812 | 0,48% | 38,12% |
| 32 | i'm | 821.478 | 0,45% | 38,57% |
| 33 | my | 804.993 | 0,44% | 39,01% |
| 34 | all | 799.543 | 0,44% | 39,45% |
| 35 | if | 756.360 | 0,41% | 39,86% |
| 36 | that's | 738.851 | 0,40% | 40,27% |
| 37 | at | 732.360 | 0,40% | 40,67% |
| 38 | about | 717.388 | 0,39% | 41,06% |
| 39 | he | 714.407 | 0,39% | 41,45% |
| 40 | your | 696.636 | 0,38% | 41,83% |
| 41 | one | 695.227 | 0,38% | 42,21% |
| 42 | as | 684.705 | 0,37% | 42,59% |
| 43 | or | 678.871 | 0,37% | 42,96% |
| 44 | can | 672.388 | 0,37% | 43,32% |
| 45 | think | 654.509 | 0,36% | 43,68% |
| 46 | right | 647.716 | 0,35% | 44,04% |
| 47 | don't | 637.134 | 0,35% | 44,38% |
| 48 | me | 616.944 | 0,34% | 44,72% |
| 49 | there | 597.279 | 0,33% | 45,05% |
| 50 | people | 592.296 | 0,32% | 45,37% |
La lista completa de las 10.000 más frecuentes está disponible en CSV.
Lo llamativo de este top 50 no es lo que aparece —the, and, to encabezarían cualquier corpus en inglés—, sino dónde se ubican algunas piezas:
likeen el puesto 11 es un marcador discursivo, no el verbo. En un corpus de libros estaría muy por debajo de esa posición.- Cinco contracciones se cuelan en el top 50: it's (16), i'm (32), that's (36), don't (47) y posiblemente alguna más abajo. Los corpus escritos las separan en sus formas plenas.
yeahen el puesto 27 es pegamento puramente conversacional. Los libros apenas lo usan.know,justyrightse usan aquí mayormente como atenuadores discursivos (you know, I just wanted, yeah, right), no en sus acepciones de diccionario.
La cabeza de la lista es una instantánea de cómo el habla se diferencia del texto: contracciones, muletillas y atenuadores conviven con artículos y pronombres como vocabulario portante.
El habla está hecha de bloques
Cuando contamos secuencias de dos y de tres palabras en lugar de palabras sueltas, aparece otra estructura. Las unidades más frecuentes del inglés hablado no son palabras aisladas, sino frases cortas y recurrentes.
Las 50 secuencias de dos palabras más frecuentes
| Rango | Frase | Cantidad | Porcentaje |
|---|---|---|---|
| 1 | you know | 651.659 | 0,42% |
| 2 | of the | 610.473 | 0,39% |
| 3 | in the | 597.973 | 0,38% |
| 4 | going to | 391.962 | 0,25% |
| 5 | and i | 369.069 | 0,24% |
| 6 | i think | 360.605 | 0,23% |
| 7 | this is | 354.886 | 0,23% |
| 8 | to be | 349.293 | 0,22% |
| 9 | i was | 294.749 | 0,19% |
| 10 | i don't | 280.165 | 0,18% |
| 11 | it was | 279.492 | 0,18% |
| 12 | and then | 279.061 | 0,18% |
| 13 | to the | 271.483 | 0,17% |
| 14 | on the | 269.698 | 0,17% |
| 15 | kind of | 253.890 | 0,16% |
| 16 | a lot | 248.787 | 0,16% |
| 17 | want to | 240.129 | 0,15% |
| 18 | if you | 239.704 | 0,15% |
| 19 | you can | 214.797 | 0,14% |
| 20 | and the | 211.577 | 0,13% |
| 21 | i mean | 198.883 | 0,13% |
| 22 | lot of | 188.401 | 0,12% |
| 23 | to do | 188.301 | 0,12% |
| 24 | in a | 185.960 | 0,12% |
| 25 | is a | 183.838 | 0,12% |
| 26 | like a | 180.615 | 0,12% |
| 27 | at the | 169.424 | 0,11% |
| 28 | have to | 168.863 | 0,11% |
| 29 | one of | 161.657 | 0,10% |
| 30 | have a | 160.163 | 0,10% |
| 31 | that i | 159.887 | 0,10% |
| 32 | is the | 159.862 | 0,10% |
| 33 | you have | 158.225 | 0,10% |
| 34 | do you | 158.154 | 0,10% |
| 35 | and you | 156.410 | 0,10% |
| 36 | that you | 150.818 | 0,10% |
| 37 | for the | 147.492 | 0,09% |
| 38 | a little | 146.585 | 0,09% |
| 39 | to get | 143.031 | 0,09% |
| 40 | like i | 141.139 | 0,09% |
| 41 | so i | 140.193 | 0,09% |
| 42 | it is | 137.325 | 0,09% |
| 43 | don't know | 136.714 | 0,09% |
| 44 | was like | 136.396 | 0,09% |
| 45 | it's a | 136.095 | 0,09% |
| 46 | and so | 135.209 | 0,09% |
| 47 | of a | 134.589 | 0,09% |
| 48 | with the | 132.177 | 0,08% |
| 49 | but i | 131.380 | 0,08% |
| 50 | was a | 126.161 | 0,08% |
Lista completa: top-bigrams.csv.
Tres observaciones:
you knowsupera a cualquier estructura gramatical estándar. Es el par de palabras más frecuente del inglés hablado, por encima de of the o in the.- El top 50 está densamente poblado de construcciones en primera persona: and i, i think, i was, i don't, i mean. El habla trata, sobre todo, de quien está hablando.
kind of,a lot,a little,like a,was like: atenuadores informales y construcciones cuasi-citativas pueblan el top 50.
Las 50 secuencias de tres palabras más frecuentes
| Rango | Frase | Cantidad | Porcentaje |
|---|---|---|---|
| 1 | a lot of | 170.961 | 0,13% |
| 2 | i don't know | 96.455 | 0,07% |
| 3 | one of the | 82.693 | 0,06% |
| 4 | going to be | 72.293 | 0,05% |
| 5 | a little bit | 64.930 | 0,05% |
| 6 | i was like | 60.915 | 0,05% |
| 7 | i'm going to | 55.940 | 0,04% |
| 8 | i want to | 55.071 | 0,04% |
| 9 | you want to | 54.908 | 0,04% |
| 10 | you know what | 52.925 | 0,04% |
| 11 | you have to | 44.985 | 0,03% |
| 12 | you know i | 43.538 | 0,03% |
| 13 | this is a | 43.457 | 0,03% |
| 14 | this is the | 41.664 | 0,03% |
| 15 | and i think | 40.214 | 0,03% |
| 16 | and i was | 39.340 | 0,03% |
| 17 | i feel like | 38.019 | 0,03% |
| 18 | we're going to | 35.687 | 0,03% |
| 19 | oh my god | 35.203 | 0,03% |
| 20 | to be a | 33.229 | 0,03% |
| 21 | what do you | 32.747 | 0,02% |
| 22 | be able to | 32.263 | 0,02% |
| 23 | i don't think | 31.986 | 0,02% |
| 24 | it was a | 30.717 | 0,02% |
| 25 | and you know | 30.321 | 0,02% |
| 26 | you're going to | 29.731 | 0,02% |
| 27 | like you know | 29.420 | 0,02% |
| 28 | don't want to | 29.249 | 0,02% |
| 29 | some of the | 28.953 | 0,02% |
| 30 | is going to | 28.787 | 0,02% |
| 31 | i think it's | 28.719 | 0,02% |
| 32 | not going to | 27.406 | 0,02% |
| 33 | do you think | 27.196 | 0,02% |
| 34 | and this is | 25.763 | 0,02% |
| 35 | i think that | 25.762 | 0,02% |
| 36 | i mean i | 25.419 | 0,02% |
| 37 | in the world | 25.310 | 0,02% |
| 38 | and it was | 25.303 | 0,02% |
| 39 | and then i | 25.091 | 0,02% |
| 40 | you have a | 23.988 | 0,02% |
| 41 | the end of | 23.885 | 0,02% |
| 42 | and then you | 23.471 | 0,02% |
| 43 | i think i | 23.393 | 0,02% |
| 44 | out of the | 23.054 | 0,02% |
| 45 | it was like | 22.869 | 0,02% |
| 46 | you know the | 22.783 | 0,02% |
| 47 | when i was | 22.755 | 0,02% |
| 48 | you got to | 22.220 | 0,02% |
| 49 | want to be | 22.218 | 0,02% |
| 50 | know what i | 22.117 | 0,02% |
Lista completa: top-trigrams.csv.
De las 15 secuencias de tres palabras más frecuentes, once empiezan por un pronombre. Seis contienen un I explícito en primera persona. El inglés hablado gira de forma abrumadora en torno a quién dice qué a quién en tiempo real, y las frases de alta frecuencia lo reflejan.
Hay secuencias que llaman la atención porque no aparecen en el inglés formal: i was like (6), you know what (10), i feel like (17), oh my god (19), you got to (48). No son modismos rebuscados: son el tejido conector del habla informal.
Lo que implica esta distribución
De estos números se desprenden tres ideas.
El vocabulario rentable es pequeño. Un aprendiz que reconozca de forma fiable 3.000 palabras habladas tiene la materia prima lingüística para seguir el 89% del inglés nativo en YouTube. Estirar esa cifra hasta el 95% exige otras 5.500 palabras, la mayoría de las cuales aparece solo un puñado de veces en todo el corpus de 183 millones de palabras.
Calibrar la frecuencia importa más que el tamaño del vocabulario. La mayoría de cursos y aplicaciones tratan sus listas de vocabulario como si todas las entradas pesaran lo mismo. Los datos dicen lo contrario: el 50% del trabajo lo hacen las primeras 67 palabras. Un plan de estudio que no refleje eso es esfuerzo mal asignado.
La traducción palabra por palabra es la unidad equivocada. La mitad de las secuencias de tres palabras más frecuentes son bloques funcionales (a lot of, i don't know, a little bit, going to be) que operan como una sola unidad. Reconocerlos enteros es una operación cognitiva distinta de procesarlos como tres palabras separadas. En el habla en vivo, esa diferencia se traduce en seguir el ritmo o quedarse atrás.
Metodología
El proceso que produjo estas cifras:
- Fuente. Subtítulos de 37.632 vídeos en inglés de YouTube.
- Tokenización. Pasar el texto a minúsculas y aplicar la expresión regular
[a-z]+(?:'[a-z]+)?. Esto mantiene contracciones como don't, gonna, it's como tokens únicos, descarta los números e ignora la puntuación. - Filtrado de ruido. Los segmentos que coinciden con
^\[.*\]$(por ejemplo,[Music],[Applause],[Inaudible]) se descartan antes de la tokenización. Esto eliminó 196.433 segmentos. - Conteo. Para los unigramas se cuenta cada token. Para bigramas y trigramas se cuenta toda secuencia de N tokens adyacentes dentro de un mismo segmento de subtítulo; las secuencias no pueden cruzar fronteras de segmento.
- Las cuotas acumuladas se calculan ordenando por cantidad y sumando.
Lo que este análisis no hace:
- Sin lematización. go, going, went y gone se cuentan como entradas de vocabulario separadas. Es lo apropiado si se quiere medir lo que el aprendiz tiene que reconocer realmente al oír, pero infla el recuento bruto de vocabulario respecto a un análisis lematizado.
- Sin etiquetado morfosintáctico. like como verbo y like como marcador discursivo se cuentan juntos.
- Sin filtrado de subtítulos autogenerados. Algunos vídeos tienen subtítulos editados por humanos, otros usan transcripción automática; estos últimos introducen algo de ruido, sobre todo en la cola larga.
Para lo que el análisis sí es fiable: la forma de la distribución y la identidad de las palabras y frases de alta frecuencia. La cabeza de la lista —the, and, to, I, like, it's, you know, i don't know— sobrevive a cualquier limpieza razonable.
Salvedades sobre el corpus
Los 37.632 vídeos no son una muestra aleatoria de todo el inglés hablado. Son un conjunto curado de canales populares de YouTube en inglés, recopilado para alimentar ClipPhrase, nuestro motor de búsqueda de frases en clips de vídeo reales. El corpus está sesgado hacia:
- Inglés americano. La mayoría de los canales son estadounidenses.
- Personas que hablan profesionalmente. Presentadores nocturnos, podcasters, youtubers, presentadores de informativos: no es un corte representativo del habla privada cotidiana.
- Contenido popular. Los canales se seleccionaron por número de visualizaciones y alcance cultural amplio, no por variedad dialectal o de registro.
Estas salvedades acotan lo que las cifras demuestran en sentido estricto. No alteran la forma de la distribución ni el hallazgo cualitativo de que el inglés hablado concentra la masa de probabilidad en un vocabulario diminuto de palabras funcionales y bloques de alta frecuencia.
Pruébalo tú mismo
El corpus sobre el que corrió este análisis es también un índice de búsqueda. Cada palabra y frase mencionada en este artículo existe en decenas de miles de clips de vídeo reales, recuperables mediante consulta. Escribe I was like en ClipPhrase y obtienes cincuenta hablantes distintos usándolo; escribe gonna y obtienes unos cuantos miles. Esa es la herramienta de fondo.
Descargas
- top-words.csv — las 10.000 palabras principales con rango, cantidad, porcentaje y porcentaje acumulado
- top-bigrams.csv — las 5.000 secuencias de dos palabras principales
- top-trigrams.csv — las 5.000 secuencias de tres palabras principales
Si usas estos datos en tu propio texto o investigación, agradecemos un enlace a esta página.