Wir haben 37.000 YouTube-Videos analysiert. So sieht gesprochenes Englisch wirklich aus
182,9 Millionen gesprochene Wörter aus 37.632 englischen YouTube-Videos. Nur 67 Wörter machen die Hälfte von allem Gesagten aus. Vollständige Häufigkeitslisten für Wörter und Wortgruppen, Diagramme und Daten zum Herunterladen.
Wir haben die Untertitel von 37.632 englischen YouTube-Videos aus unserem Suchindex genommen — Late-Night-Shows, Dokumentationen, Podcasts, Wissenschaftsformate, Nachrichten, Talkshows, Vlogs — und eine Häufigkeitsanalyse jedes Wortes und jeder kurzen Wortgruppe darin durchgeführt. Insgesamt 182,9 Millionen Wörter.
Dieser Artikel fasst die Ergebnisse vollständig zusammen. Alle zugrundeliegenden CSV-Dateien sind unten verlinkt, falls jemand die Rohdaten einsehen möchte.
Der Korpus in Zahlen
| Analysierte Videos | 37.632 |
| Untertitelsegmente | 26.203.765 |
Übersprungene Nicht-Sprach-Segmente ([Music], [Applause] usw.) | 196.433 |
| Gesprochene Tokens insgesamt | 182.933.444 |
| Einzigartige Wörter (Wortschatzgröße) | 384.132 |
| Durchschnittliche Wörter pro Video | 4.861 |
| Einzigartige Zwei-Wort-Folgen | 11.240.282 |
| Einzigartige Drei-Wort-Folgen | 42.037.127 |
Die Hälfte des gesamten gesprochenen Englisch besteht aus 67 Wörtern
Die Verteilung ist brutal einseitig.

| Du musst kennen… | …um so viel des gesprochenen Englisch zu erkennen |
|---|---|
| 67 Wörter | 50 % |
| 505 Wörter | 75 % |
| 906 Wörter | 80 % |
| 1.677 Wörter | 85 % |
| 2.900 Wörter | 89 % |
| 3.368 Wörter | 90 % |
| 8.381 Wörter | 95 % |
| 36.916 Wörter | 99 % |
Ein paar Punkte, die hervorzuheben sind:
- Allein das Wort the macht 4,04 % des gesamten gesprochenen Englisch aus — jedes fünfundzwanzigste Wort, das man hört, ist the.
- Die zehn häufigsten Wörter decken zusammen 23,2 % der gesamten Sprache ab. Fast ein Viertel jeder Unterhaltung unter Muttersprachlern läuft über zehn immer wiederkehrende Tokens.
- Der Ertrag bricht schnell ein. Der Sprung von 89 % auf 95 % Verständnis nahezu verdreifacht den nötigen Wortschatz. Von 95 % auf 99 % vervielfacht ihn noch einmal um den Faktor vier.
Das ist eine schärfere Ausprägung des Zipfschen Gesetzes als in schriftlichen Korpora. Bücher verteilen ihre Wahrscheinlichkeitsmasse über mehr Vokabular; Sprache konzentriert sie.

Das obige Diagramm hat doppelt logarithmische Achsen. Eine rein zipfianische Sprache würde eine gerade Linie bilden; gesprochenes Englisch tut das nahezu, mit einem leichten Knick bei den höchsten Frequenzen und dem langen Schwanz seltener Wörter, der unterhalb von Rang 10⁵ ausläuft.
Die 50 häufigsten gesprochenen Wörter
| Rang | Wort | Anzahl | Anteil | Kumuliert |
|---|---|---|---|---|
| 1 | the | 7.387.237 | 4,04 % | 4,04 % |
| 2 | and | 5.202.156 | 2,84 % | 6,88 % |
| 3 | to | 4.806.242 | 2,63 % | 9,51 % |
| 4 | i | 4.324.592 | 2,36 % | 11,87 % |
| 5 | a | 4.264.055 | 2,33 % | 14,20 % |
| 6 | you | 4.064.555 | 2,22 % | 16,43 % |
| 7 | of | 3.724.277 | 2,04 % | 18,46 % |
| 8 | that | 3.492.110 | 1,91 % | 20,37 % |
| 9 | it | 2.634.690 | 1,44 % | 21,81 % |
| 10 | in | 2.521.046 | 1,38 % | 23,19 % |
| 11 | like | 2.494.184 | 1,36 % | 24,55 % |
| 12 | is | 2.369.926 | 1,30 % | 25,85 % |
| 13 | this | 1.781.715 | 0,97 % | 26,82 % |
| 14 | so | 1.654.633 | 0,90 % | 27,73 % |
| 15 | was | 1.501.038 | 0,82 % | 28,55 % |
| 16 | it's | 1.410.862 | 0,77 % | 29,32 % |
| 17 | for | 1.305.470 | 0,71 % | 30,03 % |
| 18 | but | 1.274.194 | 0,70 % | 30,73 % |
| 19 | we | 1.248.337 | 0,68 % | 31,41 % |
| 20 | on | 1.216.294 | 0,66 % | 32,08 % |
| 21 | know | 1.167.908 | 0,64 % | 32,71 % |
| 22 | have | 1.137.673 | 0,62 % | 33,34 % |
| 23 | just | 1.134.793 | 0,62 % | 33,96 % |
| 24 | what | 1.032.689 | 0,56 % | 34,52 % |
| 25 | they | 1.020.670 | 0,56 % | 35,08 % |
| 26 | with | 1.007.653 | 0,55 % | 35,63 % |
| 27 | yeah | 962.191 | 0,53 % | 36,16 % |
| 28 | be | 957.783 | 0,52 % | 36,68 % |
| 29 | are | 898.626 | 0,49 % | 37,17 % |
| 30 | not | 872.734 | 0,48 % | 37,65 % |
| 31 | do | 870.812 | 0,48 % | 38,12 % |
| 32 | i'm | 821.478 | 0,45 % | 38,57 % |
| 33 | my | 804.993 | 0,44 % | 39,01 % |
| 34 | all | 799.543 | 0,44 % | 39,45 % |
| 35 | if | 756.360 | 0,41 % | 39,86 % |
| 36 | that's | 738.851 | 0,40 % | 40,27 % |
| 37 | at | 732.360 | 0,40 % | 40,67 % |
| 38 | about | 717.388 | 0,39 % | 41,06 % |
| 39 | he | 714.407 | 0,39 % | 41,45 % |
| 40 | your | 696.636 | 0,38 % | 41,83 % |
| 41 | one | 695.227 | 0,38 % | 42,21 % |
| 42 | as | 684.705 | 0,37 % | 42,59 % |
| 43 | or | 678.871 | 0,37 % | 42,96 % |
| 44 | can | 672.388 | 0,37 % | 43,32 % |
| 45 | think | 654.509 | 0,36 % | 43,68 % |
| 46 | right | 647.716 | 0,35 % | 44,04 % |
| 47 | don't | 637.134 | 0,35 % | 44,38 % |
| 48 | me | 616.944 | 0,34 % | 44,72 % |
| 49 | there | 597.279 | 0,33 % | 45,05 % |
| 50 | people | 592.296 | 0,32 % | 45,37 % |
Die vollständige Top-10.000-Liste ist als CSV verfügbar.
Was an diesen Top 50 auffällt, ist nicht das, was dort steht — the, and, to würden jeden englischen Korpus anführen — sondern wo die Dinge platziert sind:
likeauf Platz 11 ist hier ein Diskursmarker, nicht das Verb. In einem Buchkorpus stünde es weit weiter unten.- Fünf Kontraktionen schaffen es in die Top 50: it's (#16), i'm (#32), that's (#36), don't (#47) und vermutlich weitere etwas tiefer. Schriftliche Korpora spalten diese in ihre vollen Formen auf.
yeahauf Platz 27 ist reiner Gesprächskitt. In Büchern kommt es kaum vor.know,justundrightwerden hier überwiegend als diskursabschwächende Wörter verwendet (you know, I just wanted, yeah, right) und nicht in ihren Wörterbuchbedeutungen.
Die Spitze der Liste ist eine Momentaufnahme dessen, wie sich Sprache von Text unterscheidet: Kontraktionen, Füllwörter und Abschwächer stehen neben Artikeln und Pronomen als tragender Wortschatz.
Sprache wird aus Bausteinen gebaut
Wenn man statt einzelner Wörter Zwei- und Drei-Wort-Folgen zählt, zeigt sich eine andere Struktur. Die häufigsten Einheiten des gesprochenen Englisch sind keine isolierten Wörter, sondern kurze, wiederkehrende Wortgruppen.
Die 50 häufigsten Zwei-Wort-Folgen
| Rang | Wortgruppe | Anzahl | Anteil |
|---|---|---|---|
| 1 | you know | 651.659 | 0,42 % |
| 2 | of the | 610.473 | 0,39 % |
| 3 | in the | 597.973 | 0,38 % |
| 4 | going to | 391.962 | 0,25 % |
| 5 | and i | 369.069 | 0,24 % |
| 6 | i think | 360.605 | 0,23 % |
| 7 | this is | 354.886 | 0,23 % |
| 8 | to be | 349.293 | 0,22 % |
| 9 | i was | 294.749 | 0,19 % |
| 10 | i don't | 280.165 | 0,18 % |
| 11 | it was | 279.492 | 0,18 % |
| 12 | and then | 279.061 | 0,18 % |
| 13 | to the | 271.483 | 0,17 % |
| 14 | on the | 269.698 | 0,17 % |
| 15 | kind of | 253.890 | 0,16 % |
| 16 | a lot | 248.787 | 0,16 % |
| 17 | want to | 240.129 | 0,15 % |
| 18 | if you | 239.704 | 0,15 % |
| 19 | you can | 214.797 | 0,14 % |
| 20 | and the | 211.577 | 0,13 % |
| 21 | i mean | 198.883 | 0,13 % |
| 22 | lot of | 188.401 | 0,12 % |
| 23 | to do | 188.301 | 0,12 % |
| 24 | in a | 185.960 | 0,12 % |
| 25 | is a | 183.838 | 0,12 % |
| 26 | like a | 180.615 | 0,12 % |
| 27 | at the | 169.424 | 0,11 % |
| 28 | have to | 168.863 | 0,11 % |
| 29 | one of | 161.657 | 0,10 % |
| 30 | have a | 160.163 | 0,10 % |
| 31 | that i | 159.887 | 0,10 % |
| 32 | is the | 159.862 | 0,10 % |
| 33 | you have | 158.225 | 0,10 % |
| 34 | do you | 158.154 | 0,10 % |
| 35 | and you | 156.410 | 0,10 % |
| 36 | that you | 150.818 | 0,10 % |
| 37 | for the | 147.492 | 0,09 % |
| 38 | a little | 146.585 | 0,09 % |
| 39 | to get | 143.031 | 0,09 % |
| 40 | like i | 141.139 | 0,09 % |
| 41 | so i | 140.193 | 0,09 % |
| 42 | it is | 137.325 | 0,09 % |
| 43 | don't know | 136.714 | 0,09 % |
| 44 | was like | 136.396 | 0,09 % |
| 45 | it's a | 136.095 | 0,09 % |
| 46 | and so | 135.209 | 0,09 % |
| 47 | of a | 134.589 | 0,09 % |
| 48 | with the | 132.177 | 0,08 % |
| 49 | but i | 131.380 | 0,08 % |
| 50 | was a | 126.161 | 0,08 % |
Vollständige Liste: top-bigrams.csv.
Drei Beobachtungen:
you knowschlägt jede grammatische Standardverbindung. Es ist das mit Abstand häufigste Wortpaar im gesprochenen Englisch — häufiger als of the oder in the.- Die Top 50 sind dicht mit Konstruktionen in der ersten Person besetzt: and i, i think, i was, i don't, i mean. Beim Sprechen geht es vor allem um denjenigen, der gerade spricht.
kind of,a lot,a little,like a,was like— informelle Abschwächer und quotativ-ähnliche Konstruktionen sind in den Top 50 allgegenwärtig.
Die 50 häufigsten Drei-Wort-Folgen
| Rang | Wortgruppe | Anzahl | Anteil |
|---|---|---|---|
| 1 | a lot of | 170.961 | 0,13 % |
| 2 | i don't know | 96.455 | 0,07 % |
| 3 | one of the | 82.693 | 0,06 % |
| 4 | going to be | 72.293 | 0,05 % |
| 5 | a little bit | 64.930 | 0,05 % |
| 6 | i was like | 60.915 | 0,05 % |
| 7 | i'm going to | 55.940 | 0,04 % |
| 8 | i want to | 55.071 | 0,04 % |
| 9 | you want to | 54.908 | 0,04 % |
| 10 | you know what | 52.925 | 0,04 % |
| 11 | you have to | 44.985 | 0,03 % |
| 12 | you know i | 43.538 | 0,03 % |
| 13 | this is a | 43.457 | 0,03 % |
| 14 | this is the | 41.664 | 0,03 % |
| 15 | and i think | 40.214 | 0,03 % |
| 16 | and i was | 39.340 | 0,03 % |
| 17 | i feel like | 38.019 | 0,03 % |
| 18 | we're going to | 35.687 | 0,03 % |
| 19 | oh my god | 35.203 | 0,03 % |
| 20 | to be a | 33.229 | 0,03 % |
| 21 | what do you | 32.747 | 0,02 % |
| 22 | be able to | 32.263 | 0,02 % |
| 23 | i don't think | 31.986 | 0,02 % |
| 24 | it was a | 30.717 | 0,02 % |
| 25 | and you know | 30.321 | 0,02 % |
| 26 | you're going to | 29.731 | 0,02 % |
| 27 | like you know | 29.420 | 0,02 % |
| 28 | don't want to | 29.249 | 0,02 % |
| 29 | some of the | 28.953 | 0,02 % |
| 30 | is going to | 28.787 | 0,02 % |
| 31 | i think it's | 28.719 | 0,02 % |
| 32 | not going to | 27.406 | 0,02 % |
| 33 | do you think | 27.196 | 0,02 % |
| 34 | and this is | 25.763 | 0,02 % |
| 35 | i think that | 25.762 | 0,02 % |
| 36 | i mean i | 25.419 | 0,02 % |
| 37 | in the world | 25.310 | 0,02 % |
| 38 | and it was | 25.303 | 0,02 % |
| 39 | and then i | 25.091 | 0,02 % |
| 40 | you have a | 23.988 | 0,02 % |
| 41 | the end of | 23.885 | 0,02 % |
| 42 | and then you | 23.471 | 0,02 % |
| 43 | i think i | 23.393 | 0,02 % |
| 44 | out of the | 23.054 | 0,02 % |
| 45 | it was like | 22.869 | 0,02 % |
| 46 | you know the | 22.783 | 0,02 % |
| 47 | when i was | 22.755 | 0,02 % |
| 48 | you got to | 22.220 | 0,02 % |
| 49 | want to be | 22.218 | 0,02 % |
| 50 | know what i | 22.117 | 0,02 % |
Vollständige Liste: top-trigrams.csv.
Von den 15 häufigsten Drei-Wort-Folgen beginnen elf mit einem Pronomen. Sechs enthalten ein explizites I in der ersten Person. Gesprochenes Englisch dreht sich überwiegend darum, wer in Echtzeit was zu wem sagt, und die häufigen Wortgruppen spiegeln das wider.
Ein paar Folgen sind bemerkenswert, weil sie im formalen Englisch nicht vorkommen: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Das sind keine eleganten Redewendungen — das ist das Bindegewebe der lockeren Alltagssprache.
Was die Verteilung bedeutet
Drei Dinge folgen aus diesen Zahlen.
Der kosteneffizienteste Wortschatz ist klein. Wer 3.000 gesprochene Wörter zuverlässig erkennt, hat das sprachliche Rohmaterial, um 89 % des muttersprachlichen Englisch auf YouTube zu folgen. Diesen Wert auf 95 % zu steigern, kostet weitere 5.500 Wörter — die meisten davon tauchen im gesamten 183-Millionen-Wörter-Korpus nur eine Handvoll Mal auf.
Frequenzgewichtung ist wichtiger als Wortschatzgröße. Die meisten Kurse und Apps behandeln ihre Vokabellisten als grob gleichwertig. Die Daten sagen etwas anderes: 50 % der gesamten Arbeit erledigen die ersten 67 Wörter. Ein Lernplan, der das nicht widerspiegelt, ist falsch verteilte Mühe.
Wort-für-Wort-Übersetzung ist die falsche Grundeinheit. Die Hälfte der häufigsten Drei-Wort-Folgen sind funktionale Bausteine (a lot of, i don't know, a little bit, going to be), die als Einheit funktionieren. Sie als Ganzes zu erkennen ist eine andere kognitive Operation, als sie als drei einzelne Wörter zu zerlegen. In der Live-Sprache zeigt sich der Unterschied als der Unterschied zwischen Mitkommen und Nicht-mitkommen.
Methodik
Die Pipeline, die diese Zahlen produziert hat:
- Quelle. Untertitel von 37.632 englischen YouTube-Videos.
- Tokenisierung. Text in Kleinbuchstaben umwandeln, dann mit dem regulären Ausdruck
[a-z]+(?:'[a-z]+)?matchen. So bleiben Kontraktionen wie don't, gonna, it's einzelne Tokens, Zahlen werden verworfen und Satzzeichen ignoriert. - Rauschfilterung. Segmente, die auf
^\[.*\]$passen (z. B.[Music],[Applause],[Inaudible]), werden vor der Tokenisierung übersprungen. Damit fielen 196.433 Segmente weg. - Zählung. Bei Unigrammen wird jedes Token gezählt. Bei Bi- und Trigrammen wird jede benachbarte N-Token-Folge innerhalb eines einzelnen Untertitelsegments gezählt; Folgen dürfen keine Segmentgrenzen überschreiten.
- Kumulierte Anteile werden berechnet, indem nach Anzahl sortiert und aufsummiert wird.
Was diese Analyse nicht leistet:
- Keine Lemmatisierung. go, going, went und gone werden als getrennte Wortschatzeinheiten gezählt. Das ist sinnvoll, um zu messen, was ein Lernender beim Hören tatsächlich erkennen muss, bläht aber die rohe Wortschatzzahl im Vergleich zu einer lemmatisierten Analyse auf.
- Kein Part-of-Speech-Tagging. Das Verb like und der Diskursmarker like werden zusammengezählt.
- Keine Filterung automatisch generierter Untertitel. Manche Videos haben von Menschen redigierte Untertitel, andere automatisch generierte; letztere bringen ein gewisses Transkriptionsrauschen mit, vor allem im langen Schwanz.
Wofür die Analyse verlässlich ist: die Form der Verteilung und die Identität der hochfrequenten Wörter und Wortgruppen. Die Spitze der Liste — the, and, to, I, like, it's, you know, i don't know — übersteht jede vernünftige Bereinigung.
Einschränkungen zum Korpus
Die 37.632 Videos sind keine zufällige Stichprobe des gesamten gesprochenen Englisch. Sie sind eine kuratierte Auswahl populärer englischsprachiger YouTube-Kanäle, gesammelt, um ClipPhrase, unsere Suchmaschine für Wortgruppen in echten Videoclips, zu betreiben. Der Korpus ist verzerrt in Richtung:
- Amerikanisches Englisch. Die meisten Kanäle haben ihren Sitz in den USA.
- Menschen, die professionell sprechen. Late-Night-Hosts, Podcaster, YouTuber, Nachrichtensprecher — kein repräsentativer Querschnitt der lockeren privaten Sprache.
- Populärem Inhalt. Die Kanäle wurden nach Klickzahlen und breiter kultureller Reichweite ausgewählt, nicht nach Vielfalt von Dialekt oder Register.
Diese Einschränkungen begrenzen, was die Zahlen streng genommen belegen. Sie ändern weder die Form der Verteilung noch den qualitativen Befund, dass gesprochenes Englisch seine Wahrscheinlichkeitsmasse auf einen winzigen Wortschatz hochfrequenter Funktionswörter und Bausteine konzentriert.
Selbst ausprobieren
Der Korpus, auf dem diese Analyse beruht, ist zugleich ein Suchindex. Jedes Wort und jede Wortgruppe, die in diesem Artikel erwähnt wird, existiert in zehntausenden echten Videoclips und ist per Suchanfrage abrufbar. Tippe I was like in ClipPhrase ein, und du bekommst fünfzig verschiedene Sprecher, die es benutzen; tippe gonna ein, und du bekommst ein paar tausend. Das ist das zugrundeliegende Werkzeug.
Downloads
- top-words.csv — Top 10.000 Wörter mit Rang, Anzahl, Anteil und kumuliertem Anteil
- top-bigrams.csv — Top 5.000 Zwei-Wort-Folgen
- top-trigrams.csv — Top 5.000 Drei-Wort-Folgen
Wenn du diese Daten in eigenen Texten oder Forschungen verwendest, freuen wir uns über einen Link zurück auf diese Seite.