ClipPhrase
← Zurück zum Blog

Wir haben 37.000 YouTube-Videos analysiert. So sieht gesprochenes Englisch wirklich aus

182,9 Millionen gesprochene Wörter aus 37.632 englischen YouTube-Videos. Nur 67 Wörter machen die Hälfte von allem Gesagten aus. Vollständige Häufigkeitslisten für Wörter und Wortgruppen, Diagramme und Daten zum Herunterladen.

4. Mai 202612 Min. LesezeitClipPhrase Team

Wir haben die Untertitel von 37.632 englischen YouTube-Videos aus unserem Suchindex genommen — Late-Night-Shows, Dokumentationen, Podcasts, Wissenschaftsformate, Nachrichten, Talkshows, Vlogs — und eine Häufigkeitsanalyse jedes Wortes und jeder kurzen Wortgruppe darin durchgeführt. Insgesamt 182,9 Millionen Wörter.

Dieser Artikel fasst die Ergebnisse vollständig zusammen. Alle zugrundeliegenden CSV-Dateien sind unten verlinkt, falls jemand die Rohdaten einsehen möchte.

Der Korpus in Zahlen

Analysierte Videos37.632
Untertitelsegmente26.203.765
Übersprungene Nicht-Sprach-Segmente ([Music], [Applause] usw.)196.433
Gesprochene Tokens insgesamt182.933.444
Einzigartige Wörter (Wortschatzgröße)384.132
Durchschnittliche Wörter pro Video4.861
Einzigartige Zwei-Wort-Folgen11.240.282
Einzigartige Drei-Wort-Folgen42.037.127

Die Hälfte des gesamten gesprochenen Englisch besteht aus 67 Wörtern

Die Verteilung ist brutal einseitig.

Wie viele Wörter man kennen muss, um X % des gesprochenen Englisch abzudecken

Du musst kennen……um so viel des gesprochenen Englisch zu erkennen
67 Wörter50 %
505 Wörter75 %
906 Wörter80 %
1.677 Wörter85 %
2.900 Wörter89 %
3.368 Wörter90 %
8.381 Wörter95 %
36.916 Wörter99 %

Ein paar Punkte, die hervorzuheben sind:

  • Allein das Wort the macht 4,04 % des gesamten gesprochenen Englisch aus — jedes fünfundzwanzigste Wort, das man hört, ist the.
  • Die zehn häufigsten Wörter decken zusammen 23,2 % der gesamten Sprache ab. Fast ein Viertel jeder Unterhaltung unter Muttersprachlern läuft über zehn immer wiederkehrende Tokens.
  • Der Ertrag bricht schnell ein. Der Sprung von 89 % auf 95 % Verständnis nahezu verdreifacht den nötigen Wortschatz. Von 95 % auf 99 % vervielfacht ihn noch einmal um den Faktor vier.

Das ist eine schärfere Ausprägung des Zipfschen Gesetzes als in schriftlichen Korpora. Bücher verteilen ihre Wahrscheinlichkeitsmasse über mehr Vokabular; Sprache konzentriert sie.

Zipf-Verteilung des gesprochenen Englisch aus 37K YouTube-Videos

Das obige Diagramm hat doppelt logarithmische Achsen. Eine rein zipfianische Sprache würde eine gerade Linie bilden; gesprochenes Englisch tut das nahezu, mit einem leichten Knick bei den höchsten Frequenzen und dem langen Schwanz seltener Wörter, der unterhalb von Rang 10⁵ ausläuft.

Die 50 häufigsten gesprochenen Wörter

RangWortAnzahlAnteilKumuliert
1the7.387.2374,04 %4,04 %
2and5.202.1562,84 %6,88 %
3to4.806.2422,63 %9,51 %
4i4.324.5922,36 %11,87 %
5a4.264.0552,33 %14,20 %
6you4.064.5552,22 %16,43 %
7of3.724.2772,04 %18,46 %
8that3.492.1101,91 %20,37 %
9it2.634.6901,44 %21,81 %
10in2.521.0461,38 %23,19 %
11like2.494.1841,36 %24,55 %
12is2.369.9261,30 %25,85 %
13this1.781.7150,97 %26,82 %
14so1.654.6330,90 %27,73 %
15was1.501.0380,82 %28,55 %
16it's1.410.8620,77 %29,32 %
17for1.305.4700,71 %30,03 %
18but1.274.1940,70 %30,73 %
19we1.248.3370,68 %31,41 %
20on1.216.2940,66 %32,08 %
21know1.167.9080,64 %32,71 %
22have1.137.6730,62 %33,34 %
23just1.134.7930,62 %33,96 %
24what1.032.6890,56 %34,52 %
25they1.020.6700,56 %35,08 %
26with1.007.6530,55 %35,63 %
27yeah962.1910,53 %36,16 %
28be957.7830,52 %36,68 %
29are898.6260,49 %37,17 %
30not872.7340,48 %37,65 %
31do870.8120,48 %38,12 %
32i'm821.4780,45 %38,57 %
33my804.9930,44 %39,01 %
34all799.5430,44 %39,45 %
35if756.3600,41 %39,86 %
36that's738.8510,40 %40,27 %
37at732.3600,40 %40,67 %
38about717.3880,39 %41,06 %
39he714.4070,39 %41,45 %
40your696.6360,38 %41,83 %
41one695.2270,38 %42,21 %
42as684.7050,37 %42,59 %
43or678.8710,37 %42,96 %
44can672.3880,37 %43,32 %
45think654.5090,36 %43,68 %
46right647.7160,35 %44,04 %
47don't637.1340,35 %44,38 %
48me616.9440,34 %44,72 %
49there597.2790,33 %45,05 %
50people592.2960,32 %45,37 %

Die vollständige Top-10.000-Liste ist als CSV verfügbar.

Was an diesen Top 50 auffällt, ist nicht das, was dort steht — the, and, to würden jeden englischen Korpus anführen — sondern wo die Dinge platziert sind:

  • like auf Platz 11 ist hier ein Diskursmarker, nicht das Verb. In einem Buchkorpus stünde es weit weiter unten.
  • Fünf Kontraktionen schaffen es in die Top 50: it's (#16), i'm (#32), that's (#36), don't (#47) und vermutlich weitere etwas tiefer. Schriftliche Korpora spalten diese in ihre vollen Formen auf.
  • yeah auf Platz 27 ist reiner Gesprächskitt. In Büchern kommt es kaum vor.
  • know, just und right werden hier überwiegend als diskursabschwächende Wörter verwendet (you know, I just wanted, yeah, right) und nicht in ihren Wörterbuchbedeutungen.

Die Spitze der Liste ist eine Momentaufnahme dessen, wie sich Sprache von Text unterscheidet: Kontraktionen, Füllwörter und Abschwächer stehen neben Artikeln und Pronomen als tragender Wortschatz.

Sprache wird aus Bausteinen gebaut

Wenn man statt einzelner Wörter Zwei- und Drei-Wort-Folgen zählt, zeigt sich eine andere Struktur. Die häufigsten Einheiten des gesprochenen Englisch sind keine isolierten Wörter, sondern kurze, wiederkehrende Wortgruppen.

Die 50 häufigsten Zwei-Wort-Folgen

RangWortgruppeAnzahlAnteil
1you know651.6590,42 %
2of the610.4730,39 %
3in the597.9730,38 %
4going to391.9620,25 %
5and i369.0690,24 %
6i think360.6050,23 %
7this is354.8860,23 %
8to be349.2930,22 %
9i was294.7490,19 %
10i don't280.1650,18 %
11it was279.4920,18 %
12and then279.0610,18 %
13to the271.4830,17 %
14on the269.6980,17 %
15kind of253.8900,16 %
16a lot248.7870,16 %
17want to240.1290,15 %
18if you239.7040,15 %
19you can214.7970,14 %
20and the211.5770,13 %
21i mean198.8830,13 %
22lot of188.4010,12 %
23to do188.3010,12 %
24in a185.9600,12 %
25is a183.8380,12 %
26like a180.6150,12 %
27at the169.4240,11 %
28have to168.8630,11 %
29one of161.6570,10 %
30have a160.1630,10 %
31that i159.8870,10 %
32is the159.8620,10 %
33you have158.2250,10 %
34do you158.1540,10 %
35and you156.4100,10 %
36that you150.8180,10 %
37for the147.4920,09 %
38a little146.5850,09 %
39to get143.0310,09 %
40like i141.1390,09 %
41so i140.1930,09 %
42it is137.3250,09 %
43don't know136.7140,09 %
44was like136.3960,09 %
45it's a136.0950,09 %
46and so135.2090,09 %
47of a134.5890,09 %
48with the132.1770,08 %
49but i131.3800,08 %
50was a126.1610,08 %

Vollständige Liste: top-bigrams.csv.

Drei Beobachtungen:

  1. you know schlägt jede grammatische Standardverbindung. Es ist das mit Abstand häufigste Wortpaar im gesprochenen Englisch — häufiger als of the oder in the.
  2. Die Top 50 sind dicht mit Konstruktionen in der ersten Person besetzt: and i, i think, i was, i don't, i mean. Beim Sprechen geht es vor allem um denjenigen, der gerade spricht.
  3. kind of, a lot, a little, like a, was like — informelle Abschwächer und quotativ-ähnliche Konstruktionen sind in den Top 50 allgegenwärtig.

Die 50 häufigsten Drei-Wort-Folgen

RangWortgruppeAnzahlAnteil
1a lot of170.9610,13 %
2i don't know96.4550,07 %
3one of the82.6930,06 %
4going to be72.2930,05 %
5a little bit64.9300,05 %
6i was like60.9150,05 %
7i'm going to55.9400,04 %
8i want to55.0710,04 %
9you want to54.9080,04 %
10you know what52.9250,04 %
11you have to44.9850,03 %
12you know i43.5380,03 %
13this is a43.4570,03 %
14this is the41.6640,03 %
15and i think40.2140,03 %
16and i was39.3400,03 %
17i feel like38.0190,03 %
18we're going to35.6870,03 %
19oh my god35.2030,03 %
20to be a33.2290,03 %
21what do you32.7470,02 %
22be able to32.2630,02 %
23i don't think31.9860,02 %
24it was a30.7170,02 %
25and you know30.3210,02 %
26you're going to29.7310,02 %
27like you know29.4200,02 %
28don't want to29.2490,02 %
29some of the28.9530,02 %
30is going to28.7870,02 %
31i think it's28.7190,02 %
32not going to27.4060,02 %
33do you think27.1960,02 %
34and this is25.7630,02 %
35i think that25.7620,02 %
36i mean i25.4190,02 %
37in the world25.3100,02 %
38and it was25.3030,02 %
39and then i25.0910,02 %
40you have a23.9880,02 %
41the end of23.8850,02 %
42and then you23.4710,02 %
43i think i23.3930,02 %
44out of the23.0540,02 %
45it was like22.8690,02 %
46you know the22.7830,02 %
47when i was22.7550,02 %
48you got to22.2200,02 %
49want to be22.2180,02 %
50know what i22.1170,02 %

Vollständige Liste: top-trigrams.csv.

Von den 15 häufigsten Drei-Wort-Folgen beginnen elf mit einem Pronomen. Sechs enthalten ein explizites I in der ersten Person. Gesprochenes Englisch dreht sich überwiegend darum, wer in Echtzeit was zu wem sagt, und die häufigen Wortgruppen spiegeln das wider.

Ein paar Folgen sind bemerkenswert, weil sie im formalen Englisch nicht vorkommen: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Das sind keine eleganten Redewendungen — das ist das Bindegewebe der lockeren Alltagssprache.

Was die Verteilung bedeutet

Drei Dinge folgen aus diesen Zahlen.

Der kosteneffizienteste Wortschatz ist klein. Wer 3.000 gesprochene Wörter zuverlässig erkennt, hat das sprachliche Rohmaterial, um 89 % des muttersprachlichen Englisch auf YouTube zu folgen. Diesen Wert auf 95 % zu steigern, kostet weitere 5.500 Wörter — die meisten davon tauchen im gesamten 183-Millionen-Wörter-Korpus nur eine Handvoll Mal auf.

Frequenzgewichtung ist wichtiger als Wortschatzgröße. Die meisten Kurse und Apps behandeln ihre Vokabellisten als grob gleichwertig. Die Daten sagen etwas anderes: 50 % der gesamten Arbeit erledigen die ersten 67 Wörter. Ein Lernplan, der das nicht widerspiegelt, ist falsch verteilte Mühe.

Wort-für-Wort-Übersetzung ist die falsche Grundeinheit. Die Hälfte der häufigsten Drei-Wort-Folgen sind funktionale Bausteine (a lot of, i don't know, a little bit, going to be), die als Einheit funktionieren. Sie als Ganzes zu erkennen ist eine andere kognitive Operation, als sie als drei einzelne Wörter zu zerlegen. In der Live-Sprache zeigt sich der Unterschied als der Unterschied zwischen Mitkommen und Nicht-mitkommen.

Methodik

Die Pipeline, die diese Zahlen produziert hat:

  1. Quelle. Untertitel von 37.632 englischen YouTube-Videos.
  2. Tokenisierung. Text in Kleinbuchstaben umwandeln, dann mit dem regulären Ausdruck [a-z]+(?:'[a-z]+)? matchen. So bleiben Kontraktionen wie don't, gonna, it's einzelne Tokens, Zahlen werden verworfen und Satzzeichen ignoriert.
  3. Rauschfilterung. Segmente, die auf ^\[.*\]$ passen (z. B. [Music], [Applause], [Inaudible]), werden vor der Tokenisierung übersprungen. Damit fielen 196.433 Segmente weg.
  4. Zählung. Bei Unigrammen wird jedes Token gezählt. Bei Bi- und Trigrammen wird jede benachbarte N-Token-Folge innerhalb eines einzelnen Untertitelsegments gezählt; Folgen dürfen keine Segmentgrenzen überschreiten.
  5. Kumulierte Anteile werden berechnet, indem nach Anzahl sortiert und aufsummiert wird.

Was diese Analyse nicht leistet:

  • Keine Lemmatisierung. go, going, went und gone werden als getrennte Wortschatzeinheiten gezählt. Das ist sinnvoll, um zu messen, was ein Lernender beim Hören tatsächlich erkennen muss, bläht aber die rohe Wortschatzzahl im Vergleich zu einer lemmatisierten Analyse auf.
  • Kein Part-of-Speech-Tagging. Das Verb like und der Diskursmarker like werden zusammengezählt.
  • Keine Filterung automatisch generierter Untertitel. Manche Videos haben von Menschen redigierte Untertitel, andere automatisch generierte; letztere bringen ein gewisses Transkriptionsrauschen mit, vor allem im langen Schwanz.

Wofür die Analyse verlässlich ist: die Form der Verteilung und die Identität der hochfrequenten Wörter und Wortgruppen. Die Spitze der Liste — the, and, to, I, like, it's, you know, i don't know — übersteht jede vernünftige Bereinigung.

Einschränkungen zum Korpus

Die 37.632 Videos sind keine zufällige Stichprobe des gesamten gesprochenen Englisch. Sie sind eine kuratierte Auswahl populärer englischsprachiger YouTube-Kanäle, gesammelt, um ClipPhrase, unsere Suchmaschine für Wortgruppen in echten Videoclips, zu betreiben. Der Korpus ist verzerrt in Richtung:

  • Amerikanisches Englisch. Die meisten Kanäle haben ihren Sitz in den USA.
  • Menschen, die professionell sprechen. Late-Night-Hosts, Podcaster, YouTuber, Nachrichtensprecher — kein repräsentativer Querschnitt der lockeren privaten Sprache.
  • Populärem Inhalt. Die Kanäle wurden nach Klickzahlen und breiter kultureller Reichweite ausgewählt, nicht nach Vielfalt von Dialekt oder Register.

Diese Einschränkungen begrenzen, was die Zahlen streng genommen belegen. Sie ändern weder die Form der Verteilung noch den qualitativen Befund, dass gesprochenes Englisch seine Wahrscheinlichkeitsmasse auf einen winzigen Wortschatz hochfrequenter Funktionswörter und Bausteine konzentriert.

Selbst ausprobieren

Der Korpus, auf dem diese Analyse beruht, ist zugleich ein Suchindex. Jedes Wort und jede Wortgruppe, die in diesem Artikel erwähnt wird, existiert in zehntausenden echten Videoclips und ist per Suchanfrage abrufbar. Tippe I was like in ClipPhrase ein, und du bekommst fünfzig verschiedene Sprecher, die es benutzen; tippe gonna ein, und du bekommst ein paar tausend. Das ist das zugrundeliegende Werkzeug.

Downloads

Wenn du diese Daten in eigenen Texten oder Forschungen verwendest, freuen wir uns über einen Link zurück auf diese Seite.