Wir haben 37.000 YouTube-Videos analysiert. So sieht gesprochenes Englisch wirklich aus

182,9 Millionen gesprochene Wörter aus 37.632 englischen YouTube-Videos. Nur 67 Wörter machen die Hälfte von allem Gesagten aus. Vollständige Häufigkeitslisten für Wörter und Wortgruppen, Diagramme und Daten zum Herunterladen.

4. Mai 202612 Min. LesezeitClipPhrase Team

Wir haben die Untertitel von 37.632 englischen YouTube-Videos aus unserem Suchindex genommen — Late-Night-Shows, Dokumentationen, Podcasts, Wissenschaftsformate, Nachrichten, Talkshows, Vlogs — und eine Häufigkeitsanalyse jedes Wortes und jeder kurzen Wortgruppe darin durchgeführt. Insgesamt 182,9 Millionen Wörter.

Dieser Artikel fasst die Ergebnisse vollständig zusammen. Alle zugrundeliegenden CSV-Dateien sind unten verlinkt, falls jemand die Rohdaten einsehen möchte.

Der Korpus in Zahlen


Analysierte Videos	37.632
Untertitelsegmente	26.203.765
Übersprungene Nicht-Sprach-Segmente (`[Music]`, `[Applause]` usw.)	196.433
Gesprochene Tokens insgesamt	182.933.444
Einzigartige Wörter (Wortschatzgröße)	384.132
Durchschnittliche Wörter pro Video	4.861
Einzigartige Zwei-Wort-Folgen	11.240.282
Einzigartige Drei-Wort-Folgen	42.037.127

Die Hälfte des gesamten gesprochenen Englisch besteht aus 67 Wörtern

Die Verteilung ist brutal einseitig.

Wie viele Wörter man kennen muss, um X % des gesprochenen Englisch abzudecken

Du musst kennen…	…um so viel des gesprochenen Englisch zu erkennen
67 Wörter	50 %
505 Wörter	75 %
906 Wörter	80 %
1.677 Wörter	85 %
2.900 Wörter	89 %
3.368 Wörter	90 %
8.381 Wörter	95 %
36.916 Wörter	99 %

Ein paar Punkte, die hervorzuheben sind:

Allein das Wort the macht 4,04 % des gesamten gesprochenen Englisch aus — jedes fünfundzwanzigste Wort, das man hört, ist the.
Die zehn häufigsten Wörter decken zusammen 23,2 % der gesamten Sprache ab. Fast ein Viertel jeder Unterhaltung unter Muttersprachlern läuft über zehn immer wiederkehrende Tokens.
Der Ertrag bricht schnell ein. Der Sprung von 89 % auf 95 % Verständnis nahezu verdreifacht den nötigen Wortschatz. Von 95 % auf 99 % vervielfacht ihn noch einmal um den Faktor vier.

Das ist eine schärfere Ausprägung des Zipfschen Gesetzes als in schriftlichen Korpora. Bücher verteilen ihre Wahrscheinlichkeitsmasse über mehr Vokabular; Sprache konzentriert sie.

Zipf-Verteilung des gesprochenen Englisch aus 37K YouTube-Videos

Das obige Diagramm hat doppelt logarithmische Achsen. Eine rein zipfianische Sprache würde eine gerade Linie bilden; gesprochenes Englisch tut das nahezu, mit einem leichten Knick bei den höchsten Frequenzen und dem langen Schwanz seltener Wörter, der unterhalb von Rang 10⁵ ausläuft.

Die 50 häufigsten gesprochenen Wörter

Rang	Wort	Anzahl	Anteil	Kumuliert
1	the	7.387.237	4,04 %	4,04 %
2	and	5.202.156	2,84 %	6,88 %
3	to	4.806.242	2,63 %	9,51 %
4	i	4.324.592	2,36 %	11,87 %
5	a	4.264.055	2,33 %	14,20 %
6	you	4.064.555	2,22 %	16,43 %
7	of	3.724.277	2,04 %	18,46 %
8	that	3.492.110	1,91 %	20,37 %
9	it	2.634.690	1,44 %	21,81 %
10	in	2.521.046	1,38 %	23,19 %
11	like	2.494.184	1,36 %	24,55 %
12	is	2.369.926	1,30 %	25,85 %
13	this	1.781.715	0,97 %	26,82 %
14	so	1.654.633	0,90 %	27,73 %
15	was	1.501.038	0,82 %	28,55 %
16	it's	1.410.862	0,77 %	29,32 %
17	for	1.305.470	0,71 %	30,03 %
18	but	1.274.194	0,70 %	30,73 %
19	we	1.248.337	0,68 %	31,41 %
20	on	1.216.294	0,66 %	32,08 %
21	know	1.167.908	0,64 %	32,71 %
22	have	1.137.673	0,62 %	33,34 %
23	just	1.134.793	0,62 %	33,96 %
24	what	1.032.689	0,56 %	34,52 %
25	they	1.020.670	0,56 %	35,08 %
26	with	1.007.653	0,55 %	35,63 %
27	yeah	962.191	0,53 %	36,16 %
28	be	957.783	0,52 %	36,68 %
29	are	898.626	0,49 %	37,17 %
30	not	872.734	0,48 %	37,65 %
31	do	870.812	0,48 %	38,12 %
32	i'm	821.478	0,45 %	38,57 %
33	my	804.993	0,44 %	39,01 %
34	all	799.543	0,44 %	39,45 %
35	if	756.360	0,41 %	39,86 %
36	that's	738.851	0,40 %	40,27 %
37	at	732.360	0,40 %	40,67 %
38	about	717.388	0,39 %	41,06 %
39	he	714.407	0,39 %	41,45 %
40	your	696.636	0,38 %	41,83 %
41	one	695.227	0,38 %	42,21 %
42	as	684.705	0,37 %	42,59 %
43	or	678.871	0,37 %	42,96 %
44	can	672.388	0,37 %	43,32 %
45	think	654.509	0,36 %	43,68 %
46	right	647.716	0,35 %	44,04 %
47	don't	637.134	0,35 %	44,38 %
48	me	616.944	0,34 %	44,72 %
49	there	597.279	0,33 %	45,05 %
50	people	592.296	0,32 %	45,37 %

Die vollständige Top-10.000-Liste ist als CSV verfügbar.

Was an diesen Top 50 auffällt, ist nicht das, was dort steht — the, and, to würden jeden englischen Korpus anführen — sondern wo die Dinge platziert sind:

like auf Platz 11 ist hier ein Diskursmarker, nicht das Verb. In einem Buchkorpus stünde es weit weiter unten.
Fünf Kontraktionen schaffen es in die Top 50: it's (#16), i'm (#32), that's (#36), don't (#47) und vermutlich weitere etwas tiefer. Schriftliche Korpora spalten diese in ihre vollen Formen auf.
yeah auf Platz 27 ist reiner Gesprächskitt. In Büchern kommt es kaum vor.
know, just und right werden hier überwiegend als diskursabschwächende Wörter verwendet (you know, I just wanted, yeah, right) und nicht in ihren Wörterbuchbedeutungen.

Die Spitze der Liste ist eine Momentaufnahme dessen, wie sich Sprache von Text unterscheidet: Kontraktionen, Füllwörter und Abschwächer stehen neben Artikeln und Pronomen als tragender Wortschatz.

Sprache wird aus Bausteinen gebaut

Wenn man statt einzelner Wörter Zwei- und Drei-Wort-Folgen zählt, zeigt sich eine andere Struktur. Die häufigsten Einheiten des gesprochenen Englisch sind keine isolierten Wörter, sondern kurze, wiederkehrende Wortgruppen.

Die 50 häufigsten Zwei-Wort-Folgen

Rang	Wortgruppe	Anzahl	Anteil
1	you know	651.659	0,42 %
2	of the	610.473	0,39 %
3	in the	597.973	0,38 %
4	going to	391.962	0,25 %
5	and i	369.069	0,24 %
6	i think	360.605	0,23 %
7	this is	354.886	0,23 %
8	to be	349.293	0,22 %
9	i was	294.749	0,19 %
10	i don't	280.165	0,18 %
11	it was	279.492	0,18 %
12	and then	279.061	0,18 %
13	to the	271.483	0,17 %
14	on the	269.698	0,17 %
15	kind of	253.890	0,16 %
16	a lot	248.787	0,16 %
17	want to	240.129	0,15 %
18	if you	239.704	0,15 %
19	you can	214.797	0,14 %
20	and the	211.577	0,13 %
21	i mean	198.883	0,13 %
22	lot of	188.401	0,12 %
23	to do	188.301	0,12 %
24	in a	185.960	0,12 %
25	is a	183.838	0,12 %
26	like a	180.615	0,12 %
27	at the	169.424	0,11 %
28	have to	168.863	0,11 %
29	one of	161.657	0,10 %
30	have a	160.163	0,10 %
31	that i	159.887	0,10 %
32	is the	159.862	0,10 %
33	you have	158.225	0,10 %
34	do you	158.154	0,10 %
35	and you	156.410	0,10 %
36	that you	150.818	0,10 %
37	for the	147.492	0,09 %
38	a little	146.585	0,09 %
39	to get	143.031	0,09 %
40	like i	141.139	0,09 %
41	so i	140.193	0,09 %
42	it is	137.325	0,09 %
43	don't know	136.714	0,09 %
44	was like	136.396	0,09 %
45	it's a	136.095	0,09 %
46	and so	135.209	0,09 %
47	of a	134.589	0,09 %
48	with the	132.177	0,08 %
49	but i	131.380	0,08 %
50	was a	126.161	0,08 %

Vollständige Liste: top-bigrams.csv.

Drei Beobachtungen:

you know schlägt jede grammatische Standardverbindung. Es ist das mit Abstand häufigste Wortpaar im gesprochenen Englisch — häufiger als of the oder in the.
Die Top 50 sind dicht mit Konstruktionen in der ersten Person besetzt: and i, i think, i was, i don't, i mean. Beim Sprechen geht es vor allem um denjenigen, der gerade spricht.
kind of, a lot, a little, like a, was like — informelle Abschwächer und quotativ-ähnliche Konstruktionen sind in den Top 50 allgegenwärtig.

Die 50 häufigsten Drei-Wort-Folgen

Rang	Wortgruppe	Anzahl	Anteil
1	a lot of	170.961	0,13 %
2	i don't know	96.455	0,07 %
3	one of the	82.693	0,06 %
4	going to be	72.293	0,05 %
5	a little bit	64.930	0,05 %
6	i was like	60.915	0,05 %
7	i'm going to	55.940	0,04 %
8	i want to	55.071	0,04 %
9	you want to	54.908	0,04 %
10	you know what	52.925	0,04 %
11	you have to	44.985	0,03 %
12	you know i	43.538	0,03 %
13	this is a	43.457	0,03 %
14	this is the	41.664	0,03 %
15	and i think	40.214	0,03 %
16	and i was	39.340	0,03 %
17	i feel like	38.019	0,03 %
18	we're going to	35.687	0,03 %
19	oh my god	35.203	0,03 %
20	to be a	33.229	0,03 %
21	what do you	32.747	0,02 %
22	be able to	32.263	0,02 %
23	i don't think	31.986	0,02 %
24	it was a	30.717	0,02 %
25	and you know	30.321	0,02 %
26	you're going to	29.731	0,02 %
27	like you know	29.420	0,02 %
28	don't want to	29.249	0,02 %
29	some of the	28.953	0,02 %
30	is going to	28.787	0,02 %
31	i think it's	28.719	0,02 %
32	not going to	27.406	0,02 %
33	do you think	27.196	0,02 %
34	and this is	25.763	0,02 %
35	i think that	25.762	0,02 %
36	i mean i	25.419	0,02 %
37	in the world	25.310	0,02 %
38	and it was	25.303	0,02 %
39	and then i	25.091	0,02 %
40	you have a	23.988	0,02 %
41	the end of	23.885	0,02 %
42	and then you	23.471	0,02 %
43	i think i	23.393	0,02 %
44	out of the	23.054	0,02 %
45	it was like	22.869	0,02 %
46	you know the	22.783	0,02 %
47	when i was	22.755	0,02 %
48	you got to	22.220	0,02 %
49	want to be	22.218	0,02 %
50	know what i	22.117	0,02 %

Vollständige Liste: top-trigrams.csv.

Von den 15 häufigsten Drei-Wort-Folgen beginnen elf mit einem Pronomen. Sechs enthalten ein explizites I in der ersten Person. Gesprochenes Englisch dreht sich überwiegend darum, wer in Echtzeit was zu wem sagt, und die häufigen Wortgruppen spiegeln das wider.

Ein paar Folgen sind bemerkenswert, weil sie im formalen Englisch nicht vorkommen: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Das sind keine eleganten Redewendungen — das ist das Bindegewebe der lockeren Alltagssprache.

Was die Verteilung bedeutet

Drei Dinge folgen aus diesen Zahlen.

Der kosteneffizienteste Wortschatz ist klein. Wer 3.000 gesprochene Wörter zuverlässig erkennt, hat das sprachliche Rohmaterial, um 89 % des muttersprachlichen Englisch auf YouTube zu folgen. Diesen Wert auf 95 % zu steigern, kostet weitere 5.500 Wörter — die meisten davon tauchen im gesamten 183-Millionen-Wörter-Korpus nur eine Handvoll Mal auf.

Frequenzgewichtung ist wichtiger als Wortschatzgröße. Die meisten Kurse und Apps behandeln ihre Vokabellisten als grob gleichwertig. Die Daten sagen etwas anderes: 50 % der gesamten Arbeit erledigen die ersten 67 Wörter. Ein Lernplan, der das nicht widerspiegelt, ist falsch verteilte Mühe.

Wort-für-Wort-Übersetzung ist die falsche Grundeinheit. Die Hälfte der häufigsten Drei-Wort-Folgen sind funktionale Bausteine (a lot of, i don't know, a little bit, going to be), die als Einheit funktionieren. Sie als Ganzes zu erkennen ist eine andere kognitive Operation, als sie als drei einzelne Wörter zu zerlegen. In der Live-Sprache zeigt sich der Unterschied als der Unterschied zwischen Mitkommen und Nicht-mitkommen.

Methodik

Die Pipeline, die diese Zahlen produziert hat:

Quelle. Untertitel von 37.632 englischen YouTube-Videos.
Tokenisierung. Text in Kleinbuchstaben umwandeln, dann mit dem regulären Ausdruck [a-z]+(?:'[a-z]+)? matchen. So bleiben Kontraktionen wie don't, gonna, it's einzelne Tokens, Zahlen werden verworfen und Satzzeichen ignoriert.
Rauschfilterung. Segmente, die auf ^\[.*\]$ passen (z. B. [Music], [Applause], [Inaudible]), werden vor der Tokenisierung übersprungen. Damit fielen 196.433 Segmente weg.
Zählung. Bei Unigrammen wird jedes Token gezählt. Bei Bi- und Trigrammen wird jede benachbarte N-Token-Folge innerhalb eines einzelnen Untertitelsegments gezählt; Folgen dürfen keine Segmentgrenzen überschreiten.
Kumulierte Anteile werden berechnet, indem nach Anzahl sortiert und aufsummiert wird.

Was diese Analyse nicht leistet:

Keine Lemmatisierung. go, going, went und gone werden als getrennte Wortschatzeinheiten gezählt. Das ist sinnvoll, um zu messen, was ein Lernender beim Hören tatsächlich erkennen muss, bläht aber die rohe Wortschatzzahl im Vergleich zu einer lemmatisierten Analyse auf.
Kein Part-of-Speech-Tagging. Das Verb like und der Diskursmarker like werden zusammengezählt.
Keine Filterung automatisch generierter Untertitel. Manche Videos haben von Menschen redigierte Untertitel, andere automatisch generierte; letztere bringen ein gewisses Transkriptionsrauschen mit, vor allem im langen Schwanz.

Wofür die Analyse verlässlich ist: die Form der Verteilung und die Identität der hochfrequenten Wörter und Wortgruppen. Die Spitze der Liste — the, and, to, I, like, it's, you know, i don't know — übersteht jede vernünftige Bereinigung.

Einschränkungen zum Korpus

Die 37.632 Videos sind keine zufällige Stichprobe des gesamten gesprochenen Englisch. Sie sind eine kuratierte Auswahl populärer englischsprachiger YouTube-Kanäle, gesammelt, um ClipPhrase, unsere Suchmaschine für Wortgruppen in echten Videoclips, zu betreiben. Der Korpus ist verzerrt in Richtung:

Amerikanisches Englisch. Die meisten Kanäle haben ihren Sitz in den USA.
Menschen, die professionell sprechen. Late-Night-Hosts, Podcaster, YouTuber, Nachrichtensprecher — kein repräsentativer Querschnitt der lockeren privaten Sprache.
Populärem Inhalt. Die Kanäle wurden nach Klickzahlen und breiter kultureller Reichweite ausgewählt, nicht nach Vielfalt von Dialekt oder Register.

Diese Einschränkungen begrenzen, was die Zahlen streng genommen belegen. Sie ändern weder die Form der Verteilung noch den qualitativen Befund, dass gesprochenes Englisch seine Wahrscheinlichkeitsmasse auf einen winzigen Wortschatz hochfrequenter Funktionswörter und Bausteine konzentriert.

Selbst ausprobieren

Der Korpus, auf dem diese Analyse beruht, ist zugleich ein Suchindex. Jedes Wort und jede Wortgruppe, die in diesem Artikel erwähnt wird, existiert in zehntausenden echten Videoclips und ist per Suchanfrage abrufbar. Tippe I was like in ClipPhrase ein, und du bekommst fünfzig verschiedene Sprecher, die es benutzen; tippe gonna ein, und du bekommst ein paar tausend. Das ist das zugrundeliegende Werkzeug.

Downloads

top-words.csv — Top 10.000 Wörter mit Rang, Anzahl, Anteil und kumuliertem Anteil
top-bigrams.csv — Top 5.000 Zwei-Wort-Folgen
top-trigrams.csv — Top 5.000 Drei-Wort-Folgen

Wenn du diese Daten in eigenen Texten oder Forschungen verwendest, freuen wir uns über einen Link zurück auf diese Seite.