37.000 YouTube Videosunu Analiz Ettik. İşte Konuşulan İngilizcenin Gerçek Yüzü

37.632 İngilizce YouTube videosunda 182,9 milyon konuşulan kelime. Söylenen her şeyin yarısını yalnızca 67 kelime oluşturuyor. Tam kelime ve ifade frekans listeleri, grafikler ve indirilebilir veriler.

4 Mayıs 202612 dk okumaClipPhrase Team

Arama dizinimizden 37.632 İngilizce YouTube videosunun altyazılarını aldık — gece kuşağı programları, belgeseller, podcast'ler, bilim açıklayıcıları, haberler, talk show'lar, vlog'lar — ve bunlarda söylenen her kelime ve kısa ifade üzerinde frekans analizi yaptık. Toplam 182,9 milyon kelime.

Bu yazı, çalışmanın tam dökümüdür. Ham veriye bakmak isteyenler için altta tüm CSV dosyalarına bağlantılar var.

Korpus, sayılarla


Analiz edilen videolar	37.632
Altyazı segmentleri	26.203.765
Atlanan konuşma dışı segmentler (`[Music]`, `[Applause]` vb.)	196.433
Toplam konuşulan token	182.933.444
Benzersiz kelimeler (kelime hazinesi büyüklüğü)	384.132
Video başına ortalama kelime	4.861
Benzersiz iki kelimelik diziler	11.240.282
Benzersiz üç kelimelik diziler	42.037.127

Konuşulan İngilizcenin yarısı 67 kelimeden ibaret

Dağılım acımasız ölçüde dengesiz.

Konuşulan İngilizcenin %X'ini kapsamak için kaç kelime bilmeniz gerektiği

Bilmeniz gereken kelime sayısı…	…konuşulan İngilizcenin şu kadarını anlamanızı sağlar
67 kelime	%50
505 kelime	%75
906 kelime	%80
1.677 kelime	%85
2.900 kelime	%89
3.368 kelime	%90
8.381 kelime	%95
36.916 kelime	%99

Öne çıkan birkaç nokta:

Tek başına the kelimesi, konuşulan İngilizcenin %4,04'ünü oluşturuyor — duyduğunuz her yirmi beş kelimeden biri the.
En sık 10 kelime, konuşmanın %23,2'sini kapsıyor. Anadil konuşmalarının neredeyse dörtte biri, döne döne kullanılan on tokenle yürüyor.
Kazançlar hızla düşüyor. %89'dan %95 kavramaya geçmek, gerekli kelime hazinesini neredeyse üç katına çıkarıyor. %95'ten %99'a geçişse bunu dört katına daha çıkarıyor.

Bu, yazılı korpuslarda görülenden daha keskin bir Zipf yasası örneği. Kitaplar olasılık kütlesini daha geniş bir kelime hazinesine yayar; konuşma ise onu yoğunlaştırır.

37.000 YouTube videosundan elde edilen konuşulan İngilizcenin Zipf dağılımı

Yukarıdaki grafik log-log eksenindedir. Saf bir Zipf dili düz bir çizgi oluştururdu; konuşulan İngilizce buna oldukça yakın bir görünüm sergiliyor; en yüksek frekanslarda hafif bir kırılma ve nadir kelimelerin oluşturduğu uzun kuyruk 10⁵ sıralamasının altında giderek incelmektedir.

Konuşulan ilk 50 kelime

Sıra	Kelime	Sayı	Pay	Kümülatif
1	the	7.387.237	%4,04	%4,04
2	and	5.202.156	%2,84	%6,88
3	to	4.806.242	%2,63	%9,51
4	i	4.324.592	%2,36	%11,87
5	a	4.264.055	%2,33	%14,20
6	you	4.064.555	%2,22	%16,43
7	of	3.724.277	%2,04	%18,46
8	that	3.492.110	%1,91	%20,37
9	it	2.634.690	%1,44	%21,81
10	in	2.521.046	%1,38	%23,19
11	like	2.494.184	%1,36	%24,55
12	is	2.369.926	%1,30	%25,85
13	this	1.781.715	%0,97	%26,82
14	so	1.654.633	%0,90	%27,73
15	was	1.501.038	%0,82	%28,55
16	it's	1.410.862	%0,77	%29,32
17	for	1.305.470	%0,71	%30,03
18	but	1.274.194	%0,70	%30,73
19	we	1.248.337	%0,68	%31,41
20	on	1.216.294	%0,66	%32,08
21	know	1.167.908	%0,64	%32,71
22	have	1.137.673	%0,62	%33,34
23	just	1.134.793	%0,62	%33,96
24	what	1.032.689	%0,56	%34,52
25	they	1.020.670	%0,56	%35,08
26	with	1.007.653	%0,55	%35,63
27	yeah	962.191	%0,53	%36,16
28	be	957.783	%0,52	%36,68
29	are	898.626	%0,49	%37,17
30	not	872.734	%0,48	%37,65
31	do	870.812	%0,48	%38,12
32	i'm	821.478	%0,45	%38,57
33	my	804.993	%0,44	%39,01
34	all	799.543	%0,44	%39,45
35	if	756.360	%0,41	%39,86
36	that's	738.851	%0,40	%40,27
37	at	732.360	%0,40	%40,67
38	about	717.388	%0,39	%41,06
39	he	714.407	%0,39	%41,45
40	your	696.636	%0,38	%41,83
41	one	695.227	%0,38	%42,21
42	as	684.705	%0,37	%42,59
43	or	678.871	%0,37	%42,96
44	can	672.388	%0,37	%43,32
45	think	654.509	%0,36	%43,68
46	right	647.716	%0,35	%44,04
47	don't	637.134	%0,35	%44,38
48	me	616.944	%0,34	%44,72
49	there	597.279	%0,33	%45,05
50	people	592.296	%0,32	%45,37

İlk 10.000 kelimenin tamamı CSV olarak mevcut.

Bu ilk 50'de dikkat çeken şey, listede yer alanlar değil — the, and, to her İngilizce korpusunda zirvede olur — bazı kelimelerin nerede sıralandığıdır:

like 11. sırada bir söylem belirteci olarak yer alıyor, fiil olarak değil. Kitap korpusunda çok daha aşağıda olurdu.
İlk 50'ye beş kısaltma giriyor: it's (16.), i'm (32.), that's (36.), don't (47.) ve daha alt sıralarda muhtemelen başkaları. Yazılı korpuslar bunları açık biçimlerine ayırır.
yeah 27. sırada tamamen sohbet tutkalı işlevinde. Kitaplar bunu neredeyse hiç kullanmıyor.
know, just ve right burada çoğunlukla sözlük anlamlarıyla değil, söylem yumuşatıcı kelimeler olarak (you know, I just wanted, yeah, right) kullanılıyor.

Listenin tepesi, konuşmanın metinden nasıl ayrıldığının bir fotoğrafı: kısaltmalar, doldurma kelimeler ve çekincelendirici ifadeler, harfi tarif ve zamirlerle birlikte temel taşıyıcı kelime hazinesi olarak yer alıyor.

Konuşma, parçalardan inşa edilir

Tek tek kelimeler yerine iki ve üç kelimelik dizileri saydığımızda farklı bir yapı ortaya çıkıyor. Konuşulan İngilizcenin en sık birimleri tek başına kelimeler değil, kısa ve tekrar eden ifadelerdir.

En sık kullanılan 50 iki kelimelik dizi

Sıra	İfade	Sayı	Pay
1	you know	651.659	%0,42
2	of the	610.473	%0,39
3	in the	597.973	%0,38
4	going to	391.962	%0,25
5	and i	369.069	%0,24
6	i think	360.605	%0,23
7	this is	354.886	%0,23
8	to be	349.293	%0,22
9	i was	294.749	%0,19
10	i don't	280.165	%0,18
11	it was	279.492	%0,18
12	and then	279.061	%0,18
13	to the	271.483	%0,17
14	on the	269.698	%0,17
15	kind of	253.890	%0,16
16	a lot	248.787	%0,16
17	want to	240.129	%0,15
18	if you	239.704	%0,15
19	you can	214.797	%0,14
20	and the	211.577	%0,13
21	i mean	198.883	%0,13
22	lot of	188.401	%0,12
23	to do	188.301	%0,12
24	in a	185.960	%0,12
25	is a	183.838	%0,12
26	like a	180.615	%0,12
27	at the	169.424	%0,11
28	have to	168.863	%0,11
29	one of	161.657	%0,10
30	have a	160.163	%0,10
31	that i	159.887	%0,10
32	is the	159.862	%0,10
33	you have	158.225	%0,10
34	do you	158.154	%0,10
35	and you	156.410	%0,10
36	that you	150.818	%0,10
37	for the	147.492	%0,09
38	a little	146.585	%0,09
39	to get	143.031	%0,09
40	like i	141.139	%0,09
41	so i	140.193	%0,09
42	it is	137.325	%0,09
43	don't know	136.714	%0,09
44	was like	136.396	%0,09
45	it's a	136.095	%0,09
46	and so	135.209	%0,09
47	of a	134.589	%0,09
48	with the	132.177	%0,08
49	but i	131.380	%0,08
50	was a	126.161	%0,08

Tam liste: top-bigrams.csv.

Üç gözlem:

you know her dilbilgisel temel taşı geride bırakıyor. Konuşulan İngilizcenin en sık görülen iki kelimelik birleşimi — of the veya in the'den bile daha sık.
İlk 50, birinci tekil şahıs yapılarıyla dolu: and i, i think, i was, i don't, i mean. Konuşma, büyük ölçüde konuşmacının kendisiyle ilgilidir.
kind of, a lot, a little, like a, was like — gayri resmi çekinceler ve aktarım benzeri yapılar ilk 50'de her yerde.

En sık kullanılan 50 üç kelimelik dizi

Sıra	İfade	Sayı	Pay
1	a lot of	170.961	%0,13
2	i don't know	96.455	%0,07
3	one of the	82.693	%0,06
4	going to be	72.293	%0,05
5	a little bit	64.930	%0,05
6	i was like	60.915	%0,05
7	i'm going to	55.940	%0,04
8	i want to	55.071	%0,04
9	you want to	54.908	%0,04
10	you know what	52.925	%0,04
11	you have to	44.985	%0,03
12	you know i	43.538	%0,03
13	this is a	43.457	%0,03
14	this is the	41.664	%0,03
15	and i think	40.214	%0,03
16	and i was	39.340	%0,03
17	i feel like	38.019	%0,03
18	we're going to	35.687	%0,03
19	oh my god	35.203	%0,03
20	to be a	33.229	%0,03
21	what do you	32.747	%0,02
22	be able to	32.263	%0,02
23	i don't think	31.986	%0,02
24	it was a	30.717	%0,02
25	and you know	30.321	%0,02
26	you're going to	29.731	%0,02
27	like you know	29.420	%0,02
28	don't want to	29.249	%0,02
29	some of the	28.953	%0,02
30	is going to	28.787	%0,02
31	i think it's	28.719	%0,02
32	not going to	27.406	%0,02
33	do you think	27.196	%0,02
34	and this is	25.763	%0,02
35	i think that	25.762	%0,02
36	i mean i	25.419	%0,02
37	in the world	25.310	%0,02
38	and it was	25.303	%0,02
39	and then i	25.091	%0,02
40	you have a	23.988	%0,02
41	the end of	23.885	%0,02
42	and then you	23.471	%0,02
43	i think i	23.393	%0,02
44	out of the	23.054	%0,02
45	it was like	22.869	%0,02
46	you know the	22.783	%0,02
47	when i was	22.755	%0,02
48	you got to	22.220	%0,02
49	want to be	22.218	%0,02
50	know what i	22.117	%0,02

Tam liste: top-trigrams.csv.

İlk 15 üç kelimelik dizinin on biri bir zamirle başlıyor. Altısı açık biçimde birinci tekil I içeriyor. Konuşulan İngilizce ezici ölçüde, gerçek zamanlı olarak kimin kime ne söylediğiyle ilgilidir ve yüksek frekanslı ifadeler bunu yansıtır.

Resmi İngilizcede karşılaşılmadığı için dikkat çeken birkaç dizi: i was like (6.), you know what (10.), i feel like (17.), oh my god (19.), you got to (48.). Bunlar süslü deyimler değil — gündelik konuşmanın bağ dokusudur.

Bu dağılım ne anlama geliyor

Bu sayılardan üç sonuç çıkıyor.

Maliyet açısından verimli kelime hazinesi küçüktür. 3.000 konuşulan kelimeyi güvenilir biçimde tanıyan bir öğrenen, YouTube'daki anadil İngilizcesinin %89'unu takip edecek dilsel hammaddeye sahiptir. Bunu %95'e çıkarmak 5.500 kelime daha gerektirir — bunların çoğu, 183 milyon kelimelik korpusun tamamında yalnızca birkaç kez geçer.

Frekans kalibrasyonu, kelime hazinesi büyüklüğünden daha önemlidir. Çoğu kurs ve uygulama, kelime listelerine kabaca eşit muamele eder. Veriler bunun aksini söylüyor: işin %50'sini ilk 67 kelime yapıyor. Bunu yansıtmayan bir çalışma planı, çabanın yanlış dağıtılmasıdır.

Kelime kelime çeviri yanlış bir başlangıç birimidir. En sık üç kelimelik dizilerin yarısı, tek bir birim olarak çalışan işlevsel parçalardır (a lot of, i don't know, a little bit, going to be). Bunları bir bütün olarak tanımak, üç ayrı kelime olarak çözümlemekten farklı bir bilişsel işlemdir. Canlı konuşmada bu fark, sohbete yetişebilmek ile yetişememek arasındaki farktır.

Yöntem

Bu sayıları üreten boru hattı:

Kaynak. 37.632 İngilizce YouTube videosunun altyazıları.
Tokenizasyon. Metin küçük harfe çevrilir, ardından [a-z]+(?:'[a-z]+)? regex'i eşleştirilir. Bu, don't, gonna, it's gibi kısaltmaları tek token olarak korur, sayıları çıkarır ve noktalamayı yok sayar.
Gürültü filtreleme. ^\[.*\]$ deseniyle eşleşen segmentler (örneğin [Music], [Applause], [Inaudible]) tokenizasyondan önce atlanır. Bu işlem 196.433 segmenti çıkardı.
Sayım. Tek kelimeler için her token sayılır. İki ve üç kelimelik diziler içinse, tek bir altyazı segmenti içindeki her bitişik N tokenlik dizi sayılır; diziler segment sınırlarını aşamaz.
Kümülatif paylar, sayıya göre sıralayıp toplayarak hesaplanır.

Bu analizin yapmadıkları:

Lemmatizasyon yok. go, going, went ve gone ayrı kelime hazinesi öğeleri olarak sayılır. Bir öğrenenin işitince fiilen tanıması gerekeni ölçmek için bu uygundur, ancak ham kelime hazinesi sayımını lemmatize edilmiş bir analize göre şişirir.
Sözcük türü etiketlemesi yok. Fiil olarak like ile söylem belirteci olarak like birlikte sayılır.
Otomatik üretilen altyazıların filtrelenmemesi. Bazı videoların insan tarafından düzenlenmiş altyazıları, bazılarının ise otomatik üretilmiş altyazıları vardır; ikincisi, özellikle uzun kuyrukta bir miktar transkripsiyon gürültüsü getirir.

Analizin güvenilir olduğu konular: dağılımın şekli ve yüksek frekanslı kelime ve ifadelerin kimliği. Listenin tepesi — the, and, to, I, like, it's, you know, i don't know — herhangi bir makul temizlemeden sonra da yerinde kalır.

Korpus üzerine çekinceler

37.632 video, konuşulan tüm İngilizcenin rastgele bir örneklemi değildir. Gerçek video kliplerindeki ifadeler için arama motorumuz ClipPhrase'i beslemek üzere derlenen, popüler İngilizce YouTube kanallarından oluşan seçilmiş bir kümedir. Korpusun eğilimleri:

Amerikan İngilizcesi. Kanalların çoğu ABD merkezli.
Profesyonel olarak konuşan kişiler. Gece kuşağı sunucuları, podcaster'lar, YouTuber'lar, haber sunucuları — gündelik özel konuşmanın temsili bir kesiti değil.
Popüler içerik. Kanallar, lehçe ya da kayıt çeşitliliğine göre değil, izlenme sayılarına ve geniş kültürel erişime göre seçildi.

Bu çekinceler, sayıların kesin olarak neyi gösterdiğini daraltır. Dağılımın şeklini ya da konuşulan İngilizcenin olasılık kütlesini, az sayıdaki yüksek frekanslı işlevsel kelime ve parçalardan oluşan küçük bir kelime hazinesinde yoğunlaştırdığı niteliksel bulgusunu değiştirmezler.

Kendiniz deneyin

Bu analizin üzerinde çalıştığı korpus aynı zamanda bir arama dizinidir. Bu yazıda geçen her kelime ve ifade, on binlerce gerçek video klibinde mevcuttur ve sorgulanarak getirilebilir. ClipPhrase'e I was like yazın, kullanan elli farklı konuşmacı çıksın; gonna yazın, birkaç bin konuşmacı çıksın. Altta yatan araç budur.

İndirmeler

top-words.csv — sıra, sayı, pay ve kümülatif pay ile birlikte ilk 10.000 kelime
top-bigrams.csv — ilk 5.000 iki kelimelik dizi
top-trigrams.csv — ilk 5.000 üç kelimelik dizi

Bu verileri kendi yazılarınızda veya araştırmalarınızda kullanırsanız, bu sayfaya geri bağlantı vermeniz memnuniyetle karşılanır.