ClipPhrase
← Bloga dön

37.000 YouTube Videosunu Analiz Ettik. İşte Konuşulan İngilizcenin Gerçek Yüzü

37.632 İngilizce YouTube videosunda 182,9 milyon konuşulan kelime. Söylenen her şeyin yarısını yalnızca 67 kelime oluşturuyor. Tam kelime ve ifade frekans listeleri, grafikler ve indirilebilir veriler.

4 Mayıs 202612 dk okumaClipPhrase Team

Arama dizinimizden 37.632 İngilizce YouTube videosunun altyazılarını aldık — gece kuşağı programları, belgeseller, podcast'ler, bilim açıklayıcıları, haberler, talk show'lar, vlog'lar — ve bunlarda söylenen her kelime ve kısa ifade üzerinde frekans analizi yaptık. Toplam 182,9 milyon kelime.

Bu yazı, çalışmanın tam dökümüdür. Ham veriye bakmak isteyenler için altta tüm CSV dosyalarına bağlantılar var.

Korpus, sayılarla

Analiz edilen videolar37.632
Altyazı segmentleri26.203.765
Atlanan konuşma dışı segmentler ([Music], [Applause] vb.)196.433
Toplam konuşulan token182.933.444
Benzersiz kelimeler (kelime hazinesi büyüklüğü)384.132
Video başına ortalama kelime4.861
Benzersiz iki kelimelik diziler11.240.282
Benzersiz üç kelimelik diziler42.037.127

Konuşulan İngilizcenin yarısı 67 kelimeden ibaret

Dağılım acımasız ölçüde dengesiz.

Konuşulan İngilizcenin %X'ini kapsamak için kaç kelime bilmeniz gerektiği

Bilmeniz gereken kelime sayısı……konuşulan İngilizcenin şu kadarını anlamanızı sağlar
67 kelime%50
505 kelime%75
906 kelime%80
1.677 kelime%85
2.900 kelime%89
3.368 kelime%90
8.381 kelime%95
36.916 kelime%99

Öne çıkan birkaç nokta:

  • Tek başına the kelimesi, konuşulan İngilizcenin %4,04'ünü oluşturuyor — duyduğunuz her yirmi beş kelimeden biri the.
  • En sık 10 kelime, konuşmanın %23,2'sini kapsıyor. Anadil konuşmalarının neredeyse dörtte biri, döne döne kullanılan on tokenle yürüyor.
  • Kazançlar hızla düşüyor. %89'dan %95 kavramaya geçmek, gerekli kelime hazinesini neredeyse üç katına çıkarıyor. %95'ten %99'a geçişse bunu dört katına daha çıkarıyor.

Bu, yazılı korpuslarda görülenden daha keskin bir Zipf yasası örneği. Kitaplar olasılık kütlesini daha geniş bir kelime hazinesine yayar; konuşma ise onu yoğunlaştırır.

37.000 YouTube videosundan elde edilen konuşulan İngilizcenin Zipf dağılımı

Yukarıdaki grafik log-log eksenindedir. Saf bir Zipf dili düz bir çizgi oluştururdu; konuşulan İngilizce buna oldukça yakın bir görünüm sergiliyor; en yüksek frekanslarda hafif bir kırılma ve nadir kelimelerin oluşturduğu uzun kuyruk 10⁵ sıralamasının altında giderek incelmektedir.

Konuşulan ilk 50 kelime

SıraKelimeSayıPayKümülatif
1the7.387.237%4,04%4,04
2and5.202.156%2,84%6,88
3to4.806.242%2,63%9,51
4i4.324.592%2,36%11,87
5a4.264.055%2,33%14,20
6you4.064.555%2,22%16,43
7of3.724.277%2,04%18,46
8that3.492.110%1,91%20,37
9it2.634.690%1,44%21,81
10in2.521.046%1,38%23,19
11like2.494.184%1,36%24,55
12is2.369.926%1,30%25,85
13this1.781.715%0,97%26,82
14so1.654.633%0,90%27,73
15was1.501.038%0,82%28,55
16it's1.410.862%0,77%29,32
17for1.305.470%0,71%30,03
18but1.274.194%0,70%30,73
19we1.248.337%0,68%31,41
20on1.216.294%0,66%32,08
21know1.167.908%0,64%32,71
22have1.137.673%0,62%33,34
23just1.134.793%0,62%33,96
24what1.032.689%0,56%34,52
25they1.020.670%0,56%35,08
26with1.007.653%0,55%35,63
27yeah962.191%0,53%36,16
28be957.783%0,52%36,68
29are898.626%0,49%37,17
30not872.734%0,48%37,65
31do870.812%0,48%38,12
32i'm821.478%0,45%38,57
33my804.993%0,44%39,01
34all799.543%0,44%39,45
35if756.360%0,41%39,86
36that's738.851%0,40%40,27
37at732.360%0,40%40,67
38about717.388%0,39%41,06
39he714.407%0,39%41,45
40your696.636%0,38%41,83
41one695.227%0,38%42,21
42as684.705%0,37%42,59
43or678.871%0,37%42,96
44can672.388%0,37%43,32
45think654.509%0,36%43,68
46right647.716%0,35%44,04
47don't637.134%0,35%44,38
48me616.944%0,34%44,72
49there597.279%0,33%45,05
50people592.296%0,32%45,37

İlk 10.000 kelimenin tamamı CSV olarak mevcut.

Bu ilk 50'de dikkat çeken şey, listede yer alanlar değil — the, and, to her İngilizce korpusunda zirvede olur — bazı kelimelerin nerede sıralandığıdır:

  • like 11. sırada bir söylem belirteci olarak yer alıyor, fiil olarak değil. Kitap korpusunda çok daha aşağıda olurdu.
  • İlk 50'ye beş kısaltma giriyor: it's (16.), i'm (32.), that's (36.), don't (47.) ve daha alt sıralarda muhtemelen başkaları. Yazılı korpuslar bunları açık biçimlerine ayırır.
  • yeah 27. sırada tamamen sohbet tutkalı işlevinde. Kitaplar bunu neredeyse hiç kullanmıyor.
  • know, just ve right burada çoğunlukla sözlük anlamlarıyla değil, söylem yumuşatıcı kelimeler olarak (you know, I just wanted, yeah, right) kullanılıyor.

Listenin tepesi, konuşmanın metinden nasıl ayrıldığının bir fotoğrafı: kısaltmalar, doldurma kelimeler ve çekincelendirici ifadeler, harfi tarif ve zamirlerle birlikte temel taşıyıcı kelime hazinesi olarak yer alıyor.

Konuşma, parçalardan inşa edilir

Tek tek kelimeler yerine iki ve üç kelimelik dizileri saydığımızda farklı bir yapı ortaya çıkıyor. Konuşulan İngilizcenin en sık birimleri tek başına kelimeler değil, kısa ve tekrar eden ifadelerdir.

En sık kullanılan 50 iki kelimelik dizi

SıraİfadeSayıPay
1you know651.659%0,42
2of the610.473%0,39
3in the597.973%0,38
4going to391.962%0,25
5and i369.069%0,24
6i think360.605%0,23
7this is354.886%0,23
8to be349.293%0,22
9i was294.749%0,19
10i don't280.165%0,18
11it was279.492%0,18
12and then279.061%0,18
13to the271.483%0,17
14on the269.698%0,17
15kind of253.890%0,16
16a lot248.787%0,16
17want to240.129%0,15
18if you239.704%0,15
19you can214.797%0,14
20and the211.577%0,13
21i mean198.883%0,13
22lot of188.401%0,12
23to do188.301%0,12
24in a185.960%0,12
25is a183.838%0,12
26like a180.615%0,12
27at the169.424%0,11
28have to168.863%0,11
29one of161.657%0,10
30have a160.163%0,10
31that i159.887%0,10
32is the159.862%0,10
33you have158.225%0,10
34do you158.154%0,10
35and you156.410%0,10
36that you150.818%0,10
37for the147.492%0,09
38a little146.585%0,09
39to get143.031%0,09
40like i141.139%0,09
41so i140.193%0,09
42it is137.325%0,09
43don't know136.714%0,09
44was like136.396%0,09
45it's a136.095%0,09
46and so135.209%0,09
47of a134.589%0,09
48with the132.177%0,08
49but i131.380%0,08
50was a126.161%0,08

Tam liste: top-bigrams.csv.

Üç gözlem:

  1. you know her dilbilgisel temel taşı geride bırakıyor. Konuşulan İngilizcenin en sık görülen iki kelimelik birleşimi — of the veya in the'den bile daha sık.
  2. İlk 50, birinci tekil şahıs yapılarıyla dolu: and i, i think, i was, i don't, i mean. Konuşma, büyük ölçüde konuşmacının kendisiyle ilgilidir.
  3. kind of, a lot, a little, like a, was like — gayri resmi çekinceler ve aktarım benzeri yapılar ilk 50'de her yerde.

En sık kullanılan 50 üç kelimelik dizi

SıraİfadeSayıPay
1a lot of170.961%0,13
2i don't know96.455%0,07
3one of the82.693%0,06
4going to be72.293%0,05
5a little bit64.930%0,05
6i was like60.915%0,05
7i'm going to55.940%0,04
8i want to55.071%0,04
9you want to54.908%0,04
10you know what52.925%0,04
11you have to44.985%0,03
12you know i43.538%0,03
13this is a43.457%0,03
14this is the41.664%0,03
15and i think40.214%0,03
16and i was39.340%0,03
17i feel like38.019%0,03
18we're going to35.687%0,03
19oh my god35.203%0,03
20to be a33.229%0,03
21what do you32.747%0,02
22be able to32.263%0,02
23i don't think31.986%0,02
24it was a30.717%0,02
25and you know30.321%0,02
26you're going to29.731%0,02
27like you know29.420%0,02
28don't want to29.249%0,02
29some of the28.953%0,02
30is going to28.787%0,02
31i think it's28.719%0,02
32not going to27.406%0,02
33do you think27.196%0,02
34and this is25.763%0,02
35i think that25.762%0,02
36i mean i25.419%0,02
37in the world25.310%0,02
38and it was25.303%0,02
39and then i25.091%0,02
40you have a23.988%0,02
41the end of23.885%0,02
42and then you23.471%0,02
43i think i23.393%0,02
44out of the23.054%0,02
45it was like22.869%0,02
46you know the22.783%0,02
47when i was22.755%0,02
48you got to22.220%0,02
49want to be22.218%0,02
50know what i22.117%0,02

Tam liste: top-trigrams.csv.

İlk 15 üç kelimelik dizinin on biri bir zamirle başlıyor. Altısı açık biçimde birinci tekil I içeriyor. Konuşulan İngilizce ezici ölçüde, gerçek zamanlı olarak kimin kime ne söylediğiyle ilgilidir ve yüksek frekanslı ifadeler bunu yansıtır.

Resmi İngilizcede karşılaşılmadığı için dikkat çeken birkaç dizi: i was like (6.), you know what (10.), i feel like (17.), oh my god (19.), you got to (48.). Bunlar süslü deyimler değil — gündelik konuşmanın bağ dokusudur.

Bu dağılım ne anlama geliyor

Bu sayılardan üç sonuç çıkıyor.

Maliyet açısından verimli kelime hazinesi küçüktür. 3.000 konuşulan kelimeyi güvenilir biçimde tanıyan bir öğrenen, YouTube'daki anadil İngilizcesinin %89'unu takip edecek dilsel hammaddeye sahiptir. Bunu %95'e çıkarmak 5.500 kelime daha gerektirir — bunların çoğu, 183 milyon kelimelik korpusun tamamında yalnızca birkaç kez geçer.

Frekans kalibrasyonu, kelime hazinesi büyüklüğünden daha önemlidir. Çoğu kurs ve uygulama, kelime listelerine kabaca eşit muamele eder. Veriler bunun aksini söylüyor: işin %50'sini ilk 67 kelime yapıyor. Bunu yansıtmayan bir çalışma planı, çabanın yanlış dağıtılmasıdır.

Kelime kelime çeviri yanlış bir başlangıç birimidir. En sık üç kelimelik dizilerin yarısı, tek bir birim olarak çalışan işlevsel parçalardır (a lot of, i don't know, a little bit, going to be). Bunları bir bütün olarak tanımak, üç ayrı kelime olarak çözümlemekten farklı bir bilişsel işlemdir. Canlı konuşmada bu fark, sohbete yetişebilmek ile yetişememek arasındaki farktır.

Yöntem

Bu sayıları üreten boru hattı:

  1. Kaynak. 37.632 İngilizce YouTube videosunun altyazıları.
  2. Tokenizasyon. Metin küçük harfe çevrilir, ardından [a-z]+(?:'[a-z]+)? regex'i eşleştirilir. Bu, don't, gonna, it's gibi kısaltmaları tek token olarak korur, sayıları çıkarır ve noktalamayı yok sayar.
  3. Gürültü filtreleme. ^\[.*\]$ deseniyle eşleşen segmentler (örneğin [Music], [Applause], [Inaudible]) tokenizasyondan önce atlanır. Bu işlem 196.433 segmenti çıkardı.
  4. Sayım. Tek kelimeler için her token sayılır. İki ve üç kelimelik diziler içinse, tek bir altyazı segmenti içindeki her bitişik N tokenlik dizi sayılır; diziler segment sınırlarını aşamaz.
  5. Kümülatif paylar, sayıya göre sıralayıp toplayarak hesaplanır.

Bu analizin yapmadıkları:

  • Lemmatizasyon yok. go, going, went ve gone ayrı kelime hazinesi öğeleri olarak sayılır. Bir öğrenenin işitince fiilen tanıması gerekeni ölçmek için bu uygundur, ancak ham kelime hazinesi sayımını lemmatize edilmiş bir analize göre şişirir.
  • Sözcük türü etiketlemesi yok. Fiil olarak like ile söylem belirteci olarak like birlikte sayılır.
  • Otomatik üretilen altyazıların filtrelenmemesi. Bazı videoların insan tarafından düzenlenmiş altyazıları, bazılarının ise otomatik üretilmiş altyazıları vardır; ikincisi, özellikle uzun kuyrukta bir miktar transkripsiyon gürültüsü getirir.

Analizin güvenilir olduğu konular: dağılımın şekli ve yüksek frekanslı kelime ve ifadelerin kimliği. Listenin tepesi — the, and, to, I, like, it's, you know, i don't know — herhangi bir makul temizlemeden sonra da yerinde kalır.

Korpus üzerine çekinceler

37.632 video, konuşulan tüm İngilizcenin rastgele bir örneklemi değildir. Gerçek video kliplerindeki ifadeler için arama motorumuz ClipPhrase'i beslemek üzere derlenen, popüler İngilizce YouTube kanallarından oluşan seçilmiş bir kümedir. Korpusun eğilimleri:

  • Amerikan İngilizcesi. Kanalların çoğu ABD merkezli.
  • Profesyonel olarak konuşan kişiler. Gece kuşağı sunucuları, podcaster'lar, YouTuber'lar, haber sunucuları — gündelik özel konuşmanın temsili bir kesiti değil.
  • Popüler içerik. Kanallar, lehçe ya da kayıt çeşitliliğine göre değil, izlenme sayılarına ve geniş kültürel erişime göre seçildi.

Bu çekinceler, sayıların kesin olarak neyi gösterdiğini daraltır. Dağılımın şeklini ya da konuşulan İngilizcenin olasılık kütlesini, az sayıdaki yüksek frekanslı işlevsel kelime ve parçalardan oluşan küçük bir kelime hazinesinde yoğunlaştırdığı niteliksel bulgusunu değiştirmezler.

Kendiniz deneyin

Bu analizin üzerinde çalıştığı korpus aynı zamanda bir arama dizinidir. Bu yazıda geçen her kelime ve ifade, on binlerce gerçek video klibinde mevcuttur ve sorgulanarak getirilebilir. ClipPhrase'e I was like yazın, kullanan elli farklı konuşmacı çıksın; gonna yazın, birkaç bin konuşmacı çıksın. Altta yatan araç budur.

İndirmeler

Bu verileri kendi yazılarınızda veya araştırmalarınızda kullanırsanız, bu sayfaya geri bağlantı vermeniz memnuniyetle karşılanır.