37.000 YouTube Videosunu Analiz Ettik. İşte Konuşulan İngilizcenin Gerçek Yüzü
37.632 İngilizce YouTube videosunda 182,9 milyon konuşulan kelime. Söylenen her şeyin yarısını yalnızca 67 kelime oluşturuyor. Tam kelime ve ifade frekans listeleri, grafikler ve indirilebilir veriler.
Arama dizinimizden 37.632 İngilizce YouTube videosunun altyazılarını aldık — gece kuşağı programları, belgeseller, podcast'ler, bilim açıklayıcıları, haberler, talk show'lar, vlog'lar — ve bunlarda söylenen her kelime ve kısa ifade üzerinde frekans analizi yaptık. Toplam 182,9 milyon kelime.
Bu yazı, çalışmanın tam dökümüdür. Ham veriye bakmak isteyenler için altta tüm CSV dosyalarına bağlantılar var.
Korpus, sayılarla
| Analiz edilen videolar | 37.632 |
| Altyazı segmentleri | 26.203.765 |
Atlanan konuşma dışı segmentler ([Music], [Applause] vb.) | 196.433 |
| Toplam konuşulan token | 182.933.444 |
| Benzersiz kelimeler (kelime hazinesi büyüklüğü) | 384.132 |
| Video başına ortalama kelime | 4.861 |
| Benzersiz iki kelimelik diziler | 11.240.282 |
| Benzersiz üç kelimelik diziler | 42.037.127 |
Konuşulan İngilizcenin yarısı 67 kelimeden ibaret
Dağılım acımasız ölçüde dengesiz.

| Bilmeniz gereken kelime sayısı… | …konuşulan İngilizcenin şu kadarını anlamanızı sağlar |
|---|---|
| 67 kelime | %50 |
| 505 kelime | %75 |
| 906 kelime | %80 |
| 1.677 kelime | %85 |
| 2.900 kelime | %89 |
| 3.368 kelime | %90 |
| 8.381 kelime | %95 |
| 36.916 kelime | %99 |
Öne çıkan birkaç nokta:
- Tek başına the kelimesi, konuşulan İngilizcenin %4,04'ünü oluşturuyor — duyduğunuz her yirmi beş kelimeden biri the.
- En sık 10 kelime, konuşmanın %23,2'sini kapsıyor. Anadil konuşmalarının neredeyse dörtte biri, döne döne kullanılan on tokenle yürüyor.
- Kazançlar hızla düşüyor. %89'dan %95 kavramaya geçmek, gerekli kelime hazinesini neredeyse üç katına çıkarıyor. %95'ten %99'a geçişse bunu dört katına daha çıkarıyor.
Bu, yazılı korpuslarda görülenden daha keskin bir Zipf yasası örneği. Kitaplar olasılık kütlesini daha geniş bir kelime hazinesine yayar; konuşma ise onu yoğunlaştırır.

Yukarıdaki grafik log-log eksenindedir. Saf bir Zipf dili düz bir çizgi oluştururdu; konuşulan İngilizce buna oldukça yakın bir görünüm sergiliyor; en yüksek frekanslarda hafif bir kırılma ve nadir kelimelerin oluşturduğu uzun kuyruk 10⁵ sıralamasının altında giderek incelmektedir.
Konuşulan ilk 50 kelime
| Sıra | Kelime | Sayı | Pay | Kümülatif |
|---|---|---|---|---|
| 1 | the | 7.387.237 | %4,04 | %4,04 |
| 2 | and | 5.202.156 | %2,84 | %6,88 |
| 3 | to | 4.806.242 | %2,63 | %9,51 |
| 4 | i | 4.324.592 | %2,36 | %11,87 |
| 5 | a | 4.264.055 | %2,33 | %14,20 |
| 6 | you | 4.064.555 | %2,22 | %16,43 |
| 7 | of | 3.724.277 | %2,04 | %18,46 |
| 8 | that | 3.492.110 | %1,91 | %20,37 |
| 9 | it | 2.634.690 | %1,44 | %21,81 |
| 10 | in | 2.521.046 | %1,38 | %23,19 |
| 11 | like | 2.494.184 | %1,36 | %24,55 |
| 12 | is | 2.369.926 | %1,30 | %25,85 |
| 13 | this | 1.781.715 | %0,97 | %26,82 |
| 14 | so | 1.654.633 | %0,90 | %27,73 |
| 15 | was | 1.501.038 | %0,82 | %28,55 |
| 16 | it's | 1.410.862 | %0,77 | %29,32 |
| 17 | for | 1.305.470 | %0,71 | %30,03 |
| 18 | but | 1.274.194 | %0,70 | %30,73 |
| 19 | we | 1.248.337 | %0,68 | %31,41 |
| 20 | on | 1.216.294 | %0,66 | %32,08 |
| 21 | know | 1.167.908 | %0,64 | %32,71 |
| 22 | have | 1.137.673 | %0,62 | %33,34 |
| 23 | just | 1.134.793 | %0,62 | %33,96 |
| 24 | what | 1.032.689 | %0,56 | %34,52 |
| 25 | they | 1.020.670 | %0,56 | %35,08 |
| 26 | with | 1.007.653 | %0,55 | %35,63 |
| 27 | yeah | 962.191 | %0,53 | %36,16 |
| 28 | be | 957.783 | %0,52 | %36,68 |
| 29 | are | 898.626 | %0,49 | %37,17 |
| 30 | not | 872.734 | %0,48 | %37,65 |
| 31 | do | 870.812 | %0,48 | %38,12 |
| 32 | i'm | 821.478 | %0,45 | %38,57 |
| 33 | my | 804.993 | %0,44 | %39,01 |
| 34 | all | 799.543 | %0,44 | %39,45 |
| 35 | if | 756.360 | %0,41 | %39,86 |
| 36 | that's | 738.851 | %0,40 | %40,27 |
| 37 | at | 732.360 | %0,40 | %40,67 |
| 38 | about | 717.388 | %0,39 | %41,06 |
| 39 | he | 714.407 | %0,39 | %41,45 |
| 40 | your | 696.636 | %0,38 | %41,83 |
| 41 | one | 695.227 | %0,38 | %42,21 |
| 42 | as | 684.705 | %0,37 | %42,59 |
| 43 | or | 678.871 | %0,37 | %42,96 |
| 44 | can | 672.388 | %0,37 | %43,32 |
| 45 | think | 654.509 | %0,36 | %43,68 |
| 46 | right | 647.716 | %0,35 | %44,04 |
| 47 | don't | 637.134 | %0,35 | %44,38 |
| 48 | me | 616.944 | %0,34 | %44,72 |
| 49 | there | 597.279 | %0,33 | %45,05 |
| 50 | people | 592.296 | %0,32 | %45,37 |
İlk 10.000 kelimenin tamamı CSV olarak mevcut.
Bu ilk 50'de dikkat çeken şey, listede yer alanlar değil — the, and, to her İngilizce korpusunda zirvede olur — bazı kelimelerin nerede sıralandığıdır:
like11. sırada bir söylem belirteci olarak yer alıyor, fiil olarak değil. Kitap korpusunda çok daha aşağıda olurdu.- İlk 50'ye beş kısaltma giriyor: it's (16.), i'm (32.), that's (36.), don't (47.) ve daha alt sıralarda muhtemelen başkaları. Yazılı korpuslar bunları açık biçimlerine ayırır.
yeah27. sırada tamamen sohbet tutkalı işlevinde. Kitaplar bunu neredeyse hiç kullanmıyor.know,justverightburada çoğunlukla sözlük anlamlarıyla değil, söylem yumuşatıcı kelimeler olarak (you know, I just wanted, yeah, right) kullanılıyor.
Listenin tepesi, konuşmanın metinden nasıl ayrıldığının bir fotoğrafı: kısaltmalar, doldurma kelimeler ve çekincelendirici ifadeler, harfi tarif ve zamirlerle birlikte temel taşıyıcı kelime hazinesi olarak yer alıyor.
Konuşma, parçalardan inşa edilir
Tek tek kelimeler yerine iki ve üç kelimelik dizileri saydığımızda farklı bir yapı ortaya çıkıyor. Konuşulan İngilizcenin en sık birimleri tek başına kelimeler değil, kısa ve tekrar eden ifadelerdir.
En sık kullanılan 50 iki kelimelik dizi
| Sıra | İfade | Sayı | Pay |
|---|---|---|---|
| 1 | you know | 651.659 | %0,42 |
| 2 | of the | 610.473 | %0,39 |
| 3 | in the | 597.973 | %0,38 |
| 4 | going to | 391.962 | %0,25 |
| 5 | and i | 369.069 | %0,24 |
| 6 | i think | 360.605 | %0,23 |
| 7 | this is | 354.886 | %0,23 |
| 8 | to be | 349.293 | %0,22 |
| 9 | i was | 294.749 | %0,19 |
| 10 | i don't | 280.165 | %0,18 |
| 11 | it was | 279.492 | %0,18 |
| 12 | and then | 279.061 | %0,18 |
| 13 | to the | 271.483 | %0,17 |
| 14 | on the | 269.698 | %0,17 |
| 15 | kind of | 253.890 | %0,16 |
| 16 | a lot | 248.787 | %0,16 |
| 17 | want to | 240.129 | %0,15 |
| 18 | if you | 239.704 | %0,15 |
| 19 | you can | 214.797 | %0,14 |
| 20 | and the | 211.577 | %0,13 |
| 21 | i mean | 198.883 | %0,13 |
| 22 | lot of | 188.401 | %0,12 |
| 23 | to do | 188.301 | %0,12 |
| 24 | in a | 185.960 | %0,12 |
| 25 | is a | 183.838 | %0,12 |
| 26 | like a | 180.615 | %0,12 |
| 27 | at the | 169.424 | %0,11 |
| 28 | have to | 168.863 | %0,11 |
| 29 | one of | 161.657 | %0,10 |
| 30 | have a | 160.163 | %0,10 |
| 31 | that i | 159.887 | %0,10 |
| 32 | is the | 159.862 | %0,10 |
| 33 | you have | 158.225 | %0,10 |
| 34 | do you | 158.154 | %0,10 |
| 35 | and you | 156.410 | %0,10 |
| 36 | that you | 150.818 | %0,10 |
| 37 | for the | 147.492 | %0,09 |
| 38 | a little | 146.585 | %0,09 |
| 39 | to get | 143.031 | %0,09 |
| 40 | like i | 141.139 | %0,09 |
| 41 | so i | 140.193 | %0,09 |
| 42 | it is | 137.325 | %0,09 |
| 43 | don't know | 136.714 | %0,09 |
| 44 | was like | 136.396 | %0,09 |
| 45 | it's a | 136.095 | %0,09 |
| 46 | and so | 135.209 | %0,09 |
| 47 | of a | 134.589 | %0,09 |
| 48 | with the | 132.177 | %0,08 |
| 49 | but i | 131.380 | %0,08 |
| 50 | was a | 126.161 | %0,08 |
Tam liste: top-bigrams.csv.
Üç gözlem:
you knowher dilbilgisel temel taşı geride bırakıyor. Konuşulan İngilizcenin en sık görülen iki kelimelik birleşimi — of the veya in the'den bile daha sık.- İlk 50, birinci tekil şahıs yapılarıyla dolu: and i, i think, i was, i don't, i mean. Konuşma, büyük ölçüde konuşmacının kendisiyle ilgilidir.
kind of,a lot,a little,like a,was like— gayri resmi çekinceler ve aktarım benzeri yapılar ilk 50'de her yerde.
En sık kullanılan 50 üç kelimelik dizi
| Sıra | İfade | Sayı | Pay |
|---|---|---|---|
| 1 | a lot of | 170.961 | %0,13 |
| 2 | i don't know | 96.455 | %0,07 |
| 3 | one of the | 82.693 | %0,06 |
| 4 | going to be | 72.293 | %0,05 |
| 5 | a little bit | 64.930 | %0,05 |
| 6 | i was like | 60.915 | %0,05 |
| 7 | i'm going to | 55.940 | %0,04 |
| 8 | i want to | 55.071 | %0,04 |
| 9 | you want to | 54.908 | %0,04 |
| 10 | you know what | 52.925 | %0,04 |
| 11 | you have to | 44.985 | %0,03 |
| 12 | you know i | 43.538 | %0,03 |
| 13 | this is a | 43.457 | %0,03 |
| 14 | this is the | 41.664 | %0,03 |
| 15 | and i think | 40.214 | %0,03 |
| 16 | and i was | 39.340 | %0,03 |
| 17 | i feel like | 38.019 | %0,03 |
| 18 | we're going to | 35.687 | %0,03 |
| 19 | oh my god | 35.203 | %0,03 |
| 20 | to be a | 33.229 | %0,03 |
| 21 | what do you | 32.747 | %0,02 |
| 22 | be able to | 32.263 | %0,02 |
| 23 | i don't think | 31.986 | %0,02 |
| 24 | it was a | 30.717 | %0,02 |
| 25 | and you know | 30.321 | %0,02 |
| 26 | you're going to | 29.731 | %0,02 |
| 27 | like you know | 29.420 | %0,02 |
| 28 | don't want to | 29.249 | %0,02 |
| 29 | some of the | 28.953 | %0,02 |
| 30 | is going to | 28.787 | %0,02 |
| 31 | i think it's | 28.719 | %0,02 |
| 32 | not going to | 27.406 | %0,02 |
| 33 | do you think | 27.196 | %0,02 |
| 34 | and this is | 25.763 | %0,02 |
| 35 | i think that | 25.762 | %0,02 |
| 36 | i mean i | 25.419 | %0,02 |
| 37 | in the world | 25.310 | %0,02 |
| 38 | and it was | 25.303 | %0,02 |
| 39 | and then i | 25.091 | %0,02 |
| 40 | you have a | 23.988 | %0,02 |
| 41 | the end of | 23.885 | %0,02 |
| 42 | and then you | 23.471 | %0,02 |
| 43 | i think i | 23.393 | %0,02 |
| 44 | out of the | 23.054 | %0,02 |
| 45 | it was like | 22.869 | %0,02 |
| 46 | you know the | 22.783 | %0,02 |
| 47 | when i was | 22.755 | %0,02 |
| 48 | you got to | 22.220 | %0,02 |
| 49 | want to be | 22.218 | %0,02 |
| 50 | know what i | 22.117 | %0,02 |
Tam liste: top-trigrams.csv.
İlk 15 üç kelimelik dizinin on biri bir zamirle başlıyor. Altısı açık biçimde birinci tekil I içeriyor. Konuşulan İngilizce ezici ölçüde, gerçek zamanlı olarak kimin kime ne söylediğiyle ilgilidir ve yüksek frekanslı ifadeler bunu yansıtır.
Resmi İngilizcede karşılaşılmadığı için dikkat çeken birkaç dizi: i was like (6.), you know what (10.), i feel like (17.), oh my god (19.), you got to (48.). Bunlar süslü deyimler değil — gündelik konuşmanın bağ dokusudur.
Bu dağılım ne anlama geliyor
Bu sayılardan üç sonuç çıkıyor.
Maliyet açısından verimli kelime hazinesi küçüktür. 3.000 konuşulan kelimeyi güvenilir biçimde tanıyan bir öğrenen, YouTube'daki anadil İngilizcesinin %89'unu takip edecek dilsel hammaddeye sahiptir. Bunu %95'e çıkarmak 5.500 kelime daha gerektirir — bunların çoğu, 183 milyon kelimelik korpusun tamamında yalnızca birkaç kez geçer.
Frekans kalibrasyonu, kelime hazinesi büyüklüğünden daha önemlidir. Çoğu kurs ve uygulama, kelime listelerine kabaca eşit muamele eder. Veriler bunun aksini söylüyor: işin %50'sini ilk 67 kelime yapıyor. Bunu yansıtmayan bir çalışma planı, çabanın yanlış dağıtılmasıdır.
Kelime kelime çeviri yanlış bir başlangıç birimidir. En sık üç kelimelik dizilerin yarısı, tek bir birim olarak çalışan işlevsel parçalardır (a lot of, i don't know, a little bit, going to be). Bunları bir bütün olarak tanımak, üç ayrı kelime olarak çözümlemekten farklı bir bilişsel işlemdir. Canlı konuşmada bu fark, sohbete yetişebilmek ile yetişememek arasındaki farktır.
Yöntem
Bu sayıları üreten boru hattı:
- Kaynak. 37.632 İngilizce YouTube videosunun altyazıları.
- Tokenizasyon. Metin küçük harfe çevrilir, ardından
[a-z]+(?:'[a-z]+)?regex'i eşleştirilir. Bu, don't, gonna, it's gibi kısaltmaları tek token olarak korur, sayıları çıkarır ve noktalamayı yok sayar. - Gürültü filtreleme.
^\[.*\]$deseniyle eşleşen segmentler (örneğin[Music],[Applause],[Inaudible]) tokenizasyondan önce atlanır. Bu işlem 196.433 segmenti çıkardı. - Sayım. Tek kelimeler için her token sayılır. İki ve üç kelimelik diziler içinse, tek bir altyazı segmenti içindeki her bitişik N tokenlik dizi sayılır; diziler segment sınırlarını aşamaz.
- Kümülatif paylar, sayıya göre sıralayıp toplayarak hesaplanır.
Bu analizin yapmadıkları:
- Lemmatizasyon yok. go, going, went ve gone ayrı kelime hazinesi öğeleri olarak sayılır. Bir öğrenenin işitince fiilen tanıması gerekeni ölçmek için bu uygundur, ancak ham kelime hazinesi sayımını lemmatize edilmiş bir analize göre şişirir.
- Sözcük türü etiketlemesi yok. Fiil olarak like ile söylem belirteci olarak like birlikte sayılır.
- Otomatik üretilen altyazıların filtrelenmemesi. Bazı videoların insan tarafından düzenlenmiş altyazıları, bazılarının ise otomatik üretilmiş altyazıları vardır; ikincisi, özellikle uzun kuyrukta bir miktar transkripsiyon gürültüsü getirir.
Analizin güvenilir olduğu konular: dağılımın şekli ve yüksek frekanslı kelime ve ifadelerin kimliği. Listenin tepesi — the, and, to, I, like, it's, you know, i don't know — herhangi bir makul temizlemeden sonra da yerinde kalır.
Korpus üzerine çekinceler
37.632 video, konuşulan tüm İngilizcenin rastgele bir örneklemi değildir. Gerçek video kliplerindeki ifadeler için arama motorumuz ClipPhrase'i beslemek üzere derlenen, popüler İngilizce YouTube kanallarından oluşan seçilmiş bir kümedir. Korpusun eğilimleri:
- Amerikan İngilizcesi. Kanalların çoğu ABD merkezli.
- Profesyonel olarak konuşan kişiler. Gece kuşağı sunucuları, podcaster'lar, YouTuber'lar, haber sunucuları — gündelik özel konuşmanın temsili bir kesiti değil.
- Popüler içerik. Kanallar, lehçe ya da kayıt çeşitliliğine göre değil, izlenme sayılarına ve geniş kültürel erişime göre seçildi.
Bu çekinceler, sayıların kesin olarak neyi gösterdiğini daraltır. Dağılımın şeklini ya da konuşulan İngilizcenin olasılık kütlesini, az sayıdaki yüksek frekanslı işlevsel kelime ve parçalardan oluşan küçük bir kelime hazinesinde yoğunlaştırdığı niteliksel bulgusunu değiştirmezler.
Kendiniz deneyin
Bu analizin üzerinde çalıştığı korpus aynı zamanda bir arama dizinidir. Bu yazıda geçen her kelime ve ifade, on binlerce gerçek video klibinde mevcuttur ve sorgulanarak getirilebilir. ClipPhrase'e I was like yazın, kullanan elli farklı konuşmacı çıksın; gonna yazın, birkaç bin konuşmacı çıksın. Altta yatan araç budur.
İndirmeler
- top-words.csv — sıra, sayı, pay ve kümülatif pay ile birlikte ilk 10.000 kelime
- top-bigrams.csv — ilk 5.000 iki kelimelik dizi
- top-trigrams.csv — ilk 5.000 üç kelimelik dizi
Bu verileri kendi yazılarınızda veya araştırmalarınızda kullanırsanız, bu sayfaya geri bağlantı vermeniz memnuniyetle karşılanır.