ClipPhrase
← กลับไปบล็อก

เราวิเคราะห์วิดีโอ YouTube 37,000 รายการ นี่คือภาษาอังกฤษพูดจริงๆ

182.9 ล้านคำที่พูดในวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ มีเพียง 67 คำเท่านั้นที่ครอบคลุมครึ่งหนึ่งของทุกอย่างที่พูด รายการความถี่ของคำและวลีฉบับเต็ม กราฟ และข้อมูลที่ดาวน์โหลดได้

4 พฤษภาคม 256912 นาทีในการอ่านClipPhrase Team

เรานำคำบรรยายของ วิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ จากดัชนีค้นหาของเรา ซึ่งประกอบด้วยรายการทอล์คโชว์ดึก สารคดี พอดแคสต์ คลิปอธิบายวิทยาศาสตร์ ข่าว ทอล์คโชว์ และวล็อก แล้วทำการวิเคราะห์ความถี่ของทุกคำและวลีสั้นที่พูดในวิดีโอเหล่านั้น รวมทั้งสิ้น 182.9 ล้านคำ

บทความนี้คือรายงานฉบับเต็ม ไฟล์ CSV ดิบทั้งหมดมีลิงก์อยู่ที่ด้านล่างสำหรับผู้ที่ต้องการดูข้อมูลต้นฉบับ

คอร์ปัส ในรูปตัวเลข

จำนวนวิดีโอที่วิเคราะห์37,632
จำนวนเซกเมนต์คำบรรยาย26,203,765
เซกเมนต์ที่ไม่ใช่คำพูดและถูกข้าม ([Music], [Applause] ฯลฯ)196,433
จำนวนโทเคนคำพูดทั้งหมด182,933,444
คำที่ไม่ซ้ำกัน (ขนาดคลังคำศัพท์)384,132
ค่าเฉลี่ยจำนวนคำต่อวิดีโอ4,861
ลำดับสองคำที่ไม่ซ้ำกัน11,240,282
ลำดับสามคำที่ไม่ซ้ำกัน42,037,127

ครึ่งหนึ่งของภาษาอังกฤษพูดทั้งหมดคือ 67 คำ

การกระจายของข้อมูลนั้นเอียงสุดขั้วอย่างน่าตกใจ

จำนวนคำที่คุณต้องรู้เพื่อครอบคลุม X% ของภาษาอังกฤษพูด

คุณต้องรู้……เพื่อจำแนกได้เท่านี้จากภาษาอังกฤษพูดทั้งหมด
67 คำ50%
505 คำ75%
906 คำ80%
1,677 คำ85%
2,900 คำ89%
3,368 คำ90%
8,381 คำ95%
36,916 คำ99%

มีไม่กี่จุดที่ควรหยิบยกออกมา:

  • คำเดียวว่า the คิดเป็น 4.04% ของภาษาอังกฤษพูดทั้งหมด หนึ่งในยี่สิบห้าคำที่คุณได้ยินคือคำว่า the
  • คำ 10 อันดับแรกเพียงอย่างเดียวครอบคลุม 23.2% ของคำพูดทั้งหมด เกือบหนึ่งในสี่ของบทสนทนาเจ้าของภาษาดำเนินไปด้วยโทเคนสิบคำที่หมุนเวียนใช้ซ้ำ
  • ผลตอบแทนลดลงอย่างรวดเร็ว การขยับจากความเข้าใจ 89% ไปเป็น 95% ต้องใช้คำศัพท์เพิ่มขึ้นเกือบ สามเท่า จาก 95% ไปเป็น 99% คูณด้วยอีกสี่เท่า

นี่คือกฎของซิปฟ์ในรูปแบบที่คมชัดกว่าที่ปรากฏในคอร์ปัสของข้อความเขียน หนังสือกระจายความน่าจะเป็นไปยังคำศัพท์จำนวนมากกว่า ส่วนคำพูดจะกระจุกตัวไว้

การกระจายแบบซิปฟ์ของภาษาอังกฤษพูดจากวิดีโอ YouTube 37,000 รายการ

กราฟด้านบนใช้แกน log-log ภาษาที่เป็นซิปฟ์บริสุทธิ์จะก่อตัวเป็นเส้นตรง ซึ่งภาษาอังกฤษพูดเกือบเป็นเช่นนั้น โดยมีการบิดเล็กน้อยที่ความถี่สูงสุดและหางยาวของคำหายากค่อยๆ ลดลงต่ำกว่าอันดับ 10⁵

50 คำพูดยอดนิยม

อันดับคำจำนวนสัดส่วนสะสม
1the7,387,2374.04%4.04%
2and5,202,1562.84%6.88%
3to4,806,2422.63%9.51%
4i4,324,5922.36%11.87%
5a4,264,0552.33%14.20%
6you4,064,5552.22%16.43%
7of3,724,2772.04%18.46%
8that3,492,1101.91%20.37%
9it2,634,6901.44%21.81%
10in2,521,0461.38%23.19%
11like2,494,1841.36%24.55%
12is2,369,9261.30%25.85%
13this1,781,7150.97%26.82%
14so1,654,6330.90%27.73%
15was1,501,0380.82%28.55%
16it's1,410,8620.77%29.32%
17for1,305,4700.71%30.03%
18but1,274,1940.70%30.73%
19we1,248,3370.68%31.41%
20on1,216,2940.66%32.08%
21know1,167,9080.64%32.71%
22have1,137,6730.62%33.34%
23just1,134,7930.62%33.96%
24what1,032,6890.56%34.52%
25they1,020,6700.56%35.08%
26with1,007,6530.55%35.63%
27yeah962,1910.53%36.16%
28be957,7830.52%36.68%
29are898,6260.49%37.17%
30not872,7340.48%37.65%
31do870,8120.48%38.12%
32i'm821,4780.45%38.57%
33my804,9930.44%39.01%
34all799,5430.44%39.45%
35if756,3600.41%39.86%
36that's738,8510.40%40.27%
37at732,3600.40%40.67%
38about717,3880.39%41.06%
39he714,4070.39%41.45%
40your696,6360.38%41.83%
41one695,2270.38%42.21%
42as684,7050.37%42.59%
43or678,8710.37%42.96%
44can672,3880.37%43.32%
45think654,5090.36%43.68%
46right647,7160.35%44.04%
47don't637,1340.35%44.38%
48me616,9440.34%44.72%
49there597,2790.33%45.05%
50people592,2960.32%45.37%

รายการ 10,000 อันดับแรกฉบับเต็มมีให้ดาวน์โหลดเป็น CSV

สิ่งที่โดดเด่นใน 50 อันดับแรกนี้ไม่ใช่สิ่งที่อยู่ในนั้น เพราะคำว่า the, and, to น่าจะติดอันดับสูงสุดในคอร์ปัสภาษาอังกฤษใดๆ ก็ตาม แต่คือตำแหน่งที่สิ่งต่างๆ จัดอันดับ:

  • like ที่อันดับ #11 เป็น discourse marker ไม่ใช่กริยา ในคอร์ปัสของหนังสือมันจะอยู่ในอันดับต่ำกว่านี้มาก
  • คำย่อห้าคำติดเข้ามาใน 50 อันดับแรก ได้แก่ it's (#16), i'm (#32), that's (#36), don't (#47) และอาจมีคำอื่นๆ ในอันดับต่ำกว่านั้น คอร์ปัสที่เป็นข้อความเขียนจะแยกคำเหล่านี้ออกเป็นรูปเต็ม
  • yeah ที่อันดับ #27 เป็นเพียงตัวเชื่อมในการสนทนาล้วนๆ หนังสือแทบไม่ใช้
  • know, just และ right ส่วนใหญ่ถูกใช้ที่นี่ในฐานะคำลดความในการพูด (you know, I just wanted, yeah, right) ไม่ใช่ในความหมายตามพจนานุกรม

ส่วนบนของรายการคือภาพรวมของวิธีที่คำพูดแตกต่างจากข้อความ คำย่อ คำเติม และคำลดความ อยู่เคียงข้างคำนำหน้านามและสรรพนามในฐานะคำศัพท์ที่รับน้ำหนักหลัก

คำพูดถูกสร้างขึ้นจากชิ้นส่วน

เมื่อเรานับลำดับสองคำและสามคำแทนคำเดี่ยว โครงสร้างที่ต่างออกไปจะปรากฏขึ้น หน่วยที่พบบ่อยที่สุดของภาษาอังกฤษพูดไม่ใช่คำเดี่ยวที่แยกออกจากกัน แต่เป็นวลีสั้นที่เกิดซ้ำ

50 ลำดับสองคำยอดนิยม

อันดับวลีจำนวนสัดส่วน
1you know651,6590.42%
2of the610,4730.39%
3in the597,9730.38%
4going to391,9620.25%
5and i369,0690.24%
6i think360,6050.23%
7this is354,8860.23%
8to be349,2930.22%
9i was294,7490.19%
10i don't280,1650.18%
11it was279,4920.18%
12and then279,0610.18%
13to the271,4830.17%
14on the269,6980.17%
15kind of253,8900.16%
16a lot248,7870.16%
17want to240,1290.15%
18if you239,7040.15%
19you can214,7970.14%
20and the211,5770.13%
21i mean198,8830.13%
22lot of188,4010.12%
23to do188,3010.12%
24in a185,9600.12%
25is a183,8380.12%
26like a180,6150.12%
27at the169,4240.11%
28have to168,8630.11%
29one of161,6570.10%
30have a160,1630.10%
31that i159,8870.10%
32is the159,8620.10%
33you have158,2250.10%
34do you158,1540.10%
35and you156,4100.10%
36that you150,8180.10%
37for the147,4920.09%
38a little146,5850.09%
39to get143,0310.09%
40like i141,1390.09%
41so i140,1930.09%
42it is137,3250.09%
43don't know136,7140.09%
44was like136,3960.09%
45it's a136,0950.09%
46and so135,2090.09%
47of a134,5890.09%
48with the132,1770.08%
49but i131,3800.08%
50was a126,1610.08%

รายการฉบับเต็ม: top-bigrams.csv

ข้อสังเกตสามประการ:

  1. you know เอาชนะคำหลักทางไวยากรณ์ทุกตัว มันคือคู่คำที่พบบ่อยที่สุดในภาษาอังกฤษพูด พบบ่อยกว่า of the หรือ in the เสียอีก
  2. 50 อันดับแรกเต็มไปด้วยโครงสร้างบุรุษที่หนึ่ง: and i, i think, i was, i don't, i mean คำพูดส่วนใหญ่เกี่ยวกับใครก็ตามที่กำลังพูด
  3. kind of, a lot, a little, like a, was like คำลดความที่ไม่เป็นทางการและโครงสร้างคล้ายอ้างอิงพบได้ทั่วทุกที่ใน 50 อันดับแรก

50 ลำดับสามคำยอดนิยม

อันดับวลีจำนวนสัดส่วน
1a lot of170,9610.13%
2i don't know96,4550.07%
3one of the82,6930.06%
4going to be72,2930.05%
5a little bit64,9300.05%
6i was like60,9150.05%
7i'm going to55,9400.04%
8i want to55,0710.04%
9you want to54,9080.04%
10you know what52,9250.04%
11you have to44,9850.03%
12you know i43,5380.03%
13this is a43,4570.03%
14this is the41,6640.03%
15and i think40,2140.03%
16and i was39,3400.03%
17i feel like38,0190.03%
18we're going to35,6870.03%
19oh my god35,2030.03%
20to be a33,2290.03%
21what do you32,7470.02%
22be able to32,2630.02%
23i don't think31,9860.02%
24it was a30,7170.02%
25and you know30,3210.02%
26you're going to29,7310.02%
27like you know29,4200.02%
28don't want to29,2490.02%
29some of the28,9530.02%
30is going to28,7870.02%
31i think it's28,7190.02%
32not going to27,4060.02%
33do you think27,1960.02%
34and this is25,7630.02%
35i think that25,7620.02%
36i mean i25,4190.02%
37in the world25,3100.02%
38and it was25,3030.02%
39and then i25,0910.02%
40you have a23,9880.02%
41the end of23,8850.02%
42and then you23,4710.02%
43i think i23,3930.02%
44out of the23,0540.02%
45it was like22,8690.02%
46you know the22,7830.02%
47when i was22,7550.02%
48you got to22,2200.02%
49want to be22,2180.02%
50know what i22,1170.02%

รายการฉบับเต็ม: top-trigrams.csv

ในบรรดาลำดับสามคำ 15 อันดับแรก สิบเอ็ดวลีขึ้นต้นด้วยสรรพนาม หกวลีมีสรรพนามบุรุษที่หนึ่ง I อยู่อย่างชัดเจน ภาษาอังกฤษพูดส่วนใหญ่เกี่ยวกับใครกำลังพูดอะไรกับใครในเวลาจริง และวลีความถี่สูงสะท้อนสิ่งนั้น

มีลำดับบางอย่างที่น่าสังเกตเพราะไม่ปรากฏในภาษาอังกฤษเป็นทางการ ได้แก่ i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48) สิ่งเหล่านี้ไม่ใช่สำนวนหรูหรา แต่เป็นเนื้อเยื่อเชื่อมต่อของการพูดแบบไม่เป็นทางการ

การกระจายนี้บอกอะไรเรา

มีสามสิ่งที่เกิดขึ้นจากตัวเลขเหล่านี้

คำศัพท์ที่คุ้มค่ามีปริมาณน้อย ผู้เรียนที่จำคำพูดได้อย่างเชื่อถือได้ 3,000 คำมีวัตถุดิบทางภาษาเพียงพอที่จะตามทันภาษาอังกฤษเจ้าของภาษาบน YouTube ได้ 89% หากต้องการขยับไปที่ 95% จะต้องใช้คำเพิ่มอีก 5,500 คำ ซึ่งส่วนใหญ่ปรากฏเพียงไม่กี่ครั้งตลอดทั้งคอร์ปัส 183 ล้านคำ

การปรับเทียบความถี่สำคัญกว่าขนาดคลังคำศัพท์ คอร์สและแอปส่วนใหญ่ปฏิบัติต่อรายการคำศัพท์ของตนราวกับว่ามีค่าเท่าๆ กัน แต่ข้อมูลบอกตรงข้าม 50% ของงานทั้งหมดทำโดย 67 คำแรก ตารางเรียนที่ไม่สะท้อนสิ่งนั้นคือการจัดสรรความพยายามผิดทาง

การแปลคำต่อคำเป็นหน่วยพื้นฐานที่ผิด ครึ่งหนึ่งของลำดับสามคำอันดับต้นเป็นชิ้นส่วนเชิงหน้าที่ (a lot of, i don't know, a little bit, going to be) ที่ทำงานเป็นหน่วยเดียว การจดจำมันทั้งก้อนเป็นการทำงานทางสมองที่ต่างไปจากการแยกวิเคราะห์เป็นสามคำแยกกัน ในการพูดสด ความแตกต่างนี้ปรากฏเป็นความแตกต่างระหว่างการตามทันและการตามไม่ทัน

ระเบียบวิธี

ขั้นตอนการประมวลผลที่สร้างตัวเลขเหล่านี้:

  1. แหล่งที่มา คำบรรยายของวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ
  2. การแยกโทเคน แปลงข้อความเป็นตัวพิมพ์เล็ก จากนั้นจับคู่กับ regex [a-z]+(?:'[a-z]+)? ซึ่งเก็บคำย่ออย่าง don't, gonna, it's ไว้เป็นโทเคนเดี่ยว ตัดตัวเลขออก และไม่สนใจเครื่องหมายวรรคตอน
  3. การกรองสัญญาณรบกวน เซกเมนต์ที่ตรงกับ ^\[.*\]$ (เช่น [Music], [Applause], [Inaudible]) จะถูกข้ามก่อนการแยกโทเคน ขั้นตอนนี้ทำให้ลบเซกเมนต์ออกไป 196,433 เซกเมนต์
  4. การนับ สำหรับ unigram จะนับทุกโทเคน สำหรับ bigram และ trigram จะนับทุกลำดับ N โทเคนที่อยู่ติดกันภายในเซกเมนต์คำบรรยายเดียวกัน ลำดับไม่อนุญาตให้ข้ามขอบเขตของเซกเมนต์
  5. สัดส่วนสะสม คำนวณโดยเรียงตามจำนวนแล้วบวกรวม

สิ่งที่การวิเคราะห์นี้ไม่ทำ:

  • ไม่ทำ lemmatization go, going, went และ gone ถูกนับเป็นคำศัพท์แยกจากกัน วิธีนี้เหมาะสมสำหรับการวัดสิ่งที่ผู้เรียนต้องจำเมื่อได้ยินจริง แต่ก็ทำให้จำนวนคำศัพท์ดิบสูงเกินจริงเมื่อเทียบกับการวิเคราะห์ที่ทำ lemmatization
  • ไม่กำกับชนิดของคำ like ที่เป็นกริยาและ like ที่เป็น discourse marker ถูกนับรวมกัน
  • ไม่กรองคำบรรยายที่สร้างอัตโนมัติ วิดีโอบางรายการมีคำบรรยายที่มนุษย์แก้ไข อื่นๆ มีคำบรรยายที่สร้างอัตโนมัติ ซึ่งกลุ่มหลังก่อให้เกิดสัญญาณรบกวนในการถอดความบ้าง โดยเฉพาะในส่วนหางยาว

สิ่งที่การวิเคราะห์เชื่อถือได้คือ รูปร่าง ของการกระจาย และ ตัวตนของคำและวลีที่มีความถี่สูง ส่วนบนของรายการ ได้แก่ the, and, to, I, like, it's, you know, i don't know จะอยู่รอดทุกการล้างข้อมูลที่สมเหตุสมผล

ข้อควรระวังเกี่ยวกับคอร์ปัส

วิดีโอ 37,632 รายการนี้ไม่ใช่ตัวอย่างสุ่มของภาษาอังกฤษพูดทั้งหมด เป็นชุดที่คัดสรรของช่อง YouTube ภาษาอังกฤษยอดนิยมที่รวบรวมขึ้นเพื่อขับเคลื่อน ClipPhrase เครื่องมือค้นหาวลีในคลิปวิดีโอจริงของเรา คอร์ปัสมีความเอนเอียงดังนี้:

  • ภาษาอังกฤษแบบอเมริกัน ช่องส่วนใหญ่อยู่ในสหรัฐอเมริกา
  • ผู้คนที่พูดอย่างมืออาชีพ พิธีกรทอล์คโชว์ดึก พอดแคสเตอร์ ยูทูบเบอร์ ผู้ประกาศข่าว ไม่ใช่ตัวแทนแบบกว้างของคำพูดส่วนตัวแบบลำลอง
  • เนื้อหายอดนิยม ช่องถูกเลือกเพราะจำนวนการดูและการเข้าถึงทางวัฒนธรรมที่กว้างขวาง ไม่ใช่เพราะความหลากหลายของภาษาถิ่นหรือระดับภาษา

ข้อควรระวังเหล่านี้จำกัดสิ่งที่ตัวเลขแสดงให้เห็นได้อย่างเคร่งครัด แต่ไม่เปลี่ยนรูปร่างของการกระจายหรือผลการค้นพบเชิงคุณภาพที่ว่าภาษาอังกฤษพูดกระจุกความน่าจะเป็นไว้ที่คำศัพท์เพียงเล็กน้อยซึ่งประกอบด้วยคำหน้าที่และชิ้นส่วนความถี่สูง

ลองด้วยตนเอง

คอร์ปัสที่ใช้ในการวิเคราะห์นี้ก็เป็นดัชนีค้นหาด้วย ทุกคำและวลีที่กล่าวถึงในบทความนี้มีอยู่ในคลิปวิดีโอจริงนับหมื่น สามารถเรียกค้นได้ด้วยคำค้น พิมพ์ I was like ลงใน ClipPhrase แล้วคุณจะได้ผู้พูด 50 คนที่แตกต่างกันใช้วลีนี้ พิมพ์ gonna แล้วคุณจะได้หลายพันคน นั่นคือเครื่องมือเบื้องหลัง

ดาวน์โหลด

  • top-words.csv — 10,000 คำยอดนิยมพร้อมอันดับ จำนวน สัดส่วน และสัดส่วนสะสม
  • top-bigrams.csv — 5,000 ลำดับสองคำยอดนิยม
  • top-trigrams.csv — 5,000 ลำดับสามคำยอดนิยม

หากคุณนำข้อมูลนี้ไปใช้ในงานเขียนหรือการวิจัยของคุณเอง ขอบคุณที่ลิงก์กลับมาที่หน้านี้