เราวิเคราะห์วิดีโอ YouTube 37,000 รายการ นี่คือภาษาอังกฤษพูดจริงๆ
182.9 ล้านคำที่พูดในวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ มีเพียง 67 คำเท่านั้นที่ครอบคลุมครึ่งหนึ่งของทุกอย่างที่พูด รายการความถี่ของคำและวลีฉบับเต็ม กราฟ และข้อมูลที่ดาวน์โหลดได้
เรานำคำบรรยายของ วิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ จากดัชนีค้นหาของเรา ซึ่งประกอบด้วยรายการทอล์คโชว์ดึก สารคดี พอดแคสต์ คลิปอธิบายวิทยาศาสตร์ ข่าว ทอล์คโชว์ และวล็อก แล้วทำการวิเคราะห์ความถี่ของทุกคำและวลีสั้นที่พูดในวิดีโอเหล่านั้น รวมทั้งสิ้น 182.9 ล้านคำ
บทความนี้คือรายงานฉบับเต็ม ไฟล์ CSV ดิบทั้งหมดมีลิงก์อยู่ที่ด้านล่างสำหรับผู้ที่ต้องการดูข้อมูลต้นฉบับ
คอร์ปัส ในรูปตัวเลข
| จำนวนวิดีโอที่วิเคราะห์ | 37,632 |
| จำนวนเซกเมนต์คำบรรยาย | 26,203,765 |
เซกเมนต์ที่ไม่ใช่คำพูดและถูกข้าม ([Music], [Applause] ฯลฯ) | 196,433 |
| จำนวนโทเคนคำพูดทั้งหมด | 182,933,444 |
| คำที่ไม่ซ้ำกัน (ขนาดคลังคำศัพท์) | 384,132 |
| ค่าเฉลี่ยจำนวนคำต่อวิดีโอ | 4,861 |
| ลำดับสองคำที่ไม่ซ้ำกัน | 11,240,282 |
| ลำดับสามคำที่ไม่ซ้ำกัน | 42,037,127 |
ครึ่งหนึ่งของภาษาอังกฤษพูดทั้งหมดคือ 67 คำ
การกระจายของข้อมูลนั้นเอียงสุดขั้วอย่างน่าตกใจ

| คุณต้องรู้… | …เพื่อจำแนกได้เท่านี้จากภาษาอังกฤษพูดทั้งหมด |
|---|---|
| 67 คำ | 50% |
| 505 คำ | 75% |
| 906 คำ | 80% |
| 1,677 คำ | 85% |
| 2,900 คำ | 89% |
| 3,368 คำ | 90% |
| 8,381 คำ | 95% |
| 36,916 คำ | 99% |
มีไม่กี่จุดที่ควรหยิบยกออกมา:
- คำเดียวว่า the คิดเป็น 4.04% ของภาษาอังกฤษพูดทั้งหมด หนึ่งในยี่สิบห้าคำที่คุณได้ยินคือคำว่า the
- คำ 10 อันดับแรกเพียงอย่างเดียวครอบคลุม 23.2% ของคำพูดทั้งหมด เกือบหนึ่งในสี่ของบทสนทนาเจ้าของภาษาดำเนินไปด้วยโทเคนสิบคำที่หมุนเวียนใช้ซ้ำ
- ผลตอบแทนลดลงอย่างรวดเร็ว การขยับจากความเข้าใจ 89% ไปเป็น 95% ต้องใช้คำศัพท์เพิ่มขึ้นเกือบ สามเท่า จาก 95% ไปเป็น 99% คูณด้วยอีกสี่เท่า
นี่คือกฎของซิปฟ์ในรูปแบบที่คมชัดกว่าที่ปรากฏในคอร์ปัสของข้อความเขียน หนังสือกระจายความน่าจะเป็นไปยังคำศัพท์จำนวนมากกว่า ส่วนคำพูดจะกระจุกตัวไว้

กราฟด้านบนใช้แกน log-log ภาษาที่เป็นซิปฟ์บริสุทธิ์จะก่อตัวเป็นเส้นตรง ซึ่งภาษาอังกฤษพูดเกือบเป็นเช่นนั้น โดยมีการบิดเล็กน้อยที่ความถี่สูงสุดและหางยาวของคำหายากค่อยๆ ลดลงต่ำกว่าอันดับ 10⁵
50 คำพูดยอดนิยม
| อันดับ | คำ | จำนวน | สัดส่วน | สะสม |
|---|---|---|---|---|
| 1 | the | 7,387,237 | 4.04% | 4.04% |
| 2 | and | 5,202,156 | 2.84% | 6.88% |
| 3 | to | 4,806,242 | 2.63% | 9.51% |
| 4 | i | 4,324,592 | 2.36% | 11.87% |
| 5 | a | 4,264,055 | 2.33% | 14.20% |
| 6 | you | 4,064,555 | 2.22% | 16.43% |
| 7 | of | 3,724,277 | 2.04% | 18.46% |
| 8 | that | 3,492,110 | 1.91% | 20.37% |
| 9 | it | 2,634,690 | 1.44% | 21.81% |
| 10 | in | 2,521,046 | 1.38% | 23.19% |
| 11 | like | 2,494,184 | 1.36% | 24.55% |
| 12 | is | 2,369,926 | 1.30% | 25.85% |
| 13 | this | 1,781,715 | 0.97% | 26.82% |
| 14 | so | 1,654,633 | 0.90% | 27.73% |
| 15 | was | 1,501,038 | 0.82% | 28.55% |
| 16 | it's | 1,410,862 | 0.77% | 29.32% |
| 17 | for | 1,305,470 | 0.71% | 30.03% |
| 18 | but | 1,274,194 | 0.70% | 30.73% |
| 19 | we | 1,248,337 | 0.68% | 31.41% |
| 20 | on | 1,216,294 | 0.66% | 32.08% |
| 21 | know | 1,167,908 | 0.64% | 32.71% |
| 22 | have | 1,137,673 | 0.62% | 33.34% |
| 23 | just | 1,134,793 | 0.62% | 33.96% |
| 24 | what | 1,032,689 | 0.56% | 34.52% |
| 25 | they | 1,020,670 | 0.56% | 35.08% |
| 26 | with | 1,007,653 | 0.55% | 35.63% |
| 27 | yeah | 962,191 | 0.53% | 36.16% |
| 28 | be | 957,783 | 0.52% | 36.68% |
| 29 | are | 898,626 | 0.49% | 37.17% |
| 30 | not | 872,734 | 0.48% | 37.65% |
| 31 | do | 870,812 | 0.48% | 38.12% |
| 32 | i'm | 821,478 | 0.45% | 38.57% |
| 33 | my | 804,993 | 0.44% | 39.01% |
| 34 | all | 799,543 | 0.44% | 39.45% |
| 35 | if | 756,360 | 0.41% | 39.86% |
| 36 | that's | 738,851 | 0.40% | 40.27% |
| 37 | at | 732,360 | 0.40% | 40.67% |
| 38 | about | 717,388 | 0.39% | 41.06% |
| 39 | he | 714,407 | 0.39% | 41.45% |
| 40 | your | 696,636 | 0.38% | 41.83% |
| 41 | one | 695,227 | 0.38% | 42.21% |
| 42 | as | 684,705 | 0.37% | 42.59% |
| 43 | or | 678,871 | 0.37% | 42.96% |
| 44 | can | 672,388 | 0.37% | 43.32% |
| 45 | think | 654,509 | 0.36% | 43.68% |
| 46 | right | 647,716 | 0.35% | 44.04% |
| 47 | don't | 637,134 | 0.35% | 44.38% |
| 48 | me | 616,944 | 0.34% | 44.72% |
| 49 | there | 597,279 | 0.33% | 45.05% |
| 50 | people | 592,296 | 0.32% | 45.37% |
รายการ 10,000 อันดับแรกฉบับเต็มมีให้ดาวน์โหลดเป็น CSV
สิ่งที่โดดเด่นใน 50 อันดับแรกนี้ไม่ใช่สิ่งที่อยู่ในนั้น เพราะคำว่า the, and, to น่าจะติดอันดับสูงสุดในคอร์ปัสภาษาอังกฤษใดๆ ก็ตาม แต่คือตำแหน่งที่สิ่งต่างๆ จัดอันดับ:
likeที่อันดับ #11 เป็น discourse marker ไม่ใช่กริยา ในคอร์ปัสของหนังสือมันจะอยู่ในอันดับต่ำกว่านี้มาก- คำย่อห้าคำติดเข้ามาใน 50 อันดับแรก ได้แก่ it's (#16), i'm (#32), that's (#36), don't (#47) และอาจมีคำอื่นๆ ในอันดับต่ำกว่านั้น คอร์ปัสที่เป็นข้อความเขียนจะแยกคำเหล่านี้ออกเป็นรูปเต็ม
yeahที่อันดับ #27 เป็นเพียงตัวเชื่อมในการสนทนาล้วนๆ หนังสือแทบไม่ใช้know,justและrightส่วนใหญ่ถูกใช้ที่นี่ในฐานะคำลดความในการพูด (you know, I just wanted, yeah, right) ไม่ใช่ในความหมายตามพจนานุกรม
ส่วนบนของรายการคือภาพรวมของวิธีที่คำพูดแตกต่างจากข้อความ คำย่อ คำเติม และคำลดความ อยู่เคียงข้างคำนำหน้านามและสรรพนามในฐานะคำศัพท์ที่รับน้ำหนักหลัก
คำพูดถูกสร้างขึ้นจากชิ้นส่วน
เมื่อเรานับลำดับสองคำและสามคำแทนคำเดี่ยว โครงสร้างที่ต่างออกไปจะปรากฏขึ้น หน่วยที่พบบ่อยที่สุดของภาษาอังกฤษพูดไม่ใช่คำเดี่ยวที่แยกออกจากกัน แต่เป็นวลีสั้นที่เกิดซ้ำ
50 ลำดับสองคำยอดนิยม
| อันดับ | วลี | จำนวน | สัดส่วน |
|---|---|---|---|
| 1 | you know | 651,659 | 0.42% |
| 2 | of the | 610,473 | 0.39% |
| 3 | in the | 597,973 | 0.38% |
| 4 | going to | 391,962 | 0.25% |
| 5 | and i | 369,069 | 0.24% |
| 6 | i think | 360,605 | 0.23% |
| 7 | this is | 354,886 | 0.23% |
| 8 | to be | 349,293 | 0.22% |
| 9 | i was | 294,749 | 0.19% |
| 10 | i don't | 280,165 | 0.18% |
| 11 | it was | 279,492 | 0.18% |
| 12 | and then | 279,061 | 0.18% |
| 13 | to the | 271,483 | 0.17% |
| 14 | on the | 269,698 | 0.17% |
| 15 | kind of | 253,890 | 0.16% |
| 16 | a lot | 248,787 | 0.16% |
| 17 | want to | 240,129 | 0.15% |
| 18 | if you | 239,704 | 0.15% |
| 19 | you can | 214,797 | 0.14% |
| 20 | and the | 211,577 | 0.13% |
| 21 | i mean | 198,883 | 0.13% |
| 22 | lot of | 188,401 | 0.12% |
| 23 | to do | 188,301 | 0.12% |
| 24 | in a | 185,960 | 0.12% |
| 25 | is a | 183,838 | 0.12% |
| 26 | like a | 180,615 | 0.12% |
| 27 | at the | 169,424 | 0.11% |
| 28 | have to | 168,863 | 0.11% |
| 29 | one of | 161,657 | 0.10% |
| 30 | have a | 160,163 | 0.10% |
| 31 | that i | 159,887 | 0.10% |
| 32 | is the | 159,862 | 0.10% |
| 33 | you have | 158,225 | 0.10% |
| 34 | do you | 158,154 | 0.10% |
| 35 | and you | 156,410 | 0.10% |
| 36 | that you | 150,818 | 0.10% |
| 37 | for the | 147,492 | 0.09% |
| 38 | a little | 146,585 | 0.09% |
| 39 | to get | 143,031 | 0.09% |
| 40 | like i | 141,139 | 0.09% |
| 41 | so i | 140,193 | 0.09% |
| 42 | it is | 137,325 | 0.09% |
| 43 | don't know | 136,714 | 0.09% |
| 44 | was like | 136,396 | 0.09% |
| 45 | it's a | 136,095 | 0.09% |
| 46 | and so | 135,209 | 0.09% |
| 47 | of a | 134,589 | 0.09% |
| 48 | with the | 132,177 | 0.08% |
| 49 | but i | 131,380 | 0.08% |
| 50 | was a | 126,161 | 0.08% |
รายการฉบับเต็ม: top-bigrams.csv
ข้อสังเกตสามประการ:
you knowเอาชนะคำหลักทางไวยากรณ์ทุกตัว มันคือคู่คำที่พบบ่อยที่สุดในภาษาอังกฤษพูด พบบ่อยกว่า of the หรือ in the เสียอีก- 50 อันดับแรกเต็มไปด้วยโครงสร้างบุรุษที่หนึ่ง: and i, i think, i was, i don't, i mean คำพูดส่วนใหญ่เกี่ยวกับใครก็ตามที่กำลังพูด
kind of,a lot,a little,like a,was likeคำลดความที่ไม่เป็นทางการและโครงสร้างคล้ายอ้างอิงพบได้ทั่วทุกที่ใน 50 อันดับแรก
50 ลำดับสามคำยอดนิยม
| อันดับ | วลี | จำนวน | สัดส่วน |
|---|---|---|---|
| 1 | a lot of | 170,961 | 0.13% |
| 2 | i don't know | 96,455 | 0.07% |
| 3 | one of the | 82,693 | 0.06% |
| 4 | going to be | 72,293 | 0.05% |
| 5 | a little bit | 64,930 | 0.05% |
| 6 | i was like | 60,915 | 0.05% |
| 7 | i'm going to | 55,940 | 0.04% |
| 8 | i want to | 55,071 | 0.04% |
| 9 | you want to | 54,908 | 0.04% |
| 10 | you know what | 52,925 | 0.04% |
| 11 | you have to | 44,985 | 0.03% |
| 12 | you know i | 43,538 | 0.03% |
| 13 | this is a | 43,457 | 0.03% |
| 14 | this is the | 41,664 | 0.03% |
| 15 | and i think | 40,214 | 0.03% |
| 16 | and i was | 39,340 | 0.03% |
| 17 | i feel like | 38,019 | 0.03% |
| 18 | we're going to | 35,687 | 0.03% |
| 19 | oh my god | 35,203 | 0.03% |
| 20 | to be a | 33,229 | 0.03% |
| 21 | what do you | 32,747 | 0.02% |
| 22 | be able to | 32,263 | 0.02% |
| 23 | i don't think | 31,986 | 0.02% |
| 24 | it was a | 30,717 | 0.02% |
| 25 | and you know | 30,321 | 0.02% |
| 26 | you're going to | 29,731 | 0.02% |
| 27 | like you know | 29,420 | 0.02% |
| 28 | don't want to | 29,249 | 0.02% |
| 29 | some of the | 28,953 | 0.02% |
| 30 | is going to | 28,787 | 0.02% |
| 31 | i think it's | 28,719 | 0.02% |
| 32 | not going to | 27,406 | 0.02% |
| 33 | do you think | 27,196 | 0.02% |
| 34 | and this is | 25,763 | 0.02% |
| 35 | i think that | 25,762 | 0.02% |
| 36 | i mean i | 25,419 | 0.02% |
| 37 | in the world | 25,310 | 0.02% |
| 38 | and it was | 25,303 | 0.02% |
| 39 | and then i | 25,091 | 0.02% |
| 40 | you have a | 23,988 | 0.02% |
| 41 | the end of | 23,885 | 0.02% |
| 42 | and then you | 23,471 | 0.02% |
| 43 | i think i | 23,393 | 0.02% |
| 44 | out of the | 23,054 | 0.02% |
| 45 | it was like | 22,869 | 0.02% |
| 46 | you know the | 22,783 | 0.02% |
| 47 | when i was | 22,755 | 0.02% |
| 48 | you got to | 22,220 | 0.02% |
| 49 | want to be | 22,218 | 0.02% |
| 50 | know what i | 22,117 | 0.02% |
รายการฉบับเต็ม: top-trigrams.csv
ในบรรดาลำดับสามคำ 15 อันดับแรก สิบเอ็ดวลีขึ้นต้นด้วยสรรพนาม หกวลีมีสรรพนามบุรุษที่หนึ่ง I อยู่อย่างชัดเจน ภาษาอังกฤษพูดส่วนใหญ่เกี่ยวกับใครกำลังพูดอะไรกับใครในเวลาจริง และวลีความถี่สูงสะท้อนสิ่งนั้น
มีลำดับบางอย่างที่น่าสังเกตเพราะไม่ปรากฏในภาษาอังกฤษเป็นทางการ ได้แก่ i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48) สิ่งเหล่านี้ไม่ใช่สำนวนหรูหรา แต่เป็นเนื้อเยื่อเชื่อมต่อของการพูดแบบไม่เป็นทางการ
การกระจายนี้บอกอะไรเรา
มีสามสิ่งที่เกิดขึ้นจากตัวเลขเหล่านี้
คำศัพท์ที่คุ้มค่ามีปริมาณน้อย ผู้เรียนที่จำคำพูดได้อย่างเชื่อถือได้ 3,000 คำมีวัตถุดิบทางภาษาเพียงพอที่จะตามทันภาษาอังกฤษเจ้าของภาษาบน YouTube ได้ 89% หากต้องการขยับไปที่ 95% จะต้องใช้คำเพิ่มอีก 5,500 คำ ซึ่งส่วนใหญ่ปรากฏเพียงไม่กี่ครั้งตลอดทั้งคอร์ปัส 183 ล้านคำ
การปรับเทียบความถี่สำคัญกว่าขนาดคลังคำศัพท์ คอร์สและแอปส่วนใหญ่ปฏิบัติต่อรายการคำศัพท์ของตนราวกับว่ามีค่าเท่าๆ กัน แต่ข้อมูลบอกตรงข้าม 50% ของงานทั้งหมดทำโดย 67 คำแรก ตารางเรียนที่ไม่สะท้อนสิ่งนั้นคือการจัดสรรความพยายามผิดทาง
การแปลคำต่อคำเป็นหน่วยพื้นฐานที่ผิด ครึ่งหนึ่งของลำดับสามคำอันดับต้นเป็นชิ้นส่วนเชิงหน้าที่ (a lot of, i don't know, a little bit, going to be) ที่ทำงานเป็นหน่วยเดียว การจดจำมันทั้งก้อนเป็นการทำงานทางสมองที่ต่างไปจากการแยกวิเคราะห์เป็นสามคำแยกกัน ในการพูดสด ความแตกต่างนี้ปรากฏเป็นความแตกต่างระหว่างการตามทันและการตามไม่ทัน
ระเบียบวิธี
ขั้นตอนการประมวลผลที่สร้างตัวเลขเหล่านี้:
- แหล่งที่มา คำบรรยายของวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ
- การแยกโทเคน แปลงข้อความเป็นตัวพิมพ์เล็ก จากนั้นจับคู่กับ regex
[a-z]+(?:'[a-z]+)?ซึ่งเก็บคำย่ออย่าง don't, gonna, it's ไว้เป็นโทเคนเดี่ยว ตัดตัวเลขออก และไม่สนใจเครื่องหมายวรรคตอน - การกรองสัญญาณรบกวน เซกเมนต์ที่ตรงกับ
^\[.*\]$(เช่น[Music],[Applause],[Inaudible]) จะถูกข้ามก่อนการแยกโทเคน ขั้นตอนนี้ทำให้ลบเซกเมนต์ออกไป 196,433 เซกเมนต์ - การนับ สำหรับ unigram จะนับทุกโทเคน สำหรับ bigram และ trigram จะนับทุกลำดับ N โทเคนที่อยู่ติดกันภายในเซกเมนต์คำบรรยายเดียวกัน ลำดับไม่อนุญาตให้ข้ามขอบเขตของเซกเมนต์
- สัดส่วนสะสม คำนวณโดยเรียงตามจำนวนแล้วบวกรวม
สิ่งที่การวิเคราะห์นี้ไม่ทำ:
- ไม่ทำ lemmatization go, going, went และ gone ถูกนับเป็นคำศัพท์แยกจากกัน วิธีนี้เหมาะสมสำหรับการวัดสิ่งที่ผู้เรียนต้องจำเมื่อได้ยินจริง แต่ก็ทำให้จำนวนคำศัพท์ดิบสูงเกินจริงเมื่อเทียบกับการวิเคราะห์ที่ทำ lemmatization
- ไม่กำกับชนิดของคำ like ที่เป็นกริยาและ like ที่เป็น discourse marker ถูกนับรวมกัน
- ไม่กรองคำบรรยายที่สร้างอัตโนมัติ วิดีโอบางรายการมีคำบรรยายที่มนุษย์แก้ไข อื่นๆ มีคำบรรยายที่สร้างอัตโนมัติ ซึ่งกลุ่มหลังก่อให้เกิดสัญญาณรบกวนในการถอดความบ้าง โดยเฉพาะในส่วนหางยาว
สิ่งที่การวิเคราะห์เชื่อถือได้คือ รูปร่าง ของการกระจาย และ ตัวตนของคำและวลีที่มีความถี่สูง ส่วนบนของรายการ ได้แก่ the, and, to, I, like, it's, you know, i don't know จะอยู่รอดทุกการล้างข้อมูลที่สมเหตุสมผล
ข้อควรระวังเกี่ยวกับคอร์ปัส
วิดีโอ 37,632 รายการนี้ไม่ใช่ตัวอย่างสุ่มของภาษาอังกฤษพูดทั้งหมด เป็นชุดที่คัดสรรของช่อง YouTube ภาษาอังกฤษยอดนิยมที่รวบรวมขึ้นเพื่อขับเคลื่อน ClipPhrase เครื่องมือค้นหาวลีในคลิปวิดีโอจริงของเรา คอร์ปัสมีความเอนเอียงดังนี้:
- ภาษาอังกฤษแบบอเมริกัน ช่องส่วนใหญ่อยู่ในสหรัฐอเมริกา
- ผู้คนที่พูดอย่างมืออาชีพ พิธีกรทอล์คโชว์ดึก พอดแคสเตอร์ ยูทูบเบอร์ ผู้ประกาศข่าว ไม่ใช่ตัวแทนแบบกว้างของคำพูดส่วนตัวแบบลำลอง
- เนื้อหายอดนิยม ช่องถูกเลือกเพราะจำนวนการดูและการเข้าถึงทางวัฒนธรรมที่กว้างขวาง ไม่ใช่เพราะความหลากหลายของภาษาถิ่นหรือระดับภาษา
ข้อควรระวังเหล่านี้จำกัดสิ่งที่ตัวเลขแสดงให้เห็นได้อย่างเคร่งครัด แต่ไม่เปลี่ยนรูปร่างของการกระจายหรือผลการค้นพบเชิงคุณภาพที่ว่าภาษาอังกฤษพูดกระจุกความน่าจะเป็นไว้ที่คำศัพท์เพียงเล็กน้อยซึ่งประกอบด้วยคำหน้าที่และชิ้นส่วนความถี่สูง
ลองด้วยตนเอง
คอร์ปัสที่ใช้ในการวิเคราะห์นี้ก็เป็นดัชนีค้นหาด้วย ทุกคำและวลีที่กล่าวถึงในบทความนี้มีอยู่ในคลิปวิดีโอจริงนับหมื่น สามารถเรียกค้นได้ด้วยคำค้น พิมพ์ I was like ลงใน ClipPhrase แล้วคุณจะได้ผู้พูด 50 คนที่แตกต่างกันใช้วลีนี้ พิมพ์ gonna แล้วคุณจะได้หลายพันคน นั่นคือเครื่องมือเบื้องหลัง
ดาวน์โหลด
- top-words.csv — 10,000 คำยอดนิยมพร้อมอันดับ จำนวน สัดส่วน และสัดส่วนสะสม
- top-bigrams.csv — 5,000 ลำดับสองคำยอดนิยม
- top-trigrams.csv — 5,000 ลำดับสามคำยอดนิยม
หากคุณนำข้อมูลนี้ไปใช้ในงานเขียนหรือการวิจัยของคุณเอง ขอบคุณที่ลิงก์กลับมาที่หน้านี้