เราวิเคราะห์วิดีโอ YouTube 37,000 รายการ นี่คือภาษาอังกฤษพูดจริงๆ

182.9 ล้านคำที่พูดในวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ มีเพียง 67 คำเท่านั้นที่ครอบคลุมครึ่งหนึ่งของทุกอย่างที่พูด รายการความถี่ของคำและวลีฉบับเต็ม กราฟ และข้อมูลที่ดาวน์โหลดได้

4 พฤษภาคม 256912 นาทีในการอ่านClipPhrase Team

เรานำคำบรรยายของ วิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ จากดัชนีค้นหาของเรา ซึ่งประกอบด้วยรายการทอล์คโชว์ดึก สารคดี พอดแคสต์ คลิปอธิบายวิทยาศาสตร์ ข่าว ทอล์คโชว์ และวล็อก แล้วทำการวิเคราะห์ความถี่ของทุกคำและวลีสั้นที่พูดในวิดีโอเหล่านั้น รวมทั้งสิ้น 182.9 ล้านคำ

บทความนี้คือรายงานฉบับเต็ม ไฟล์ CSV ดิบทั้งหมดมีลิงก์อยู่ที่ด้านล่างสำหรับผู้ที่ต้องการดูข้อมูลต้นฉบับ

คอร์ปัส ในรูปตัวเลข


จำนวนวิดีโอที่วิเคราะห์	37,632
จำนวนเซกเมนต์คำบรรยาย	26,203,765
เซกเมนต์ที่ไม่ใช่คำพูดและถูกข้าม (`[Music]`, `[Applause]` ฯลฯ)	196,433
จำนวนโทเคนคำพูดทั้งหมด	182,933,444
คำที่ไม่ซ้ำกัน (ขนาดคลังคำศัพท์)	384,132
ค่าเฉลี่ยจำนวนคำต่อวิดีโอ	4,861
ลำดับสองคำที่ไม่ซ้ำกัน	11,240,282
ลำดับสามคำที่ไม่ซ้ำกัน	42,037,127

ครึ่งหนึ่งของภาษาอังกฤษพูดทั้งหมดคือ 67 คำ

การกระจายของข้อมูลนั้นเอียงสุดขั้วอย่างน่าตกใจ

จำนวนคำที่คุณต้องรู้เพื่อครอบคลุม X% ของภาษาอังกฤษพูด

คุณต้องรู้…	…เพื่อจำแนกได้เท่านี้จากภาษาอังกฤษพูดทั้งหมด
67 คำ	50%
505 คำ	75%
906 คำ	80%
1,677 คำ	85%
2,900 คำ	89%
3,368 คำ	90%
8,381 คำ	95%
36,916 คำ	99%

มีไม่กี่จุดที่ควรหยิบยกออกมา:

คำเดียวว่า the คิดเป็น 4.04% ของภาษาอังกฤษพูดทั้งหมด หนึ่งในยี่สิบห้าคำที่คุณได้ยินคือคำว่า the
คำ 10 อันดับแรกเพียงอย่างเดียวครอบคลุม 23.2% ของคำพูดทั้งหมด เกือบหนึ่งในสี่ของบทสนทนาเจ้าของภาษาดำเนินไปด้วยโทเคนสิบคำที่หมุนเวียนใช้ซ้ำ
ผลตอบแทนลดลงอย่างรวดเร็ว การขยับจากความเข้าใจ 89% ไปเป็น 95% ต้องใช้คำศัพท์เพิ่มขึ้นเกือบ สามเท่า จาก 95% ไปเป็น 99% คูณด้วยอีกสี่เท่า

นี่คือกฎของซิปฟ์ในรูปแบบที่คมชัดกว่าที่ปรากฏในคอร์ปัสของข้อความเขียน หนังสือกระจายความน่าจะเป็นไปยังคำศัพท์จำนวนมากกว่า ส่วนคำพูดจะกระจุกตัวไว้

การกระจายแบบซิปฟ์ของภาษาอังกฤษพูดจากวิดีโอ YouTube 37,000 รายการ

กราฟด้านบนใช้แกน log-log ภาษาที่เป็นซิปฟ์บริสุทธิ์จะก่อตัวเป็นเส้นตรง ซึ่งภาษาอังกฤษพูดเกือบเป็นเช่นนั้น โดยมีการบิดเล็กน้อยที่ความถี่สูงสุดและหางยาวของคำหายากค่อยๆ ลดลงต่ำกว่าอันดับ 10⁵

50 คำพูดยอดนิยม

อันดับ	คำ	จำนวน	สัดส่วน	สะสม
1	the	7,387,237	4.04%	4.04%
2	and	5,202,156	2.84%	6.88%
3	to	4,806,242	2.63%	9.51%
4	i	4,324,592	2.36%	11.87%
5	a	4,264,055	2.33%	14.20%
6	you	4,064,555	2.22%	16.43%
7	of	3,724,277	2.04%	18.46%
8	that	3,492,110	1.91%	20.37%
9	it	2,634,690	1.44%	21.81%
10	in	2,521,046	1.38%	23.19%
11	like	2,494,184	1.36%	24.55%
12	is	2,369,926	1.30%	25.85%
13	this	1,781,715	0.97%	26.82%
14	so	1,654,633	0.90%	27.73%
15	was	1,501,038	0.82%	28.55%
16	it's	1,410,862	0.77%	29.32%
17	for	1,305,470	0.71%	30.03%
18	but	1,274,194	0.70%	30.73%
19	we	1,248,337	0.68%	31.41%
20	on	1,216,294	0.66%	32.08%
21	know	1,167,908	0.64%	32.71%
22	have	1,137,673	0.62%	33.34%
23	just	1,134,793	0.62%	33.96%
24	what	1,032,689	0.56%	34.52%
25	they	1,020,670	0.56%	35.08%
26	with	1,007,653	0.55%	35.63%
27	yeah	962,191	0.53%	36.16%
28	be	957,783	0.52%	36.68%
29	are	898,626	0.49%	37.17%
30	not	872,734	0.48%	37.65%
31	do	870,812	0.48%	38.12%
32	i'm	821,478	0.45%	38.57%
33	my	804,993	0.44%	39.01%
34	all	799,543	0.44%	39.45%
35	if	756,360	0.41%	39.86%
36	that's	738,851	0.40%	40.27%
37	at	732,360	0.40%	40.67%
38	about	717,388	0.39%	41.06%
39	he	714,407	0.39%	41.45%
40	your	696,636	0.38%	41.83%
41	one	695,227	0.38%	42.21%
42	as	684,705	0.37%	42.59%
43	or	678,871	0.37%	42.96%
44	can	672,388	0.37%	43.32%
45	think	654,509	0.36%	43.68%
46	right	647,716	0.35%	44.04%
47	don't	637,134	0.35%	44.38%
48	me	616,944	0.34%	44.72%
49	there	597,279	0.33%	45.05%
50	people	592,296	0.32%	45.37%

รายการ 10,000 อันดับแรกฉบับเต็มมีให้ดาวน์โหลดเป็น CSV

สิ่งที่โดดเด่นใน 50 อันดับแรกนี้ไม่ใช่สิ่งที่อยู่ในนั้น เพราะคำว่า the, and, to น่าจะติดอันดับสูงสุดในคอร์ปัสภาษาอังกฤษใดๆ ก็ตาม แต่คือตำแหน่งที่สิ่งต่างๆ จัดอันดับ:

like ที่อันดับ #11 เป็น discourse marker ไม่ใช่กริยา ในคอร์ปัสของหนังสือมันจะอยู่ในอันดับต่ำกว่านี้มาก
คำย่อห้าคำติดเข้ามาใน 50 อันดับแรก ได้แก่ it's (#16), i'm (#32), that's (#36), don't (#47) และอาจมีคำอื่นๆ ในอันดับต่ำกว่านั้น คอร์ปัสที่เป็นข้อความเขียนจะแยกคำเหล่านี้ออกเป็นรูปเต็ม
yeah ที่อันดับ #27 เป็นเพียงตัวเชื่อมในการสนทนาล้วนๆ หนังสือแทบไม่ใช้
know, just และ right ส่วนใหญ่ถูกใช้ที่นี่ในฐานะคำลดความในการพูด (you know, I just wanted, yeah, right) ไม่ใช่ในความหมายตามพจนานุกรม

ส่วนบนของรายการคือภาพรวมของวิธีที่คำพูดแตกต่างจากข้อความ คำย่อ คำเติม และคำลดความ อยู่เคียงข้างคำนำหน้านามและสรรพนามในฐานะคำศัพท์ที่รับน้ำหนักหลัก

คำพูดถูกสร้างขึ้นจากชิ้นส่วน

เมื่อเรานับลำดับสองคำและสามคำแทนคำเดี่ยว โครงสร้างที่ต่างออกไปจะปรากฏขึ้น หน่วยที่พบบ่อยที่สุดของภาษาอังกฤษพูดไม่ใช่คำเดี่ยวที่แยกออกจากกัน แต่เป็นวลีสั้นที่เกิดซ้ำ

50 ลำดับสองคำยอดนิยม

อันดับ	วลี	จำนวน	สัดส่วน
1	you know	651,659	0.42%
2	of the	610,473	0.39%
3	in the	597,973	0.38%
4	going to	391,962	0.25%
5	and i	369,069	0.24%
6	i think	360,605	0.23%
7	this is	354,886	0.23%
8	to be	349,293	0.22%
9	i was	294,749	0.19%
10	i don't	280,165	0.18%
11	it was	279,492	0.18%
12	and then	279,061	0.18%
13	to the	271,483	0.17%
14	on the	269,698	0.17%
15	kind of	253,890	0.16%
16	a lot	248,787	0.16%
17	want to	240,129	0.15%
18	if you	239,704	0.15%
19	you can	214,797	0.14%
20	and the	211,577	0.13%
21	i mean	198,883	0.13%
22	lot of	188,401	0.12%
23	to do	188,301	0.12%
24	in a	185,960	0.12%
25	is a	183,838	0.12%
26	like a	180,615	0.12%
27	at the	169,424	0.11%
28	have to	168,863	0.11%
29	one of	161,657	0.10%
30	have a	160,163	0.10%
31	that i	159,887	0.10%
32	is the	159,862	0.10%
33	you have	158,225	0.10%
34	do you	158,154	0.10%
35	and you	156,410	0.10%
36	that you	150,818	0.10%
37	for the	147,492	0.09%
38	a little	146,585	0.09%
39	to get	143,031	0.09%
40	like i	141,139	0.09%
41	so i	140,193	0.09%
42	it is	137,325	0.09%
43	don't know	136,714	0.09%
44	was like	136,396	0.09%
45	it's a	136,095	0.09%
46	and so	135,209	0.09%
47	of a	134,589	0.09%
48	with the	132,177	0.08%
49	but i	131,380	0.08%
50	was a	126,161	0.08%

รายการฉบับเต็ม: top-bigrams.csv

ข้อสังเกตสามประการ:

you know เอาชนะคำหลักทางไวยากรณ์ทุกตัว มันคือคู่คำที่พบบ่อยที่สุดในภาษาอังกฤษพูด พบบ่อยกว่า of the หรือ in the เสียอีก
50 อันดับแรกเต็มไปด้วยโครงสร้างบุรุษที่หนึ่ง: and i, i think, i was, i don't, i mean คำพูดส่วนใหญ่เกี่ยวกับใครก็ตามที่กำลังพูด
kind of, a lot, a little, like a, was like คำลดความที่ไม่เป็นทางการและโครงสร้างคล้ายอ้างอิงพบได้ทั่วทุกที่ใน 50 อันดับแรก

50 ลำดับสามคำยอดนิยม

อันดับ	วลี	จำนวน	สัดส่วน
1	a lot of	170,961	0.13%
2	i don't know	96,455	0.07%
3	one of the	82,693	0.06%
4	going to be	72,293	0.05%
5	a little bit	64,930	0.05%
6	i was like	60,915	0.05%
7	i'm going to	55,940	0.04%
8	i want to	55,071	0.04%
9	you want to	54,908	0.04%
10	you know what	52,925	0.04%
11	you have to	44,985	0.03%
12	you know i	43,538	0.03%
13	this is a	43,457	0.03%
14	this is the	41,664	0.03%
15	and i think	40,214	0.03%
16	and i was	39,340	0.03%
17	i feel like	38,019	0.03%
18	we're going to	35,687	0.03%
19	oh my god	35,203	0.03%
20	to be a	33,229	0.03%
21	what do you	32,747	0.02%
22	be able to	32,263	0.02%
23	i don't think	31,986	0.02%
24	it was a	30,717	0.02%
25	and you know	30,321	0.02%
26	you're going to	29,731	0.02%
27	like you know	29,420	0.02%
28	don't want to	29,249	0.02%
29	some of the	28,953	0.02%
30	is going to	28,787	0.02%
31	i think it's	28,719	0.02%
32	not going to	27,406	0.02%
33	do you think	27,196	0.02%
34	and this is	25,763	0.02%
35	i think that	25,762	0.02%
36	i mean i	25,419	0.02%
37	in the world	25,310	0.02%
38	and it was	25,303	0.02%
39	and then i	25,091	0.02%
40	you have a	23,988	0.02%
41	the end of	23,885	0.02%
42	and then you	23,471	0.02%
43	i think i	23,393	0.02%
44	out of the	23,054	0.02%
45	it was like	22,869	0.02%
46	you know the	22,783	0.02%
47	when i was	22,755	0.02%
48	you got to	22,220	0.02%
49	want to be	22,218	0.02%
50	know what i	22,117	0.02%

รายการฉบับเต็ม: top-trigrams.csv

ในบรรดาลำดับสามคำ 15 อันดับแรก สิบเอ็ดวลีขึ้นต้นด้วยสรรพนาม หกวลีมีสรรพนามบุรุษที่หนึ่ง I อยู่อย่างชัดเจน ภาษาอังกฤษพูดส่วนใหญ่เกี่ยวกับใครกำลังพูดอะไรกับใครในเวลาจริง และวลีความถี่สูงสะท้อนสิ่งนั้น

มีลำดับบางอย่างที่น่าสังเกตเพราะไม่ปรากฏในภาษาอังกฤษเป็นทางการ ได้แก่ i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48) สิ่งเหล่านี้ไม่ใช่สำนวนหรูหรา แต่เป็นเนื้อเยื่อเชื่อมต่อของการพูดแบบไม่เป็นทางการ

การกระจายนี้บอกอะไรเรา

มีสามสิ่งที่เกิดขึ้นจากตัวเลขเหล่านี้

คำศัพท์ที่คุ้มค่ามีปริมาณน้อย ผู้เรียนที่จำคำพูดได้อย่างเชื่อถือได้ 3,000 คำมีวัตถุดิบทางภาษาเพียงพอที่จะตามทันภาษาอังกฤษเจ้าของภาษาบน YouTube ได้ 89% หากต้องการขยับไปที่ 95% จะต้องใช้คำเพิ่มอีก 5,500 คำ ซึ่งส่วนใหญ่ปรากฏเพียงไม่กี่ครั้งตลอดทั้งคอร์ปัส 183 ล้านคำ

การปรับเทียบความถี่สำคัญกว่าขนาดคลังคำศัพท์ คอร์สและแอปส่วนใหญ่ปฏิบัติต่อรายการคำศัพท์ของตนราวกับว่ามีค่าเท่าๆ กัน แต่ข้อมูลบอกตรงข้าม 50% ของงานทั้งหมดทำโดย 67 คำแรก ตารางเรียนที่ไม่สะท้อนสิ่งนั้นคือการจัดสรรความพยายามผิดทาง

การแปลคำต่อคำเป็นหน่วยพื้นฐานที่ผิด ครึ่งหนึ่งของลำดับสามคำอันดับต้นเป็นชิ้นส่วนเชิงหน้าที่ (a lot of, i don't know, a little bit, going to be) ที่ทำงานเป็นหน่วยเดียว การจดจำมันทั้งก้อนเป็นการทำงานทางสมองที่ต่างไปจากการแยกวิเคราะห์เป็นสามคำแยกกัน ในการพูดสด ความแตกต่างนี้ปรากฏเป็นความแตกต่างระหว่างการตามทันและการตามไม่ทัน

ระเบียบวิธี

ขั้นตอนการประมวลผลที่สร้างตัวเลขเหล่านี้:

แหล่งที่มา คำบรรยายของวิดีโอ YouTube ภาษาอังกฤษ 37,632 รายการ
การแยกโทเคน แปลงข้อความเป็นตัวพิมพ์เล็ก จากนั้นจับคู่กับ regex [a-z]+(?:'[a-z]+)? ซึ่งเก็บคำย่ออย่าง don't, gonna, it's ไว้เป็นโทเคนเดี่ยว ตัดตัวเลขออก และไม่สนใจเครื่องหมายวรรคตอน
การกรองสัญญาณรบกวน เซกเมนต์ที่ตรงกับ ^\[.*\]$ (เช่น [Music], [Applause], [Inaudible]) จะถูกข้ามก่อนการแยกโทเคน ขั้นตอนนี้ทำให้ลบเซกเมนต์ออกไป 196,433 เซกเมนต์
การนับ สำหรับ unigram จะนับทุกโทเคน สำหรับ bigram และ trigram จะนับทุกลำดับ N โทเคนที่อยู่ติดกันภายในเซกเมนต์คำบรรยายเดียวกัน ลำดับไม่อนุญาตให้ข้ามขอบเขตของเซกเมนต์
สัดส่วนสะสม คำนวณโดยเรียงตามจำนวนแล้วบวกรวม

สิ่งที่การวิเคราะห์นี้ไม่ทำ:

ไม่ทำ lemmatization go, going, went และ gone ถูกนับเป็นคำศัพท์แยกจากกัน วิธีนี้เหมาะสมสำหรับการวัดสิ่งที่ผู้เรียนต้องจำเมื่อได้ยินจริง แต่ก็ทำให้จำนวนคำศัพท์ดิบสูงเกินจริงเมื่อเทียบกับการวิเคราะห์ที่ทำ lemmatization
ไม่กำกับชนิดของคำ like ที่เป็นกริยาและ like ที่เป็น discourse marker ถูกนับรวมกัน
ไม่กรองคำบรรยายที่สร้างอัตโนมัติ วิดีโอบางรายการมีคำบรรยายที่มนุษย์แก้ไข อื่นๆ มีคำบรรยายที่สร้างอัตโนมัติ ซึ่งกลุ่มหลังก่อให้เกิดสัญญาณรบกวนในการถอดความบ้าง โดยเฉพาะในส่วนหางยาว

สิ่งที่การวิเคราะห์เชื่อถือได้คือ รูปร่าง ของการกระจาย และ ตัวตนของคำและวลีที่มีความถี่สูง ส่วนบนของรายการ ได้แก่ the, and, to, I, like, it's, you know, i don't know จะอยู่รอดทุกการล้างข้อมูลที่สมเหตุสมผล

ข้อควรระวังเกี่ยวกับคอร์ปัส

วิดีโอ 37,632 รายการนี้ไม่ใช่ตัวอย่างสุ่มของภาษาอังกฤษพูดทั้งหมด เป็นชุดที่คัดสรรของช่อง YouTube ภาษาอังกฤษยอดนิยมที่รวบรวมขึ้นเพื่อขับเคลื่อน ClipPhrase เครื่องมือค้นหาวลีในคลิปวิดีโอจริงของเรา คอร์ปัสมีความเอนเอียงดังนี้:

ภาษาอังกฤษแบบอเมริกัน ช่องส่วนใหญ่อยู่ในสหรัฐอเมริกา
ผู้คนที่พูดอย่างมืออาชีพ พิธีกรทอล์คโชว์ดึก พอดแคสเตอร์ ยูทูบเบอร์ ผู้ประกาศข่าว ไม่ใช่ตัวแทนแบบกว้างของคำพูดส่วนตัวแบบลำลอง
เนื้อหายอดนิยม ช่องถูกเลือกเพราะจำนวนการดูและการเข้าถึงทางวัฒนธรรมที่กว้างขวาง ไม่ใช่เพราะความหลากหลายของภาษาถิ่นหรือระดับภาษา

ข้อควรระวังเหล่านี้จำกัดสิ่งที่ตัวเลขแสดงให้เห็นได้อย่างเคร่งครัด แต่ไม่เปลี่ยนรูปร่างของการกระจายหรือผลการค้นพบเชิงคุณภาพที่ว่าภาษาอังกฤษพูดกระจุกความน่าจะเป็นไว้ที่คำศัพท์เพียงเล็กน้อยซึ่งประกอบด้วยคำหน้าที่และชิ้นส่วนความถี่สูง

ลองด้วยตนเอง

คอร์ปัสที่ใช้ในการวิเคราะห์นี้ก็เป็นดัชนีค้นหาด้วย ทุกคำและวลีที่กล่าวถึงในบทความนี้มีอยู่ในคลิปวิดีโอจริงนับหมื่น สามารถเรียกค้นได้ด้วยคำค้น พิมพ์ I was like ลงใน ClipPhrase แล้วคุณจะได้ผู้พูด 50 คนที่แตกต่างกันใช้วลีนี้ พิมพ์ gonna แล้วคุณจะได้หลายพันคน นั่นคือเครื่องมือเบื้องหลัง

ดาวน์โหลด

top-words.csv — 10,000 คำยอดนิยมพร้อมอันดับ จำนวน สัดส่วน และสัดส่วนสะสม
top-bigrams.csv — 5,000 ลำดับสองคำยอดนิยม
top-trigrams.csv — 5,000 ลำดับสามคำยอดนิยม

หากคุณนำข้อมูลนี้ไปใช้ในงานเขียนหรือการวิจัยของคุณเอง ขอบคุณที่ลิงก์กลับมาที่หน้านี้