Chúng tôi phân tích 37.000 video YouTube. Đây là diện mạo thực sự của tiếng Anh nói

182,9 triệu từ được nói trong 37.632 video YouTube tiếng Anh. Chỉ 67 từ chiếm một nửa mọi điều được nói ra. Danh sách tần suất từ và cụm từ đầy đủ, biểu đồ và dữ liệu có thể tải xuống.

4 tháng 5, 202612 phút đọcClipPhrase Team

Chúng tôi đã lấy phụ đề của 37.632 video YouTube tiếng Anh từ chỉ mục tìm kiếm của mình — các chương trình khuya, phim tài liệu, podcast, video giải thích khoa học, tin tức, talk show, vlog — và chạy phân tích tần suất trên mọi từ và cụm từ ngắn được nói trong đó. Tổng cộng 182,9 triệu từ.

Bài viết này là bản tường trình đầy đủ. Tất cả các tệp CSV cơ sở được liên kết ở cuối bài cho bất kỳ ai muốn xem dữ liệu thô.

Kho ngữ liệu, qua các con số


Số video được phân tích	37.632
Số đoạn phụ đề	26.203.765
Đoạn phi lời nói bị bỏ qua (`[Music]`, `[Applause]`, v.v.)	196.433
Tổng số token được nói	182.933.444
Số từ duy nhất (kích thước từ vựng)	384.132
Số từ trung bình mỗi video	4.861
Số chuỗi hai từ duy nhất	11.240.282
Số chuỗi ba từ duy nhất	42.037.127

Một nửa toàn bộ tiếng Anh nói chỉ gói gọn trong 67 từ

Phân bố lệch một cách tàn nhẫn.

Số lượng từ bạn cần để nắm được X% tiếng Anh nói

Bạn cần biết…	…để nhận ra ngần này tiếng Anh nói
67 từ	50%
505 từ	75%
906 từ	80%
1.677 từ	85%
2.900 từ	89%
3.368 từ	90%
8.381 từ	95%
36.916 từ	99%

Một vài điểm đáng nhấn mạnh:

Riêng từ the chiếm 4,04% toàn bộ tiếng Anh nói — cứ hai mươi lăm từ bạn nghe thì có một từ là the.
Chỉ riêng 10 từ đứng đầu đã bao phủ 23,2% mọi lời nói. Gần một phần tư mọi cuộc trò chuyện của người bản ngữ vận hành bằng mười token được tái sử dụng.
Lợi suất giảm rất nhanh. Đi từ mức hiểu 89% lên 95% gần như gấp ba lượng từ vựng cần thiết. Từ 95% lên 99% lại nhân thêm bốn lần nữa.

Đây là phiên bản gay gắt hơn của định luật Zipf so với những gì xuất hiện trong các kho ngữ liệu văn bản viết. Sách trải khối xác suất ra trên nhiều từ vựng hơn; lời nói thì cô đặc nó lại.

Phân bố Zipf của tiếng Anh nói từ 37 nghìn video YouTube

Đồ thị bên trên dùng trục log-log. Một ngôn ngữ Zipf thuần khiết sẽ tạo thành một đường thẳng; tiếng Anh nói gần như đạt được điều đó, với một chỗ uốn nhẹ ở các tần suất cao nhất và phần đuôi dài của những từ hiếm thoải dần xuống dưới hạng 10⁵.

Top 50 từ được nói nhiều nhất

Hạng	Từ	Số lần	Tỷ lệ	Tích lũy
1	the	7.387.237	4,04%	4,04%
2	and	5.202.156	2,84%	6,88%
3	to	4.806.242	2,63%	9,51%
4	i	4.324.592	2,36%	11,87%
5	a	4.264.055	2,33%	14,20%
6	you	4.064.555	2,22%	16,43%
7	of	3.724.277	2,04%	18,46%
8	that	3.492.110	1,91%	20,37%
9	it	2.634.690	1,44%	21,81%
10	in	2.521.046	1,38%	23,19%
11	like	2.494.184	1,36%	24,55%
12	is	2.369.926	1,30%	25,85%
13	this	1.781.715	0,97%	26,82%
14	so	1.654.633	0,90%	27,73%
15	was	1.501.038	0,82%	28,55%
16	it's	1.410.862	0,77%	29,32%
17	for	1.305.470	0,71%	30,03%
18	but	1.274.194	0,70%	30,73%
19	we	1.248.337	0,68%	31,41%
20	on	1.216.294	0,66%	32,08%
21	know	1.167.908	0,64%	32,71%
22	have	1.137.673	0,62%	33,34%
23	just	1.134.793	0,62%	33,96%
24	what	1.032.689	0,56%	34,52%
25	they	1.020.670	0,56%	35,08%
26	with	1.007.653	0,55%	35,63%
27	yeah	962.191	0,53%	36,16%
28	be	957.783	0,52%	36,68%
29	are	898.626	0,49%	37,17%
30	not	872.734	0,48%	37,65%
31	do	870.812	0,48%	38,12%
32	i'm	821.478	0,45%	38,57%
33	my	804.993	0,44%	39,01%
34	all	799.543	0,44%	39,45%
35	if	756.360	0,41%	39,86%
36	that's	738.851	0,40%	40,27%
37	at	732.360	0,40%	40,67%
38	about	717.388	0,39%	41,06%
39	he	714.407	0,39%	41,45%
40	your	696.636	0,38%	41,83%
41	one	695.227	0,38%	42,21%
42	as	684.705	0,37%	42,59%
43	or	678.871	0,37%	42,96%
44	can	672.388	0,37%	43,32%
45	think	654.509	0,36%	43,68%
46	right	647.716	0,35%	44,04%
47	don't	637.134	0,35%	44,38%
48	me	616.944	0,34%	44,72%
49	there	597.279	0,33%	45,05%
50	people	592.296	0,32%	45,37%

Danh sách top 10.000 đầy đủ có sẵn dưới dạng CSV.

Điều đáng chú ý ở top 50 này không phải là những gì có mặt — the, and, to sẽ đứng đầu mọi kho ngữ liệu tiếng Anh — mà là vị trí xếp hạng của một số từ:

like ở hạng #11 là một dấu hiệu diễn ngôn, không phải động từ. Trong một kho ngữ liệu sách, nó sẽ ở vị trí thấp hơn nhiều.
Năm dạng viết tắt lọt vào top 50: it's (#16), i'm (#32), that's (#36), don't (#47), và có thể một vài dạng khác ở hạng thấp hơn. Các kho ngữ liệu văn bản viết tách chúng thành dạng đầy đủ.
yeah ở hạng #27 hoàn toàn là chất kết dính của hội thoại. Sách hầu như không dùng nó.
know, just và right ở đây chủ yếu được dùng như những từ làm dịu diễn ngôn (you know, I just wanted, yeah, right), chứ không phải theo nghĩa từ điển.

Phần đầu danh sách là một bức ảnh chụp cách lời nói khác văn bản viết: các dạng viết tắt, từ đệm và từ giảm nhẹ đứng cùng hàng với mạo từ và đại từ với tư cách từ vựng chịu lực.

Lời nói được xây từ những khối ngắn

Khi đếm các chuỗi hai từ và ba từ thay vì từng từ riêng lẻ, một cấu trúc khác hiện ra. Những đơn vị thường gặp nhất của tiếng Anh nói không phải là các từ đơn lẻ mà là những cụm từ ngắn, lặp đi lặp lại.

Top 50 chuỗi hai từ

Hạng	Cụm từ	Số lần	Tỷ lệ
1	you know	651.659	0,42%
2	of the	610.473	0,39%
3	in the	597.973	0,38%
4	going to	391.962	0,25%
5	and i	369.069	0,24%
6	i think	360.605	0,23%
7	this is	354.886	0,23%
8	to be	349.293	0,22%
9	i was	294.749	0,19%
10	i don't	280.165	0,18%
11	it was	279.492	0,18%
12	and then	279.061	0,18%
13	to the	271.483	0,17%
14	on the	269.698	0,17%
15	kind of	253.890	0,16%
16	a lot	248.787	0,16%
17	want to	240.129	0,15%
18	if you	239.704	0,15%
19	you can	214.797	0,14%
20	and the	211.577	0,13%
21	i mean	198.883	0,13%
22	lot of	188.401	0,12%
23	to do	188.301	0,12%
24	in a	185.960	0,12%
25	is a	183.838	0,12%
26	like a	180.615	0,12%
27	at the	169.424	0,11%
28	have to	168.863	0,11%
29	one of	161.657	0,10%
30	have a	160.163	0,10%
31	that i	159.887	0,10%
32	is the	159.862	0,10%
33	you have	158.225	0,10%
34	do you	158.154	0,10%
35	and you	156.410	0,10%
36	that you	150.818	0,10%
37	for the	147.492	0,09%
38	a little	146.585	0,09%
39	to get	143.031	0,09%
40	like i	141.139	0,09%
41	so i	140.193	0,09%
42	it is	137.325	0,09%
43	don't know	136.714	0,09%
44	was like	136.396	0,09%
45	it's a	136.095	0,09%
46	and so	135.209	0,09%
47	of a	134.589	0,09%
48	with the	132.177	0,08%
49	but i	131.380	0,08%
50	was a	126.161	0,08%

Danh sách đầy đủ: top-bigrams.csv.

Ba điều đáng chú ý:

you know đánh bại mọi trụ cột ngữ pháp. Đây là cặp từ phổ biến nhất trong tiếng Anh nói — thường gặp hơn cả of the hay in the.
Top 50 dày đặc các cấu trúc ngôi thứ nhất: and i, i think, i was, i don't, i mean. Lời nói chủ yếu xoay quanh chính người đang nói.
kind of, a lot, a little, like a, was like — những từ giảm nhẹ thân mật và các cấu trúc tựa lời dẫn xuất hiện khắp nơi trong top 50.

Top 50 chuỗi ba từ

Hạng	Cụm từ	Số lần	Tỷ lệ
1	a lot of	170.961	0,13%
2	i don't know	96.455	0,07%
3	one of the	82.693	0,06%
4	going to be	72.293	0,05%
5	a little bit	64.930	0,05%
6	i was like	60.915	0,05%
7	i'm going to	55.940	0,04%
8	i want to	55.071	0,04%
9	you want to	54.908	0,04%
10	you know what	52.925	0,04%
11	you have to	44.985	0,03%
12	you know i	43.538	0,03%
13	this is a	43.457	0,03%
14	this is the	41.664	0,03%
15	and i think	40.214	0,03%
16	and i was	39.340	0,03%
17	i feel like	38.019	0,03%
18	we're going to	35.687	0,03%
19	oh my god	35.203	0,03%
20	to be a	33.229	0,03%
21	what do you	32.747	0,02%
22	be able to	32.263	0,02%
23	i don't think	31.986	0,02%
24	it was a	30.717	0,02%
25	and you know	30.321	0,02%
26	you're going to	29.731	0,02%
27	like you know	29.420	0,02%
28	don't want to	29.249	0,02%
29	some of the	28.953	0,02%
30	is going to	28.787	0,02%
31	i think it's	28.719	0,02%
32	not going to	27.406	0,02%
33	do you think	27.196	0,02%
34	and this is	25.763	0,02%
35	i think that	25.762	0,02%
36	i mean i	25.419	0,02%
37	in the world	25.310	0,02%
38	and it was	25.303	0,02%
39	and then i	25.091	0,02%
40	you have a	23.988	0,02%
41	the end of	23.885	0,02%
42	and then you	23.471	0,02%
43	i think i	23.393	0,02%
44	out of the	23.054	0,02%
45	it was like	22.869	0,02%
46	you know the	22.783	0,02%
47	when i was	22.755	0,02%
48	you got to	22.220	0,02%
49	want to be	22.218	0,02%
50	know what i	22.117	0,02%

Danh sách đầy đủ: top-trigrams.csv.

Trong 15 chuỗi ba từ đứng đầu, mười một chuỗi bắt đầu bằng đại từ. Sáu chuỗi chứa rõ ràng đại từ ngôi thứ nhất I. Tiếng Anh nói áp đảo là chuyện ai đang nói gì với ai trong thời gian thực, và các cụm từ tần suất cao phản ánh đúng điều đó.

Một vài chuỗi đáng chú ý vì chúng không xuất hiện trong tiếng Anh trang trọng: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Đây không phải là những thành ngữ cao siêu — chúng là mô liên kết của lời nói thường ngày.

Phân bố này hàm ý điều gì

Ba điều rút ra từ những con số trên.

Lượng từ vựng hiệu quả về chi phí là khá nhỏ. Một người học có khả năng nhận diện đáng tin cậy 3.000 từ nói có sẵn nguyên liệu ngôn ngữ thô để theo dõi 89% tiếng Anh bản ngữ trên YouTube. Kéo con số đó lên 95% đòi hỏi thêm 5.500 từ nữa — phần lớn trong số đó chỉ xuất hiện vài lần trong toàn bộ kho ngữ liệu 183 triệu từ.

Hiệu chỉnh theo tần suất quan trọng hơn kích thước từ vựng. Hầu hết các khóa học và ứng dụng coi danh sách từ vựng của họ gần như ngang nhau. Dữ liệu nói điều khác: 50% công sức được hoàn thành bởi 67 từ đầu tiên. Một lịch trình học không phản ánh điều đó là phân bổ sai công sức.

Dịch từng từ là đơn vị nguyên thủy sai lầm. Một nửa các chuỗi ba từ đứng đầu là những khối chức năng (a lot of, i don't know, a little bit, going to be) hoạt động như một đơn vị. Nhận ra chúng nguyên khối là một thao tác nhận thức khác với việc phân tích chúng thành ba từ riêng biệt. Trong lời nói thực, sự khác biệt đó hiện ra dưới dạng khác biệt giữa theo kịp và không theo kịp.

Phương pháp luận

Quy trình tạo ra các con số này:

Nguồn. Phụ đề của 37.632 video YouTube tiếng Anh.
Tách token. Chuyển văn bản về chữ thường, sau đó khớp biểu thức chính quy [a-z]+(?:'[a-z]+)?. Cách này giữ các dạng viết tắt như don't, gonna, it's thành một token, loại bỏ các con số và bỏ qua dấu câu.
Lọc nhiễu. Các đoạn khớp với ^\[.*\]$ (ví dụ [Music], [Applause], [Inaudible]) bị bỏ qua trước khi tách token. Bước này loại 196.433 đoạn.
Đếm. Với unigram, mọi token đều được đếm. Với bigram và trigram, mọi chuỗi N token liền kề trong cùng một đoạn phụ đề đều được đếm; các chuỗi không được vượt qua ranh giới đoạn.
Tỷ lệ tích lũy được tính bằng cách sắp xếp theo số lần và cộng dồn.

Những điều mà phân tích này không làm:

Không lemma hóa. go, going, went và gone được tính là các đơn vị từ vựng riêng. Điều này phù hợp khi đo lường thứ mà người học thực sự phải nhận ra khi nghe, nhưng nó làm phồng tổng số từ vựng thô so với một phân tích có lemma hóa.
Không gắn nhãn từ loại. like động từ và like dấu hiệu diễn ngôn được đếm chung.
Không lọc phụ đề tự động. Một số video có phụ đề do người chỉnh sửa, số khác có phụ đề tự động; loại sau đưa vào một số nhiễu phiên mã, đặc biệt ở phần đuôi dài.

Phân tích này đáng tin cậy về: hình dạng của phân bố và danh tính của các từ và cụm từ tần suất cao. Phần đầu danh sách — the, and, to, I, like, it's, you know, i don't know — vẫn tồn tại sau bất kỳ đợt làm sạch hợp lý nào.

Lưu ý về kho ngữ liệu

37.632 video không phải là mẫu ngẫu nhiên của toàn bộ tiếng Anh nói. Đây là tập đã được chọn lọc gồm các kênh YouTube tiếng Anh phổ biến, được thu thập để cung cấp năng lượng cho ClipPhrase, công cụ tìm kiếm cụm từ trong các video clip thực của chúng tôi. Kho ngữ liệu lệch theo các hướng:

Tiếng Anh Mỹ. Hầu hết các kênh đặt tại Mỹ.
Những người nói chuyện chuyên nghiệp. Người dẫn chương trình khuya, podcaster, YouTuber, người dẫn tin — không phải mặt cắt đại diện của lời nói riêng tư thường nhật.
Nội dung phổ biến. Các kênh được chọn dựa trên lượt xem và sức lan tỏa văn hóa rộng, chứ không vì sự đa dạng phương ngữ hay phong cách.

Những lưu ý này thu hẹp những gì các con số thực sự chứng minh được. Chúng không thay đổi hình dạng của phân bố, cũng không thay đổi phát hiện định tính rằng tiếng Anh nói cô đặc khối xác suất vào một lượng từ vựng rất nhỏ gồm các từ chức năng tần suất cao và các khối từ.

Tự thử nghiệm

Kho ngữ liệu mà phân tích này chạy trên đó đồng thời cũng là một chỉ mục tìm kiếm. Mọi từ và cụm từ được nhắc đến trong bài này đều tồn tại trong hàng chục nghìn clip video thực, có thể truy xuất bằng truy vấn. Gõ I was like vào ClipPhrase và bạn sẽ thấy năm mươi người nói khác nhau dùng nó; gõ gonna và bạn sẽ thấy vài nghìn lượt. Đó là công cụ nền tảng.

Tải xuống

top-words.csv — top 10.000 từ với hạng, số lần, tỷ lệ và tỷ lệ tích lũy
top-bigrams.csv — top 5.000 chuỗi hai từ
top-trigrams.csv — top 5.000 chuỗi ba từ

Nếu bạn sử dụng dữ liệu này trong bài viết hay nghiên cứu của riêng mình, một liên kết dẫn về trang này sẽ rất được trân trọng.