ClipPhrase
← Quay lại blog

Chúng tôi phân tích 37.000 video YouTube. Đây là diện mạo thực sự của tiếng Anh nói

182,9 triệu từ được nói trong 37.632 video YouTube tiếng Anh. Chỉ 67 từ chiếm một nửa mọi điều được nói ra. Danh sách tần suất từ và cụm từ đầy đủ, biểu đồ và dữ liệu có thể tải xuống.

4 tháng 5, 202612 phút đọcClipPhrase Team

Chúng tôi đã lấy phụ đề của 37.632 video YouTube tiếng Anh từ chỉ mục tìm kiếm của mình — các chương trình khuya, phim tài liệu, podcast, video giải thích khoa học, tin tức, talk show, vlog — và chạy phân tích tần suất trên mọi từ và cụm từ ngắn được nói trong đó. Tổng cộng 182,9 triệu từ.

Bài viết này là bản tường trình đầy đủ. Tất cả các tệp CSV cơ sở được liên kết ở cuối bài cho bất kỳ ai muốn xem dữ liệu thô.

Kho ngữ liệu, qua các con số

Số video được phân tích37.632
Số đoạn phụ đề26.203.765
Đoạn phi lời nói bị bỏ qua ([Music], [Applause], v.v.)196.433
Tổng số token được nói182.933.444
Số từ duy nhất (kích thước từ vựng)384.132
Số từ trung bình mỗi video4.861
Số chuỗi hai từ duy nhất11.240.282
Số chuỗi ba từ duy nhất42.037.127

Một nửa toàn bộ tiếng Anh nói chỉ gói gọn trong 67 từ

Phân bố lệch một cách tàn nhẫn.

Số lượng từ bạn cần để nắm được X% tiếng Anh nói

Bạn cần biết……để nhận ra ngần này tiếng Anh nói
67 từ50%
505 từ75%
906 từ80%
1.677 từ85%
2.900 từ89%
3.368 từ90%
8.381 từ95%
36.916 từ99%

Một vài điểm đáng nhấn mạnh:

  • Riêng từ the chiếm 4,04% toàn bộ tiếng Anh nói — cứ hai mươi lăm từ bạn nghe thì có một từ là the.
  • Chỉ riêng 10 từ đứng đầu đã bao phủ 23,2% mọi lời nói. Gần một phần tư mọi cuộc trò chuyện của người bản ngữ vận hành bằng mười token được tái sử dụng.
  • Lợi suất giảm rất nhanh. Đi từ mức hiểu 89% lên 95% gần như gấp ba lượng từ vựng cần thiết. Từ 95% lên 99% lại nhân thêm bốn lần nữa.

Đây là phiên bản gay gắt hơn của định luật Zipf so với những gì xuất hiện trong các kho ngữ liệu văn bản viết. Sách trải khối xác suất ra trên nhiều từ vựng hơn; lời nói thì cô đặc nó lại.

Phân bố Zipf của tiếng Anh nói từ 37 nghìn video YouTube

Đồ thị bên trên dùng trục log-log. Một ngôn ngữ Zipf thuần khiết sẽ tạo thành một đường thẳng; tiếng Anh nói gần như đạt được điều đó, với một chỗ uốn nhẹ ở các tần suất cao nhất và phần đuôi dài của những từ hiếm thoải dần xuống dưới hạng 10⁵.

Top 50 từ được nói nhiều nhất

HạngTừSố lầnTỷ lệTích lũy
1the7.387.2374,04%4,04%
2and5.202.1562,84%6,88%
3to4.806.2422,63%9,51%
4i4.324.5922,36%11,87%
5a4.264.0552,33%14,20%
6you4.064.5552,22%16,43%
7of3.724.2772,04%18,46%
8that3.492.1101,91%20,37%
9it2.634.6901,44%21,81%
10in2.521.0461,38%23,19%
11like2.494.1841,36%24,55%
12is2.369.9261,30%25,85%
13this1.781.7150,97%26,82%
14so1.654.6330,90%27,73%
15was1.501.0380,82%28,55%
16it's1.410.8620,77%29,32%
17for1.305.4700,71%30,03%
18but1.274.1940,70%30,73%
19we1.248.3370,68%31,41%
20on1.216.2940,66%32,08%
21know1.167.9080,64%32,71%
22have1.137.6730,62%33,34%
23just1.134.7930,62%33,96%
24what1.032.6890,56%34,52%
25they1.020.6700,56%35,08%
26with1.007.6530,55%35,63%
27yeah962.1910,53%36,16%
28be957.7830,52%36,68%
29are898.6260,49%37,17%
30not872.7340,48%37,65%
31do870.8120,48%38,12%
32i'm821.4780,45%38,57%
33my804.9930,44%39,01%
34all799.5430,44%39,45%
35if756.3600,41%39,86%
36that's738.8510,40%40,27%
37at732.3600,40%40,67%
38about717.3880,39%41,06%
39he714.4070,39%41,45%
40your696.6360,38%41,83%
41one695.2270,38%42,21%
42as684.7050,37%42,59%
43or678.8710,37%42,96%
44can672.3880,37%43,32%
45think654.5090,36%43,68%
46right647.7160,35%44,04%
47don't637.1340,35%44,38%
48me616.9440,34%44,72%
49there597.2790,33%45,05%
50people592.2960,32%45,37%

Danh sách top 10.000 đầy đủ có sẵn dưới dạng CSV.

Điều đáng chú ý ở top 50 này không phải là những gì có mặt — the, and, to sẽ đứng đầu mọi kho ngữ liệu tiếng Anh — mà là vị trí xếp hạng của một số từ:

  • like ở hạng #11 là một dấu hiệu diễn ngôn, không phải động từ. Trong một kho ngữ liệu sách, nó sẽ ở vị trí thấp hơn nhiều.
  • Năm dạng viết tắt lọt vào top 50: it's (#16), i'm (#32), that's (#36), don't (#47), và có thể một vài dạng khác ở hạng thấp hơn. Các kho ngữ liệu văn bản viết tách chúng thành dạng đầy đủ.
  • yeah ở hạng #27 hoàn toàn là chất kết dính của hội thoại. Sách hầu như không dùng nó.
  • know, justright ở đây chủ yếu được dùng như những từ làm dịu diễn ngôn (you know, I just wanted, yeah, right), chứ không phải theo nghĩa từ điển.

Phần đầu danh sách là một bức ảnh chụp cách lời nói khác văn bản viết: các dạng viết tắt, từ đệm và từ giảm nhẹ đứng cùng hàng với mạo từ và đại từ với tư cách từ vựng chịu lực.

Lời nói được xây từ những khối ngắn

Khi đếm các chuỗi hai từ và ba từ thay vì từng từ riêng lẻ, một cấu trúc khác hiện ra. Những đơn vị thường gặp nhất của tiếng Anh nói không phải là các từ đơn lẻ mà là những cụm từ ngắn, lặp đi lặp lại.

Top 50 chuỗi hai từ

HạngCụm từSố lầnTỷ lệ
1you know651.6590,42%
2of the610.4730,39%
3in the597.9730,38%
4going to391.9620,25%
5and i369.0690,24%
6i think360.6050,23%
7this is354.8860,23%
8to be349.2930,22%
9i was294.7490,19%
10i don't280.1650,18%
11it was279.4920,18%
12and then279.0610,18%
13to the271.4830,17%
14on the269.6980,17%
15kind of253.8900,16%
16a lot248.7870,16%
17want to240.1290,15%
18if you239.7040,15%
19you can214.7970,14%
20and the211.5770,13%
21i mean198.8830,13%
22lot of188.4010,12%
23to do188.3010,12%
24in a185.9600,12%
25is a183.8380,12%
26like a180.6150,12%
27at the169.4240,11%
28have to168.8630,11%
29one of161.6570,10%
30have a160.1630,10%
31that i159.8870,10%
32is the159.8620,10%
33you have158.2250,10%
34do you158.1540,10%
35and you156.4100,10%
36that you150.8180,10%
37for the147.4920,09%
38a little146.5850,09%
39to get143.0310,09%
40like i141.1390,09%
41so i140.1930,09%
42it is137.3250,09%
43don't know136.7140,09%
44was like136.3960,09%
45it's a136.0950,09%
46and so135.2090,09%
47of a134.5890,09%
48with the132.1770,08%
49but i131.3800,08%
50was a126.1610,08%

Danh sách đầy đủ: top-bigrams.csv.

Ba điều đáng chú ý:

  1. you know đánh bại mọi trụ cột ngữ pháp. Đây là cặp từ phổ biến nhất trong tiếng Anh nói — thường gặp hơn cả of the hay in the.
  2. Top 50 dày đặc các cấu trúc ngôi thứ nhất: and i, i think, i was, i don't, i mean. Lời nói chủ yếu xoay quanh chính người đang nói.
  3. kind of, a lot, a little, like a, was like — những từ giảm nhẹ thân mật và các cấu trúc tựa lời dẫn xuất hiện khắp nơi trong top 50.

Top 50 chuỗi ba từ

HạngCụm từSố lầnTỷ lệ
1a lot of170.9610,13%
2i don't know96.4550,07%
3one of the82.6930,06%
4going to be72.2930,05%
5a little bit64.9300,05%
6i was like60.9150,05%
7i'm going to55.9400,04%
8i want to55.0710,04%
9you want to54.9080,04%
10you know what52.9250,04%
11you have to44.9850,03%
12you know i43.5380,03%
13this is a43.4570,03%
14this is the41.6640,03%
15and i think40.2140,03%
16and i was39.3400,03%
17i feel like38.0190,03%
18we're going to35.6870,03%
19oh my god35.2030,03%
20to be a33.2290,03%
21what do you32.7470,02%
22be able to32.2630,02%
23i don't think31.9860,02%
24it was a30.7170,02%
25and you know30.3210,02%
26you're going to29.7310,02%
27like you know29.4200,02%
28don't want to29.2490,02%
29some of the28.9530,02%
30is going to28.7870,02%
31i think it's28.7190,02%
32not going to27.4060,02%
33do you think27.1960,02%
34and this is25.7630,02%
35i think that25.7620,02%
36i mean i25.4190,02%
37in the world25.3100,02%
38and it was25.3030,02%
39and then i25.0910,02%
40you have a23.9880,02%
41the end of23.8850,02%
42and then you23.4710,02%
43i think i23.3930,02%
44out of the23.0540,02%
45it was like22.8690,02%
46you know the22.7830,02%
47when i was22.7550,02%
48you got to22.2200,02%
49want to be22.2180,02%
50know what i22.1170,02%

Danh sách đầy đủ: top-trigrams.csv.

Trong 15 chuỗi ba từ đứng đầu, mười một chuỗi bắt đầu bằng đại từ. Sáu chuỗi chứa rõ ràng đại từ ngôi thứ nhất I. Tiếng Anh nói áp đảo là chuyện ai đang nói gì với ai trong thời gian thực, và các cụm từ tần suất cao phản ánh đúng điều đó.

Một vài chuỗi đáng chú ý vì chúng không xuất hiện trong tiếng Anh trang trọng: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Đây không phải là những thành ngữ cao siêu — chúng là mô liên kết của lời nói thường ngày.

Phân bố này hàm ý điều gì

Ba điều rút ra từ những con số trên.

Lượng từ vựng hiệu quả về chi phí là khá nhỏ. Một người học có khả năng nhận diện đáng tin cậy 3.000 từ nói có sẵn nguyên liệu ngôn ngữ thô để theo dõi 89% tiếng Anh bản ngữ trên YouTube. Kéo con số đó lên 95% đòi hỏi thêm 5.500 từ nữa — phần lớn trong số đó chỉ xuất hiện vài lần trong toàn bộ kho ngữ liệu 183 triệu từ.

Hiệu chỉnh theo tần suất quan trọng hơn kích thước từ vựng. Hầu hết các khóa học và ứng dụng coi danh sách từ vựng của họ gần như ngang nhau. Dữ liệu nói điều khác: 50% công sức được hoàn thành bởi 67 từ đầu tiên. Một lịch trình học không phản ánh điều đó là phân bổ sai công sức.

Dịch từng từ là đơn vị nguyên thủy sai lầm. Một nửa các chuỗi ba từ đứng đầu là những khối chức năng (a lot of, i don't know, a little bit, going to be) hoạt động như một đơn vị. Nhận ra chúng nguyên khối là một thao tác nhận thức khác với việc phân tích chúng thành ba từ riêng biệt. Trong lời nói thực, sự khác biệt đó hiện ra dưới dạng khác biệt giữa theo kịp và không theo kịp.

Phương pháp luận

Quy trình tạo ra các con số này:

  1. Nguồn. Phụ đề của 37.632 video YouTube tiếng Anh.
  2. Tách token. Chuyển văn bản về chữ thường, sau đó khớp biểu thức chính quy [a-z]+(?:'[a-z]+)?. Cách này giữ các dạng viết tắt như don't, gonna, it's thành một token, loại bỏ các con số và bỏ qua dấu câu.
  3. Lọc nhiễu. Các đoạn khớp với ^\[.*\]$ (ví dụ [Music], [Applause], [Inaudible]) bị bỏ qua trước khi tách token. Bước này loại 196.433 đoạn.
  4. Đếm. Với unigram, mọi token đều được đếm. Với bigram và trigram, mọi chuỗi N token liền kề trong cùng một đoạn phụ đề đều được đếm; các chuỗi không được vượt qua ranh giới đoạn.
  5. Tỷ lệ tích lũy được tính bằng cách sắp xếp theo số lần và cộng dồn.

Những điều mà phân tích này không làm:

  • Không lemma hóa. go, going, wentgone được tính là các đơn vị từ vựng riêng. Điều này phù hợp khi đo lường thứ mà người học thực sự phải nhận ra khi nghe, nhưng nó làm phồng tổng số từ vựng thô so với một phân tích có lemma hóa.
  • Không gắn nhãn từ loại. like động từ và like dấu hiệu diễn ngôn được đếm chung.
  • Không lọc phụ đề tự động. Một số video có phụ đề do người chỉnh sửa, số khác có phụ đề tự động; loại sau đưa vào một số nhiễu phiên mã, đặc biệt ở phần đuôi dài.

Phân tích này đáng tin cậy về: hình dạng của phân bố và danh tính của các từ và cụm từ tần suất cao. Phần đầu danh sách — the, and, to, I, like, it's, you know, i don't know — vẫn tồn tại sau bất kỳ đợt làm sạch hợp lý nào.

Lưu ý về kho ngữ liệu

37.632 video không phải là mẫu ngẫu nhiên của toàn bộ tiếng Anh nói. Đây là tập đã được chọn lọc gồm các kênh YouTube tiếng Anh phổ biến, được thu thập để cung cấp năng lượng cho ClipPhrase, công cụ tìm kiếm cụm từ trong các video clip thực của chúng tôi. Kho ngữ liệu lệch theo các hướng:

  • Tiếng Anh Mỹ. Hầu hết các kênh đặt tại Mỹ.
  • Những người nói chuyện chuyên nghiệp. Người dẫn chương trình khuya, podcaster, YouTuber, người dẫn tin — không phải mặt cắt đại diện của lời nói riêng tư thường nhật.
  • Nội dung phổ biến. Các kênh được chọn dựa trên lượt xem và sức lan tỏa văn hóa rộng, chứ không vì sự đa dạng phương ngữ hay phong cách.

Những lưu ý này thu hẹp những gì các con số thực sự chứng minh được. Chúng không thay đổi hình dạng của phân bố, cũng không thay đổi phát hiện định tính rằng tiếng Anh nói cô đặc khối xác suất vào một lượng từ vựng rất nhỏ gồm các từ chức năng tần suất cao và các khối từ.

Tự thử nghiệm

Kho ngữ liệu mà phân tích này chạy trên đó đồng thời cũng là một chỉ mục tìm kiếm. Mọi từ và cụm từ được nhắc đến trong bài này đều tồn tại trong hàng chục nghìn clip video thực, có thể truy xuất bằng truy vấn. Gõ I was like vào ClipPhrase và bạn sẽ thấy năm mươi người nói khác nhau dùng nó; gõ gonna và bạn sẽ thấy vài nghìn lượt. Đó là công cụ nền tảng.

Tải xuống

Nếu bạn sử dụng dữ liệu này trong bài viết hay nghiên cứu của riêng mình, một liên kết dẫn về trang này sẽ rất được trân trọng.