Chúng tôi phân tích 37.000 video YouTube. Đây là diện mạo thực sự của tiếng Anh nói
182,9 triệu từ được nói trong 37.632 video YouTube tiếng Anh. Chỉ 67 từ chiếm một nửa mọi điều được nói ra. Danh sách tần suất từ và cụm từ đầy đủ, biểu đồ và dữ liệu có thể tải xuống.
Chúng tôi đã lấy phụ đề của 37.632 video YouTube tiếng Anh từ chỉ mục tìm kiếm của mình — các chương trình khuya, phim tài liệu, podcast, video giải thích khoa học, tin tức, talk show, vlog — và chạy phân tích tần suất trên mọi từ và cụm từ ngắn được nói trong đó. Tổng cộng 182,9 triệu từ.
Bài viết này là bản tường trình đầy đủ. Tất cả các tệp CSV cơ sở được liên kết ở cuối bài cho bất kỳ ai muốn xem dữ liệu thô.
Kho ngữ liệu, qua các con số
| Số video được phân tích | 37.632 |
| Số đoạn phụ đề | 26.203.765 |
Đoạn phi lời nói bị bỏ qua ([Music], [Applause], v.v.) | 196.433 |
| Tổng số token được nói | 182.933.444 |
| Số từ duy nhất (kích thước từ vựng) | 384.132 |
| Số từ trung bình mỗi video | 4.861 |
| Số chuỗi hai từ duy nhất | 11.240.282 |
| Số chuỗi ba từ duy nhất | 42.037.127 |
Một nửa toàn bộ tiếng Anh nói chỉ gói gọn trong 67 từ
Phân bố lệch một cách tàn nhẫn.

| Bạn cần biết… | …để nhận ra ngần này tiếng Anh nói |
|---|---|
| 67 từ | 50% |
| 505 từ | 75% |
| 906 từ | 80% |
| 1.677 từ | 85% |
| 2.900 từ | 89% |
| 3.368 từ | 90% |
| 8.381 từ | 95% |
| 36.916 từ | 99% |
Một vài điểm đáng nhấn mạnh:
- Riêng từ the chiếm 4,04% toàn bộ tiếng Anh nói — cứ hai mươi lăm từ bạn nghe thì có một từ là the.
- Chỉ riêng 10 từ đứng đầu đã bao phủ 23,2% mọi lời nói. Gần một phần tư mọi cuộc trò chuyện của người bản ngữ vận hành bằng mười token được tái sử dụng.
- Lợi suất giảm rất nhanh. Đi từ mức hiểu 89% lên 95% gần như gấp ba lượng từ vựng cần thiết. Từ 95% lên 99% lại nhân thêm bốn lần nữa.
Đây là phiên bản gay gắt hơn của định luật Zipf so với những gì xuất hiện trong các kho ngữ liệu văn bản viết. Sách trải khối xác suất ra trên nhiều từ vựng hơn; lời nói thì cô đặc nó lại.

Đồ thị bên trên dùng trục log-log. Một ngôn ngữ Zipf thuần khiết sẽ tạo thành một đường thẳng; tiếng Anh nói gần như đạt được điều đó, với một chỗ uốn nhẹ ở các tần suất cao nhất và phần đuôi dài của những từ hiếm thoải dần xuống dưới hạng 10⁵.
Top 50 từ được nói nhiều nhất
| Hạng | Từ | Số lần | Tỷ lệ | Tích lũy |
|---|---|---|---|---|
| 1 | the | 7.387.237 | 4,04% | 4,04% |
| 2 | and | 5.202.156 | 2,84% | 6,88% |
| 3 | to | 4.806.242 | 2,63% | 9,51% |
| 4 | i | 4.324.592 | 2,36% | 11,87% |
| 5 | a | 4.264.055 | 2,33% | 14,20% |
| 6 | you | 4.064.555 | 2,22% | 16,43% |
| 7 | of | 3.724.277 | 2,04% | 18,46% |
| 8 | that | 3.492.110 | 1,91% | 20,37% |
| 9 | it | 2.634.690 | 1,44% | 21,81% |
| 10 | in | 2.521.046 | 1,38% | 23,19% |
| 11 | like | 2.494.184 | 1,36% | 24,55% |
| 12 | is | 2.369.926 | 1,30% | 25,85% |
| 13 | this | 1.781.715 | 0,97% | 26,82% |
| 14 | so | 1.654.633 | 0,90% | 27,73% |
| 15 | was | 1.501.038 | 0,82% | 28,55% |
| 16 | it's | 1.410.862 | 0,77% | 29,32% |
| 17 | for | 1.305.470 | 0,71% | 30,03% |
| 18 | but | 1.274.194 | 0,70% | 30,73% |
| 19 | we | 1.248.337 | 0,68% | 31,41% |
| 20 | on | 1.216.294 | 0,66% | 32,08% |
| 21 | know | 1.167.908 | 0,64% | 32,71% |
| 22 | have | 1.137.673 | 0,62% | 33,34% |
| 23 | just | 1.134.793 | 0,62% | 33,96% |
| 24 | what | 1.032.689 | 0,56% | 34,52% |
| 25 | they | 1.020.670 | 0,56% | 35,08% |
| 26 | with | 1.007.653 | 0,55% | 35,63% |
| 27 | yeah | 962.191 | 0,53% | 36,16% |
| 28 | be | 957.783 | 0,52% | 36,68% |
| 29 | are | 898.626 | 0,49% | 37,17% |
| 30 | not | 872.734 | 0,48% | 37,65% |
| 31 | do | 870.812 | 0,48% | 38,12% |
| 32 | i'm | 821.478 | 0,45% | 38,57% |
| 33 | my | 804.993 | 0,44% | 39,01% |
| 34 | all | 799.543 | 0,44% | 39,45% |
| 35 | if | 756.360 | 0,41% | 39,86% |
| 36 | that's | 738.851 | 0,40% | 40,27% |
| 37 | at | 732.360 | 0,40% | 40,67% |
| 38 | about | 717.388 | 0,39% | 41,06% |
| 39 | he | 714.407 | 0,39% | 41,45% |
| 40 | your | 696.636 | 0,38% | 41,83% |
| 41 | one | 695.227 | 0,38% | 42,21% |
| 42 | as | 684.705 | 0,37% | 42,59% |
| 43 | or | 678.871 | 0,37% | 42,96% |
| 44 | can | 672.388 | 0,37% | 43,32% |
| 45 | think | 654.509 | 0,36% | 43,68% |
| 46 | right | 647.716 | 0,35% | 44,04% |
| 47 | don't | 637.134 | 0,35% | 44,38% |
| 48 | me | 616.944 | 0,34% | 44,72% |
| 49 | there | 597.279 | 0,33% | 45,05% |
| 50 | people | 592.296 | 0,32% | 45,37% |
Danh sách top 10.000 đầy đủ có sẵn dưới dạng CSV.
Điều đáng chú ý ở top 50 này không phải là những gì có mặt — the, and, to sẽ đứng đầu mọi kho ngữ liệu tiếng Anh — mà là vị trí xếp hạng của một số từ:
likeở hạng #11 là một dấu hiệu diễn ngôn, không phải động từ. Trong một kho ngữ liệu sách, nó sẽ ở vị trí thấp hơn nhiều.- Năm dạng viết tắt lọt vào top 50: it's (#16), i'm (#32), that's (#36), don't (#47), và có thể một vài dạng khác ở hạng thấp hơn. Các kho ngữ liệu văn bản viết tách chúng thành dạng đầy đủ.
yeahở hạng #27 hoàn toàn là chất kết dính của hội thoại. Sách hầu như không dùng nó.know,justvàrightở đây chủ yếu được dùng như những từ làm dịu diễn ngôn (you know, I just wanted, yeah, right), chứ không phải theo nghĩa từ điển.
Phần đầu danh sách là một bức ảnh chụp cách lời nói khác văn bản viết: các dạng viết tắt, từ đệm và từ giảm nhẹ đứng cùng hàng với mạo từ và đại từ với tư cách từ vựng chịu lực.
Lời nói được xây từ những khối ngắn
Khi đếm các chuỗi hai từ và ba từ thay vì từng từ riêng lẻ, một cấu trúc khác hiện ra. Những đơn vị thường gặp nhất của tiếng Anh nói không phải là các từ đơn lẻ mà là những cụm từ ngắn, lặp đi lặp lại.
Top 50 chuỗi hai từ
| Hạng | Cụm từ | Số lần | Tỷ lệ |
|---|---|---|---|
| 1 | you know | 651.659 | 0,42% |
| 2 | of the | 610.473 | 0,39% |
| 3 | in the | 597.973 | 0,38% |
| 4 | going to | 391.962 | 0,25% |
| 5 | and i | 369.069 | 0,24% |
| 6 | i think | 360.605 | 0,23% |
| 7 | this is | 354.886 | 0,23% |
| 8 | to be | 349.293 | 0,22% |
| 9 | i was | 294.749 | 0,19% |
| 10 | i don't | 280.165 | 0,18% |
| 11 | it was | 279.492 | 0,18% |
| 12 | and then | 279.061 | 0,18% |
| 13 | to the | 271.483 | 0,17% |
| 14 | on the | 269.698 | 0,17% |
| 15 | kind of | 253.890 | 0,16% |
| 16 | a lot | 248.787 | 0,16% |
| 17 | want to | 240.129 | 0,15% |
| 18 | if you | 239.704 | 0,15% |
| 19 | you can | 214.797 | 0,14% |
| 20 | and the | 211.577 | 0,13% |
| 21 | i mean | 198.883 | 0,13% |
| 22 | lot of | 188.401 | 0,12% |
| 23 | to do | 188.301 | 0,12% |
| 24 | in a | 185.960 | 0,12% |
| 25 | is a | 183.838 | 0,12% |
| 26 | like a | 180.615 | 0,12% |
| 27 | at the | 169.424 | 0,11% |
| 28 | have to | 168.863 | 0,11% |
| 29 | one of | 161.657 | 0,10% |
| 30 | have a | 160.163 | 0,10% |
| 31 | that i | 159.887 | 0,10% |
| 32 | is the | 159.862 | 0,10% |
| 33 | you have | 158.225 | 0,10% |
| 34 | do you | 158.154 | 0,10% |
| 35 | and you | 156.410 | 0,10% |
| 36 | that you | 150.818 | 0,10% |
| 37 | for the | 147.492 | 0,09% |
| 38 | a little | 146.585 | 0,09% |
| 39 | to get | 143.031 | 0,09% |
| 40 | like i | 141.139 | 0,09% |
| 41 | so i | 140.193 | 0,09% |
| 42 | it is | 137.325 | 0,09% |
| 43 | don't know | 136.714 | 0,09% |
| 44 | was like | 136.396 | 0,09% |
| 45 | it's a | 136.095 | 0,09% |
| 46 | and so | 135.209 | 0,09% |
| 47 | of a | 134.589 | 0,09% |
| 48 | with the | 132.177 | 0,08% |
| 49 | but i | 131.380 | 0,08% |
| 50 | was a | 126.161 | 0,08% |
Danh sách đầy đủ: top-bigrams.csv.
Ba điều đáng chú ý:
you knowđánh bại mọi trụ cột ngữ pháp. Đây là cặp từ phổ biến nhất trong tiếng Anh nói — thường gặp hơn cả of the hay in the.- Top 50 dày đặc các cấu trúc ngôi thứ nhất: and i, i think, i was, i don't, i mean. Lời nói chủ yếu xoay quanh chính người đang nói.
kind of,a lot,a little,like a,was like— những từ giảm nhẹ thân mật và các cấu trúc tựa lời dẫn xuất hiện khắp nơi trong top 50.
Top 50 chuỗi ba từ
| Hạng | Cụm từ | Số lần | Tỷ lệ |
|---|---|---|---|
| 1 | a lot of | 170.961 | 0,13% |
| 2 | i don't know | 96.455 | 0,07% |
| 3 | one of the | 82.693 | 0,06% |
| 4 | going to be | 72.293 | 0,05% |
| 5 | a little bit | 64.930 | 0,05% |
| 6 | i was like | 60.915 | 0,05% |
| 7 | i'm going to | 55.940 | 0,04% |
| 8 | i want to | 55.071 | 0,04% |
| 9 | you want to | 54.908 | 0,04% |
| 10 | you know what | 52.925 | 0,04% |
| 11 | you have to | 44.985 | 0,03% |
| 12 | you know i | 43.538 | 0,03% |
| 13 | this is a | 43.457 | 0,03% |
| 14 | this is the | 41.664 | 0,03% |
| 15 | and i think | 40.214 | 0,03% |
| 16 | and i was | 39.340 | 0,03% |
| 17 | i feel like | 38.019 | 0,03% |
| 18 | we're going to | 35.687 | 0,03% |
| 19 | oh my god | 35.203 | 0,03% |
| 20 | to be a | 33.229 | 0,03% |
| 21 | what do you | 32.747 | 0,02% |
| 22 | be able to | 32.263 | 0,02% |
| 23 | i don't think | 31.986 | 0,02% |
| 24 | it was a | 30.717 | 0,02% |
| 25 | and you know | 30.321 | 0,02% |
| 26 | you're going to | 29.731 | 0,02% |
| 27 | like you know | 29.420 | 0,02% |
| 28 | don't want to | 29.249 | 0,02% |
| 29 | some of the | 28.953 | 0,02% |
| 30 | is going to | 28.787 | 0,02% |
| 31 | i think it's | 28.719 | 0,02% |
| 32 | not going to | 27.406 | 0,02% |
| 33 | do you think | 27.196 | 0,02% |
| 34 | and this is | 25.763 | 0,02% |
| 35 | i think that | 25.762 | 0,02% |
| 36 | i mean i | 25.419 | 0,02% |
| 37 | in the world | 25.310 | 0,02% |
| 38 | and it was | 25.303 | 0,02% |
| 39 | and then i | 25.091 | 0,02% |
| 40 | you have a | 23.988 | 0,02% |
| 41 | the end of | 23.885 | 0,02% |
| 42 | and then you | 23.471 | 0,02% |
| 43 | i think i | 23.393 | 0,02% |
| 44 | out of the | 23.054 | 0,02% |
| 45 | it was like | 22.869 | 0,02% |
| 46 | you know the | 22.783 | 0,02% |
| 47 | when i was | 22.755 | 0,02% |
| 48 | you got to | 22.220 | 0,02% |
| 49 | want to be | 22.218 | 0,02% |
| 50 | know what i | 22.117 | 0,02% |
Danh sách đầy đủ: top-trigrams.csv.
Trong 15 chuỗi ba từ đứng đầu, mười một chuỗi bắt đầu bằng đại từ. Sáu chuỗi chứa rõ ràng đại từ ngôi thứ nhất I. Tiếng Anh nói áp đảo là chuyện ai đang nói gì với ai trong thời gian thực, và các cụm từ tần suất cao phản ánh đúng điều đó.
Một vài chuỗi đáng chú ý vì chúng không xuất hiện trong tiếng Anh trang trọng: i was like (#6), you know what (#10), i feel like (#17), oh my god (#19), you got to (#48). Đây không phải là những thành ngữ cao siêu — chúng là mô liên kết của lời nói thường ngày.
Phân bố này hàm ý điều gì
Ba điều rút ra từ những con số trên.
Lượng từ vựng hiệu quả về chi phí là khá nhỏ. Một người học có khả năng nhận diện đáng tin cậy 3.000 từ nói có sẵn nguyên liệu ngôn ngữ thô để theo dõi 89% tiếng Anh bản ngữ trên YouTube. Kéo con số đó lên 95% đòi hỏi thêm 5.500 từ nữa — phần lớn trong số đó chỉ xuất hiện vài lần trong toàn bộ kho ngữ liệu 183 triệu từ.
Hiệu chỉnh theo tần suất quan trọng hơn kích thước từ vựng. Hầu hết các khóa học và ứng dụng coi danh sách từ vựng của họ gần như ngang nhau. Dữ liệu nói điều khác: 50% công sức được hoàn thành bởi 67 từ đầu tiên. Một lịch trình học không phản ánh điều đó là phân bổ sai công sức.
Dịch từng từ là đơn vị nguyên thủy sai lầm. Một nửa các chuỗi ba từ đứng đầu là những khối chức năng (a lot of, i don't know, a little bit, going to be) hoạt động như một đơn vị. Nhận ra chúng nguyên khối là một thao tác nhận thức khác với việc phân tích chúng thành ba từ riêng biệt. Trong lời nói thực, sự khác biệt đó hiện ra dưới dạng khác biệt giữa theo kịp và không theo kịp.
Phương pháp luận
Quy trình tạo ra các con số này:
- Nguồn. Phụ đề của 37.632 video YouTube tiếng Anh.
- Tách token. Chuyển văn bản về chữ thường, sau đó khớp biểu thức chính quy
[a-z]+(?:'[a-z]+)?. Cách này giữ các dạng viết tắt như don't, gonna, it's thành một token, loại bỏ các con số và bỏ qua dấu câu. - Lọc nhiễu. Các đoạn khớp với
^\[.*\]$(ví dụ[Music],[Applause],[Inaudible]) bị bỏ qua trước khi tách token. Bước này loại 196.433 đoạn. - Đếm. Với unigram, mọi token đều được đếm. Với bigram và trigram, mọi chuỗi N token liền kề trong cùng một đoạn phụ đề đều được đếm; các chuỗi không được vượt qua ranh giới đoạn.
- Tỷ lệ tích lũy được tính bằng cách sắp xếp theo số lần và cộng dồn.
Những điều mà phân tích này không làm:
- Không lemma hóa. go, going, went và gone được tính là các đơn vị từ vựng riêng. Điều này phù hợp khi đo lường thứ mà người học thực sự phải nhận ra khi nghe, nhưng nó làm phồng tổng số từ vựng thô so với một phân tích có lemma hóa.
- Không gắn nhãn từ loại. like động từ và like dấu hiệu diễn ngôn được đếm chung.
- Không lọc phụ đề tự động. Một số video có phụ đề do người chỉnh sửa, số khác có phụ đề tự động; loại sau đưa vào một số nhiễu phiên mã, đặc biệt ở phần đuôi dài.
Phân tích này đáng tin cậy về: hình dạng của phân bố và danh tính của các từ và cụm từ tần suất cao. Phần đầu danh sách — the, and, to, I, like, it's, you know, i don't know — vẫn tồn tại sau bất kỳ đợt làm sạch hợp lý nào.
Lưu ý về kho ngữ liệu
37.632 video không phải là mẫu ngẫu nhiên của toàn bộ tiếng Anh nói. Đây là tập đã được chọn lọc gồm các kênh YouTube tiếng Anh phổ biến, được thu thập để cung cấp năng lượng cho ClipPhrase, công cụ tìm kiếm cụm từ trong các video clip thực của chúng tôi. Kho ngữ liệu lệch theo các hướng:
- Tiếng Anh Mỹ. Hầu hết các kênh đặt tại Mỹ.
- Những người nói chuyện chuyên nghiệp. Người dẫn chương trình khuya, podcaster, YouTuber, người dẫn tin — không phải mặt cắt đại diện của lời nói riêng tư thường nhật.
- Nội dung phổ biến. Các kênh được chọn dựa trên lượt xem và sức lan tỏa văn hóa rộng, chứ không vì sự đa dạng phương ngữ hay phong cách.
Những lưu ý này thu hẹp những gì các con số thực sự chứng minh được. Chúng không thay đổi hình dạng của phân bố, cũng không thay đổi phát hiện định tính rằng tiếng Anh nói cô đặc khối xác suất vào một lượng từ vựng rất nhỏ gồm các từ chức năng tần suất cao và các khối từ.
Tự thử nghiệm
Kho ngữ liệu mà phân tích này chạy trên đó đồng thời cũng là một chỉ mục tìm kiếm. Mọi từ và cụm từ được nhắc đến trong bài này đều tồn tại trong hàng chục nghìn clip video thực, có thể truy xuất bằng truy vấn. Gõ I was like vào ClipPhrase và bạn sẽ thấy năm mươi người nói khác nhau dùng nó; gõ gonna và bạn sẽ thấy vài nghìn lượt. Đó là công cụ nền tảng.
Tải xuống
- top-words.csv — top 10.000 từ với hạng, số lần, tỷ lệ và tỷ lệ tích lũy
- top-bigrams.csv — top 5.000 chuỗi hai từ
- top-trigrams.csv — top 5.000 chuỗi ba từ
Nếu bạn sử dụng dữ liệu này trong bài viết hay nghiên cứu của riêng mình, một liên kết dẫn về trang này sẽ rất được trân trọng.