유튜브 영상 37,000개를 분석했다. 실제 구어 영어는 이렇게 생겼다
영어 유튜브 영상 37,632개에서 추출한 1억 8,290만 개의 음성 단어. 단 67개 단어가 전체 발화의 절반을 차지한다. 전체 단어·구절 빈도 목록, 차트, 다운로드 가능한 데이터까지.
우리는 자체 검색 인덱스에 있는 영어 유튜브 영상 37,632개의 자막을 가져왔다 — 심야 토크쇼, 다큐멘터리, 팟캐스트, 과학 해설, 뉴스, 토크쇼, 브이로그까지 — 그리고 그 안에서 발화된 모든 단어와 짧은 구절을 대상으로 빈도 분석을 돌렸다. 합산 1억 8,290만 단어다.
이 글은 그 분석의 전문 정리다. 원시 데이터를 직접 살펴보고 싶은 사람을 위해 모든 CSV 파일은 글 하단에 링크해 두었다.
코퍼스, 숫자로 보기
| 분석한 영상 수 | 37,632 |
| 자막 세그먼트 수 | 26,203,765 |
제외된 비음성 세그먼트 ([Music], [Applause] 등) | 196,433 |
| 전체 발화 토큰 수 | 182,933,444 |
| 고유 단어 수 (어휘 규모) | 384,132 |
| 영상당 평균 단어 수 | 4,861 |
| 고유 2단어 시퀀스 수 | 11,240,282 |
| 고유 3단어 시퀀스 수 | 42,037,127 |
구어 영어의 절반은 단 67개 단어다
분포는 잔혹할 정도로 한쪽으로 치우쳐 있다.

| 알아야 하는 단어 수… | …그러면 구어 영어의 이만큼이 들린다 |
|---|---|
| 67개 단어 | 50% |
| 505개 단어 | 75% |
| 906개 단어 | 80% |
| 1,677개 단어 | 85% |
| 2,900개 단어 | 89% |
| 3,368개 단어 | 90% |
| 8,381개 단어 | 95% |
| 36,916개 단어 | 99% |
몇 가지 짚어볼 만한 지점이 있다.
- 단어 the 하나가 전체 구어 영어의 **4.04%**를 차지한다 — 들리는 단어 25개 중 1개가 the인 셈이다.
- 상위 10개 단어만으로 전체 발화의 **23.2%**가 커버된다. 원어민 대화의 거의 4분의 1이 재활용되는 10개 토큰 위에서 굴러간다.
- 수익은 빠르게 체감된다. 이해도를 89%에서 95%로 끌어올리려면 필요한 어휘가 거의 3배로 늘어난다. 95%에서 99%로 가려면 거기서 다시 4배가 곱해진다.
이는 문어 코퍼스에서 나타나는 것보다 훨씬 더 가파른 형태의 지프의 법칙(Zipf의 법칙)이다. 책은 확률 질량을 더 넓은 어휘에 분산시키지만, 구어는 그것을 한곳에 응축시킨다.

위 그래프는 로그-로그 축이다. 순수한 지프 분포 언어라면 직선이 그려질 텐데, 구어 영어는 거의 그 직선을 따라간다. 다만 가장 높은 빈도 구간에서 약간의 꺾임이 있고, 희귀 단어들의 긴 꼬리가 순위 10⁵ 아래쪽으로 흘러내린다.
가장 많이 발화된 단어 50개
| 순위 | 단어 | 빈도 | 비율 | 누적 |
|---|---|---|---|---|
| 1 | the | 7,387,237 | 4.04% | 4.04% |
| 2 | and | 5,202,156 | 2.84% | 6.88% |
| 3 | to | 4,806,242 | 2.63% | 9.51% |
| 4 | i | 4,324,592 | 2.36% | 11.87% |
| 5 | a | 4,264,055 | 2.33% | 14.20% |
| 6 | you | 4,064,555 | 2.22% | 16.43% |
| 7 | of | 3,724,277 | 2.04% | 18.46% |
| 8 | that | 3,492,110 | 1.91% | 20.37% |
| 9 | it | 2,634,690 | 1.44% | 21.81% |
| 10 | in | 2,521,046 | 1.38% | 23.19% |
| 11 | like | 2,494,184 | 1.36% | 24.55% |
| 12 | is | 2,369,926 | 1.30% | 25.85% |
| 13 | this | 1,781,715 | 0.97% | 26.82% |
| 14 | so | 1,654,633 | 0.90% | 27.73% |
| 15 | was | 1,501,038 | 0.82% | 28.55% |
| 16 | it's | 1,410,862 | 0.77% | 29.32% |
| 17 | for | 1,305,470 | 0.71% | 30.03% |
| 18 | but | 1,274,194 | 0.70% | 30.73% |
| 19 | we | 1,248,337 | 0.68% | 31.41% |
| 20 | on | 1,216,294 | 0.66% | 32.08% |
| 21 | know | 1,167,908 | 0.64% | 32.71% |
| 22 | have | 1,137,673 | 0.62% | 33.34% |
| 23 | just | 1,134,793 | 0.62% | 33.96% |
| 24 | what | 1,032,689 | 0.56% | 34.52% |
| 25 | they | 1,020,670 | 0.56% | 35.08% |
| 26 | with | 1,007,653 | 0.55% | 35.63% |
| 27 | yeah | 962,191 | 0.53% | 36.16% |
| 28 | be | 957,783 | 0.52% | 36.68% |
| 29 | are | 898,626 | 0.49% | 37.17% |
| 30 | not | 872,734 | 0.48% | 37.65% |
| 31 | do | 870,812 | 0.48% | 38.12% |
| 32 | i'm | 821,478 | 0.45% | 38.57% |
| 33 | my | 804,993 | 0.44% | 39.01% |
| 34 | all | 799,543 | 0.44% | 39.45% |
| 35 | if | 756,360 | 0.41% | 39.86% |
| 36 | that's | 738,851 | 0.40% | 40.27% |
| 37 | at | 732,360 | 0.40% | 40.67% |
| 38 | about | 717,388 | 0.39% | 41.06% |
| 39 | he | 714,407 | 0.39% | 41.45% |
| 40 | your | 696,636 | 0.38% | 41.83% |
| 41 | one | 695,227 | 0.38% | 42.21% |
| 42 | as | 684,705 | 0.37% | 42.59% |
| 43 | or | 678,871 | 0.37% | 42.96% |
| 44 | can | 672,388 | 0.37% | 43.32% |
| 45 | think | 654,509 | 0.36% | 43.68% |
| 46 | right | 647,716 | 0.35% | 44.04% |
| 47 | don't | 637,134 | 0.35% | 44.38% |
| 48 | me | 616,944 | 0.34% | 44.72% |
| 49 | there | 597,279 | 0.33% | 45.05% |
| 50 | people | 592,296 | 0.32% | 45.37% |
상위 10,000개 단어 전체 목록은 CSV로 받을 수 있다.
이 상위 50개에서 눈여겨볼 점은 어떤 단어가 들어 있느냐가 아니라 — the, and, to는 어떤 영어 코퍼스에서도 최상위에 오를 단어들이다 — 어떤 단어가 어디에 자리 잡고 있느냐다.
- **
like**가 11위에 있다. 이건 동사가 아니라 담화 표지로서의 like다. 책의 코퍼스였다면 훨씬 아래에 있었을 단어다. - 축약형 다섯 개가 상위 50위 안에 진입했다. it's (16위), i'm (32위), that's (36위), don't (47위), 그리고 그 아래에도 더 있다고 봐야 할 것이다. 문어 코퍼스에서는 이 축약형들이 본래 형태로 분리되어 집계된다.
- **
yeah**가 27위에 있다. 순전히 대화를 이어주는 접착제 역할의 단어다. 책에서는 거의 쓰이지 않는다. know,just, **right**는 여기서 사전적 의미보다는 발화를 부드럽게 만드는 표지(you know, I just wanted, yeah, right)로 주로 쓰인다.
목록의 윗부분은 발화가 글과 어떻게 다른지를 한눈에 보여주는 단면이다. 축약형, 담화 표지(필러), 헤지(완화 표현)가 관사·대명사와 나란히 핵심 어휘로 자리 잡고 있다.
발화는 덩어리로 만들어진다
단어 하나 단위가 아니라 두 단어, 세 단어 시퀀스를 세어보면 다른 구조가 드러난다. 구어 영어에서 가장 빈도가 높은 단위는 고립된 단어가 아니라 짧고 반복되는 구절이다.
가장 많이 쓰인 2단어 시퀀스 50개
| 순위 | 구절 | 빈도 | 비율 |
|---|---|---|---|
| 1 | you know | 651,659 | 0.42% |
| 2 | of the | 610,473 | 0.39% |
| 3 | in the | 597,973 | 0.38% |
| 4 | going to | 391,962 | 0.25% |
| 5 | and i | 369,069 | 0.24% |
| 6 | i think | 360,605 | 0.23% |
| 7 | this is | 354,886 | 0.23% |
| 8 | to be | 349,293 | 0.22% |
| 9 | i was | 294,749 | 0.19% |
| 10 | i don't | 280,165 | 0.18% |
| 11 | it was | 279,492 | 0.18% |
| 12 | and then | 279,061 | 0.18% |
| 13 | to the | 271,483 | 0.17% |
| 14 | on the | 269,698 | 0.17% |
| 15 | kind of | 253,890 | 0.16% |
| 16 | a lot | 248,787 | 0.16% |
| 17 | want to | 240,129 | 0.15% |
| 18 | if you | 239,704 | 0.15% |
| 19 | you can | 214,797 | 0.14% |
| 20 | and the | 211,577 | 0.13% |
| 21 | i mean | 198,883 | 0.13% |
| 22 | lot of | 188,401 | 0.12% |
| 23 | to do | 188,301 | 0.12% |
| 24 | in a | 185,960 | 0.12% |
| 25 | is a | 183,838 | 0.12% |
| 26 | like a | 180,615 | 0.12% |
| 27 | at the | 169,424 | 0.11% |
| 28 | have to | 168,863 | 0.11% |
| 29 | one of | 161,657 | 0.10% |
| 30 | have a | 160,163 | 0.10% |
| 31 | that i | 159,887 | 0.10% |
| 32 | is the | 159,862 | 0.10% |
| 33 | you have | 158,225 | 0.10% |
| 34 | do you | 158,154 | 0.10% |
| 35 | and you | 156,410 | 0.10% |
| 36 | that you | 150,818 | 0.10% |
| 37 | for the | 147,492 | 0.09% |
| 38 | a little | 146,585 | 0.09% |
| 39 | to get | 143,031 | 0.09% |
| 40 | like i | 141,139 | 0.09% |
| 41 | so i | 140,193 | 0.09% |
| 42 | it is | 137,325 | 0.09% |
| 43 | don't know | 136,714 | 0.09% |
| 44 | was like | 136,396 | 0.09% |
| 45 | it's a | 136,095 | 0.09% |
| 46 | and so | 135,209 | 0.09% |
| 47 | of a | 134,589 | 0.09% |
| 48 | with the | 132,177 | 0.08% |
| 49 | but i | 131,380 | 0.08% |
| 50 | was a | 126,161 | 0.08% |
전체 목록: top-bigrams.csv.
세 가지 관찰점.
- **
you know**가 어떤 문법적 핵심 표현보다도 더 자주 등장한다. 구어 영어에서 가장 흔한 두 단어 조합이며 of the나 in the보다도 많이 쓰인다. - 상위 50위에는 1인칭 구성(and i, i think, i was, i don't, i mean)이 빽빽하게 들어차 있다. 발화는 결국 대부분 말하는 사람 자신에 관한 것이다.
kind of,a lot,a little,like a,was like— 비격식 헤지와 유사 인용 구문(quotative-like construction)이 상위 50위 곳곳에 깔려 있다.
가장 많이 쓰인 3단어 시퀀스 50개
| 순위 | 구절 | 빈도 | 비율 |
|---|---|---|---|
| 1 | a lot of | 170,961 | 0.13% |
| 2 | i don't know | 96,455 | 0.07% |
| 3 | one of the | 82,693 | 0.06% |
| 4 | going to be | 72,293 | 0.05% |
| 5 | a little bit | 64,930 | 0.05% |
| 6 | i was like | 60,915 | 0.05% |
| 7 | i'm going to | 55,940 | 0.04% |
| 8 | i want to | 55,071 | 0.04% |
| 9 | you want to | 54,908 | 0.04% |
| 10 | you know what | 52,925 | 0.04% |
| 11 | you have to | 44,985 | 0.03% |
| 12 | you know i | 43,538 | 0.03% |
| 13 | this is a | 43,457 | 0.03% |
| 14 | this is the | 41,664 | 0.03% |
| 15 | and i think | 40,214 | 0.03% |
| 16 | and i was | 39,340 | 0.03% |
| 17 | i feel like | 38,019 | 0.03% |
| 18 | we're going to | 35,687 | 0.03% |
| 19 | oh my god | 35,203 | 0.03% |
| 20 | to be a | 33,229 | 0.03% |
| 21 | what do you | 32,747 | 0.02% |
| 22 | be able to | 32,263 | 0.02% |
| 23 | i don't think | 31,986 | 0.02% |
| 24 | it was a | 30,717 | 0.02% |
| 25 | and you know | 30,321 | 0.02% |
| 26 | you're going to | 29,731 | 0.02% |
| 27 | like you know | 29,420 | 0.02% |
| 28 | don't want to | 29,249 | 0.02% |
| 29 | some of the | 28,953 | 0.02% |
| 30 | is going to | 28,787 | 0.02% |
| 31 | i think it's | 28,719 | 0.02% |
| 32 | not going to | 27,406 | 0.02% |
| 33 | do you think | 27,196 | 0.02% |
| 34 | and this is | 25,763 | 0.02% |
| 35 | i think that | 25,762 | 0.02% |
| 36 | i mean i | 25,419 | 0.02% |
| 37 | in the world | 25,310 | 0.02% |
| 38 | and it was | 25,303 | 0.02% |
| 39 | and then i | 25,091 | 0.02% |
| 40 | you have a | 23,988 | 0.02% |
| 41 | the end of | 23,885 | 0.02% |
| 42 | and then you | 23,471 | 0.02% |
| 43 | i think i | 23,393 | 0.02% |
| 44 | out of the | 23,054 | 0.02% |
| 45 | it was like | 22,869 | 0.02% |
| 46 | you know the | 22,783 | 0.02% |
| 47 | when i was | 22,755 | 0.02% |
| 48 | you got to | 22,220 | 0.02% |
| 49 | want to be | 22,218 | 0.02% |
| 50 | know what i | 22,117 | 0.02% |
전체 목록: top-trigrams.csv.
상위 15개 3단어 시퀀스 중 11개가 대명사로 시작한다. 그리고 6개에는 명시적인 1인칭 I가 들어 있다. 구어 영어는 압도적으로 누가, 누구에게, 실시간으로 무슨 말을 하고 있는가에 관한 것이며, 고빈도 구절들이 그 사실을 그대로 반영한다.
격식 영어에는 잘 등장하지 않기 때문에 눈여겨볼 만한 시퀀스가 몇 개 있다. i was like (6위), you know what (10위), i feel like (17위), oh my god (19위), you got to (48위). 거창한 관용구가 아니다 — 일상 대화를 이어주는 결합 조직이다.
이 분포가 시사하는 것
이 숫자들에서 세 가지가 따라 나온다.
비용 대비 효율적인 어휘는 작다. 약 3,000개의 구어 단어를 안정적으로 인식할 수 있는 학습자라면, 유튜브에 올라오는 원어민 영어의 89%를 따라갈 수 있는 언어적 원자재를 갖춘 셈이다. 이를 95%까지 끌어올리려면 5,500개의 단어가 더 필요한데, 그중 대부분은 1억 8,300만 단어 코퍼스 전체에서 손가락에 꼽힐 정도로만 등장한다.
어휘의 양보다 빈도 가중이 더 중요하다. 대부분의 강의나 앱은 어휘 목록을 대체로 동등한 가치로 다룬다. 그러나 데이터는 다른 말을 한다. 전체 작업의 50%를 상위 67개 단어가 처리한다. 이 사실을 반영하지 못하는 학습 일정은 잘못 배분된 노력이다.
단어 단위 번역은 잘못된 기본 단위다. 상위 3단어 시퀀스의 절반은 그 자체로 하나의 단위처럼 작동하는 기능적 덩어리(a lot of, i don't know, a little bit, going to be)다. 이를 통째로 인식하는 것은 세 개의 별개 단어로 파싱하는 것과 인지적으로 다른 작업이다. 실시간 발화에서는 그 차이가 곧 따라가느냐 못 따라가느냐의 차이로 나타난다.
방법론
이 숫자들을 만들어낸 파이프라인.
- 소스. 영어 유튜브 영상 37,632개의 자막.
- 토큰화. 텍스트를 소문자로 바꾼 뒤, 정규식
[a-z]+(?:'[a-z]+)?로 매칭. 이렇게 하면 don't, gonna, it's 같은 축약형이 단일 토큰으로 유지되고, 숫자는 제외되며, 구두점은 무시된다. - 노이즈 필터링.
^\[.*\]$에 매칭되는 세그먼트(예:[Music],[Applause],[Inaudible])는 토큰화 전에 건너뛴다. 이로 인해 196,433개의 세그먼트가 제거되었다. - 카운팅. 유니그램은 모든 토큰을 센다. 바이그램과 트라이그램은 동일한 자막 세그먼트 안에서 인접한 N-토큰 시퀀스를 모두 센다. 시퀀스가 세그먼트 경계를 넘지 못하도록 했다.
- 누적 비율은 빈도순으로 정렬한 뒤 합산해서 산출한다.
이 분석이 하지 않은 것:
- 표제어 정규화 없음. go, going, went, gone은 별개의 어휘 항목으로 집계된다. 학습자가 청취 시 실제로 인식해야 하는 형태가 무엇인지를 측정하는 데에는 적절하지만, 표제어로 묶은 분석에 비해 원시 어휘 수치를 부풀리는 효과가 있다.
- 품사 태깅 없음. 동사 like와 담화 표지 like가 함께 집계된다.
- 자동 생성 자막에 대한 별도 필터링 없음. 일부 영상은 사람이 편집한 자막을 갖고 있고, 일부는 자동 생성된 자막을 갖고 있다. 후자는 특히 분포의 긴 꼬리 부분에서 약간의 전사 노이즈를 끌어들인다.
이 분석이 신뢰할 수 있는 것은 분포의 형태, 그리고 고빈도 단어와 구절의 정체성이다. 목록의 윗부분 — the, and, to, I, like, it's, you know, i don't know — 은 어떤 합리적인 정제 과정을 거쳐도 그대로 남는다.
코퍼스에 대한 단서
이 37,632개의 영상은 모든 구어 영어를 무작위로 표집한 것이 아니다. 우리의 실제 영상 클립 검색 엔진인 ClipPhrase를 구동하기 위해 큐레이션된 인기 영어 유튜브 채널 모음이다. 따라서 코퍼스는 다음 방향으로 편향되어 있다.
- 미국 영어. 대부분의 채널이 미국 기반이다.
- 직업적으로 말하는 사람들. 심야 토크쇼 진행자, 팟캐스터, 유튜버, 뉴스 앵커들이며, 일상적이고 사적인 대화의 대표적인 단면은 아니다.
- 인기 콘텐츠. 채널은 조회수와 폭넓은 문화적 영향력을 기준으로 선정되었으며, 방언이나 사용역(register)의 다양성을 기준으로 한 것이 아니다.
이러한 단서는 이 숫자들이 엄밀히 입증할 수 있는 범위를 좁힌다. 하지만 분포의 형태나, 구어 영어가 소수의 고빈도 기능어와 덩어리에 확률 질량을 응축시킨다는 정성적 결론을 바꾸지는 않는다.
직접 시도해 보기
이 분석을 돌린 코퍼스는 동시에 검색 인덱스이기도 하다. 이 글에서 언급된 모든 단어와 구절은 수만 개의 실제 영상 클립 안에 존재하며, 쿼리로 꺼내볼 수 있다. I was like를 ClipPhrase에 입력하면 50명이 넘는 화자가 그 표현을 쓰는 장면이 나오고, gonna를 입력하면 수천 개의 결과가 나온다. 이 분석이 기반한 도구가 바로 그것이다.
다운로드
- top-words.csv — 순위, 빈도, 비율, 누적 비율이 포함된 상위 10,000개 단어
- top-bigrams.csv — 상위 5,000개 2단어 시퀀스
- top-trigrams.csv — 상위 5,000개 3단어 시퀀스
이 데이터를 본인의 글이나 연구에 활용한다면, 이 페이지로의 링크를 함께 표기해 주시면 감사하겠다.