ClipPhrase
← 블로그로 돌아가기

유튜브 영상 37,000개를 분석했다. 실제 구어 영어는 이렇게 생겼다

영어 유튜브 영상 37,632개에서 추출한 1억 8,290만 개의 음성 단어. 단 67개 단어가 전체 발화의 절반을 차지한다. 전체 단어·구절 빈도 목록, 차트, 다운로드 가능한 데이터까지.

2026년 5월 4일12분 읽기ClipPhrase Team

우리는 자체 검색 인덱스에 있는 영어 유튜브 영상 37,632개의 자막을 가져왔다 — 심야 토크쇼, 다큐멘터리, 팟캐스트, 과학 해설, 뉴스, 토크쇼, 브이로그까지 — 그리고 그 안에서 발화된 모든 단어와 짧은 구절을 대상으로 빈도 분석을 돌렸다. 합산 1억 8,290만 단어다.

이 글은 그 분석의 전문 정리다. 원시 데이터를 직접 살펴보고 싶은 사람을 위해 모든 CSV 파일은 글 하단에 링크해 두었다.

코퍼스, 숫자로 보기

분석한 영상 수37,632
자막 세그먼트 수26,203,765
제외된 비음성 세그먼트 ([Music], [Applause] 등)196,433
전체 발화 토큰 수182,933,444
고유 단어 수 (어휘 규모)384,132
영상당 평균 단어 수4,861
고유 2단어 시퀀스 수11,240,282
고유 3단어 시퀀스 수42,037,127

구어 영어의 절반은 단 67개 단어다

분포는 잔혹할 정도로 한쪽으로 치우쳐 있다.

구어 영어의 X%를 이해하는 데 필요한 단어 수

알아야 하는 단어 수……그러면 구어 영어의 이만큼이 들린다
67개 단어50%
505개 단어75%
906개 단어80%
1,677개 단어85%
2,900개 단어89%
3,368개 단어90%
8,381개 단어95%
36,916개 단어99%

몇 가지 짚어볼 만한 지점이 있다.

  • 단어 the 하나가 전체 구어 영어의 **4.04%**를 차지한다 — 들리는 단어 25개 중 1개가 the인 셈이다.
  • 상위 10개 단어만으로 전체 발화의 **23.2%**가 커버된다. 원어민 대화의 거의 4분의 1이 재활용되는 10개 토큰 위에서 굴러간다.
  • 수익은 빠르게 체감된다. 이해도를 89%에서 95%로 끌어올리려면 필요한 어휘가 거의 3배로 늘어난다. 95%에서 99%로 가려면 거기서 다시 4배가 곱해진다.

이는 문어 코퍼스에서 나타나는 것보다 훨씬 더 가파른 형태의 지프의 법칙(Zipf의 법칙)이다. 책은 확률 질량을 더 넓은 어휘에 분산시키지만, 구어는 그것을 한곳에 응축시킨다.

유튜브 영상 37K개에서 추출한 구어 영어의 지프 분포

위 그래프는 로그-로그 축이다. 순수한 지프 분포 언어라면 직선이 그려질 텐데, 구어 영어는 거의 그 직선을 따라간다. 다만 가장 높은 빈도 구간에서 약간의 꺾임이 있고, 희귀 단어들의 긴 꼬리가 순위 10⁵ 아래쪽으로 흘러내린다.

가장 많이 발화된 단어 50개

순위단어빈도비율누적
1the7,387,2374.04%4.04%
2and5,202,1562.84%6.88%
3to4,806,2422.63%9.51%
4i4,324,5922.36%11.87%
5a4,264,0552.33%14.20%
6you4,064,5552.22%16.43%
7of3,724,2772.04%18.46%
8that3,492,1101.91%20.37%
9it2,634,6901.44%21.81%
10in2,521,0461.38%23.19%
11like2,494,1841.36%24.55%
12is2,369,9261.30%25.85%
13this1,781,7150.97%26.82%
14so1,654,6330.90%27.73%
15was1,501,0380.82%28.55%
16it's1,410,8620.77%29.32%
17for1,305,4700.71%30.03%
18but1,274,1940.70%30.73%
19we1,248,3370.68%31.41%
20on1,216,2940.66%32.08%
21know1,167,9080.64%32.71%
22have1,137,6730.62%33.34%
23just1,134,7930.62%33.96%
24what1,032,6890.56%34.52%
25they1,020,6700.56%35.08%
26with1,007,6530.55%35.63%
27yeah962,1910.53%36.16%
28be957,7830.52%36.68%
29are898,6260.49%37.17%
30not872,7340.48%37.65%
31do870,8120.48%38.12%
32i'm821,4780.45%38.57%
33my804,9930.44%39.01%
34all799,5430.44%39.45%
35if756,3600.41%39.86%
36that's738,8510.40%40.27%
37at732,3600.40%40.67%
38about717,3880.39%41.06%
39he714,4070.39%41.45%
40your696,6360.38%41.83%
41one695,2270.38%42.21%
42as684,7050.37%42.59%
43or678,8710.37%42.96%
44can672,3880.37%43.32%
45think654,5090.36%43.68%
46right647,7160.35%44.04%
47don't637,1340.35%44.38%
48me616,9440.34%44.72%
49there597,2790.33%45.05%
50people592,2960.32%45.37%

상위 10,000개 단어 전체 목록은 CSV로 받을 수 있다.

이 상위 50개에서 눈여겨볼 점은 어떤 단어가 들어 있느냐가 아니라 — the, and, to는 어떤 영어 코퍼스에서도 최상위에 오를 단어들이다 — 어떤 단어가 어디에 자리 잡고 있느냐다.

  • **like**가 11위에 있다. 이건 동사가 아니라 담화 표지로서의 like다. 책의 코퍼스였다면 훨씬 아래에 있었을 단어다.
  • 축약형 다섯 개가 상위 50위 안에 진입했다. it's (16위), i'm (32위), that's (36위), don't (47위), 그리고 그 아래에도 더 있다고 봐야 할 것이다. 문어 코퍼스에서는 이 축약형들이 본래 형태로 분리되어 집계된다.
  • **yeah**가 27위에 있다. 순전히 대화를 이어주는 접착제 역할의 단어다. 책에서는 거의 쓰이지 않는다.
  • know, just, **right**는 여기서 사전적 의미보다는 발화를 부드럽게 만드는 표지(you know, I just wanted, yeah, right)로 주로 쓰인다.

목록의 윗부분은 발화가 글과 어떻게 다른지를 한눈에 보여주는 단면이다. 축약형, 담화 표지(필러), 헤지(완화 표현)가 관사·대명사와 나란히 핵심 어휘로 자리 잡고 있다.

발화는 덩어리로 만들어진다

단어 하나 단위가 아니라 두 단어, 세 단어 시퀀스를 세어보면 다른 구조가 드러난다. 구어 영어에서 가장 빈도가 높은 단위는 고립된 단어가 아니라 짧고 반복되는 구절이다.

가장 많이 쓰인 2단어 시퀀스 50개

순위구절빈도비율
1you know651,6590.42%
2of the610,4730.39%
3in the597,9730.38%
4going to391,9620.25%
5and i369,0690.24%
6i think360,6050.23%
7this is354,8860.23%
8to be349,2930.22%
9i was294,7490.19%
10i don't280,1650.18%
11it was279,4920.18%
12and then279,0610.18%
13to the271,4830.17%
14on the269,6980.17%
15kind of253,8900.16%
16a lot248,7870.16%
17want to240,1290.15%
18if you239,7040.15%
19you can214,7970.14%
20and the211,5770.13%
21i mean198,8830.13%
22lot of188,4010.12%
23to do188,3010.12%
24in a185,9600.12%
25is a183,8380.12%
26like a180,6150.12%
27at the169,4240.11%
28have to168,8630.11%
29one of161,6570.10%
30have a160,1630.10%
31that i159,8870.10%
32is the159,8620.10%
33you have158,2250.10%
34do you158,1540.10%
35and you156,4100.10%
36that you150,8180.10%
37for the147,4920.09%
38a little146,5850.09%
39to get143,0310.09%
40like i141,1390.09%
41so i140,1930.09%
42it is137,3250.09%
43don't know136,7140.09%
44was like136,3960.09%
45it's a136,0950.09%
46and so135,2090.09%
47of a134,5890.09%
48with the132,1770.08%
49but i131,3800.08%
50was a126,1610.08%

전체 목록: top-bigrams.csv.

세 가지 관찰점.

  1. **you know**가 어떤 문법적 핵심 표현보다도 더 자주 등장한다. 구어 영어에서 가장 흔한 두 단어 조합이며 of thein the보다도 많이 쓰인다.
  2. 상위 50위에는 1인칭 구성(and i, i think, i was, i don't, i mean)이 빽빽하게 들어차 있다. 발화는 결국 대부분 말하는 사람 자신에 관한 것이다.
  3. kind of, a lot, a little, like a, was like — 비격식 헤지와 유사 인용 구문(quotative-like construction)이 상위 50위 곳곳에 깔려 있다.

가장 많이 쓰인 3단어 시퀀스 50개

순위구절빈도비율
1a lot of170,9610.13%
2i don't know96,4550.07%
3one of the82,6930.06%
4going to be72,2930.05%
5a little bit64,9300.05%
6i was like60,9150.05%
7i'm going to55,9400.04%
8i want to55,0710.04%
9you want to54,9080.04%
10you know what52,9250.04%
11you have to44,9850.03%
12you know i43,5380.03%
13this is a43,4570.03%
14this is the41,6640.03%
15and i think40,2140.03%
16and i was39,3400.03%
17i feel like38,0190.03%
18we're going to35,6870.03%
19oh my god35,2030.03%
20to be a33,2290.03%
21what do you32,7470.02%
22be able to32,2630.02%
23i don't think31,9860.02%
24it was a30,7170.02%
25and you know30,3210.02%
26you're going to29,7310.02%
27like you know29,4200.02%
28don't want to29,2490.02%
29some of the28,9530.02%
30is going to28,7870.02%
31i think it's28,7190.02%
32not going to27,4060.02%
33do you think27,1960.02%
34and this is25,7630.02%
35i think that25,7620.02%
36i mean i25,4190.02%
37in the world25,3100.02%
38and it was25,3030.02%
39and then i25,0910.02%
40you have a23,9880.02%
41the end of23,8850.02%
42and then you23,4710.02%
43i think i23,3930.02%
44out of the23,0540.02%
45it was like22,8690.02%
46you know the22,7830.02%
47when i was22,7550.02%
48you got to22,2200.02%
49want to be22,2180.02%
50know what i22,1170.02%

전체 목록: top-trigrams.csv.

상위 15개 3단어 시퀀스 중 11개가 대명사로 시작한다. 그리고 6개에는 명시적인 1인칭 I가 들어 있다. 구어 영어는 압도적으로 누가, 누구에게, 실시간으로 무슨 말을 하고 있는가에 관한 것이며, 고빈도 구절들이 그 사실을 그대로 반영한다.

격식 영어에는 잘 등장하지 않기 때문에 눈여겨볼 만한 시퀀스가 몇 개 있다. i was like (6위), you know what (10위), i feel like (17위), oh my god (19위), you got to (48위). 거창한 관용구가 아니다 — 일상 대화를 이어주는 결합 조직이다.

이 분포가 시사하는 것

이 숫자들에서 세 가지가 따라 나온다.

비용 대비 효율적인 어휘는 작다. 약 3,000개의 구어 단어를 안정적으로 인식할 수 있는 학습자라면, 유튜브에 올라오는 원어민 영어의 89%를 따라갈 수 있는 언어적 원자재를 갖춘 셈이다. 이를 95%까지 끌어올리려면 5,500개의 단어가 더 필요한데, 그중 대부분은 1억 8,300만 단어 코퍼스 전체에서 손가락에 꼽힐 정도로만 등장한다.

어휘의 양보다 빈도 가중이 더 중요하다. 대부분의 강의나 앱은 어휘 목록을 대체로 동등한 가치로 다룬다. 그러나 데이터는 다른 말을 한다. 전체 작업의 50%를 상위 67개 단어가 처리한다. 이 사실을 반영하지 못하는 학습 일정은 잘못 배분된 노력이다.

단어 단위 번역은 잘못된 기본 단위다. 상위 3단어 시퀀스의 절반은 그 자체로 하나의 단위처럼 작동하는 기능적 덩어리(a lot of, i don't know, a little bit, going to be)다. 이를 통째로 인식하는 것은 세 개의 별개 단어로 파싱하는 것과 인지적으로 다른 작업이다. 실시간 발화에서는 그 차이가 곧 따라가느냐 못 따라가느냐의 차이로 나타난다.

방법론

이 숫자들을 만들어낸 파이프라인.

  1. 소스. 영어 유튜브 영상 37,632개의 자막.
  2. 토큰화. 텍스트를 소문자로 바꾼 뒤, 정규식 [a-z]+(?:'[a-z]+)?로 매칭. 이렇게 하면 don't, gonna, it's 같은 축약형이 단일 토큰으로 유지되고, 숫자는 제외되며, 구두점은 무시된다.
  3. 노이즈 필터링. ^\[.*\]$에 매칭되는 세그먼트(예: [Music], [Applause], [Inaudible])는 토큰화 전에 건너뛴다. 이로 인해 196,433개의 세그먼트가 제거되었다.
  4. 카운팅. 유니그램은 모든 토큰을 센다. 바이그램과 트라이그램은 동일한 자막 세그먼트 안에서 인접한 N-토큰 시퀀스를 모두 센다. 시퀀스가 세그먼트 경계를 넘지 못하도록 했다.
  5. 누적 비율은 빈도순으로 정렬한 뒤 합산해서 산출한다.

이 분석이 하지 않은 것:

  • 표제어 정규화 없음. go, going, went, gone은 별개의 어휘 항목으로 집계된다. 학습자가 청취 시 실제로 인식해야 하는 형태가 무엇인지를 측정하는 데에는 적절하지만, 표제어로 묶은 분석에 비해 원시 어휘 수치를 부풀리는 효과가 있다.
  • 품사 태깅 없음. 동사 like와 담화 표지 like가 함께 집계된다.
  • 자동 생성 자막에 대한 별도 필터링 없음. 일부 영상은 사람이 편집한 자막을 갖고 있고, 일부는 자동 생성된 자막을 갖고 있다. 후자는 특히 분포의 긴 꼬리 부분에서 약간의 전사 노이즈를 끌어들인다.

이 분석이 신뢰할 수 있는 것은 분포의 형태, 그리고 고빈도 단어와 구절의 정체성이다. 목록의 윗부분 — the, and, to, I, like, it's, you know, i don't know — 은 어떤 합리적인 정제 과정을 거쳐도 그대로 남는다.

코퍼스에 대한 단서

이 37,632개의 영상은 모든 구어 영어를 무작위로 표집한 것이 아니다. 우리의 실제 영상 클립 검색 엔진인 ClipPhrase를 구동하기 위해 큐레이션된 인기 영어 유튜브 채널 모음이다. 따라서 코퍼스는 다음 방향으로 편향되어 있다.

  • 미국 영어. 대부분의 채널이 미국 기반이다.
  • 직업적으로 말하는 사람들. 심야 토크쇼 진행자, 팟캐스터, 유튜버, 뉴스 앵커들이며, 일상적이고 사적인 대화의 대표적인 단면은 아니다.
  • 인기 콘텐츠. 채널은 조회수와 폭넓은 문화적 영향력을 기준으로 선정되었으며, 방언이나 사용역(register)의 다양성을 기준으로 한 것이 아니다.

이러한 단서는 이 숫자들이 엄밀히 입증할 수 있는 범위를 좁힌다. 하지만 분포의 형태나, 구어 영어가 소수의 고빈도 기능어와 덩어리에 확률 질량을 응축시킨다는 정성적 결론을 바꾸지는 않는다.

직접 시도해 보기

이 분석을 돌린 코퍼스는 동시에 검색 인덱스이기도 하다. 이 글에서 언급된 모든 단어와 구절은 수만 개의 실제 영상 클립 안에 존재하며, 쿼리로 꺼내볼 수 있다. I was likeClipPhrase에 입력하면 50명이 넘는 화자가 그 표현을 쓰는 장면이 나오고, gonna를 입력하면 수천 개의 결과가 나온다. 이 분석이 기반한 도구가 바로 그것이다.

다운로드

이 데이터를 본인의 글이나 연구에 활용한다면, 이 페이지로의 링크를 함께 표기해 주시면 감사하겠다.