유튜브 영상 37,000개를 분석했다. 실제 구어 영어는 이렇게 생겼다

영어 유튜브 영상 37,632개에서 추출한 1억 8,290만 개의 음성 단어. 단 67개 단어가 전체 발화의 절반을 차지한다. 전체 단어·구절 빈도 목록, 차트, 다운로드 가능한 데이터까지.

2026년 5월 4일12분 읽기ClipPhrase Team

우리는 자체 검색 인덱스에 있는 영어 유튜브 영상 37,632개의 자막을 가져왔다 — 심야 토크쇼, 다큐멘터리, 팟캐스트, 과학 해설, 뉴스, 토크쇼, 브이로그까지 — 그리고 그 안에서 발화된 모든 단어와 짧은 구절을 대상으로 빈도 분석을 돌렸다. 합산 1억 8,290만 단어다.

이 글은 그 분석의 전문 정리다. 원시 데이터를 직접 살펴보고 싶은 사람을 위해 모든 CSV 파일은 글 하단에 링크해 두었다.

코퍼스, 숫자로 보기


분석한 영상 수	37,632
자막 세그먼트 수	26,203,765
제외된 비음성 세그먼트 (`[Music]`, `[Applause]` 등)	196,433
전체 발화 토큰 수	182,933,444
고유 단어 수 (어휘 규모)	384,132
영상당 평균 단어 수	4,861
고유 2단어 시퀀스 수	11,240,282
고유 3단어 시퀀스 수	42,037,127

구어 영어의 절반은 단 67개 단어다

분포는 잔혹할 정도로 한쪽으로 치우쳐 있다.

구어 영어의 X%를 이해하는 데 필요한 단어 수

알아야 하는 단어 수…	…그러면 구어 영어의 이만큼이 들린다
67개 단어	50%
505개 단어	75%
906개 단어	80%
1,677개 단어	85%
2,900개 단어	89%
3,368개 단어	90%
8,381개 단어	95%
36,916개 단어	99%

몇 가지 짚어볼 만한 지점이 있다.

단어 the 하나가 전체 구어 영어의 **4.04%**를 차지한다 — 들리는 단어 25개 중 1개가 the인 셈이다.
상위 10개 단어만으로 전체 발화의 **23.2%**가 커버된다. 원어민 대화의 거의 4분의 1이 재활용되는 10개 토큰 위에서 굴러간다.
수익은 빠르게 체감된다. 이해도를 89%에서 95%로 끌어올리려면 필요한 어휘가 거의 3배로 늘어난다. 95%에서 99%로 가려면 거기서 다시 4배가 곱해진다.

이는 문어 코퍼스에서 나타나는 것보다 훨씬 더 가파른 형태의 지프의 법칙(Zipf의 법칙)이다. 책은 확률 질량을 더 넓은 어휘에 분산시키지만, 구어는 그것을 한곳에 응축시킨다.

유튜브 영상 37K개에서 추출한 구어 영어의 지프 분포

위 그래프는 로그-로그 축이다. 순수한 지프 분포 언어라면 직선이 그려질 텐데, 구어 영어는 거의 그 직선을 따라간다. 다만 가장 높은 빈도 구간에서 약간의 꺾임이 있고, 희귀 단어들의 긴 꼬리가 순위 10⁵ 아래쪽으로 흘러내린다.

가장 많이 발화된 단어 50개

순위	단어	빈도	비율	누적
1	the	7,387,237	4.04%	4.04%
2	and	5,202,156	2.84%	6.88%
3	to	4,806,242	2.63%	9.51%
4	i	4,324,592	2.36%	11.87%
5	a	4,264,055	2.33%	14.20%
6	you	4,064,555	2.22%	16.43%
7	of	3,724,277	2.04%	18.46%
8	that	3,492,110	1.91%	20.37%
9	it	2,634,690	1.44%	21.81%
10	in	2,521,046	1.38%	23.19%
11	like	2,494,184	1.36%	24.55%
12	is	2,369,926	1.30%	25.85%
13	this	1,781,715	0.97%	26.82%
14	so	1,654,633	0.90%	27.73%
15	was	1,501,038	0.82%	28.55%
16	it's	1,410,862	0.77%	29.32%
17	for	1,305,470	0.71%	30.03%
18	but	1,274,194	0.70%	30.73%
19	we	1,248,337	0.68%	31.41%
20	on	1,216,294	0.66%	32.08%
21	know	1,167,908	0.64%	32.71%
22	have	1,137,673	0.62%	33.34%
23	just	1,134,793	0.62%	33.96%
24	what	1,032,689	0.56%	34.52%
25	they	1,020,670	0.56%	35.08%
26	with	1,007,653	0.55%	35.63%
27	yeah	962,191	0.53%	36.16%
28	be	957,783	0.52%	36.68%
29	are	898,626	0.49%	37.17%
30	not	872,734	0.48%	37.65%
31	do	870,812	0.48%	38.12%
32	i'm	821,478	0.45%	38.57%
33	my	804,993	0.44%	39.01%
34	all	799,543	0.44%	39.45%
35	if	756,360	0.41%	39.86%
36	that's	738,851	0.40%	40.27%
37	at	732,360	0.40%	40.67%
38	about	717,388	0.39%	41.06%
39	he	714,407	0.39%	41.45%
40	your	696,636	0.38%	41.83%
41	one	695,227	0.38%	42.21%
42	as	684,705	0.37%	42.59%
43	or	678,871	0.37%	42.96%
44	can	672,388	0.37%	43.32%
45	think	654,509	0.36%	43.68%
46	right	647,716	0.35%	44.04%
47	don't	637,134	0.35%	44.38%
48	me	616,944	0.34%	44.72%
49	there	597,279	0.33%	45.05%
50	people	592,296	0.32%	45.37%

상위 10,000개 단어 전체 목록은 CSV로 받을 수 있다.

이 상위 50개에서 눈여겨볼 점은 어떤 단어가 들어 있느냐가 아니라 — the, and, to는 어떤 영어 코퍼스에서도 최상위에 오를 단어들이다 — 어떤 단어가 어디에 자리 잡고 있느냐다.

**like**가 11위에 있다. 이건 동사가 아니라 담화 표지로서의 like다. 책의 코퍼스였다면 훨씬 아래에 있었을 단어다.
축약형 다섯 개가 상위 50위 안에 진입했다. it's (16위), i'm (32위), that's (36위), don't (47위), 그리고 그 아래에도 더 있다고 봐야 할 것이다. 문어 코퍼스에서는 이 축약형들이 본래 형태로 분리되어 집계된다.
**yeah**가 27위에 있다. 순전히 대화를 이어주는 접착제 역할의 단어다. 책에서는 거의 쓰이지 않는다.
know, just, **right**는 여기서 사전적 의미보다는 발화를 부드럽게 만드는 표지(you know, I just wanted, yeah, right)로 주로 쓰인다.

목록의 윗부분은 발화가 글과 어떻게 다른지를 한눈에 보여주는 단면이다. 축약형, 담화 표지(필러), 헤지(완화 표현)가 관사·대명사와 나란히 핵심 어휘로 자리 잡고 있다.

발화는 덩어리로 만들어진다

단어 하나 단위가 아니라 두 단어, 세 단어 시퀀스를 세어보면 다른 구조가 드러난다. 구어 영어에서 가장 빈도가 높은 단위는 고립된 단어가 아니라 짧고 반복되는 구절이다.

가장 많이 쓰인 2단어 시퀀스 50개

순위	구절	빈도	비율
1	you know	651,659	0.42%
2	of the	610,473	0.39%
3	in the	597,973	0.38%
4	going to	391,962	0.25%
5	and i	369,069	0.24%
6	i think	360,605	0.23%
7	this is	354,886	0.23%
8	to be	349,293	0.22%
9	i was	294,749	0.19%
10	i don't	280,165	0.18%
11	it was	279,492	0.18%
12	and then	279,061	0.18%
13	to the	271,483	0.17%
14	on the	269,698	0.17%
15	kind of	253,890	0.16%
16	a lot	248,787	0.16%
17	want to	240,129	0.15%
18	if you	239,704	0.15%
19	you can	214,797	0.14%
20	and the	211,577	0.13%
21	i mean	198,883	0.13%
22	lot of	188,401	0.12%
23	to do	188,301	0.12%
24	in a	185,960	0.12%
25	is a	183,838	0.12%
26	like a	180,615	0.12%
27	at the	169,424	0.11%
28	have to	168,863	0.11%
29	one of	161,657	0.10%
30	have a	160,163	0.10%
31	that i	159,887	0.10%
32	is the	159,862	0.10%
33	you have	158,225	0.10%
34	do you	158,154	0.10%
35	and you	156,410	0.10%
36	that you	150,818	0.10%
37	for the	147,492	0.09%
38	a little	146,585	0.09%
39	to get	143,031	0.09%
40	like i	141,139	0.09%
41	so i	140,193	0.09%
42	it is	137,325	0.09%
43	don't know	136,714	0.09%
44	was like	136,396	0.09%
45	it's a	136,095	0.09%
46	and so	135,209	0.09%
47	of a	134,589	0.09%
48	with the	132,177	0.08%
49	but i	131,380	0.08%
50	was a	126,161	0.08%

전체 목록: top-bigrams.csv.

세 가지 관찰점.

**you know**가 어떤 문법적 핵심 표현보다도 더 자주 등장한다. 구어 영어에서 가장 흔한 두 단어 조합이며 of the나 in the보다도 많이 쓰인다.
상위 50위에는 1인칭 구성(and i, i think, i was, i don't, i mean)이 빽빽하게 들어차 있다. 발화는 결국 대부분 말하는 사람 자신에 관한 것이다.
kind of, a lot, a little, like a, was like — 비격식 헤지와 유사 인용 구문(quotative-like construction)이 상위 50위 곳곳에 깔려 있다.

가장 많이 쓰인 3단어 시퀀스 50개

순위	구절	빈도	비율
1	a lot of	170,961	0.13%
2	i don't know	96,455	0.07%
3	one of the	82,693	0.06%
4	going to be	72,293	0.05%
5	a little bit	64,930	0.05%
6	i was like	60,915	0.05%
7	i'm going to	55,940	0.04%
8	i want to	55,071	0.04%
9	you want to	54,908	0.04%
10	you know what	52,925	0.04%
11	you have to	44,985	0.03%
12	you know i	43,538	0.03%
13	this is a	43,457	0.03%
14	this is the	41,664	0.03%
15	and i think	40,214	0.03%
16	and i was	39,340	0.03%
17	i feel like	38,019	0.03%
18	we're going to	35,687	0.03%
19	oh my god	35,203	0.03%
20	to be a	33,229	0.03%
21	what do you	32,747	0.02%
22	be able to	32,263	0.02%
23	i don't think	31,986	0.02%
24	it was a	30,717	0.02%
25	and you know	30,321	0.02%
26	you're going to	29,731	0.02%
27	like you know	29,420	0.02%
28	don't want to	29,249	0.02%
29	some of the	28,953	0.02%
30	is going to	28,787	0.02%
31	i think it's	28,719	0.02%
32	not going to	27,406	0.02%
33	do you think	27,196	0.02%
34	and this is	25,763	0.02%
35	i think that	25,762	0.02%
36	i mean i	25,419	0.02%
37	in the world	25,310	0.02%
38	and it was	25,303	0.02%
39	and then i	25,091	0.02%
40	you have a	23,988	0.02%
41	the end of	23,885	0.02%
42	and then you	23,471	0.02%
43	i think i	23,393	0.02%
44	out of the	23,054	0.02%
45	it was like	22,869	0.02%
46	you know the	22,783	0.02%
47	when i was	22,755	0.02%
48	you got to	22,220	0.02%
49	want to be	22,218	0.02%
50	know what i	22,117	0.02%

전체 목록: top-trigrams.csv.

상위 15개 3단어 시퀀스 중 11개가 대명사로 시작한다. 그리고 6개에는 명시적인 1인칭 I가 들어 있다. 구어 영어는 압도적으로 누가, 누구에게, 실시간으로 무슨 말을 하고 있는가에 관한 것이며, 고빈도 구절들이 그 사실을 그대로 반영한다.

격식 영어에는 잘 등장하지 않기 때문에 눈여겨볼 만한 시퀀스가 몇 개 있다. i was like (6위), you know what (10위), i feel like (17위), oh my god (19위), you got to (48위). 거창한 관용구가 아니다 — 일상 대화를 이어주는 결합 조직이다.

이 분포가 시사하는 것

이 숫자들에서 세 가지가 따라 나온다.

비용 대비 효율적인 어휘는 작다. 약 3,000개의 구어 단어를 안정적으로 인식할 수 있는 학습자라면, 유튜브에 올라오는 원어민 영어의 89%를 따라갈 수 있는 언어적 원자재를 갖춘 셈이다. 이를 95%까지 끌어올리려면 5,500개의 단어가 더 필요한데, 그중 대부분은 1억 8,300만 단어 코퍼스 전체에서 손가락에 꼽힐 정도로만 등장한다.

어휘의 양보다 빈도 가중이 더 중요하다. 대부분의 강의나 앱은 어휘 목록을 대체로 동등한 가치로 다룬다. 그러나 데이터는 다른 말을 한다. 전체 작업의 50%를 상위 67개 단어가 처리한다. 이 사실을 반영하지 못하는 학습 일정은 잘못 배분된 노력이다.

단어 단위 번역은 잘못된 기본 단위다. 상위 3단어 시퀀스의 절반은 그 자체로 하나의 단위처럼 작동하는 기능적 덩어리(a lot of, i don't know, a little bit, going to be)다. 이를 통째로 인식하는 것은 세 개의 별개 단어로 파싱하는 것과 인지적으로 다른 작업이다. 실시간 발화에서는 그 차이가 곧 따라가느냐 못 따라가느냐의 차이로 나타난다.

방법론

이 숫자들을 만들어낸 파이프라인.

소스. 영어 유튜브 영상 37,632개의 자막.
토큰화. 텍스트를 소문자로 바꾼 뒤, 정규식 [a-z]+(?:'[a-z]+)?로 매칭. 이렇게 하면 don't, gonna, it's 같은 축약형이 단일 토큰으로 유지되고, 숫자는 제외되며, 구두점은 무시된다.
노이즈 필터링. ^\[.*\]$에 매칭되는 세그먼트(예: [Music], [Applause], [Inaudible])는 토큰화 전에 건너뛴다. 이로 인해 196,433개의 세그먼트가 제거되었다.
카운팅. 유니그램은 모든 토큰을 센다. 바이그램과 트라이그램은 동일한 자막 세그먼트 안에서 인접한 N-토큰 시퀀스를 모두 센다. 시퀀스가 세그먼트 경계를 넘지 못하도록 했다.
누적 비율은 빈도순으로 정렬한 뒤 합산해서 산출한다.

이 분석이 하지 않은 것:

표제어 정규화 없음. go, going, went, gone은 별개의 어휘 항목으로 집계된다. 학습자가 청취 시 실제로 인식해야 하는 형태가 무엇인지를 측정하는 데에는 적절하지만, 표제어로 묶은 분석에 비해 원시 어휘 수치를 부풀리는 효과가 있다.
품사 태깅 없음. 동사 like와 담화 표지 like가 함께 집계된다.
자동 생성 자막에 대한 별도 필터링 없음. 일부 영상은 사람이 편집한 자막을 갖고 있고, 일부는 자동 생성된 자막을 갖고 있다. 후자는 특히 분포의 긴 꼬리 부분에서 약간의 전사 노이즈를 끌어들인다.

이 분석이 신뢰할 수 있는 것은 분포의 형태, 그리고 고빈도 단어와 구절의 정체성이다. 목록의 윗부분 — the, and, to, I, like, it's, you know, i don't know — 은 어떤 합리적인 정제 과정을 거쳐도 그대로 남는다.

코퍼스에 대한 단서

이 37,632개의 영상은 모든 구어 영어를 무작위로 표집한 것이 아니다. 우리의 실제 영상 클립 검색 엔진인 ClipPhrase를 구동하기 위해 큐레이션된 인기 영어 유튜브 채널 모음이다. 따라서 코퍼스는 다음 방향으로 편향되어 있다.

미국 영어. 대부분의 채널이 미국 기반이다.
직업적으로 말하는 사람들. 심야 토크쇼 진행자, 팟캐스터, 유튜버, 뉴스 앵커들이며, 일상적이고 사적인 대화의 대표적인 단면은 아니다.
인기 콘텐츠. 채널은 조회수와 폭넓은 문화적 영향력을 기준으로 선정되었으며, 방언이나 사용역(register)의 다양성을 기준으로 한 것이 아니다.

이러한 단서는 이 숫자들이 엄밀히 입증할 수 있는 범위를 좁힌다. 하지만 분포의 형태나, 구어 영어가 소수의 고빈도 기능어와 덩어리에 확률 질량을 응축시킨다는 정성적 결론을 바꾸지는 않는다.

직접 시도해 보기

이 분석을 돌린 코퍼스는 동시에 검색 인덱스이기도 하다. 이 글에서 언급된 모든 단어와 구절은 수만 개의 실제 영상 클립 안에 존재하며, 쿼리로 꺼내볼 수 있다. I was like를 ClipPhrase에 입력하면 50명이 넘는 화자가 그 표현을 쓰는 장면이 나오고, gonna를 입력하면 수천 개의 결과가 나온다. 이 분석이 기반한 도구가 바로 그것이다.

다운로드

top-words.csv — 순위, 빈도, 비율, 누적 비율이 포함된 상위 10,000개 단어
top-bigrams.csv — 상위 5,000개 2단어 시퀀스
top-trigrams.csv — 상위 5,000개 3단어 시퀀스

이 데이터를 본인의 글이나 연구에 활용한다면, 이 페이지로의 링크를 함께 표기해 주시면 감사하겠다.