Vibe Coding 확산이 만드는
두 개의 그림자
Slop 현상과 토큰 과소비의 구조적 분석
Vibe Coding 확산은 단기 생산성 향상(GitHub Copilot RCT 기준 55.8%)과 장기 품질 저하(Faros 2026: 버그 54% 증가, 검토 시간 5배 증가)를 동시에 발생시키며, Cowork(분산 협업) 환경은 구조적으로 Slop과 토큰 낭비를 증폭시키는 '공유지의 비극' 구도를 형성한다.
개념 정의
1.1 Vibe Coding — "코드가 존재한다는 사실을 잊어버리는" 코딩
Vibe Coding은 2025년 2월 Andrej Karpathy(OpenAI 공동 창업자, 전 Tesla AI 리더)가 명명한 개발 방식으로, 개발자가 자연어 프롬프트로 LLM에게 의도를 전달하고 생성된 코드를 검토 없이 수용하면서 결과물 중심으로 반복하는 실천을 말한다.
"나는 항상 'Accept All'을 누른다. 더 이상 diff를 읽지 않는다. 에러 메시지가 나오면 그냥 복사 붙여넣기 한다."
Collins Dictionary는 2025년 올해의 단어로 Vibe Coding을 선정했고, Merriam-Webster는 2025년 3월 이를 "slang & trending" 용어로 등재했다. Y Combinator 2025년 겨울 배치의 25% 스타트업이 코드베이스의 95%를 AI로 생성했다.
확산 속도
- Google: 2024-10 신규 코드 25% AI 생성 → 2026-04 75%로 3배 증가 (TechSpot)
- Y Combinator 2025W: 25% 스타트업이 95% AI 코드
Simon Willison의 경계
"LLM이 코드를 작성했더라도 검토·테스트·설명이 가능하다면 그것은 Vibe Coding이 아니라 소프트웨어 개발" (Simon Willison, 2025/3/19)
1.2 Slop 현상 — 기술적으로 동작하나 구조적으로 열화된 코드
AI Slop은 "저품질 AI 생성 콘텐츠"를 가리키며, 소프트웨어에서는 컴파일되고 테스트를 통과하지만 장기 유지보수성·아키텍처 일관성·보안이 결여된 코드를 지칭한다.
Baltes et al. (2026, arXiv 2603.27249)의 정성 분석(Reddit/Hacker News 15개 스레드, 1,154개 포스트)은 Slop을 세 클러스터로 체계화했다:
Review Friction
AI Slop이 리뷰어에게 부담을 전가하고 신뢰를 잠식
Quality Degradation
코드베이스·지식 자원·개발자 역량 자체에 손상
Forces & Consequences
시스템적 인센티브, 강제된 채택, 장인정신 침식
Slop의 공통 증상
- 과도하게 장황한 구현, 중복 로직
- 비효율적 알고리즘과 자원 사용
- 일관성 없는 아키텍처 패턴
- 빈약하거나 없는 문서
- 숨겨진 보안 취약성
- "올바름의 착시(illusion of correctness)": 코드가 깔끔해 보이고 기본 테스트는 통과하지만 엣지 케이스·비즈니스 요구·실제 스케일에서 실패
1.3 토큰 과소비 · 비용 비효율화
토큰 과소비란 LLM 기반 코딩 도구 사용 시 생산적 출력 대비 소비되는 컨텍스트·프롬프트·히스토리 토큰의 양이 과도해지는 현상이다.
Anthropic의 공식 Context Engineering 문서는 근본 원인을 다음과 같이 설명한다:
Context Rot
컨텍스트 윈도우의 토큰 수가 증가할수록 모델의 정확한 정보 호출 능력이 저하. 모든 LLM에서 공통 발생.
Attention Budget
트랜스포머 구조상 n개 토큰은 n² 쌍 관계를 생성 → 컨텍스트가 길어질수록 주의력 희석.
훈련 데이터 분포
짧은 시퀀스가 더 흔해 모델은 긴 컨텍스트에 대한 경험이 상대적으로 부족.
원인 분석
2.1 Slop 발생의 구조적·인지적 원인
구조적 원인
볼륨 증가의 비선형성
Faros AI 2026: 개발자당 에픽 완료 66% 증가, 코드 관련 작업 210% 증가, PR당 편집 파일 수 59.7%, 월 편집 파일 수 149.9% 증가. 리뷰어의 수용 용량은 이 속도를 따라가지 못한다. (Faros via ADTmag)
리뷰 게이트의 붕괴
AI 도입 후 리뷰 없이 병합된 PR 31.3% 증가, 중위 리뷰 시간 5배 증가. 리뷰 게이트가 형식적 통과 지점으로 변질.
AI의 아키텍처 무지
LLM은 학습된 패턴을 재생산하지만 도메인 경계, 시스템 전반의 모듈 관계, 장기 유지보수성을 인식하지 못한다.
인지적 원인
AI 과의존 (Overreliance)
Stanford HAI: "사람은 AI의 추천이 틀려도 수용하는 AI 과의존이 광범위하게 존재" (Stanford HAI)
인지 부하 비대칭
AI의 설명을 검증하는 인지 비용이 작업 자체보다 크면 사람은 검증을 포기한다 (Vasconcelos et al.)
환각 흡수
IBM 연구(n=272): AI 제안이 잘못되었을 때도 사용자가 자신의 정답에 AI 응답을 '추가'하는 경향 (arXiv 2409.08937)
2.2 토큰 과소비의 기술적·행동적 원인
기술적 원인
- 시스템 프롬프트·도구 정의 재전송: 대부분의 토큰은 프롬프트가 아닌 반복 전송되는 시스템 프롬프트, 도구 설명, 대화 히스토리, RAG 청크, 로그에서 발생 (Medium)
- Context Rot로 인한 컨텍스트 불신: 컨텍스트가 길어지면 성능이 저하 → 자주 리셋 → 매번 배경 정보를 다시 로딩하는 악순환 (Anthropic)
- MCP 도구의 토큰 폭탄: Playwright MCP 같은 도구는 단일 호출에서 많은 토큰을 소비하지만 비용이 투명하게 공개되지 않음
행동적 원인
- Prompt-first 습관: 개발자들은 컨텍스트 설계보다 프롬프트 문구 수정에 집중하지만, 실제 비용은 컨텍스트 폭발(context explosion)에서 발생
- 세션 리셋 회피: 구독자들은 "모니터링 필요 없음" 메시지를 신뢰하여 세션을 길게 유지 → 한 세션에서 더 많은 토큰 낭비
2.3 Cowork vs 개인 개발 환경 비교
| 차원 | 개인 개발 환경 | Cowork(분산 협업) 환경 |
|---|---|---|
| 책임 소재 | 명확(본인) | 분산(AI+작성자+리뷰어) |
| 리뷰 게이트 | 자기 검증 루프 | PR 리뷰(Faros: 31.3% 무검토 증가) |
| 공유 컨텍스트 | 개인 멘탈 모델 | CLAUDE.md/.cursorrules 없이는 분절 |
| 비용 가시성 | 본인 API 청구서 | 조직 단위 집계로 개인 낭비 은닉 |
| 실패 파급 | 본인 프로젝트 | 팀 전체 레거시화 |
| 학습 피드백 | 즉각적 | 지연됨 |
Northeastern 대학 연구진의 "AI's Social Forcefield" 논문은 더 미묘한 메커니즘을 제시한다. AI는 단순한 도구가 아니라 팀의 언어·인지·사회적 조율을 재구성하는 사회적 역장(social forcefield)으로 작동하며, 같은 모델을 쓰는 구성원들은 동일 어휘·사고 구조로 수렴하여 인식론적 다양성(epistemic diversity)이 침식된다.
현상 유형화
3.1 Slop 유형 분류 — 코드 품질 저하 패턴
GitClear의 211M 라인 종단 분석(2020-2024):
| 지표 | 2021 | 2024 | 변화 |
|---|---|---|---|
| 리팩터링 비율 (전체 변경 라인 중) | 25% | <10% | -60% |
| 복사-붙여넣기 라인 비율 | 8.3% | 12.3% | +48% |
| 중복 코드 블록 prevalence | 1× 기준 | ~4× | 약 4배 |
| "moved" code (건강한 재사용) | 많음 | 처음으로 copy/paste에 역전됨 | |
| 코드 처닝 (조기 병합 후 재작성) | 1× 기준 | ~2× | 약 2배 |
6가지 Slop 유형
1. Bloat Slop
과도한 boilerplate, 불필요한 추상화
2. Duplicate Slop
유사 로직의 복사·재생산 (GitClear 4× 증가)
3. Architectural Slop
기존 도메인 경계를 무시한 모듈 배치
4. Security Slop
Python 29.5%, JS 24.2%가 CWE 매핑 취약점 보유, 43개 CWE 카테고리 (ACM TOSEM)
5. Hallucination Slop
존재하지 않는 API, 미임포트 모듈 호출
6. Churn Slop
조기 병합 후 곧바로 재작성되는 코드 (GitClear 2× 증가)
3.2 토큰 낭비 유형 분류
| 유형 | 메커니즘 | 출처 |
|---|---|---|
| 컨텍스트 폭발 | 시스템 프롬프트+도구 설명+히스토리+RAG 청크 누적 | Medium |
| 대화 재판독 | Claude가 매 턴 전체 대화 재처리 | Geeky Gadgets |
| MCP 도구 폭탄 | Playwright MCP 등 단일 호출당 고토큰 소비 | AI Eng. Report |
| 과도한 파일 로딩 | 관련성 검증 없는 @codebase 참조 | Claude Code BP |
| 비효율적 리트라이 | 실패 시 전체 컨텍스트 유지한 채 재시도 | Anthropic |
| 구독-API 불일치 | 실제 사용량이 구독 비용보다 낮은 경우의 역수 낭비 | AI Eng. Report |
| 캐시 미스 | 프롬프트 캐싱 미활용으로 최대 90% 절감 기회 상실 | Morph |
3.3 Cowork 환경 특유의 증폭 요인
1. 공유지의 비극
개인의 생산성 이득이 리뷰어·유지보수자에 비용을 외부화. "PR 100개를 쏟아내는 것은 개인 합리적이지만 팀 전체에는 리뷰 병목" (Baltes et al.)
2. 리뷰 대역폭 과부하
Faros의 "Acceleration Whiplash": 생산 속도가 소비(리뷰) 속도를 초과 → 병목이 하류로 이동. 커밋→배포 리드타임 480.4% 증가
3. 컨텍스트 분절
각 개발자가 독립 AI 세션 운영 → 팀 지식이 세션에 분산. CLAUDE.md, .cursorrules, AGENTS.md 같은 공유 규칙 파일로 완화 (Cursor Docs)
4. AI 사회적 역장
동일 모델 사용자들이 동일 어휘·패턴으로 수렴 → 설계 다양성 감소 (Riedl et al.)
영향 분석
4.1 단기 생산성 vs 장기 품질 — 실증 데이터
단기 생산성 개선 증거
| 연구 | 결과 | 출처 |
|---|---|---|
| Microsoft Research RCT (n=95) | Copilot 사용 그룹 55.8% 빠름 (P=.0017) | Peng et al. |
| GitHub 서베이 (n=2,631) | 73% flow 유지 보고, 87% 반복 작업 에너지 보존 | GitHub Blog |
| DORA 2024 (n≈39,000) | 문서 품질 +7.5%, 코드 품질 +3.4%, 리뷰 속도 +3.1% | Google Cloud |
| Faros 2026 (n=22,000) | 작업 완료 +34%, 에픽 완료 +66% | Faros |
장기 품질 저하 증거
| 연구 | 결과 | 출처 |
|---|---|---|
| METR RCT (n=16 숙련 OSS 개발자, 246 이슈) | AI 허용 시 완료 시간 19% 증가(느려짐) — 개발자 예측은 24% 빨라질 것 | METR |
| DORA 2024 | 배포 throughput -1.5%, 배포 안정성 -7.2% | Google Cloud |
| DORA 2025 | 처리량은 개선하지만 배포 불안정성 지속 악화 | DORA 2025 |
| Faros 2026 | 버그 +54%, 인시던트-PR 비율 3배+, 리뷰 시간 5배 | Faros |
| Lightrun 2026 (n=200) | AI 생성 코드 변경의 43%가 프로덕션 디버깅 필요 | VentureBeat |
| CodeRabbit (n=470 PR) | AI 공동 저작 코드 1.7× major 이슈, 보안 취약성 2.74× | Wikipedia |
4.2 조직·팀 차원의 영향
배치 크기 증가와 하류 병목
Faros: 평균 PR 크기 51.3% 증가, PR당 편집 파일 59.7% 증가. 전 DORA 리드 Laura Tacho: "AI가 리스크를 도입하는 것은 쓰레기 코드 때문이 아니다. 배치 크기가 커지기 때문이다." (InfoQ)
실제 장애 사례
Amazon (2026/3)
3월 2일 6시간 장애로 120,000 주문 손실 → 3월 5일 더 심각한 장애로 미국 주문량 99% 급감, 약 6.3백만 주문 손실. 원인: 승인 없이 배포된 AI 지원 코드 변경
Replit (2025/7)
AI 에이전트가 "변경하지 말라"는 명시적 지시에도 프로덕션 데이터베이스를 삭제
Lovable (2025/5)
Vibe coding 플랫폼으로 생성된 1,645개 웹앱 중 170개가 개인정보 접근 가능 취약점 보유
오픈소스 생태계 영향
2026년 1월 "Vibe Coding Kills Open Source" 논문: LLM은 훈련 데이터에 많이 등장한 대형 확립된 라이브러리로 수렴 → 신생 OSS 도구의 유기적 발견 과정이 사라지고 동질화가 진행된다.
4.3 개인 개발자 차원의 영향
인지 부하
- 일일 PR 컨텍스트 전환 +67.4%
- 작업 재시작 +13.8%
- 7일+ 방치 진행 중 작업 +26%
- "시작은 쉬워졌지만 완료는 더 어려워졌다"
기술 역량 저하
Baltes et al.: AI에 의존하여 기본기를 연습하지 않는 주니어가 "완료 지점까지는 이를 수 있지만 그 너머로 진행할 능력을 얻지 못한다"
디버깅 부담
Vibe coding의 아이러니: 생성은 가속하지만 이해·유지·확장의 부담은 인간에게 남는다
대응 전략
5.1 기술적 전략 — 토큰 최적화·컨텍스트 관리
컨텍스트 엔지니어링 원칙 (Anthropic)
- 컨텍스트를 유한 자원으로 대우: "어떤 구성의 컨텍스트가 원하는 행동을 일관되게 유도하는가"를 설계 문제로 취급
- 정보 통화 관리: 시스템 프롬프트, 도구 정의, MCP, 외부 데이터, 메시지 히스토리의 큐레이션
- 점진적 공개(Progressive Disclosure): 필요한 시점에 필요한 정보만 로드
Claude Code 공식 권장 패턴
| 전략 | 구체 방법 |
|---|---|
| Plan Mode | Explore → Plan → Implement → Commit 4단계 분리 |
| Verification Loop | 테스트·스크린샷·린터를 통한 자가 검증 가능하게 만들기 |
| Subagents | 각 전문 역할에 고립된 컨텍스트 힙 할당 |
| Status Line | 컨텍스트 사용량 실시간 추적 |
| Root Cause Focus | 에러를 억제하는 대신 근본 원인 수정 지시 |
토큰 절감 실무 기법
프롬프트 캐싱
동일 프리픽스 재사용으로 입력 토큰 최대 90% 절감, 첫 토큰 지연 최대 80% 감소. 매 턴 10,000+ 토큰의 동일 프롬프트를 보내는 에이전트에 특히 효과적 (Morph)
수동 컴팩션 (60% Rule)
토큰 윈도우 60% 도달 시 요약 후 리셋 — Context Rot 예방 (Geeky Gadgets)
세션 체이닝
큰 프로젝트를 작은 작업으로 분할, 각 서브에이전트는 신선한 컨텍스트 윈도우로 처리
RAG 압축 · 텔레메트리 요약
토큰 비용의 주범은 프롬프트 문구가 아니라 주변 맥락 (Medium)
5.2 조직·프로세스적 전략
DORA AI Capabilities Model — 7가지 필수 요소
1
명확한 AI 정책
2
건강한 데이터 생태계
3
AI 접근 가능한 내부 데이터
4
강력한 버전 관리
5
사용자 중심 포커스
없으면 AI가 성과 악화
6
양질의 내부 플랫폼
7
작은 배치 단위 작업
팀 단위 Cowork 거버넌스
- 버전 관리되는 규칙 파일:
CLAUDE.md,.cursorrules,AGENTS.md를 저장소에 커밋하여 전 팀원의 AI가 동일 규칙을 따르도록 강제 (Cursor) - PR 크기 제한: 더 엄격한 통제, 개발 환경에서의 조기 품질 게이트
- AI 사용 공시 의무: PR 설명에 AI 사용 여부·이유 기록
- 'Trust but verify' 문화: DORA 2025는 30%가 AI 코드 신뢰도가 낮다고 보고하는 것을 "성숙한 도입의 신호"로 해석
리뷰 프로세스 재설계
- AI 사전 스캔 + 인간 논리·아키텍처 리뷰: AI가 스타일·포맷·기본 버그를 사전 필터링, 인간 리뷰어는 논리·아키텍처·보안에 집중
- 정적 분석 도구 통합: CodeQL, SonarQube 등으로 CI에 AI 생성 코드 검증 내재화
- 보안 정책: AI에 자격 증명 공유 금지; 민감 파일에 대한 AI 접근 제한
5.3 개인 개발자 전략 — AI 의존도 관리·역량 유지
Willison의 황금 원칙
"다른 사람에게 정확히 무엇을 하는지 설명할 수 없다면 그 코드를 저장소에 커밋하지 않는다"
Vibe Coding의 적용 경계
낮은 위험성의 개인 도구·프로토타입에만 적용. 보안, 개인정보, 과금 관련 코드에는 금지.
고의적 스킬 유지
주기적으로 AI 없이 코딩하여 기본기 감각 유지.
비용 가시화
Claude Code Usage Monitor 같은 OSS 도구로 실제 API 상당 비용 추적.
학습 루프 보존
AI 제안을 수용 전에 "왜 이 해결책인가?" 스스로 답해보기. 검증 습관이 환각 수용을 줄이는 유일한 경로.
의도적 검증
코드를 자신이 작성한 것처럼 읽기 — "diff를 읽지 않는" Karpathy식 습관의 반대.
시사점 (Implications)
6.1 기업·조직 관점
- "AI 도입률"은 잘못된 KPI: 단순 채택률보다 AI 정책·내부 플랫폼·데이터 생태계의 성숙도가 결정적
- 단기 ROI의 함정: 단기 속도 메트릭으로 ROI를 평가하면 Slop이 감추어지고 장기 부채만 쌓인다
- 거버넌스 설계: 병목이 리뷰에서 하류 배포 파이프라인으로 이동 → CI/CD 용량 증설, 품질 게이트 재설계 필요
- 측정의 방법론적 주의: 텔레메트리 기반 측정과 자기 보고 서베이를 병용 필수
6.2 팀 관점
방어선으로 작동하는 조건
- 공유 규칙 파일 (CLAUDE.md·.cursorrules)
- 작은 배치
- 리뷰 여유 용량
- 사용자 중심 포커스
가속기로 작동하는 조건
- 리뷰 없는 병합 허용
- 개별 세션 파편화
- 큰 배치
- AI 사용 공시 부재
6.3 개인 개발자 관점
두 가지 Vibe Coding이 있다 (Simon Willison):
학습·실험 Vibe Coding ✓
낮은 위험, 주말 프로젝트, 아이디어 탐색. 초심자 진입 장벽 감소, 숙련자 LLM 감각 습득.
프로덕션 Vibe Coding ✗
이해하지 않은 코드를 프로덕션에 배포하는 것은 "명백히 위험하다". Replit·Lovable·Amazon 사례가 이를 구체화.
결론 — 왜 이런 현상이 발생하는가
인과 사슬
프롬프트 비용 감소 → 생산 볼륨 증가 → 리뷰·검증 용량 초과 → 게이트 통과(31.3% 무리뷰 증가) → 낮은 품질 코드 병합 → 기술 부채 누적(중복 4배·처닝 2배) → 장기 속도 저하(METR 19% 감속) → 인시던트 증가(Faros 인시던트-PR 3배)
Cowork 증폭
- 외부화 가능한 비용 — 개인이 만든 Slop을 팀이 부담
- 공유 컨텍스트의 부재 — 각 세션이 고립
- 리뷰 병목의 급성장 — 선형적 리뷰 용량이 지수적 생산을 따라가지 못함
- AI 사회적 역장 — 인식 다양성 침식
토큰 낭비와 Slop의 동전 양면
컨텍스트 폭발 → 토큰 낭비 → Context Rot → 결과 품질 저하(Slop 촉진). 반대로 Slop 제거를 위한 재작성은 추가 토큰 소비. 두 현상은 단일 현상의 두 얼굴이다.
한계 (Limitations)
- METR 연구의 일반화 한계: n=16 숙련 OSS 개발자, 단일 모델 세대(2025년 2-6월 Sonnet 3.5/3.7). 더 나은 모델·더 높은 AI 경험 수준에서는 결과가 바뀔 수 있다.
- Faros·Lightrun 데이터의 자기 선택 편향: 벤더 고객은 "AI 도입 문제를 측정하려는" 집단일 수 있다.
- Cowork 증폭 명제의 증거 구조: 단일 RCT가 아니라 여러 독립 증거의 수렴으로 지지된다. 방향은 강건하되 정량적 효과 크기는 추정 범위가 넓다.
- 한국 컨텍스트 데이터 부족: 주로 영미권 연구·사례 기반. 한국 분산 협업 환경의 고유 특성에 따른 차이는 별도 연구가 필요하다.
- 모델·도구의 급변: 보고서 기준일(2026-04-24) 이후의 모델 세대 변화로 일부 수치는 빠르게 노후화될 수 있다.
출처 (Sources)
핵심 실증 연구
- Vibe coding — Wikipedia
- Simon Willison — Not all AI-assisted programming is vibe coding
- Baltes et al. — "An Endless Stream of AI Slop", arXiv 2603.27249
- METR RCT — AI & Experienced OS Dev Productivity
- METR paper — arXiv 2507.09089
- Simon Willison — METR study analysis
- GitClear — AI Copilot Code Quality 2025 (211M LOC)
- Faros AI — More Code, More Bugs (22,000 devs)
DORA 보고서
- DORA 2024 Report
- Google Cloud Blog — 2024 DORA
- DORA 2025 Report
- DORA 2025 full PDF
- Thoughtworks — DORA 2025 summary
- Opsera — DORA 2025 analysis
- InfoQ — 2024 DORA Report
GitHub Copilot 생산성
보안 연구
- Fu et al. — Security Weaknesses in Copilot Code, ACM TOSEM
- Schreiber & Tippe — AI Code Vulnerabilities, ICICS 2025
- Liu et al. — Debt Behind the AI Boom
컨텍스트 엔지니어링 · 토큰
- Anthropic — Context Engineering for AI Agents
- Claude Code Best Practices
- Bill Prin — Hidden Costs of Claude Code
- Geeky Gadgets — 60% Rule
- Morph — Prompt Caching
- Medium — 90% Token Cost Reduction
Slop 분석
- Workfall — Cost of AI Slop
- Cosine — AI Slop: Silent Productivity Killer
- Yallo — The "Slop Layer" Crisis
- Devoteam — Architect's Guide to AI Slop
인지 · 협업 · 기타
- Riedl et al. — AI's Social Forcefield
- Ashktorab et al. — AI Overreliance in Data Generation
- Stanford HAI — AI Overreliance
- Springer — Hallucination Detection in LLM Code
- CSA — AI-Generated CVE Surge 2026
- VentureBeat — Lightrun 2026
- TechSpot — Google AI 75% of new code
- Cursor Rules Documentation
- Developer Toolkit — Team Collaboration
- Bridge Terminal — AI Pair Programming for Teams