[AOAI] LLM 모델 마이그레이션 가이드 — GPT-4o mini → GPT-5.4 mini / nano

왜 전환이 필요한가

Azure OpenAI GA 모델은 출시 후 12개월 지원 → 6개월 유예 → 은퇴. 은퇴된 배포는 호출 시 오류를 반환합니다.

운영 중인 gpt-4o-mini가 있다면 지금이 전환 시점입니다. gpt-4o-mini (2024-07-18)는 이미 deprecated — 배포 타입에 따라 2026-03-31 ~ 2026-10-01 사이에 자동 은퇴됩니다.

그런데 "모델 이름만 바꾸면" 되지 않는 이유

실제로 깨지는 것들

도구를 호출해야 하는데 자연어로 답해버림
JSON 대신 자유 텍스트를 섞어서 반환
필드명, enum 값, 타입이 미세하게 바뀜
불필요하게 긴 응답 또는 누락된 단계 발생

교체 시 흔한 오해

"프롬프트만 복사하면 동일하게 동작할 것"
"모델이 좋아졌으니 기존 검증 로직이 필요 없을 것"
"출력 형식은 어차피 비슷할 것"
"툴 호출도 알아서 맞춰줄 것"

핵심 인사이트 — 안정적인 모델 전환은 모델 선택 문제가 아니라 애플리케이션 계약(contract)을 모델 밖으로 꺼내는 엔지니어링 문제입니다.

은퇴 일정 (공식 문서 기준)

MS Learn 모델 은퇴 문서 최신 일정.

모델	버전	상태	Deprecation	Retirement	대체
`gpt-4o-mini`	2024-07-18	Deprecated	2025-07-18	Standard: 2026-03-31 Global: 2026-10-01	`gpt-4.1-mini`
`gpt-4o`	2024-08-06	Deprecated	2025-08-06	2026-03-31 / 2026-10-01	`gpt-5.1`
`gpt-4.1-mini`	2025-04-14	GA	2026-04-14	2026-10-14	`gpt-5-mini`
`gpt-5-mini`	2025-08-07	GA	2026-08-07	2027-02-06	본 가이드 제외
`gpt-5.4-mini`	2026-03-17	GA	2027-03-17	2027-09-17	—
`gpt-5.4-nano`	2026-03-17	GA	2027-03-17	2027-09-17	—

가격 비교 & 후보 선정

Azure OpenAI Global Standard 1M 토큰당 USD (2026-04, Azure / OpenAI 기준).

모델	Input	Cached	Output	Reasoning	출시
`gpt-4o-mini` 소스	$0.15	$0.075	$0.60	없음	2024-07
`gpt-5-mini` 제외	$0.25	$0.03	$2.00	reasoning	2025-08
`gpt-5.4-nano` 후보 A	$0.20	$0.02	$1.25	reasoning	2026-03
`gpt-5.4-mini` 후보 B	$0.75	$0.075	$4.50	reasoning	2026-03

gpt-5-mini 제외 사유 — Output $2.00 > nano $1.25, 중간 세대(2025-08)라 재전환 부담, 후보를 5.4 세대로 좁혀 평가 단순화.

월 1억 토큰 비용 시뮬레이션 (Input 70% · Output 30%)

모델	Input 7천만	Output 3천만	월 합계	대비
`gpt-4o-mini`	$10.50	$18.00	$28.50	1.0×
`gpt-5.4-nano`	$14.00	$37.50	$51.50	≈ 1.8×
`gpt-5.4-mini`	$52.50	$135.00	$187.50	≈ 6.6×

reasoning_tokens도 output 과금. 내부 추론 토큰이 합산되므로 실제 비용은 위 표보다 커질 수 있습니다.

mini vs nano — 어느 쪽으로 갈까

nano 먼저 평가 → 통과하면 채택, 못 넘기면 mini 승급 cascade 전략.

`gpt-5.4-nano`

분류 · 태깅 · 추출 · 짧은 요약 · Q&A
도구 호출 · 실시간 UX · 대량 배치
예산 민감한 PoC · 내부 서비스

`gpt-5.4-mini` 승급

다단계 추론 · 긴 요약 · 코드 생성
복잡한 구조화 출력 · 다국어 뉘앙스
nano 통과율 < 90% 규제/금융 업무

Router 패턴 — nano(기본) → mini(escalation) 라우팅으로 평균 비용 nano 수준 유지. Azure model-router 또는 Prompt Flow 분기 노드로 구현.

핵심 변경사항 & 파라미터 매핑

gpt-4o-mini(일반 chat) → gpt-5.4(reasoning). 파라미터 삭제 · 추가 · 리네임 + API 체계 변경 + 역할 변경이 동시에 발생합니다.

파라미터	gpt-4o-mini	gpt-5.4 (reasoning)	조치
`temperature`	0 ~ 2	미지원 (고정 1.0)	삭제
`top_p`	0 ~ 1	미지원	삭제
`presence_penalty` `frequency_penalty`	-2 ~ 2	미지원	삭제
`logprobs` `logit_bias`	지원	미지원	삭제
`max_tokens`	지원	미지원	리네임 Chat: `max_completion_tokens` Resp: `max_output_tokens`
`role: system`	권장	호환	→ `developer`
`reasoning_effort`	—	none ~ high	추가
`verbosity`	—	low / med / high	추가 (선택)
base URL	`.../deployments/{name}/chat/completions?api-version=…`	`.../openai/v1/`	변경

결정성 감소에 주의. temperature가 1.0으로 고정되어 동일 입력에도 출력이 달라집니다. 평가는 문자열 비교가 아닌 의미 기반 비교로 전환해야 합니다.

왜 "전환 플랫폼"이 필요한가

업계는 거의 예외 없이 아래 4축으로 문제를 해결합니다. 단일 만능 도구보다 전환 계층 + 구조화 출력 + 검증 + 평가를 조합하는 방식이 일반적입니다.

축	역할	왜 필요한가
모델 추상화	여러 모델/벤더를 공통 API로 감싸고 라우팅·폴백·재시도 관리	모델 이름 변경이 앱 전체 변경으로 번지지 않게 함
구조화 출력	JSON Schema, typed object, tool schema로 계약 고정	모델 간 표현 차이를 줄이고 후처리 복잡도를 낮춤
가드레일	유효성 검사, 재질문, 수정, 차단 규칙을 별도 계층에서 운영	스키마는 맞는데 의미가 틀린 출력, 위험한 툴 호출을 차단
평가·회귀 테스트	모델 변경 전후를 동일 테스트셋으로 비교	"안정적으로 유지됐다"를 감이 아니라 수치로 검증

전환 계층 아키텍처 — 모델 위에 4-Layer

애플리케이션은 모델 세부 차이를 직접 알 필요 없이, 계약과 품질 기준만 유지하면 됩니다.

Layer 1
Gateway

provider 차이 은닉
라우팅 · 폴백 · 로그

Layer 2
Schema

출력 형식과 툴 인자
계약 강제

Layer 3
Guardrails

검증 · 재질문 · 수정
차단 규칙

Layer 4
Evals

회귀 테스트
비용 · 지연 비교

데이터 흐름 — 클라이언트 요청 → Gateway(모델 선택) → 프롬프트 템플릿/정책 주입 → 구조화 출력 또는 툴 호출 → Validator 검사 → 실패 시 re-ask/fix/fallback → 최종 응답 저장 + 평가 로그.

왜 Gateway가 중요한가

벤더별 API 차이와 인증 방식 은닉
에러 코드, 재시도, 타임아웃 정책 중앙화
모델별 비용·지연·정확도 로그 한곳에서 비교
nano/mini 라우팅이 쉬움

왜 스키마가 중요한가

모델 교체 후에도 파서가 안 깨짐
툴 인자 이름과 타입을 계약으로 강제
테스트 자동화가 쉬워짐
실패 원인을 "의미 오류"와 "형식 오류"로 분리 가능

5단계 전환 프로세스

좌측 사이드바 타임라인이 스크롤에 따라 진행 상태를 표시합니다.

1

현재 계약을 추출한다 (Baseline)

시스템 프롬프트, 툴 정의, 필드명, enum, 실패 처리 규칙, 성공 기준을 문서화합니다. 이 작업 없이 모델만 바꾸면 회귀 여부를 판단할 기준이 없습니다.
운영 앱에서 대표 시나리오 50~200건의 (system, user, completion) 트리플을 수집 → Golden Set 고정.
포함 필수: Q&A, 문서 요약, 도구 호출, 구조화 출력, 엣지 케이스(금칙어 · 다국어 · 긴 컨텍스트).

2

출력과 도구를 스키마로 고정한다

"답변을 JSON으로 주세요" 수준이 아니라, required fields · enum · 중첩 구조 · 타입을 명시한 JSON Schema를 사용해야 합니다.
OpenAI Structured Outputs 또는 Instructor 라이브러리를 사용해 스키마 준수를 강제합니다.
파라미터 변환 스크립트 적용: temperature 등 삭제, max_tokens 리네임, reasoning_effort 추가, v1 API 엔드포인트 전환.

작은 모델일수록 더 명시적인 프롬프트가 필요합니다. nano/mini는 steerability가 높지만, 누락된 단계나 모호한 지시를 덜 보완해주므로 단계 나열, 툴 사용 조건, 금지 조건, 출력 순서, 누락 시 행동을 더 명시적으로 써야 합니다.

3

프롬프트 variant를 만들어 테스트한다

기존 프롬프트를 그대로 재사용하는 것은 위험합니다. 모델군별 프롬프트 variant를 만들어야 합니다.
Golden Set을 baseline(gpt-4o-mini) + candidate(nano/mini)에 Dual-Run 동시 호출.
Azure Functions Durable / Prompt Flow로 비동기 배치 실행, 각 호출의 latency · tokens · raw JSON 모두 저장.

4

자동 평가 + 휴먼 리뷰 (Human-in-the-Loop)

Semantic Similarity

유사도 ≥ 0.85

LLM-as-Judge

Foundry Evaluations

Structured Match

JSON 스키마 검증

자동: Foundry Evaluations SDK로 groundedness · similarity · coherence · relevance 점수 산출.
휴먼: 임계값 미만만 리뷰 큐 → side-by-side diff UI → Accept / Reject / Edit.
Reject 시 프롬프트 또는 reasoning_effort 조정 후 Step 3 루프. 통과율 ≥ 95% 목표.

5

회귀 테스트 + 점진 롤아웃 (Canary)

새 모델을 전체에 바로 적용하지 말고, 일부 트래픽만 전환해 스키마 준수율 · 툴 성공률 · 비용 · latency를 비교.
이전에 실패했던 케이스, 툴 인자 edge case, 긴 문맥, 다단계 추론, safety case를 회귀 테스트셋으로 CI에 등록.
프로덕션 5% → 25% → 100% 단계적 스위치. App Insights에서 모니터링.

무엇을 측정해야 "안정적"이라 할 수 있는가

아래 6종 지표가 이전 대비 유지되거나 개선되었는지로 전환 성공 여부를 판단합니다.

Task Success

정답률 · grader score
비즈니스 outcome

Schema Pass Rate

JSON schema 통과율
파싱 성공률

Tool Success

호출 성공률 · 인자 오류율
재시도율

Latency

p50 / p95 응답 시간

Cost per Task

호출당 비용
재시도 포함 실제 단가

Policy Violations

금지 응답 · 잘못된 툴 사용
누출 위험

평가 세트 구성 권장 — 정상 케이스 + 복잡 케이스(다단계 추론, 긴 문맥) + 툴 케이스(필수 호출, 인자 edge) + 안전 케이스(금지 요청, 민감 정보) + 회귀 케이스(과거 장애 입력).

피해야 할 안티패턴

안티패턴 1

시스템 프롬프트 하나만 길게 써두고 모든 모델에 공통 적용하기. 모델마다 지시 해석 성향이 다르므로 최소한 모델군별 variant가 필요합니다.

안티패턴 2

출력이 자연어여도 후처리에서 대충 파싱하면 된다고 생각하기. 전환 비용과 장애 가능성을 가장 크게 키우는 방식입니다.

안티패턴 3

라우팅과 fallback 없이 한 모델만 단일 의존점으로 사용. 가격 · 성능 · 안정성 변동이 바로 서비스 장애로 이어집니다.

안티패턴 4

평가를 사람이 몇 번 눈으로 확인하는 수준에 머무르게 하기. 회귀 테스트가 없으면 "안정성 유지"를 재현 가능하게 증명할 수 없습니다.

도구 생태계 — Azure + 오픈소스

"플랫폼 하나로 끝내기"보다 라우팅용 1개 + 구조화용 1개 + 평가용 1개를 조합하는 구성이 더 안정적입니다.

A. 전환/라우팅 중심

Azure API Management — Gateway 정책, 429 재시도, 모델 라우팅
LiteLLM — 100+ provider 공통 인터페이스, fallback
Portkey / OpenRouter — provider 간 전환, 비용 추적

B. 구조화 출력 중심

OpenAI Structured Outputs — 네이티브 JSON Schema 강제
Instructor — Pydantic 모델 → 자동 스키마 생성 + retry
BAML — 타입 안전 LLM 함수 정의

C. 검증/가드레일 중심

Guardrails AI — validator 실패 시 re-ask/fix/reject
Azure AI Content Safety — 안전성 검증

D. 평가/회귀 중심

Azure AI Foundry Evaluations — built-in evaluator + multi-model 동시 평가
Promptfoo — CI/CD 통합 회귀, 커스텀 grader
LangSmith — 분산 추적 + golden set 비교
VS Code AI Toolkit — 로컬 multi-model playground

실전 워크플로우 ① 로컬: VS Code AI Toolkit에서 대표 10건을 3개 모델로 비교. ② 클라우드: Foundry Evaluations에서 200건 배치 평가 → 정량 점수. ③ CI: Promptfoo 또는 azure-ai-evaluation SDK로 야간 회귀 자동 검증.

Before / After 코드 비교

gpt-4o-mini → gpt-5.4-mini/gpt-5.4-nano. 모델 이름만 바꾸면 동일 코드.

Before — gpt-4o-mini

Python · AzureOpenAI (기존)

from openai import AzureOpenAI

client = AzureOpenAI(
    azure_endpoint="https://my-aoai.openai.azure.com/",
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    api_version="2024-10-01-preview",
)

resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user",   "content": user_input},
    ],
    temperature=0.2,
    top_p=0.9,
    max_tokens=1024,
    presence_penalty=0.0,
)
print(resp.choices[0].message.content)

After — gpt-5.4-mini / nano (v1 + Responses)

Python · OpenAI v1 + Entra ID

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(
    base_url="https://my-aoai.openai.azure.com/openai/v1/",
    api_key=token_provider,
)

resp = client.responses.create(
    model="gpt-5.4-mini",           # 또는 "gpt-5.4-nano"
    input=[
        {"role": "developer", "content": SYSTEM_PROMPT},
        {"role": "user",      "content": user_input},
    ],
    # temperature / top_p / presence_penalty 삭제
    max_output_tokens=2048,
    reasoning={"effort": "none"},
    text={"verbosity": "low"},
)
print(resp.output_text)

권장 Azure 서비스 스택

계층	서비스	역할
Gateway	Azure API Management	모델 라우팅 · 429 재시도 · 폴백 정책 · 로깅
모델	Azure OpenAI in Foundry	baseline + candidate nano + candidate mini (배포 3개)
스키마	OpenAI Structured Outputs / Instructor	JSON Schema 강제 · typed object
가드레일	Guardrails AI / Content Safety	validator · re-ask · fix · 안전성 검증
평가	Foundry Evaluations / Promptfoo	built-in evaluator · CI 회귀 게이트
오케스트레이션	Functions (Durable) / Prompt Flow	Dual-Run 비동기 배치
데이터	Cosmos DB for NoSQL	Golden Set · 실행 이력 (파티션 키: `scenario_id`)
관측	App Insights + Log Analytics	latency · token · 6종 지표 KQL 대시보드
보안	Entra ID + Key Vault	DefaultAzureCredential · 키 제거
CI/CD	GitHub Actions	야간 회귀 평가 · 배포 승인 게이트

전환 체크리스트

준비

[ ] 현재 모델/버전/API 인벤토리
[ ] 은퇴 일정 대비 여유 ≥ 60일
[ ] 현재 계약(프롬프트 · 도구 · 규칙) 문서화
[ ] Golden Set 50건 이상 수집
[ ] 신규 모델 배포 (GA 리전)

플랫폼

[ ] JSON Schema / Structured Outputs 적용
[ ] 모델군별 프롬프트 variant 작성
[ ] Gateway 라우팅 + 폴백 구성
[ ] 가드레일(validator · re-ask) 연결
[ ] Entra ID 역할 부여

검증 · 롤아웃

[ ] 파라미터 변환 스크립트 유닛 테스트
[ ] nano 먼저 → 실패 시 mini 승급
[ ] 6종 지표 기준선 대비 달성
[ ] 휴먼 Accept ≥ 95%
[ ] 회귀 CI 등록 · canary 5→25→100%
[ ] App Insights 대시보드 모니터링

Azure OpenAI 모델 마이그레이션GPT-4o mini → GPT-5.4 mini / nano 전환 가이드

왜 전환이 필요한가

그런데 "모델 이름만 바꾸면" 되지 않는 이유

실제로 깨지는 것들

교체 시 흔한 오해

은퇴 일정 (공식 문서 기준)

가격 비교 & 후보 선정

월 1억 토큰 비용 시뮬레이션 (Input 70% · Output 30%)

mini vs nano — 어느 쪽으로 갈까

gpt-5.4-nano

gpt-5.4-mini 승급

핵심 변경사항 & 파라미터 매핑

왜 "전환 플랫폼"이 필요한가

전환 계층 아키텍처 — 모델 위에 4-Layer

Layer 1Gateway

Layer 2Schema

Layer 3Guardrails

Layer 4Evals

왜 Gateway가 중요한가

왜 스키마가 중요한가

5단계 전환 프로세스

현재 계약을 추출한다 (Baseline)

출력과 도구를 스키마로 고정한다

프롬프트 variant를 만들어 테스트한다

자동 평가 + 휴먼 리뷰 (Human-in-the-Loop)

Semantic Similarity

LLM-as-Judge

Structured Match

회귀 테스트 + 점진 롤아웃 (Canary)

무엇을 측정해야 "안정적"이라 할 수 있는가

Task Success

Schema Pass Rate

Tool Success

Latency

Cost per Task

Policy Violations

피해야 할 안티패턴

안티패턴 1

안티패턴 2

안티패턴 3

안티패턴 4

도구 생태계 — Azure + 오픈소스

A. 전환/라우팅 중심

B. 구조화 출력 중심

C. 검증/가드레일 중심

D. 평가/회귀 중심

Before / After 코드 비교

Before — gpt-4o-mini

After — gpt-5.4-mini / nano (v1 + Responses)

권장 Azure 서비스 스택

전환 체크리스트

준비

플랫폼

검증 · 롤아웃

참고 자료

Azure / Microsoft

OpenAI / 오픈소스

Azure OpenAI 모델 마이그레이션
GPT-4o mini → GPT-5.4 mini / nano 전환 가이드

`gpt-5.4-nano`

`gpt-5.4-mini` 승급

Layer 1
Gateway

Layer 2
Schema

Layer 3
Guardrails

Layer 4
Evals