Blog Home

OpenRouter 모델 추론 가격은 왜 싯가인가?

부제
AI Inference Infra Landscape 정리
작성일
2026/03/12

OpenRouter vs Replicate (그리고 멀티모달 Routing의 가능성)

최근 AI 서비스 인프라는 단순히 모델을 만드는 회사뿐 아니라, 모델을 연결하고 실행하는 플랫폼 레이어가 빠르게 성장하고 있다.
대표적인 예가 다음 두 회사이다.
OpenRouter
Replicate
둘 다 AI 모델을 API로 제공하는 플랫폼이지만, 실제 역할과 사업 구조는 상당히 다르다.
이 글에서는 다음 내용을 정리한다.
1.
OpenRouter 구조
2.
Replicate 구조
3.
두 회사의 차이
4.
AI infra stack에서의 위치
5.
멀티모달 routing이 아직 없는 이유

1. OpenRouter

핵심 아이디어

OpenRouter는 한 문장으로 설명하면
여러 AI 모델을 하나의 API로 연결해주는 Router / Marketplace
개발자가 여러 모델을 사용하려면 보통 다음 API들을 각각 사용해야 한다.
OpenAI API Anthropic API Google API Mistral API DeepSeek API Qwen API
Plain Text
복사
OpenRouter는 이것을 다음처럼 통합한다.
client app ↓ OpenRouter API ↓ routing engine ↓ model providers
Plain Text
복사
LLM을 위한 API Gateway 역할이다.

OpenRouter 구조

Layer
역할
Application
Cursor, agents, SaaS
OpenRouter
model routing
Provider
Together, Groq, Bedrock
GPU infra
GPU cluster
Model
LLM
중요한 점:
OpenRouter는 대부분 GPU를 직접 운영하지 않는다
실제 inference는 외부 provider가 수행한다.
대표 provider:
Together AI
Fireworks
Groq
Nebius
AWS Bedrock
Azure

OpenRouter Router가 하는 일

Router는 다음 기준으로 provider를 선택한다.
기준
의미
Price
token cost
Latency
first token latency
Throughput
tokens/sec
Availability
uptime
Capacity
queue 상태
예시
Claude 요청 ↓ Bedrock latency 높음 ↓ Anthropic endpoint 선택
Plain Text
복사
또는
DeepSeek ↓ cheapest provider 선택
Plain Text
복사

OpenRouter Business Model

수익 구조는 단순하다.
user payment ↓ provider cost ↓ OpenRouter margin
Plain Text
복사
항목
금액
User payment
$1
Provider
$0.95
OpenRouter
$0.05
Inference marketplace margin 모델이다.

2. Replicate

핵심 아이디어

Replicate는 다음과 같은 플랫폼이다.
AI 모델을 컨테이너 형태로 실행하고 API로 제공하는 플랫폼
구조는 다음과 같다.
model developer ↓ Replicate ↓ GPU execution ↓ API endpoint
Plain Text
복사
즉 Replicate는
모델 hosting + GPU execution
플랫폼이다.

Replicate 구조

Layer
역할
Application
AI apps
Replicate API
execution control
GPU cluster
compute
Model container
inference
Replicate는 Cog라는 툴을 사용해 모델을 패키징한다.
model code ↓ Cog container ↓ Replicate runtime ↓ GPU inference
Plain Text
복사
Cog는 사실상
AI 모델용 Docker
와 비슷한 개념이다.

Replicate Billing

Replicate는 대부분 GPU usage 기반 과금이다.
GPU
가격
A100
~$0.0007 / sec
H100
~$0.0015 / sec
예시
image generation GPU 3 sec 사용 ≈ $0.002
Plain Text
복사

Replicate Marketplace

Replicate에는 다음 두 종류 모델이 있다.

Open source models

Stable Diffusion
Flux
Whisper
LLaMA

Creator models

연구자나 개발자가 직접 업로드
user/anime-style-transfer research-lab/video-model
Plain Text
복사
AI 모델 distribution marketplace
이다.

3. OpenRouter vs Replicate

두 플랫폼의 핵심 차이는 다음과 같다.
항목
OpenRouter
Replicate
역할
model router
model host
GPU 운영
없음
있음
모델 공급
external providers
creators
주요 모델
frontier LLM
OSS ML models
과금 방식
token
GPU time
주요 고객
AI agents
AI apps

아키텍처 비교

OpenRouter

Application ↓ OpenRouter ↓ Provider ↓ GPU
Plain Text
복사

Replicate

Application ↓ Replicate ↓ GPU ↓ Model container
Plain Text
복사
플랫폼
역할
OpenRouter
network layer
Replicate
compute layer

4. AI Infra Stack에서의 위치

현재 AI infra stack은 대략 다음과 같다.
Application ↓ Agent frameworks ↓ Model router ↓ Inference providers ↓ GPU clusters ↓ Model weights
Plain Text
복사
예시
Layer
회사
Application
Cursor
Agent framework
LangChain
Router
OpenRouter
Provider
Together
GPU
NVIDIA
Model
DeepSeek
Replicate는 여기서 다음 위치에 있다.
Application ↓ Replicate ↓ GPU ↓ Model
Plain Text
복사
model execution layer이다.

5. Multimodal Routing이 아직 없는 이유

현재 router는 대부분 LLM routing이다.
멀티모달 routing은 아직 거의 없다.
그 이유는 다음과 같다.

1. Task space explosion

LLM은 대부분
text → text
Plain Text
복사
이다.
하지만 multimodal은
Task
모델
OCR
OCR model
Caption
VLM
Grounding
detection model
Segmentation
SAM
Video QA
video VLM
즉 router가 해야 할 일이
model routing + task routing
Plain Text
복사
이 된다.

2. API 표준 부재

텍스트 LLM은 사실상
OpenAI API가 표준이 되었다.
하지만 멀티모달은
회사
API
Google
parts
OpenAI
content array
Anthropic
attachments
Qwen
image_url
형식이 모두 다르다.

3. 경제성

멀티모달 inference는 더 비싸다.
task
cost
LLM
$
VLM
$$
Video VLM
$$$
그래서 routing으로 절약되는 비용이 상대적으로 작다.

4. 수요

현재 AI 트래픽 대부분은
coding agents
chatbots
text generation
text LLM 중심이다.
멀티모달 트래픽은 아직 작다.

6. Insight

현재 AI infra를 보면
영역
상태
LLM hosting
crowded
LLM routing
emerging
Multimodal hosting
growing
Multimodal routing
mostly empty
즉 다음과 같은 영역이 아직 비어 있다.
multimodal orchestration layer
Plain Text
복사
image ↓ OCR ↓ VLM ↓ grounding ↓ reasoning
Plain Text
복사
같은 pipeline을 자동으로 구성하는 레이어이다.

결론

플랫폼
역할
OpenRouter
LLM traffic router
Replicate
ML compute platform
둘 다 AI 인프라에서 중요한 레이어지만 위치는 다르다.
그리고 앞으로 중요한 영역 중 하나는
multimodal model orchestration
일 가능성이 높다.

관련 글

짧은생각들
이름
URL
부제
작성일
소버린 AI는 모델 경쟁이 아니라 국가 인프라 경쟁이다
2026/03/11