OpenRouter vs Replicate (그리고 멀티모달 Routing의 가능성)
최근 AI 서비스 인프라는 단순히 모델을 만드는 회사뿐 아니라, 모델을 연결하고 실행하는 플랫폼 레이어가 빠르게 성장하고 있다.
대표적인 예가 다음 두 회사이다.
•
OpenRouter
•
Replicate
둘 다 AI 모델을 API로 제공하는 플랫폼이지만, 실제 역할과 사업 구조는 상당히 다르다.
이 글에서는 다음 내용을 정리한다.
1.
OpenRouter 구조
2.
Replicate 구조
3.
두 회사의 차이
4.
AI infra stack에서의 위치
5.
멀티모달 routing이 아직 없는 이유
1. OpenRouter
핵심 아이디어
OpenRouter는 한 문장으로 설명하면
여러 AI 모델을 하나의 API로 연결해주는 Router / Marketplace
개발자가 여러 모델을 사용하려면 보통 다음 API들을 각각 사용해야 한다.
OpenAI API
Anthropic API
Google API
Mistral API
DeepSeek API
Qwen API
Plain Text
복사
OpenRouter는 이것을 다음처럼 통합한다.
client app
↓
OpenRouter API
↓
routing engine
↓
model providers
Plain Text
복사
즉 LLM을 위한 API Gateway 역할이다.
OpenRouter 구조
Layer | 역할 |
Application | Cursor, agents, SaaS |
OpenRouter | model routing |
Provider | Together, Groq, Bedrock |
GPU infra | GPU cluster |
Model | LLM |
중요한 점:
OpenRouter는 대부분 GPU를 직접 운영하지 않는다
실제 inference는 외부 provider가 수행한다.
대표 provider:
•
Together AI
•
Fireworks
•
Groq
•
Nebius
•
AWS Bedrock
•
Azure
OpenRouter Router가 하는 일
Router는 다음 기준으로 provider를 선택한다.
기준 | 의미 |
Price | token cost |
Latency | first token latency |
Throughput | tokens/sec |
Availability | uptime |
Capacity | queue 상태 |
예시
Claude 요청
↓
Bedrock latency 높음
↓
Anthropic endpoint 선택
Plain Text
복사
또는
DeepSeek
↓
cheapest provider 선택
Plain Text
복사
OpenRouter Business Model
수익 구조는 단순하다.
user payment
↓
provider cost
↓
OpenRouter margin
Plain Text
복사
예
항목 | 금액 |
User payment | $1 |
Provider | $0.95 |
OpenRouter | $0.05 |
즉 Inference marketplace margin 모델이다.
2. Replicate
핵심 아이디어
Replicate는 다음과 같은 플랫폼이다.
AI 모델을 컨테이너 형태로 실행하고 API로 제공하는 플랫폼
구조는 다음과 같다.
model developer
↓
Replicate
↓
GPU execution
↓
API endpoint
Plain Text
복사
즉 Replicate는
모델 hosting + GPU execution
플랫폼이다.
Replicate 구조
Layer | 역할 |
Application | AI apps |
Replicate API | execution control |
GPU cluster | compute |
Model container | inference |
Replicate는 Cog라는 툴을 사용해 모델을 패키징한다.
model code
↓
Cog container
↓
Replicate runtime
↓
GPU inference
Plain Text
복사
Cog는 사실상
AI 모델용 Docker
와 비슷한 개념이다.
Replicate Billing
Replicate는 대부분 GPU usage 기반 과금이다.
예
GPU | 가격 |
A100 | ~$0.0007 / sec |
H100 | ~$0.0015 / sec |
예시
image generation
GPU 3 sec 사용
≈ $0.002
Plain Text
복사
Replicate Marketplace
Replicate에는 다음 두 종류 모델이 있다.
Open source models
예
•
Stable Diffusion
•
Flux
•
Whisper
•
LLaMA
Creator models
연구자나 개발자가 직접 업로드
예
user/anime-style-transfer
research-lab/video-model
Plain Text
복사
즉
AI 모델 distribution marketplace
이다.
3. OpenRouter vs Replicate
두 플랫폼의 핵심 차이는 다음과 같다.
항목 | OpenRouter | Replicate |
역할 | model router | model host |
GPU 운영 | 없음 | 있음 |
모델 공급 | external providers | creators |
주요 모델 | frontier LLM | OSS ML models |
과금 방식 | token | GPU time |
주요 고객 | AI agents | AI apps |
아키텍처 비교
OpenRouter
Application
↓
OpenRouter
↓
Provider
↓
GPU
Plain Text
복사
Replicate
Application
↓
Replicate
↓
GPU
↓
Model container
Plain Text
복사
즉
플랫폼 | 역할 |
OpenRouter | network layer |
Replicate | compute layer |
4. AI Infra Stack에서의 위치
현재 AI infra stack은 대략 다음과 같다.
Application
↓
Agent frameworks
↓
Model router
↓
Inference providers
↓
GPU clusters
↓
Model weights
Plain Text
복사
예시
Layer | 회사 |
Application | Cursor |
Agent framework | LangChain |
Router | OpenRouter |
Provider | Together |
GPU | NVIDIA |
Model | DeepSeek |
Replicate는 여기서 다음 위치에 있다.
Application
↓
Replicate
↓
GPU
↓
Model
Plain Text
복사
즉 model execution layer이다.
5. Multimodal Routing이 아직 없는 이유
현재 router는 대부분 LLM routing이다.
멀티모달 routing은 아직 거의 없다.
그 이유는 다음과 같다.
1. Task space explosion
LLM은 대부분
text → text
Plain Text
복사
이다.
하지만 multimodal은
Task | 모델 |
OCR | OCR model |
Caption | VLM |
Grounding | detection model |
Segmentation | SAM |
Video QA | video VLM |
즉 router가 해야 할 일이
model routing
+
task routing
Plain Text
복사
이 된다.
2. API 표준 부재
텍스트 LLM은 사실상
OpenAI API가 표준이 되었다.
하지만 멀티모달은
회사 | API |
Google | parts |
OpenAI | content array |
Anthropic | attachments |
Qwen | image_url |
형식이 모두 다르다.
3. 경제성
멀티모달 inference는 더 비싸다.
task | cost |
LLM | $ |
VLM | $$ |
Video VLM | $$$ |
그래서 routing으로 절약되는 비용이 상대적으로 작다.
4. 수요
현재 AI 트래픽 대부분은
•
coding agents
•
chatbots
•
text generation
즉 text LLM 중심이다.
멀티모달 트래픽은 아직 작다.
6. Insight
현재 AI infra를 보면
영역 | 상태 |
LLM hosting | crowded |
LLM routing | emerging |
Multimodal hosting | growing |
Multimodal routing | mostly empty |
즉 다음과 같은 영역이 아직 비어 있다.
multimodal orchestration layer
Plain Text
복사
예
image
↓
OCR
↓
VLM
↓
grounding
↓
reasoning
Plain Text
복사
같은 pipeline을 자동으로 구성하는 레이어이다.
결론
플랫폼 | 역할 |
OpenRouter | LLM traffic router |
Replicate | ML compute platform |
둘 다 AI 인프라에서 중요한 레이어지만 위치는 다르다.
그리고 앞으로 중요한 영역 중 하나는
multimodal model orchestration
일 가능성이 높다.
