OpenRouter 모델 추론 가격은 왜 싯가인가?

부제

AI Inference Infra Landscape 정리

URL

https://openrouter.ai/qwen/qwen3.5-27b/pricing

작성일

2026/03/12

OpenRouter vs Replicate (그리고 멀티모달 Routing의 가능성)

최근 AI 서비스 인프라는 단순히 모델을 만드는 회사뿐 아니라, 모델을 연결하고 실행하는 플랫폼 레이어가 빠르게 성장하고 있다.

대표적인 예가 다음 두 회사이다.

•

OpenRouter

•

Replicate

둘 다 AI 모델을 API로 제공하는 플랫폼이지만, 실제 역할과 사업 구조는 상당히 다르다.

이 글에서는 다음 내용을 정리한다.

OpenRouter 구조

Replicate 구조

두 회사의 차이

AI infra stack에서의 위치

멀티모달 routing이 아직 없는 이유

1. OpenRouter

핵심 아이디어

OpenRouter는 한 문장으로 설명하면

여러 AI 모델을 하나의 API로 연결해주는 Router / Marketplace

개발자가 여러 모델을 사용하려면 보통 다음 API들을 각각 사용해야 한다.

OpenAI API
Anthropic API
Google API
Mistral API
DeepSeek API
Qwen API
Plain Text
복사

OpenRouter는 이것을 다음처럼 통합한다.

client app
   ↓
OpenRouter API
   ↓
routing engine
   ↓
model providers
Plain Text
복사

즉 LLM을 위한 API Gateway 역할이다.

OpenRouter 구조

Layer	역할
Application	Cursor, agents, SaaS
OpenRouter	model routing
Provider	Together, Groq, Bedrock
GPU infra	GPU cluster
Model	LLM

중요한 점:

OpenRouter는 대부분 GPU를 직접 운영하지 않는다

실제 inference는 외부 provider가 수행한다.

대표 provider:

•

Together AI

•

Fireworks

•

Groq

•

Nebius

•

AWS Bedrock

•

Azure

OpenRouter Router가 하는 일

Router는 다음 기준으로 provider를 선택한다.

기준	의미
Price	token cost
Latency	first token latency
Throughput	tokens/sec
Availability	uptime
Capacity	queue 상태

예시

Claude 요청
↓
Bedrock latency 높음
↓
Anthropic endpoint 선택
Plain Text
복사

또는

DeepSeek
↓
cheapest provider 선택
Plain Text
복사

OpenRouter Business Model

수익 구조는 단순하다.

user payment
↓
provider cost
↓
OpenRouter margin
Plain Text
복사

예

항목	금액
User payment	$1
Provider	$0.95
OpenRouter	$0.05

즉 Inference marketplace margin 모델이다.

2. Replicate

핵심 아이디어

Replicate는 다음과 같은 플랫폼이다.

AI 모델을 컨테이너 형태로 실행하고 API로 제공하는 플랫폼

구조는 다음과 같다.

model developer
↓
Replicate
↓
GPU execution
↓
API endpoint
Plain Text
복사

즉 Replicate는

모델 hosting + GPU execution

플랫폼이다.

Replicate 구조

Layer	역할
Application	AI apps
Replicate API	execution control
GPU cluster	compute
Model container	inference

Replicate는 Cog라는 툴을 사용해 모델을 패키징한다.

model code
↓
Cog container
↓
Replicate runtime
↓
GPU inference
Plain Text
복사

Cog는 사실상

AI 모델용 Docker

와 비슷한 개념이다.

Replicate Billing

Replicate는 대부분 GPU usage 기반 과금이다.

예

GPU	가격
A100	~$0.0007 / sec
H100	~$0.0015 / sec

예시

image generation
GPU 3 sec 사용
≈ $0.002
Plain Text
복사

Replicate Marketplace

Replicate에는 다음 두 종류 모델이 있다.

Open source models

예

•

Stable Diffusion

•

Flux

•

Whisper

•

LLaMA

Creator models

연구자나 개발자가 직접 업로드

예

user/anime-style-transfer
research-lab/video-model
Plain Text
복사

즉

AI 모델 distribution marketplace

이다.

3. OpenRouter vs Replicate

두 플랫폼의 핵심 차이는 다음과 같다.

항목	OpenRouter	Replicate
역할	model router	model host
GPU 운영	없음	있음
모델 공급	external providers	creators
주요 모델	frontier LLM	OSS ML models
과금 방식	token	GPU time
주요 고객	AI agents	AI apps

아키텍처 비교

OpenRouter

Application
↓
OpenRouter
↓
Provider
↓
GPU
Plain Text
복사

Replicate

Application
↓
Replicate
↓
GPU
↓
Model container
Plain Text
복사

즉

플랫폼	역할
OpenRouter	network layer
Replicate	compute layer

4. AI Infra Stack에서의 위치

현재 AI infra stack은 대략 다음과 같다.

Application
↓
Agent frameworks
↓
Model router
↓
Inference providers
↓
GPU clusters
↓
Model weights
Plain Text
복사

예시

Layer	회사
Application	Cursor
Agent framework	LangChain
Router	OpenRouter
Provider	Together
GPU	NVIDIA
Model	DeepSeek

Replicate는 여기서 다음 위치에 있다.

Application
↓
Replicate
↓
GPU
↓
Model
Plain Text
복사

즉 model execution layer이다.

5. Multimodal Routing이 아직 없는 이유

현재 router는 대부분 LLM routing이다.

멀티모달 routing은 아직 거의 없다.

그 이유는 다음과 같다.

1. Task space explosion

LLM은 대부분

text → text
Plain Text
복사

이다.

하지만 multimodal은

Task	모델
OCR	OCR model
Caption	VLM
Grounding	detection model
Segmentation	SAM
Video QA	video VLM

즉 router가 해야 할 일이

model routing
+
task routing
Plain Text
복사

이 된다.

2. API 표준 부재

텍스트 LLM은 사실상

OpenAI API가 표준이 되었다.

하지만 멀티모달은

회사	API
Google	parts
OpenAI	content array
Anthropic	attachments
Qwen	image_url

형식이 모두 다르다.

3. 경제성

멀티모달 inference는 더 비싸다.

task	cost
LLM	$
VLM	$$
Video VLM	$$$

그래서 routing으로 절약되는 비용이 상대적으로 작다.

4. 수요

현재 AI 트래픽 대부분은

•

coding agents

•

chatbots

•

text generation

즉 text LLM 중심이다.

멀티모달 트래픽은 아직 작다.

6. Insight

현재 AI infra를 보면

영역	상태
LLM hosting	crowded
LLM routing	emerging
Multimodal hosting	growing
Multimodal routing	mostly empty

즉 다음과 같은 영역이 아직 비어 있다.

multimodal orchestration layer
Plain Text
복사

예

image
↓
OCR
↓
VLM
↓
grounding
↓
reasoning
Plain Text
복사

같은 pipeline을 자동으로 구성하는 레이어이다.

결론

플랫폼	역할
OpenRouter	LLM traffic router
Replicate	ML compute platform

둘 다 AI 인프라에서 중요한 레이어지만 위치는 다르다.

그리고 앞으로 중요한 영역 중 하나는

multimodal model orchestration

일 가능성이 높다.

글 목록으로 돌아가기

짧은생각들

본문

1. 같은 단어, 반대의 결말

최근 몇 년 사이 한국 사회는 “확률 조작”이라는 같은 단어를 두고 서로 다른 두 개의 소동을 겪었다. 하나는 게임이었다. 공정거래위원회는 넥슨코리아가 메이플스토리의 유료 확률형 아이템인 ‘큐브’의 확률 구조를 이용자에게 불리하게 바꾸고도 이를 제대로 알리지 않은 행위에 대해 116억 원대 과징금을 부과했다. 유저들이 가장 분노한 대목은 이른바 ‘보보보’, ‘드드드’, ‘방방방’처럼 인기 있는 3중첩 옵션의 출현 확률이 한때 아예 0으로 설정되어 있었다는 사실이었다.

말하자면 이용자들은 777이 없는 룰렛 앞에 앉아 있었다. 회사는 룰렛을 팔았고, 유저는 룰렛을 돌렸고, 시장은 그것을 게임이라고 불렀다. 그런데 나중에 알고 보니 당첨판 일부는 애초에 존재하지 않았다. 이후 그라비티, 위메이드, 코그 등 다른 게임사들에 대해서도 확률형 아이템 관련 제재가 이어졌고, 2024년에는 확률형 아이템 정보공개 의무화가 시행되었다. 2025년에는 손해배상 책임과 징벌적 손해배상 특례가 도입되었고, 같은 해 말에는 허위·미표시 확률 정보에 대해 매출액 기반 과징금을 부과하는 법안까지 발의되었다. 확률은 더 이상 게임사의 영업 비밀이라는 검은 상자 안에만 둘 수 없는 문제가 되었다.

다른 하나는 선거였다. 사전투표와 본투표의 득표율 차이, 서로 다른 지역에서 득표수가 일치하는 이른바 ‘쌍둥이 숫자’ 같은 현상들이 “확률적으로 불가능하다”는 말과 함께 부정선거의 증거로 제시되었다. 그러나 통계학자들의 검토와 법원의 판단은 일관되게 이 주장들을 기각했다. 사전투표와 본투표의 표심 차이는 음모론이 본격적으로 등장하기 전인 2017년 대선에서도 이미 뚜렷하게 나타났고, 쌍둥이 숫자는 뒤에서 보겠지만 오히려 안 나오는 쪽이 더 이상한 현상이었다.

흥미로운 것은 이 비대칭이다. 한쪽에서는 통계가 진짜 조작을 잡아냈고, 다른 쪽에서는 통계에 대한 오해가 가짜 조작을 만들어냈다. 메이플스토리 사건에서 의심은 데이터로 압축되었고, 결국 내부 자료와 행정 조사를 통해 사실로 확인되었다. 반면 부정선거 주장은 대체로 결과를 본 다음에 그 결과가 나올 확률을 거꾸로 따지는 방식으로 전개되었다. 같은 확률을 말하지만 한쪽은 검증이었고, 다른 한쪽은 착시였다.

그 차이를 가르는 것이 통계적 문해력이다. 숫자를 믿는 능력이 아니라, 숫자를 의심할 줄 아는 능력. 더 정확히 말하면, 의심을 숫자의 언어로 다룰 줄 아는 능력이다. 나는 이 능력이 세 개의 질문으로 압축된다고 생각한다. 조건부 확률의 방향을 뒤집지 않았는가. 과녁을 쏘기 전에 그렸는가. 표본은 충분히 크고 대표적인가.

777이 없는 룰렛과 과녁을 나중에 그리는 사람들

확률 조작 사건과 부정선거 의혹으로 배우는 통계적 문해력

[출처] https://biz.heraldcorp.com/article/3132605

흔히들 이렇게 말한다.

돈으로 해결할 수 없는 문제가 있다면, 돈이 충분하지 않은 것은 아닌지 의심해보라.

처음 들으면 속물적인 농담처럼 들린다. 세상에 돈으로 안 되는 일이 얼마나 많은가. 돈으로 건강을 살 수 없고, 죽은 사람을 되살릴 수 없고, 진심을 강요할 수 없고, 지나간 시간을 되돌릴 수 없다. 그런데도 이 말이 끈질기게 살아남는 이유는, 냉소 속에 묘한 진실이 들어 있기 때문이다.

돈은 단순한 물건이 아니다. 돈은 가능성이다. 누군가에게 돈은 한 끼 식사이고, 누군가에게는 한 달의 생존이며, 누군가에게는 시간을 사는 방법이고, 누군가에게는 사람을 모으고 제도를 만들고 산업을 바꾸는 힘이다. 같은 이름을 쓰지만 1만 원과 100만 원과 10억 원과 1조 원은 같은 방식으로 작동하지 않는다.

나는 사랑도 비슷하다고 생각한다.

사랑에도 운용 능력이 필요하다

사랑은 감정의 총량이 아니라 역량의 총합이다

출처 : https://uxdesign.cc/better-decisions-72e955c70a5c

Sequoia의 Julien Bek이 쓴 Services: The New Software를 읽고, 한 발짝 더 나가보고 싶었다. 이 글은 "AI가 SaaS 시장이 아니라 서비스 시장을 먹는다"는 인사이트를 개인/커리어/국가 레벨로 확장한 개인적인 노트다.

1. 원문의 핵심만 다시 짚고 가자

세쿼이아의 주장은 단순하다.

•

SaaS는 도구를 팔았다. 인간이 그 도구로 "일"을 해야 결과가 나왔다.

•

AI 시대의 승자는 **결과(outcome)**를 파는 회사다. 소프트웨어의 탈을 쓴 서비스 회사.

•

기업이 소프트웨어에 $1 쓸 때 서비스에는 $6를 쓴다. AI는 이 $6 시장을 먹는다.

•

지능(intelligence, 반복 가능한 작업)은 AI로 빠르게 대체되고, 판단(judgement, 맥락·직관)은 당분간 인간의 영역. 단 이 경계선은 데이터가 쌓일수록 계속 뒤로 밀린다.

여기까지가 매크로 레벨 얘기다. 그리고 이 글의 가장 중요한 한 줄을 꼽으라면 나는 망설임 없이 이걸 고른다.

"Do Not Fight the Model."

이 원칙이 왜 이렇게 강력한지, 그리고 이게 개인에게도, 커리어에도, 국가에도 똑같이 적용되는 원칙이라는 게 이 글의 출발점이다.

2. Do Not Fight the Model — 모델과 싸우지 말고, 올라타라

세쿼이아 프레임에서 가장 도발적인 조언은 이거다. 변호사를 위한 AI 툴을 만들지 말고, AI 법무법인을 차려라. 회계사를 위한 AI 툴을 만들지 말고, AI 회계법인을 차려라. 음식점 사장을 위한 AI 툴을 만들지 말고, AI 음식점을 차려라.

처음 들으면 과격해 보이는데, 사실 이게 세쿼이아가 말한 "$1:$6 법칙"의 자연스러운 귀결이다. 소프트웨어 시장($1)은 포화됐고 경쟁도 치열하다. 근데 **결과 시장($6)**은 아직 노동력으로 돌아가고 있고, AI가 그 노동력을 대체할 수 있다면 그냥 결과를 직접 파는 게 낫다.

소프트웨어가 서비스를 삼킬 때: 개인, 커리어, 그리고 소버린 AI

Do not Fight or Sell the Model

본문 (Claude Code Generated)

논문: FileGram: Grounding Agent Personalization in File-System Behavioral Traces
저자: Shuai Liu, Shulin Tian, Kairui Hu 외 (NTU S-Lab, Synvo AI)
날짜: 2026년 4월 6일
링크: arXiv:2604.04901 | Project Page | GitHub | Dataset

TL;DR

AI 에이전트가 사용자의 파일 시스템 작업 패턴(파일 읽기, 생성, 편집, 정리 등)을 기억하고 개인화에 활용하는 프레임워크. 기존 대화 요약 기반 메모리 시스템(Mem0, Zep 등)이 행동 구분 정보를 잃어버리는 문제를 지적하고, 원자적 행동 로그에서 직접 프로파일을 구축하는 bottom-up 메모리 아키텍처를 제안한다.

왜 이 연구가 필요한가?

OS-level AI 에이전트(Claude Code, Cursor, Devin 등)가 단순 명령 실행을 넘어 파일 시스템 코워커로 진화하고 있다. 그런데 사용자마다 작업 방식이 완전히 다르다.

•

어떤 사람은 파일을 순차적으로 정독하고, 어떤 사람은 키워드 검색부터 한다

•

어떤 사람은 3단계 이상 중첩 폴더를 만들고, 어떤 사람은 루트에 다 쌓는다

•

어떤 사람은 소규모 반복 편집을 하고, 어떤 사람은 파일 전체를 새로 쓴다

문제는 기존 메모리 시스템이 전부 대화(dialogue) 기반이라는 것이다. "사용자가 무슨 말을 했는지"는 기억하지만, "사용자가 파일을 어떻게 다루는지"는 모른다. 여기에 세 가지 병목이 존재한다.

병목	설명
데이터	프라이버시 문제로 실제 파일 시스템 행동 데이터를 대규모 수집할 수 없음
평가	기존 벤치마크는 대화 회상이나 GUI 성공률만 측정, 행동 개인화 평가 부재
방법론	메모리 시스템이 대화 요약(top-down)에 의존 → 파일 작업의 세밀한 패턴이 소실됨

FileGram의 세 기둥

FileGram: 파일 시스템 행동 흔적으로 AI 에이전트를 개인화하다

AI와 유저의 상호작용만 중요한 게 아니라… 결국 AI가 File System, 즉 Environment와 어떻게 상호작용했느냐가 더 중요한 힌트일수도 있다

최근 LG 인화원에서 기획 강의를 들었다. 강의가 끝나고 남은 것은 기획을 더 잘 "쓰는 법"이 아니었다. 기획을 완전히 다르게 "생각하는 법"이었다.

그 변화의 핵심을 정리해 본다.

하지만 이 뒤로는 ChatGPT 5.4와 Claude Opus 4.6의 도움으로 작성되었다.

1. 기획은 논문이 아니다

그동안 나는 연구자로서 기획을 해왔다. 문제를 정의하고, 분석하고, 방법을 제시하고, 검증한다. 이 구조는 익숙하고 논리적으로도 완벽하다.

하지만 기획서를 받아든 사람의 반응은 항상 같았다.

"그래서… 어쩌라고?"

이 질문 앞에서 논리적 완결성은 무력했다. 논문은 "이것이 맞는가?"를 증명하는 일이지만, 기획은 "이것을 해야 하는가?"에 대한 결정을 이끌어내는 일이다. 둘은 닮은 것 같지만 완전히 다른 영역이다.

논문은 진실을 향하고, 기획은 행동을 향한다.

2. 하나만 남기는 과정

좋은 기획의 핵심은 복잡함이 아니라 압축이다.

하나의 목표, 하나의 분석, 하나의 해결책.

단순해 보이지만, 이 구조가 강력한 이유가 있다. 사람은 선택지가 많을수록 결정하지 못한다. 분석이 많으면 메시지가 약해지고, 해결책이 여러 개이면 책임이 분산되면서 아무도 움직이지 않는다.

기획은 설득이다: 연구자에서 기획자로 사고가 바뀌는 순간

논문처럼 쓰던 기획서에서, 사람을 움직이는 기획으로

본문 (ChatGPT and Claude Generated)

인공지능은 반드시 "지능"의 하위범주여야 하는가?

본문

개인적으로 나는 Kingma라는 과학자를 아주 좋아한다. Adam optimizer (citation 240k 이상)의 저자이자, VAE (citation 54k 이상)의 저자이자, flow-based model, diffusion model 등을 OpenAI, Google에서 활발하게 연구함으로써 현대 딥러닝 기반 인공지능의 발전을 대단히 앞당긴 인물. 그가 가진 수학적 직관과 컴퓨터 과학자로서의 넓은 철학적 이해는 내가 추구하는 방향과 같으면서도 대단히 앞서가 있다고 느껴진다.

첨부 사진은 Kingma의 PhD 논문 두 번째 문단인데, 여기서 그는 이렇게 말한다:

인공지능은 지능을 구현하는 기술이 아니라, 지능을 이해하기 위한 도구다.

인공지능은 ‘지능’의 하위 범주일까, 아니면 새로운 종류의 지능일까?

Kingma와 Hofstadter의 시선에서 바라본 인공지능: 인간을 모방하는 도구를 넘어, 지능 자체를 탐구하는 실험

본문 (ChatGPT Generated)

“중용(中庸)”이라는 단어를 처음 배웠을 때, 나는 그것을 꽤 단순하게 이해했다.

넘치지도 않고, 부족하지도 않은 상태. 딱 적절한 균형.

이 개념을 가장 직관적으로 느꼈던 건 의외로 철학 책이 아니라, 강화학습 환경 중 하나인 CartPole이었다.

카트 위에 올려진 막대기가 쓰러지지 않도록 좌우로 움직이며 균형을 맞추는 문제.

처음에는 이게 중용의 완벽한 예시라고 생각했다.

만 30살에 다시 생각해보는 ‘중용’이라는 균형

CartPole에서 시작해, 인생이라는 다중 진자 위에서 균형을 잡는다는 것

본문 (ChatGPT Generated)

흥미로운 점은, 기술 자체보다 “해석”과 “내러티브”가 시장을 더 크게 흔들었다는 것이다.

이 글에서는 TurboQuant라는 기술의 실제 의미와, 그것이 왜 과대해석되었는지를 정리해본다.

1. TurboQuant는 무엇인가 (간단 요약)

TurboQuant는 대규모 모델에서 메모리 사용을 줄이기 위한 quantization 기반 최적화 기법이다.

핵심은 모델의 weight나 activation을 더 효율적으로 표현하여 메모리 footprint를 줄이면서 성능을 유지하는 것이다.

즉, 본질적으로는:

•

새로운 모델 패러다임 

•

효율적인 실행 (efficiency optimization) 

이다.

이 점이 매우 중요하다.

2. “Application layer 연구”라는 본질

TurboQuant가 반도체 주가를 흔든 이유 — 기술 vs 시장의 온도차

“논문 하나로 산업이 바뀔까?”에 대한 냉정한 답

OpenRouter 모델 추론 가격은 왜 싯가인가?

OpenRouter vs Replicate (그리고 멀티모달 Routing의 가능성)

1. OpenRouter

핵심 아이디어

OpenRouter 구조

OpenRouter Router가 하는 일

OpenRouter Business Model

2. Replicate

핵심 아이디어

Replicate 구조

Replicate Billing

Replicate Marketplace

Open source models

Creator models

3. OpenRouter vs Replicate

아키텍처 비교

OpenRouter

Replicate

4. AI Infra Stack에서의 위치

5. Multimodal Routing이 아직 없는 이유

1. Task space explosion

2. API 표준 부재

3. 경제성

4. 수요

6. Insight

결론

본문

1. 같은 단어, 반대의 결말

1. Agentic Coding은 정말 함정인가?

2. 천재란 무엇인가?

1. 조선은 왜 전쟁 한 번 제대로 못하고 무너졌을까?

2. 조선의 신분제는 왜 그렇게 오래 버텼을까?

1. 원문의 핵심만 다시 짚고 가자

2. Do Not Fight the Model — 모델과 싸우지 말고, 올라타라

본문 (Claude Code Generated)

TL;DR

왜 이 연구가 필요한가?

FileGram의 세 기둥

1. 기획은 논문이 아니다

2. 하나만 남기는 과정

본문 (ChatGPT and Claude Generated)

인공지능은 반드시 "지능"의 하위범주여야 하는가?

본문

본문 (ChatGPT Generated)

본문 (ChatGPT Generated)

1. TurboQuant는 무엇인가 (간단 요약)

2. “Application layer 연구”라는 본질