들어가며
양세종의 블로그에 오신 것을 환영합니다.
세종양의 짧은 생각
World model의 미래는 reconstruction이 아니라 abstraction이고, abstraction의 미래는 compression + reward + memory + continual editing의 결합이다.
ChatGPT Generated Abstract
최근 world model 연구의 무게중심은 픽셀을 얼마나 잘 복원하느냐에서 행동 가능한 latent state를 얼마나 작고 안정적으로 유지하느냐로 이동하고 있다. 이 변화는 단순한 취향의 변화가 아니라, 계산량·메모리·planning latency·online adaptation이라는 시스템 제약이 만든 필연에 가깝다. QJL, PolarQuant, TurboQuant는 직접적인 world model 논문은 아니지만, AI 시스템 전반에서 **“고정밀 원신호를 끝까지 들고 가기보다, geometry를 보존하는 compact representation으로 옮겨라”**는 흐름을 강하게 보여준다. QJL은 KV cache quantization에서 quantization constants 저장 오버헤드를 없애며 3-bit 수준에서 5배 이상의 메모리 절감을 달성했고, PolarQuant와 TurboQuant는 무작위 회전·polar transform·residual correction을 통해 inner product와 geometry를 더 잘 보존하는 압축을 제시했다. 이는 곧 “모델이 세상을 기억하고 추론하는 데 필요한 것은 원본 픽셀 그 자체가 아니라, 의사결정에 충분한 구조적 상태”라는 쪽으로 해석될 수 있다. (arXiv)
이 관점은 latent world model 쪽에서 더욱 직접적으로 나타난다. Planning in 8 Tokens는 기존 tokenizer가 관측 하나를 수백 개 토큰으로 표현해 planning을 느리고 비싸게 만든다고 지적하며, 관측을 8개 토큰 수준으로 압축하는 discrete tokenizer CompACT를 제안했다. 이 모델은 planning 성능을 유지하면서도 decision-time planning을 대폭 가속한다고 주장한다. 즉, world model의 병목은 더 이상 “세계를 그릴 수 있느냐”가 아니라 “계획에 필요한 state를 얼마나 작고 조작 가능하게 만들 수 있느냐”가 된다. (arXiv)
또한 LeJEPA는 world model 자체보다 더 밑단에서 중요한 메시지를 준다. 이 논문은 세계와 동역학을 다룰 수 있는 representation 학습의 중심 문제를 다루며, JEPA류 representation이 안정적이고 선형 시간/메모리 복잡도로 학습되어야 한다고 본다. stop-gradient, teacher-student, 복잡한 scheduler 같은 heuristic 없이도 안정적으로 학습되는 표현 공간을 만들자는 주장인데, 이는 future world model이 필요로 하는 manipulable latent substrate와 매우 잘 맞닿아 있다. 다시 말해 앞으로의 world model은 “잘 복원하는 생성기”보다 “잘 압축되고, 잘 예측되고, 잘 조작되는 상태공간” 위에 세워질 가능성이 크다. (arXiv)
이 흐름에서 reward-based world model이 부상하는 이유는 명확하다. 픽셀 복원은 정보량이 너무 크고, 환경의 모든 세부를 동등하게 학습하게 만들며, 실제 decision-making에서 중요한 causal variable보다 시각적 fidelity를 과대평가하게 만든다. 반면 reward-centric latent world model은 “무엇이 미래 보상과 제어 가능성에 중요한가”를 기준으로 state abstraction을 밀어붙인다. 이렇게 되면 representation은 더 작아지고, rollout은 더 길어지며, online update도 쉬워진다. 특히 장기적으로는 메모리 시스템과 결합해, 모든 경험을 원본으로 저장하는 대신 reward-relevant event, novel transition, uncertainty spike, policy failure case 위주로 episodic memory를 축적하는 방향이 자연스럽다. 이 문단의 해석은 위 논문들의 직접 주장이라기보다, 해당 결과들 위에서 가능한 합리적 종합이다. (arXiv)
결국 앞으로의 self-evolving agent는 “world model + memory + compression + reward”의 결합체가 될 가능성이 높다. compact latent는 저장과 rollout의 비용을 낮추고, reward model은 어떤 경험을 남기고 어떤 경험을 버릴지 결정하며, memory는 장기 누적 구조를 제공하고, self-evolving loop는 이 메모리로부터 tokenizer·predictor·value estimator를 지속적으로 업데이트한다. 이때 중요한 것은 full replay가 아니라 selective replay, full reconstruction이 아니라 counterfactual sufficiency, 그리고 static model이 아니라 continually editable latent simulator일 것이다. 이는 아직 완성된 단일 패러다임이라기보다, 최근 압축·latent planning·JEPA 계열이 함께 가리키는 다음 방향으로 보는 편이 정확하다. (구글 리서치)
Compact Latent and Reward-Based World Models as the Next Systems Substrate
Why pixel-level reconstruction is giving way to compressed latent simulation, and how this will connect to memory and self-evolving agents
ChatGPT Generated
멀티 에이전트 얘기를 할 때 사람들은 보통 런타임 이름부터 나열한다.
Claude Code, Gemini CLI, Codex, Cursor, opencode 같은 것들. 그리고 자연스럽게 이런 그림을 상상한다. 좋은 에이전트를 여러 개 띄워두고, 필요할 때 번갈아 호출하면 생산성이 크게 올라갈 것이라고.
하지만 실제로 운영해보면 금방 다른 사실이 드러난다. 문제는 “어떤 런타임이 더 똑똑한가”가 아니라, 이 여러 런타임을 어떤 질서 안에서 움직이게 할 것인가다. 같은 파일을 동시에 수정하면 충돌이 나고, 이미 정리된 결론을 각자가 다시 탐색하면 비용이 커지며, 규약 문서가 여러 군데 흩어져 있으면 같은 저장소를 서로 다르게 해석한다. 첨부한 초안이 짚었듯 핵심은 툴을 더 붙이는 것이 아니라 역할, 문서, 권한, handoff를 어떻게 고정할 것인가에 있다.
그래서 나는 이 구조를 이렇게 보는 편이 맞다고 생각한다.
opencode와 GSD는 “또 하나의 worker”가 아니라 control plane이다.
Claude Code, Gemini CLI, Codex는 그 control plane 아래에서 움직이는 실행 runtime이다.
이 관점이 중요하다. 왜냐하면 opencode는 원래 여러 provider와 모델을 연결할 수 있는 AI coding agent이고, terminal/desktop/IDE extension 형태로 쓰이며 provider 설정도 열려 있다. 다시 말해 “여러 모델을 수용하는 인터페이스”로서의 성격이 강하다. (OpenCode)
멀티 에이전트의 중심은 런타임이 아니라 control plane이다
opencode와 get-shit-done을 바탕으로 Claude Code, Gemini CLI, Codex 같은 다른 runtime을 부리는 법
세종 코멘트
학부 동기들과 discord에서 이야기하다가 떠오름.
Bismute는 접니다 하핳
ChatGPT Generated
최근 주변에서 “당근 1월 영업이익이 100억 원을 찍었다더라”, “이쯤 되면 연간 영업이익 1000억 원도 가능한 회사 아니냐” 같은 말이 나오는 건 꽤 흥미롭다. 공개된 월별 숫자는 아니어서 ‘1월 100억’ 자체는 확인하기 어렵지만, 이 반응이 완전히 허황된 것은 아니다. 당근은 2024년 별도 기준 매출 1,891억 원, 영업이익 376억 원을 기록했고, 2025년 1분기에는 별도 기준 매출 578억 원, 영업이익 164억 원을 냈다. 즉 “중고거래 앱이 생각보다 훨씬 돈을 잘 번다”는 인상은 실제 숫자와 꽤 부합한다. (당근)
실제로 당근의 매출 추이를 보면 놀라움이 과장이 아니다. 2020년 118억 원, 2021년 257억 원, 2022년 499억 원, 2023년 1,276억 원, 2024년 1,891억 원으로 5년 만에 약 16배 성장했다. 수익성도 급격히 바뀌었다. 2022년에는 499억 원 매출에도 영업손실 463억 원을 기록했지만, 2023년에는 영업이익 173억 원으로 창사 이후 첫 연간 흑자를 냈고, 2024년에는 376억 원으로 다시 3.8배 뛰었다. 이 흐름만 봐도 당근은 “성장하지만 적자인 플랫폼”에서 “현금 창출이 가능한 플랫폼”으로 이미 성격이 바뀌었다고 보는 편이 맞다. (미래를 보는 창 - 전자신문)
중요한 건 어디서 돈을 버느냐다. 많은 사람이 아직도 당근을 중고거래 앱으로 이해하지만, 숫자를 뜯어보면 본질은 다르다. 당근의 실적 성장은 회사 스스로도 “광고 사업이 주도했다”고 설명한다. 2023년에는 광고 매출이 전년 대비 2.5배 이상 늘었고, 2024년에도 광고주 수는 37%, 집행 광고 수는 52% 증가했다. 창업자 김용현 대표 역시 당근 광고가 “월 매출 100억 원이 넘는 모델”로 성장했다고 말했다. 즉 당근은 거래 수수료 기업이 아니라, 거래와 커뮤니티를 통해 쌓인 지역 수요를 광고 매출로 전환하는 회사다. (당근)
여기서 Bismute의 표현이 꽤 정확해진다. 당근은 “초정밀 하이퍼로컬 타겟 광고 + 애초에 구매전환이 높은 고객들을 보유”한 회사다. 이건 감상적인 비유가 아니라 플랫폼 구조를 정확히 짚은 말이다. 당근의 이용자는 이미 물건을 사거나 팔려고, 혹은 동네 정보를 찾으려고 앱에 들어온 사람들이다. 즉 사용자의 의도가 본질적으로 상업적이고 생활밀착적이다. 이런 사용자는 아무 생각 없이 피드를 스크롤하는 이용자보다 광고 전환 가능성이 높다. 게다가 광고 노출 범위가 “대한민국 전체”가 아니라 “내 생활권 반경”으로 좁혀지기 때문에, 동네 학원·카페·부동산·병원·미용실·프랜차이즈 매장이 광고비를 집행할 유인이 강하다. 실제로 당근은 지역 내 중소형 사업자뿐 아니라 브랜드와 기업 광고까지 흡수하며 광고 플랫폼을 고도화했다고 설명한다. (당근)
당근은 어떻게 돈을 버는가?
국내에서 새롭게 ‘개발’한 새로운 기회? 아니면 국내에서만 가능한 토종 BM?
중고거래 앱이 아니라, ‘한국형 로컬 데이터 기업’으로 봐야 한다.
개인적으로 분야는 다르지만 “박사과정을 마무리하며”라는 블로그 시리즈로 유명하신 KAIST 김주호 교수님의 연구를 항상 재미있게 읽고 있다. 항상 CHI라는 HCI Top-tier Conference에서 Community에게 좋은 평가를 받아오셨고, 이번에도 Best Paper를 지도하셨다.
내용을 정리하면 아래와 같은데… 아직까지 이런 연구들은 AI에게 대체되기는 어려울 것 같다. 흠냐… 나도 뭔가 이런 연구를 하는 방법을 배우는 것도 재밌을 것 같은데… second PhD… ㄱ?!
논문 요약
1. 연구 배경 및 목적
•
대형 언어 모델(LLM)이 학생들의 영어 쓰기를 단계적으로 돕는 훌륭한 도구가 될 것이라는 기대가 큽니다.
•
하지만 제한된 시간과 학생들의 다양한 실력 차이가 존재하는 '실제 오프라인 교실' 환경에서 실시간으로 AI를 썼을 때의 효과에 대해서는 연구가 부족했습니다.
•
이를 확인하기 위해 연구진은 한국의 중학교 2학년(8학년) 학생 157명을 대상으로 6주간 AI 작문 보조 도구(WRITEAID)를 실제 정규 수업에 투입하여 관찰했습니다.
2. 주요 발견 (실험 결과)
CHI 2026 Best Paper를 읽고…
무엇을 해먹고 살아야할까?
Load more
