들어가며
양세종의 블로그에 오신 것을 환영합니다.
Sequoia의 Julien Bek이 쓴 Services: The New Software를 읽고, 한 발짝 더 나가보고 싶었다. 이 글은 "AI가 SaaS 시장이 아니라 서비스 시장을 먹는다"는 인사이트를 개인/커리어/국가 레벨로 확장한 개인적인 노트다.
1. 원문의 핵심만 다시 짚고 가자
세쿼이아의 주장은 단순하다.
•
SaaS는 도구를 팔았다. 인간이 그 도구로 "일"을 해야 결과가 나왔다.
•
AI 시대의 승자는 **결과(outcome)**를 파는 회사다. 소프트웨어의 탈을 쓴 서비스 회사.
•
기업이 소프트웨어에 $1 쓸 때 서비스에는 $6를 쓴다. AI는 이 $6 시장을 먹는다.
•
지능(intelligence, 반복 가능한 작업)은 AI로 빠르게 대체되고, 판단(judgement, 맥락·직관)은 당분간 인간의 영역. 단 이 경계선은 데이터가 쌓일수록 계속 뒤로 밀린다.
여기까지가 매크로 레벨 얘기다. 그리고 이 글의 가장 중요한 한 줄을 꼽으라면 나는 망설임 없이 이걸 고른다.
"Do Not Fight the Model."
이 원칙이 왜 이렇게 강력한지, 그리고 이게 개인에게도, 커리어에도, 국가에도 똑같이 적용되는 원칙이라는 게 이 글의 출발점이다.
2. Do Not Fight the Model — 모델과 싸우지 말고, 올라타라
세쿼이아 프레임에서 가장 도발적인 조언은 이거다. 변호사를 위한 AI 툴을 만들지 말고, AI 법무법인을 차려라. 회계사를 위한 AI 툴을 만들지 말고, AI 회계법인을 차려라. 음식점 사장을 위한 AI 툴을 만들지 말고, AI 음식점을 차려라.
처음 들으면 과격해 보이는데, 사실 이게 세쿼이아가 말한 "$1:$6 법칙"의 자연스러운 귀결이다. 소프트웨어 시장($1)은 포화됐고 경쟁도 치열하다. 근데 **결과 시장($6)**은 아직 노동력으로 돌아가고 있고, AI가 그 노동력을 대체할 수 있다면 그냥 결과를 직접 파는 게 낫다.
소프트웨어가 서비스를 삼킬 때: 개인, 커리어, 그리고 소버린 AI
Do not Fight or Sell the Model
본문 (Claude Code Generated)
논문: FileGram: Grounding Agent Personalization in File-System Behavioral Traces
저자: Shuai Liu, Shulin Tian, Kairui Hu 외 (NTU S-Lab, Synvo AI)
날짜: 2026년 4월 6일
링크: arXiv:2604.04901 | Project Page | GitHub | Dataset
TL;DR
AI 에이전트가 사용자의 파일 시스템 작업 패턴(파일 읽기, 생성, 편집, 정리 등)을 기억하고 개인화에 활용하는 프레임워크. 기존 대화 요약 기반 메모리 시스템(Mem0, Zep 등)이 행동 구분 정보를 잃어버리는 문제를 지적하고, 원자적 행동 로그에서 직접 프로파일을 구축하는 bottom-up 메모리 아키텍처를 제안한다.
왜 이 연구가 필요한가?
OS-level AI 에이전트(Claude Code, Cursor, Devin 등)가 단순 명령 실행을 넘어 파일 시스템 코워커로 진화하고 있다. 그런데 사용자마다 작업 방식이 완전히 다르다.
•
어떤 사람은 파일을 순차적으로 정독하고, 어떤 사람은 키워드 검색부터 한다
•
어떤 사람은 3단계 이상 중첩 폴더를 만들고, 어떤 사람은 루트에 다 쌓는다
•
어떤 사람은 소규모 반복 편집을 하고, 어떤 사람은 파일 전체를 새로 쓴다
문제는 기존 메모리 시스템이 전부 대화(dialogue) 기반이라는 것이다. "사용자가 무슨 말을 했는지"는 기억하지만, "사용자가 파일을 어떻게 다루는지"는 모른다. 여기에 세 가지 병목이 존재한다.
병목 | 설명 |
데이터 | 프라이버시 문제로 실제 파일 시스템 행동 데이터를 대규모 수집할 수 없음 |
평가 | 기존 벤치마크는 대화 회상이나 GUI 성공률만 측정, 행동 개인화 평가 부재 |
방법론 | 메모리 시스템이 대화 요약(top-down)에 의존 → 파일 작업의 세밀한 패턴이 소실됨 |
FileGram의 세 기둥
FileGram: 파일 시스템 행동 흔적으로 AI 에이전트를 개인화하다
AI와 유저의 상호작용만 중요한 게 아니라… 결국 AI가 File System, 즉 Environment와 어떻게 상호작용했느냐가 더 중요한 힌트일수도 있다 
세종양의 짧은 생각
World model의 미래는 reconstruction이 아니라 abstraction이고, abstraction의 미래는 compression + reward + memory + continual editing의 결합이다.
ChatGPT Generated Abstract
최근 world model 연구의 무게중심은 픽셀을 얼마나 잘 복원하느냐에서 행동 가능한 latent state를 얼마나 작고 안정적으로 유지하느냐로 이동하고 있다. 이 변화는 단순한 취향의 변화가 아니라, 계산량·메모리·planning latency·online adaptation이라는 시스템 제약이 만든 필연에 가깝다. QJL, PolarQuant, TurboQuant는 직접적인 world model 논문은 아니지만, AI 시스템 전반에서 **“고정밀 원신호를 끝까지 들고 가기보다, geometry를 보존하는 compact representation으로 옮겨라”**는 흐름을 강하게 보여준다. QJL은 KV cache quantization에서 quantization constants 저장 오버헤드를 없애며 3-bit 수준에서 5배 이상의 메모리 절감을 달성했고, PolarQuant와 TurboQuant는 무작위 회전·polar transform·residual correction을 통해 inner product와 geometry를 더 잘 보존하는 압축을 제시했다. 이는 곧 “모델이 세상을 기억하고 추론하는 데 필요한 것은 원본 픽셀 그 자체가 아니라, 의사결정에 충분한 구조적 상태”라는 쪽으로 해석될 수 있다. (arXiv)
이 관점은 latent world model 쪽에서 더욱 직접적으로 나타난다. Planning in 8 Tokens는 기존 tokenizer가 관측 하나를 수백 개 토큰으로 표현해 planning을 느리고 비싸게 만든다고 지적하며, 관측을 8개 토큰 수준으로 압축하는 discrete tokenizer CompACT를 제안했다. 이 모델은 planning 성능을 유지하면서도 decision-time planning을 대폭 가속한다고 주장한다. 즉, world model의 병목은 더 이상 “세계를 그릴 수 있느냐”가 아니라 “계획에 필요한 state를 얼마나 작고 조작 가능하게 만들 수 있느냐”가 된다. (arXiv)
또한 LeJEPA는 world model 자체보다 더 밑단에서 중요한 메시지를 준다. 이 논문은 세계와 동역학을 다룰 수 있는 representation 학습의 중심 문제를 다루며, JEPA류 representation이 안정적이고 선형 시간/메모리 복잡도로 학습되어야 한다고 본다. stop-gradient, teacher-student, 복잡한 scheduler 같은 heuristic 없이도 안정적으로 학습되는 표현 공간을 만들자는 주장인데, 이는 future world model이 필요로 하는 manipulable latent substrate와 매우 잘 맞닿아 있다. 다시 말해 앞으로의 world model은 “잘 복원하는 생성기”보다 “잘 압축되고, 잘 예측되고, 잘 조작되는 상태공간” 위에 세워질 가능성이 크다. (arXiv)
이 흐름에서 reward-based world model이 부상하는 이유는 명확하다. 픽셀 복원은 정보량이 너무 크고, 환경의 모든 세부를 동등하게 학습하게 만들며, 실제 decision-making에서 중요한 causal variable보다 시각적 fidelity를 과대평가하게 만든다. 반면 reward-centric latent world model은 “무엇이 미래 보상과 제어 가능성에 중요한가”를 기준으로 state abstraction을 밀어붙인다. 이렇게 되면 representation은 더 작아지고, rollout은 더 길어지며, online update도 쉬워진다. 특히 장기적으로는 메모리 시스템과 결합해, 모든 경험을 원본으로 저장하는 대신 reward-relevant event, novel transition, uncertainty spike, policy failure case 위주로 episodic memory를 축적하는 방향이 자연스럽다. 이 문단의 해석은 위 논문들의 직접 주장이라기보다, 해당 결과들 위에서 가능한 합리적 종합이다. (arXiv)
결국 앞으로의 self-evolving agent는 “world model + memory + compression + reward”의 결합체가 될 가능성이 높다. compact latent는 저장과 rollout의 비용을 낮추고, reward model은 어떤 경험을 남기고 어떤 경험을 버릴지 결정하며, memory는 장기 누적 구조를 제공하고, self-evolving loop는 이 메모리로부터 tokenizer·predictor·value estimator를 지속적으로 업데이트한다. 이때 중요한 것은 full replay가 아니라 selective replay, full reconstruction이 아니라 counterfactual sufficiency, 그리고 static model이 아니라 continually editable latent simulator일 것이다. 이는 아직 완성된 단일 패러다임이라기보다, 최근 압축·latent planning·JEPA 계열이 함께 가리키는 다음 방향으로 보는 편이 정확하다. (구글 리서치)
ChatGPT Generated Content
1. 왜 pixel-level reconstruction world model이 한계를 보이나
pixel-level reconstruction은 직관적으로는 “세계를 잘 이해한다”처럼 보이지만, 실제로는 너무 많은 비용을 치르게 만든다.
첫째, 학습 목표가 과도하게 넓다.
에이전트가 의사결정에 필요로 하지 않는 텍스처, 배경 노이즈, 시점 변화, 조명 변화까지도 똑같이 맞히려 든다. 이건 representation learning 관점에서 불필요한 entropy를 끌어안는 셈이다.
둘째, planning-time cost가 너무 크다.
Compact Latent and Reward-Based World Models as the Next Systems Substrate
Why pixel-level reconstruction is giving way to compressed latent simulation, and how this will connect to memory and self-evolving agents
Load more

