파운데이션 거대 언어 모델 개발은 데이터의 품질에, 데이터의 품질은 팀이 쏟은 시간에 종속된다. 그리고 그런 팀은…?

부제

URL

https://time.com/6247678/openai-chatgpt-kenya-workers/

작성일

2026/02/27

Sama라는 기업은 2000년대 초반부터 아프리카(케냐, 우간다), 인도 등지에서 데이터 라벨링을 싼 가격에 해왔다. [1] 해당 기사의 포인트는 사람의 정신에 해로울 수준의 다크웹 데이터를 라벨링 하는데에 시급 2달러 이하의 적은 돈으로 착취했다는 것이다. 그러나 해당 기사에서의 내 포인트는 조금 다르다.

이미 2000년대 초반부터 OpenAI뿐 아니라 Google, Amazon, MS, Meta와 같은 기업들은 데이터 엔지니어링의 중요함을 깨닫고 Human annotation과 같은 지루한 작업도 계속해왔다는 것. 결국 이러한 노력이 모여서 Data Engineering의 다음 단계들을 가능하게 하는 LLM들이 탄생했으며, 현재에는 model-driven data flywheel, self-improvement pipeline 등이 개발되는 단계로 나아가고 있다.

OpenAI의 공고에서도 볼 수 있듯이 [2] 결국 혁신에는 목표 지향적으로 필요한 모든 일을 하는 노력을 요구한다. 대AI시대를 맞아 가장 열심히 일하고 있는 Cursor Team과 Antropic이 결국 앞서나가고 있는 것도 이러한 팀을 잘 유지하고 있기 때문이다. 어떻게 그런 팀을 한국에서도 만들고 유지할 수 있을까? 적절한 보상과 “사람보다 더 많은 일 유지”와 신뢰를 통한 팀의 “황금기”를 [3] 유지하는 게 중요하다고 생각한다.

참고자료

[1] Billy Perrigo, Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic, https://time.com/6247678/openai-chatgpt-kenya-workers/ [2] OpenAI, Research Engineer - Human Centered AI, https://openai.com/careers/full-stack-engineer-health-ai-san-francisco/ [3] Steve Yegge, The Anthropic Hive Mind, https://steve-yegge.medium.com/the-anthropic-hive-mind-d01f768f3d7b

글 목록으로 돌아가기

짧은생각들

최근 LG 인화원에서 기획 강의를 들었다. 강의가 끝나고 남은 것은 기획을 더 잘 "쓰는 법"이 아니었다. 기획을 완전히 다르게 "생각하는 법"이었다.

그 변화의 핵심을 정리해 본다.

하지만 이 뒤로는 ChatGPT 5.4와 Claude Opus 4.6의 도움으로 작성되었다.

1. 기획은 논문이 아니다

그동안 나는 연구자로서 기획을 해왔다. 문제를 정의하고, 분석하고, 방법을 제시하고, 검증한다. 이 구조는 익숙하고 논리적으로도 완벽하다.

하지만 기획서를 받아든 사람의 반응은 항상 같았다.

"그래서… 어쩌라고?"

이 질문 앞에서 논리적 완결성은 무력했다. 논문은 "이것이 맞는가?"를 증명하는 일이지만, 기획은 "이것을 해야 하는가?"에 대한 결정을 이끌어내는 일이다. 둘은 닮은 것 같지만 완전히 다른 영역이다.

논문은 진실을 향하고, 기획은 행동을 향한다.

2. 하나만 남기는 과정

좋은 기획의 핵심은 복잡함이 아니라 압축이다.

하나의 목표, 하나의 분석, 하나의 해결책.

단순해 보이지만, 이 구조가 강력한 이유가 있다. 사람은 선택지가 많을수록 결정하지 못한다. 분석이 많으면 메시지가 약해지고, 해결책이 여러 개이면 책임이 분산되면서 아무도 움직이지 않는다.

기획은 설득이다: 연구자에서 기획자로 사고가 바뀌는 순간

논문처럼 쓰던 기획서에서, 사람을 움직이는 기획으로

본문 (ChatGPT and Claude Generated)

인공지능은 반드시 "지능"의 하위범주여야 하는가?

본문

개인적으로 나는 Kingma라는 과학자를 아주 좋아한다. Adam optimizer (citation 240k 이상)의 저자이자, VAE (citation 54k 이상)의 저자이자, flow-based model, diffusion model 등을 OpenAI, Google에서 활발하게 연구함으로써 현대 딥러닝 기반 인공지능의 발전을 대단히 앞당긴 인물. 그가 가진 수학적 직관과 컴퓨터 과학자로서의 넓은 철학적 이해는 내가 추구하는 방향과 같으면서도 대단히 앞서가 있다고 느껴진다.

첨부 사진은 Kingma의 PhD 논문 두 번째 문단인데, 여기서 그는 이렇게 말한다:

인공지능은 지능을 구현하는 기술이 아니라, 지능을 이해하기 위한 도구다.

인공지능은 ‘지능’의 하위 범주일까, 아니면 새로운 종류의 지능일까?

Kingma와 Hofstadter의 시선에서 바라본 인공지능: 인간을 모방하는 도구를 넘어, 지능 자체를 탐구하는 실험

새로운 모델 패러다임 

•

효율적인 실행 (efficiency optimization) 

이다.

이 점이 매우 중요하다.

2. “Application layer 연구”라는 본질

TurboQuant가 반도체 주가를 흔든 이유 — 기술 vs 시장의 온도차

“논문 하나로 산업이 바뀔까?”에 대한 냉정한 답

세종 생각

이미 잘 하던 것들

•

결국 CLAUDE.md 는 최소한 유지 + 추가 규약은 external markdown으로 처리

•

allow/deny 자체가 좁게나는 일들만 시켜서 agent의 병목을 막는 방식으로 설계

앞으로 잘 해봐야할 것들

•

hook을 잘 활용하기 → 무궁무진한 활용이 가능하다

•

환경변수는 흠… 모르겠음 잘… 그래도 PoC는 해볼만 한 것 같다

ChatGPT Generated

Executive summary

본 리서치는 Mintlify에 호스팅된 “How Claude Code works” 문서(이하 Mintlify 문서)와, 그 페이지에 포함된 **모든 하이퍼링크(내부/외부)**를 1차 범위로 읽고 번역·요약한 뒤, 에이전트 설계 관점(에이전틱 루프, 메모리/컨텍스트, 멀티에이전트, CI/CD 연계, 문서→학습/검색 파이프라인)에 맞춰 구조화된 분석으로 재구성했습니다. Mintlify 문서는 Claude Code의 에이전틱 루프를 “사용자 입력→컨텍스트 조립→모델 호출→tool_use→권한 체크→도구 실행→tool_result→반복”으로 설명하며, 컨텍스트(시스템/사용자) 캐싱, 메모리(자동/CLAUDE.md) 로딩, 도구 결과 크기 제한/임시파일 처리, 대화 저장·재개, 컨텍스트 압축(compaction)까지 “런타임 관측 가능한 운영 모델”을 제공합니다.

특히 CLAUDE.md 및 .claude/rules는 “에이전트 매니페스트(Agent Manifest)”로 볼 수 있을 만큼 정교합니다. 로딩 우선순위(관리자→사용자→프로젝트→로컬), @include(파일 포함), .claude/rules의 YAML frontmatter 기반 조건부 적용(paths) 등은 “문서=정책/규칙=행동”이라는 docs-as-control-plane 패턴을 구현합니다.

권한 시스템(permission modes + allow/deny/ask rules)과 Hooks(Pre/PostToolUse, PermissionRequest 등)는 CI/CD형 자동화와 안전한 자율성을 연결하는 핵심입니다. “bypassPermissions/dontAsk 같은 완전자율 모드”는 컨테이너/CI 샌드박스처럼 환경적 격리가 전제일 때만 권장되며, 평소에는 default/plan/acceptEdits와 세분화 allow rule 조합을 권장합니다.

공식 Claude 문서(추가 교차검증)에서는 Claude Code를 터미널/IDE/데스크톱/웹/CI로 확장 가능한 “agentic coding tool”로 정의하고, CLAUDE.md/auto memory/hooks/custom commands/멀티에이전트 및 GitHub Actions·GitLab CI/CD 연계를 명시합니다. 또한 Claude API의 tool use 개념(클라이언트 도구 vs 서버 도구, tool_use→tool_result, strict tool use)을 공식적으로 정리하고 있어, Mintlify 문서의 “tool_use/tool_result 기반 루프”를 표준 모델 관점에서 재확인할 수 있습니다.

Linked resources 번역·요약

아래 항목은 “How Claude Code works” 페이지에 포함된 하이퍼링크(내부/외부)를 모두 포함합니다. 각 항목은 (a) URL/제목, (b) 핵심 번역(요지 중심), (c) 2–3문장 요약을 제공합니다. URL은 시스템 제약상 코드 형태로 표기합니다.

만우절 전날 기념 Claude Code 유출

https://www.mintlify.com/VineeTagarwaL-code/claude-code/concepts/how-it-works

본문 (ChatGPT Generated)

요즘 AI 커뮤니티에서 가장 흥미로운 흐름 중 하나는

단순한 모델 성능 경쟁이 아니라, **“AI가 스스로 개선되는 구조”**로의 전환이다.

그 중심에 있는 개념이 바로

Andrej Karpathy가 만든 autoresearch,

그리고 이를 확장해 부르는 이름인 The Karpathy Loop다.

핵심 아이디어: 연구를 루프로 바꿔버리다

“점수를 매길 수 있으면, 자동으로 개선할 수 있다.”

이 한 문장이 모든 걸 설명한다.

Karpathy의 autoresearch는 복잡한 연구 시스템이 아니다.

오히려 놀라울 정도로 단순한 구조다:

•

어떤 대상 (코드, 문서, 프롬프트 등)을 수정한다

•

결과를 metric으로 평가한다

•

좋아지면 유지, 아니면 폐기한다

The Karpathy Loop: AI는 이제 스스로 연구를 시작한다

Autoresearch에서 Swarm Intelligence까지, “점수화된 세계”의 시작

세종 생각

결국 AI family model이 필요하다면… 우리나라도 뭔가 다양한 AI 모델을 해내야할 필요가 있음.

최소한 산업에 필요한 다양한 component model을 자유롭게 공급해줄 수 있는 수준의?

그런데 전부 LLM 아니면 MLLM만 하고 있으니 흠냐뤼…

본문 (ChatGPT Generated)

1. 문제 정의 / 배경

지난 2년간 LLM의 핵심 진보는 단순한 스케일링이 아니라

“생각(thinking)” 자체를 학습 가능한 능력으로 만든 것에 있다.

대표적으로 :contentReference[oaicite:0]{index=0}과

:contentReference[oaicite:1]{index=1}은 다음을 증명했다:

•

thinking은 단순 내부 과정이 아니라 RL로 최적화 가능한 대상

•

inference-time compute를 늘리는 것이 실제 성능으로 이어짐

•

reasoning 자체가 하나의 “제품 기능”이 됨

이 시기의 핵심 질문은 명확했다:

“모델이 얼마나 오래, 깊게 생각할 수 있는가?”

추론에서 에이전트로: “생각”의 패러다임이 바뀌고 있다

더 오래 생각하는 모델에서, 행동하고 협업하는 “AI 군단”으로의 전환

세종양의 짧은 생각

World model의 미래는 reconstruction이 아니라 abstraction이고, abstraction의 미래는 compression + reward + memory + continual editing의 결합이다.

ChatGPT Generated Abstract

최근 world model 연구의 무게중심은 픽셀을 얼마나 잘 복원하느냐에서 행동 가능한 latent state를 얼마나 작고 안정적으로 유지하느냐로 이동하고 있다. 이 변화는 단순한 취향의 변화가 아니라, 계산량·메모리·planning latency·online adaptation이라는 시스템 제약이 만든 필연에 가깝다. QJL, PolarQuant, TurboQuant는 직접적인 world model 논문은 아니지만, AI 시스템 전반에서 **“고정밀 원신호를 끝까지 들고 가기보다, geometry를 보존하는 compact representation으로 옮겨라”**는 흐름을 강하게 보여준다. QJL은 KV cache quantization에서 quantization constants 저장 오버헤드를 없애며 3-bit 수준에서 5배 이상의 메모리 절감을 달성했고, PolarQuant와 TurboQuant는 무작위 회전·polar transform·residual correction을 통해 inner product와 geometry를 더 잘 보존하는 압축을 제시했다. 이는 곧 “모델이 세상을 기억하고 추론하는 데 필요한 것은 원본 픽셀 그 자체가 아니라, 의사결정에 충분한 구조적 상태”라는 쪽으로 해석될 수 있다. (arXiv)

이 관점은 latent world model 쪽에서 더욱 직접적으로 나타난다. Planning in 8 Tokens는 기존 tokenizer가 관측 하나를 수백 개 토큰으로 표현해 planning을 느리고 비싸게 만든다고 지적하며, 관측을 8개 토큰 수준으로 압축하는 discrete tokenizer CompACT를 제안했다. 이 모델은 planning 성능을 유지하면서도 decision-time planning을 대폭 가속한다고 주장한다. 즉, world model의 병목은 더 이상 “세계를 그릴 수 있느냐”가 아니라 “계획에 필요한 state를 얼마나 작고 조작 가능하게 만들 수 있느냐”가 된다. (arXiv)

또한 LeJEPA는 world model 자체보다 더 밑단에서 중요한 메시지를 준다. 이 논문은 세계와 동역학을 다룰 수 있는 representation 학습의 중심 문제를 다루며, JEPA류 representation이 안정적이고 선형 시간/메모리 복잡도로 학습되어야 한다고 본다. stop-gradient, teacher-student, 복잡한 scheduler 같은 heuristic 없이도 안정적으로 학습되는 표현 공간을 만들자는 주장인데, 이는 future world model이 필요로 하는 manipulable latent substrate와 매우 잘 맞닿아 있다. 다시 말해 앞으로의 world model은 “잘 복원하는 생성기”보다 “잘 압축되고, 잘 예측되고, 잘 조작되는 상태공간” 위에 세워질 가능성이 크다. (arXiv)

이 흐름에서 reward-based world model이 부상하는 이유는 명확하다. 픽셀 복원은 정보량이 너무 크고, 환경의 모든 세부를 동등하게 학습하게 만들며, 실제 decision-making에서 중요한 causal variable보다 시각적 fidelity를 과대평가하게 만든다. 반면 reward-centric latent world model은 “무엇이 미래 보상과 제어 가능성에 중요한가”를 기준으로 state abstraction을 밀어붙인다. 이렇게 되면 representation은 더 작아지고, rollout은 더 길어지며, online update도 쉬워진다. 특히 장기적으로는 메모리 시스템과 결합해, 모든 경험을 원본으로 저장하는 대신 reward-relevant event, novel transition, uncertainty spike, policy failure case 위주로 episodic memory를 축적하는 방향이 자연스럽다. 이 문단의 해석은 위 논문들의 직접 주장이라기보다, 해당 결과들 위에서 가능한 합리적 종합이다. (arXiv)

결국 앞으로의 self-evolving agent는 “world model + memory + compression + reward”의 결합체가 될 가능성이 높다. compact latent는 저장과 rollout의 비용을 낮추고, reward model은 어떤 경험을 남기고 어떤 경험을 버릴지 결정하며, memory는 장기 누적 구조를 제공하고, self-evolving loop는 이 메모리로부터 tokenizer·predictor·value estimator를 지속적으로 업데이트한다. 이때 중요한 것은 full replay가 아니라 selective replay, full reconstruction이 아니라 counterfactual sufficiency, 그리고 static model이 아니라 continually editable latent simulator일 것이다. 이는 아직 완성된 단일 패러다임이라기보다, 최근 압축·latent planning·JEPA 계열이 함께 가리키는 다음 방향으로 보는 편이 정확하다. (구글 리서치)

ChatGPT Generated Content

1. 왜 pixel-level reconstruction world model이 한계를 보이나

pixel-level reconstruction은 직관적으로는 “세계를 잘 이해한다”처럼 보이지만, 실제로는 너무 많은 비용을 치르게 만든다.

첫째, 학습 목표가 과도하게 넓다.

에이전트가 의사결정에 필요로 하지 않는 텍스처, 배경 노이즈, 시점 변화, 조명 변화까지도 똑같이 맞히려 든다. 이건 representation learning 관점에서 불필요한 entropy를 끌어안는 셈이다.

둘째, planning-time cost가 너무 크다.

Compact Latent and Reward-Based World Models as the Next Systems Substrate

Why pixel-level reconstruction is giving way to compressed latent simulation, and how this will connect to memory and self-evolving agents

ChatGPT Generated

멀티 에이전트 얘기를 할 때 사람들은 보통 런타임 이름부터 나열한다.

Claude Code, Gemini CLI, Codex, Cursor, opencode 같은 것들. 그리고 자연스럽게 이런 그림을 상상한다. 좋은 에이전트를 여러 개 띄워두고, 필요할 때 번갈아 호출하면 생산성이 크게 올라갈 것이라고.

하지만 실제로 운영해보면 금방 다른 사실이 드러난다. 문제는 “어떤 런타임이 더 똑똑한가”가 아니라, 이 여러 런타임을 어떤 질서 안에서 움직이게 할 것인가다. 같은 파일을 동시에 수정하면 충돌이 나고, 이미 정리된 결론을 각자가 다시 탐색하면 비용이 커지며, 규약 문서가 여러 군데 흩어져 있으면 같은 저장소를 서로 다르게 해석한다. 첨부한 초안이 짚었듯 핵심은 툴을 더 붙이는 것이 아니라 역할, 문서, 권한, handoff를 어떻게 고정할 것인가에 있다.

그래서 나는 이 구조를 이렇게 보는 편이 맞다고 생각한다.

opencode와 GSD는 “또 하나의 worker”가 아니라 control plane이다.

Claude Code, Gemini CLI, Codex는 그 control plane 아래에서 움직이는 실행 runtime이다.

이 관점이 중요하다. 왜냐하면 opencode는 원래 여러 provider와 모델을 연결할 수 있는 AI coding agent이고, terminal/desktop/IDE extension 형태로 쓰이며 provider 설정도 열려 있다. 다시 말해 “여러 모델을 수용하는 인터페이스”로서의 성격이 강하다. (OpenCode)

반면 GSD는 자신을 meta-prompting, context engineering, spec-driven development framework라고 설명한다. 즉, 특정 모델 하나의 성능을 높이는 도구라기보다 긴 세션과 복잡한 작업을 망가지지 않게 운영하는 계층에 가깝다. (Get Shit Done)

이 둘을 합치면 그림이 바뀐다.

중심은 더 이상 “Claude를 쓸까, Codex를 쓸까, Gemini를 쓸까”가 아니다.

중심은 **“어떤 작업을 어떤 문서 구조로 정의하고, 어떤 runtime에게 어떤 write surface만 허용할 것인가”**가 된다.

1. control plane이 먼저고, runtime은 그 다음이다

첨부한 글의 핵심 문장은 아주 명확하다.

규칙은 한 군데에만 두고, 상태는 채팅이 아니라 문서로 남기고, 병렬화는 툴 기준이 아니라 write scope 기준으로 하며, canonical decision과 execution trace를 분리해야 한다는 것이다. 그렇지 않으면 멀티 에이전트는 협업이 아니라 경쟁이 된다.