들어가며
양세종의 블로그에 오신 것을 환영합니다.
연구 및 개발 관련

Sama라는 기업은 2000년대 초반부터 아프리카(케냐, 우간다), 인도 등지에서 데이터 라벨링을 싼 가격에 해왔다. [1] 해당 기사의 포인트는 사람의 정신에 해로울 수준의 다크웹 데이터를 라벨링 하는데에 시급 2달러 이하의 적은 돈으로 착취했다는 것이다. 그러나 해당 기사에서의 내 포인트는 조금 다르다.
이미 2000년대 초반부터 OpenAI뿐 아니라 Google, Amazon, MS, Meta와 같은 기업들은 데이터 엔지니어링의 중요함을 깨닫고 Human annotation과 같은 지루한 작업도 계속해왔다는 것. 결국 이러한 노력이 모여서 Data Engineering의 다음 단계들을 가능하게 하는 LLM들이 탄생했으며, 현재에는 model-driven data flywheel, self-improvement pipeline 등이 개발되는 단계로 나아가고 있다.
OpenAI의 공고에서도 볼 수 있듯이 [2] 결국 혁신에는 목표 지향적으로 필요한 모든 일을 하는 노력을 요구한다. 대AI시대를 맞아 가장 열심히 일하고 있는 Cursor Team과 Antropic이 결국 앞서나가고 있는 것도 이러한 팀을 잘 유지하고 있기 때문이다. 어떻게 그런 팀을 한국에서도 만들고 유지할 수 있을까? 적절한 보상과 “사람보다 더 많은 일 유지”와 신뢰를 통한 팀의 “황금기”를 [3] 유지하는 게 중요하다고 생각한다.
참고자료
[1] Billy Perrigo, Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic, https://time.com/6247678/openai-chatgpt-kenya-workers/
[2] OpenAI, Research Engineer - Human Centered AI, https://openai.com/careers/full-stack-engineer-health-ai-san-francisco/
[3] Steve Yegge, The Anthropic Hive Mind, https://steve-yegge.medium.com/the-anthropic-hive-mind-d01f768f3d7b
파운데이션 거대 언어 모델 개발은 데이터의 품질에, 데이터의 품질은 팀이 쏟은 시간에 종속된다. 그리고 그런 팀은…?

결국 핵심은 Memory를 어떻게 접근하는가의 문제다. DB는 본질적으로 다양한 다른 기능들을 충족시켜야 하기 때문에 auth와 query라는 복잡한 절차가 있을 수 밖에 없다.
하지만 File System에도 비슷한 기능들은 충분히 있고 markdown을 기반으로한 semantic information이 사람과 Agent 모두에게 편한 것이다. [1]
나는 언제나 정보의 투명한 공개가 우리가 지향해야하는 지점이라고 생각한다. 인터넷과 AI가 권위주의의 통제된 데이터 독점에 맞서기 위해서는 이러한 방법 밖에 없다.
실제로 몇몇 예시들에서는 [2], [3] 이러한 정보의 투명한 공개는 Agent뿐 아니라, 사람 조직의 생산성 향상으로도 이어진다.
대AI시대에는 이러한 투명한 정보 공개를 바탕으로한 전격적인 사람과 AI의 협업으로 생산성을 극한으로 끌어올리는 팀에게 많은 새로운 기회가 생길 것 같다.
참고자료
[1] Muratcan Koylan, The File System Is the New Database: How I Built a Personal OS for AI Agents, https://x.com/koylanai/status/2025286163641118915?s=20
[2] Steve Yegge, The Anthropic Hive Mind, https://steve-yegge.medium.com/the-anthropic-hive-mind-d01f768f3d7b
[3] GitLab Values, https://handbook.gitlab.com/handbook/values/#transparency
Agent를 위해 File System이 새로운 DB인 시대, 회사 내 투명성의 방향은?
