Sama라는 기업은 2000년대 초반부터 아프리카(케냐, 우간다), 인도 등지에서 데이터 라벨링을 싼 가격에 해왔다. [1] 해당 기사의 포인트는 사람의 정신에 해로울 수준의 다크웹 데이터를 라벨링 하는데에 시급 2달러 이하의 적은 돈으로 착취했다는 것이다. 그러나 해당 기사에서의 내 포인트는 조금 다르다.
이미 2000년대 초반부터 OpenAI뿐 아니라 Google, Amazon, MS, Meta와 같은 기업들은 데이터 엔지니어링의 중요함을 깨닫고 Human annotation과 같은 지루한 작업도 계속해왔다는 것. 결국 이러한 노력이 모여서 Data Engineering의 다음 단계들을 가능하게 하는 LLM들이 탄생했으며, 현재에는 model-driven data flywheel, self-improvement pipeline 등이 개발되는 단계로 나아가고 있다.
OpenAI의 공고에서도 볼 수 있듯이 [2] 결국 혁신에는 목표 지향적으로 필요한 모든 일을 하는 노력을 요구한다. 대AI시대를 맞아 가장 열심히 일하고 있는 Cursor Team과 Antropic이 결국 앞서나가고 있는 것도 이러한 팀을 잘 유지하고 있기 때문이다. 어떻게 그런 팀을 한국에서도 만들고 유지할 수 있을까? 적절한 보상과 “사람보다 더 많은 일 유지”와 신뢰를 통한 팀의 “황금기”를 [3] 유지하는 게 중요하다고 생각한다.
[1] Billy Perrigo, Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic, https://time.com/6247678/openai-chatgpt-kenya-workers/
[2] OpenAI, Research Engineer - Human Centered AI, https://openai.com/careers/full-stack-engineer-health-ai-san-francisco/
[3] Steve Yegge, The Anthropic Hive Mind, https://steve-yegge.medium.com/the-anthropic-hive-mind-d01f768f3d7b