Post by Kyunghun Lee
CSO & Deputy CEO @ Channel Corp | AI × B2B SaaS
1조 파라미터 오픈소스 AI, Kimi K2는 어떻게 GPT-4를 넘어섰나 1. 지난 주말, 중국 AI 스타트업 Moonshot AI가 공개한 Kimi K2가 화제입니다. VentureBeat는 "OpenAI와 Anthropic 임원들이 주목해야 할 성과"라고 평가했으며, 여러 AI 전문가들이 "게임 체인저"라는 반응을 보이고 있습니다. 무엇보다 놀라운 것은 GPT-4와 Claude 4 Opus를 여러 벤치마크에서 능가하면서도 모델 자체가 오픈 소스로 무료 공개되었다는 점입니다. 2. Moonshot AI는 2023년 3월 창립된 신생 기업이지만, 이미 상당한 기술적 성취를 축적해온 회사입니다. 31세의 창립자 Yang Zhilin은 칭화대학교에서 컴퓨터 과학을 전공하고 카네기 멜론 대학교에서 박사학위를 받은 AI 연구자입니다. 그는 Google Brain과 Meta AI에서 근무했으며, Transformer-XL의 핵심 저자로서 긴 맥락 처리 기술의 선구자 역할을 했습니다. Moonshot AI는 처음부터 "긴 맥락 처리"에 집중했습니다. 2023년 10월 첫 모델인 Kimi를 출시할 때 20만 자의 긴 텍스트를 처리할 수 있어 화제가 되었습니다. 3. Kimi K2는 MoE(Mixture of Experts) 아키텍처 기반으로 개발되었습니다. 기존 AI 모델은 모든 파라미터를 항상 사용했지만, MoE는 다른 접근입니다. ・총 파라미터: 모델 전체의 파라미터 수로, 모든 전문가들과 공유 레이어의 합입니다. 이는 모델이 보유한 전체 지식의 양을 나타내지만, 실제로 한 번에 모두 사용되지는 않습니다. Kimi K2는 1조개(1T)의 총 파라미터를 보유합니다. ・활성 파라미터: 실제 문제를 처리할 때 선택되어 계산에 사용되는 파라미터의 수입니다. Kimi K2는 상황에 따라 32억개(32B)만 활성화됩니다. 총 파라미터는 "모델의 전체 지식 크기"를, 활성 파라미터는 "실제 사용하는 연산량"을 의미합니다. MoE는 거대한 지식을 보유하면서도 적은 연산으로 효율성을 달성합니다. 4. MoE 아키텍처: 어떻게 크고 효율적으로 만들었나? MoE는 각자 전문 분야가 있는 여러 팀이 협력하는 구조입니다. 1) Experts (전문가들): 각 전문가는 독립적인 작은 신경망으로, 특정 유형의 작업에 특화되어 있습니다. 예를 들어, 어떤 전문가는 수학 문제에, 다른 전문가는 코드 생성에, 또 다른 전문가는 언어 번역에 뛰어납니다. Kimi K2는 384개의 이런 전문가들을 보유하고 있습니다. 2) Router (라우터 또는 게이팅 네트워크): 들어온 질문이나 작업을 분석해서 "어떤 전문가들이 이 문제를 해결하는 데 가장 적합한가?"를 판단하는 교통정리 시스템입니다. 3) Top-k Selection (상위 k개 선택): 라우터는 모든 전문가 중에서 상위 몇 개만 선택합니다. 여기서 'k'는 선택할 전문가의 수를 의미합니다. Kimi K2는 k=8, 즉 384명 중에서 8명의 전문가만 선택해서 작업을 수행합니다. 4) Sparse Activation (희소 활성화): 선택된 전문가들만 실제로 "켜져서" 작업하고, 나머지는 대기 상태로 있습니다. 이것이 '희소'라고 불리는 이유입니다. 전체 중 일부만 활성화되기 때문입니다. 실제 작동 과정 ・훈련 시: 모든 전문가가 다양한 데이터로 학습하지만, 라우터가 작업을 고르게 분배하도록 특별한 균형 조정 기법을 사용합니다. 이렇게 해서 어떤 전문가는 과로하고 어떤 전문가는 놀고 있는 상황을 방지합니다. ・실제 사용 시: 사용자가 질문을 하면 → 라우터가 질문의 성격을 분석 → 가장 적합한 8명의 전문가를 선택 → 선택된 전문가들이 각자 답변을 생성 → 이 답변들을 가중치에 따라 조합해서 최종 답변 완성합니다. 5. 에너지 절약: MoE가 어떻게 비용을 혁신적으로 줄이는가? 전통적인 AI 모델은 모든 파라미터를 항상 계산해야 해서 막대한 에너지를 소모합니다. Kimi K2의 MoE 방식은 다음과 같이 에너지를 절약합니다. 1) 선택적 계산: 1조 개 중에서 32억 개만 실제로 계산하므로, 연산량(FLOPs: 초당 부동소수점 연산 횟수)이 획기적으로 줄어듭니다. 2) 메모리 효율성: 전체 모델은 메모리에 로드되어 있지만, 선택된 전문가들의 계산만 GPU에서 실행됩니다. 나머지는 "대기 중"이므로 전력을 거의 소모하지 않습니다. 3) 하드웨어 요구사항 절감: 결과적으로 16GB GPU와 64GB RAM 정도의 일반적인 서버 환경에서도 실행이 가능합니다. 전통적인 1조 파라미터 모델이 수천 개의 GPU를 필요로 하는 것과 대조적입니다. 총 1조 개의 방대한 지식을 보유하면서도 실제 운영 비용은 32억 개 모델 수준으로 유지할 수 있어, "크면서도 경제적인" AI 모델이 가능해졌습니다. 6. 무료 제공의 파격적 의미: 왜 이것이 게임 체인저인가? Kimi K2의 가장 파격적인 부분은 이 모든 기술을 오픈 소스로 무료 공개한다는 점입니다. Kimi K2의 모델 가중치(weights)를 Modified MIT 라이선스로 완전히 공개했습니다. 여기서 '모델 가중치'란 AI 모델의 학습된 파라미터 값들을 의미하며, 이는 모델이 훈련 과정에서 습득한 모든 지식과 패턴 인식 능력이 수치화되어 저장된 핵심 데이터입니다. ・GitHub과 Hugging Face에서 누구나 다운로드 가능 ・자체 서버에서 완전히 독립적으로 운영 가능 ・모델 수정, 파인튜닝, 재배포 자유 물론 API로도 제공하며, Claude의 약 1/3 수준 가격입니다. 기업들은 빠른 도입을 위해 API로 시작했다가, 비용 최적화나 보안을 위해 자체 호스팅으로 전환할 수 있습니다. 7. 가속화되는 AI 경쟁, 급락하는 가격 장벽 Kimi K2의 등장은 AI 업계 경쟁이 새로운 국면에 접어들었음을 보여줍니다. DeepSeek부터 Kimi K2까지, 오픈소스 모델들이 연이어 기존 유료 모델들을 성능과 가격 양면에서 압박하고 있습니다. API 가격은 계속 하락하고 있고, 성능 격차는 빠르게 좁혀지고 있습니다. 앞으로 이런 경쟁은 더욱 가속화될 것 같습니다.