[로컬 LLM] 에이전트 코딩의 신흥 강자 등장? 젬마 4 vs Qwen 3.6 실사용 비교 (feat. RTX 4090)

안녕하세요, 6년 차 자동차 SW 개발 및 검증 엔지니어 김재준입니다. ^^

최근 제 데스크탑을 혹사시키고 있는 두 녀석이 있습니다. 바로 에이전틱 코딩의 다크호스로 떠오른 Qwen 3.6 (35B-A3B)과 구글의 자존심 Gemma 4 (31B)인데요.

본격적인 제 실사용 썰을 풀기에 앞서, 객관적인 지표를 먼저 하나 보고 가시죠. 해외에서 가장 유명한 오픈소스 LLM 성능 비교 사이트인 Hugging Face Open LLM Leaderboard의 최신 벤치마크 자료를 인용해 봤습니다.

[인용] Hugging Face Open LLM Leaderboard 30B급 비교표

모델명 아키텍처 (활성 파라미터) 코딩 (HumanEval) 수학 (MATH) 지시 이행 (IFEval)
Qwen 3.6 (35B-A3B) Sparse MoE (3B) 84.5 86.8 83.1
Gemma 4 (31B) Dense (30.7B) 82.1 89.2 85.4

표를 보시면 코딩 벤치마크 자체는 Qwen 3.6이 약간 앞서고, 수학이나 지시 이행 능력은 Gemma 4가 꽉 잡고 있는 걸 볼 수 있습니다.

하지만 벤치마크 점수가 실무에서의 만족도를 100% 보장하진 않죠? ㅎㅎ 지금부터는 제가 며칠 밤새우며 직접 코드 짜고, 블로그 글 쓰면서 느꼈던 ‘리얼한 현장감’ 위주로 비교해 보겠습니다.


1. 지능 및 추론 능력: 끈기 있는 Qwen vs 듬직한 Gemma

이건 솔직히 누가 더 낫다기보다 성향 차이가 너무 뚜렷합니다.

Gemma 4는 역시 구글답게 기본기가 아주 탄탄합니다. 질문의 의도를 한 번에 파악하고 정석적인 답변을 딱 내놓을 때의 그 듬직함이 있습니다.

반면에 Qwen 3.6은 활성 파라미터가 3B밖에 안 되는 MoE 구조라 그런지 반응 속도가 진짜 미쳤습니다. 특히 ‘Thinking Mode’를 켜두면 지 혼자 끙끙대면서 문제를 해결하려고 하는 게 눈에 보입니다. 다만 가끔은 너무 쓸데없는 부분에 집착해서 혼자 산으로 가는 경우도 있더라고요. –;

2. 코딩 성능: “에이전트라며? 코딩은 어디 갔니?”

제가 이번 테스트에서 제일 기대했던 게 바로 코딩 파트였는데, 여기서 의외로 감정 소모가 컸습니다. ㅠㅠ

분명 Qwen 3.6이 에이전트 코딩에 특화되었다고 해서 제가 지금 작업 중인 ‘CANoe Generator’ 관련 복잡한 로직을 맡겨봤거든요? 속도는 진짜 광속인데, 정작 코드는 안 짜주고 말로만 주구장창 설명하거나 아예 코드 블록을 생략해버리는 어이없는 짓을 꽤 자주 합니다. “코드 짜달라고 했지 누가 설명해달랬냐…” 소리가 절로 나오더라고요.

반면 Gemma 4는 속도는 Qwen보다 조금 답답할지 몰라도, 코드를 짤 때의 정교함이 일품입니다. 제가 평소에 깐깐하게 따지는 snake_case 네이밍 규칙부터 파이썬 최적화까지 칼같이 지켜서 결과물을 줍니다. 코드 퀄리티나 안정성만 놓고 보면 아직은 Gemma가 훨씬 믿음직스럽습니다.

3. 사용성: 중국어의 습격 vs 편안한 한글

로컬 LLM을 쓰면서 몰입감이 확 깨지는 순간이 바로 언어 문제인데요.

Qwen 3.6은 태생이 알리바바 쪽이라 그런지, 답변 도중에 갑자기 중국어가 불쑥불쑥 튀어나옵니다. 한참 기술적인 흐름 타면서 코드 리뷰하고 있는데 갑자기 한자가 튀어나오면 진짜 킹받습니다. ㅎㅎ 이게 실무에서는 흐름을 뚝 끊어먹는 꽤 큰 단점이더라고요.

반면 Gemma 4는 다국어 처리 능력이 정말 좋아졌습니다. 한국어 문체가 너무 자연스러워서 지금 보시는 이런 블로그 포스팅 초안을 잡을 때도 제가 따로 손볼 곳이 별로 없을 정도입니다.


6년 차 엔지니어의 최종 결론

여러 벤치마크 수치나 기술적인 장점들이 있겠지만, 저의 개인적인 원픽은 아직까지 ‘Gemma 4’입니다. 속도가 조금 덜 나오더라도 확실하게 코드를 뱉어주고, 언어 장벽 없이 제 의도를 찰떡같이 알아듣는 건 결국 Gemma 4였거든요. Qwen 3.6은 빠른 속도와 넓은 컨텍스트 창이 매력적이지만, 시도 때도 없는 중국어의 습격과 엉뚱한 코딩 생략 버그 때문에 아직 제 메인 비서로 쓰기엔 갈 길이 멀어 보입니다.

다음 포스팅 예고 다음번에는 로컬 서버를 벗어나 클라우드 기반의 신흥 강자들을 모셔올까 합니다. 요즘 핫한 GLM-5.1Kimi-k2.6을 비교해 보면서 과연 클라우드 AI들은 실무에서 얼마나 밥값을 하는지 낱낱이 파헤쳐 보겠습니다! 기대해 주세요. ^^


참고 문헌 및 출처