[로컬 LLM] 고해성사로 시작하는 엑사원 3.5 vs 젬마 4 성능 비교 (feat. RTX 4090)

안녕하세요. 과거 굴착기 제어 로직을 4년 정도 개발하다가, 현재는 자동차 SW 개발 및 검증 엔지니어로 2년 차를 꽉 채워가고 있는 6년 차 개발자 김재준입니다. ^^

오늘은 새롭게 [AI 성능 비교] 카테고리를 열면서, 약간의 고해성사(?) 겸 비하인드 스토리를 먼저 풀어보려고 합니다.

최근 제 블로그에 C 언어, Rust, 그리고 알고리즘 강의 포스팅이 꾸준히 올라왔었죠? 사실 그 포스팅들… 제가 퇴근하고 직접 A부터 Z까지 손가락으로 타이핑한 게 아닙니다. 제 방구석 데스크탑에 띄워둔 로컬 LLM(대규모 언어 모델)들을 밤새 갈궈서(?) 만들어낸 결과물들이었습니다. ㅎㅎ

API로 챗GPT를 쓰는 것도 편하지만, 남의 서버에 의존하지 않고 내 입맛대로 프롬프트를 던져보려면 결국 로컬 환경 구축이 답이더라고요. 그래서 그동안 제 알고리즘 강의 포스팅의 퀄리티를 책임졌던 두 녀석, EXAONE 3.5 (32B)와 Gemma 4 (31B)가 글을 쓰는 과정에서 어떤 차이를 보였는지 생생한 경험담을 비교해 보려 합니다.

내 방구석 서버 사양 (Hardware)

로컬에서 30B(300억 파라미터) 급 모델을 쾌적하게 굴리려면 결국 하드웨어가 깡패입니다. 제 메인 데스크탑 사양은 이렇습니다.

CPU: Intel Core i9-13900K
RAM: DDR5-5600 64GB (시원하게 풀뱅크 채웠습니다)
GPU: NVIDIA GeForce RTX 4090 (VRAM 24GB)

RTX 4090의 광활한 24GB VRAM 덕분에 두 모델 모두 적당히 양자화(Quantization)를 먹여서 VRAM에 올리니, 메모리 터지는 일 없이 아주 시원시원하게 돌아갑니다.

1. 생성 속도: “답답한 건 못 참지”

승자: EXAONE 3.5 (32B) 압승

프롬프트를 치고 엔터를 누르는 순간 체감되는 반응 속도는 엑사원이 그냥 압도적입니다. RTX 4090의 쿠다 코어를 풀로드로 땡기면서 텍스트를 쫙쫙 뽑아내는데, 보고 있으면 진짜 속이 다 시원합니다.

제가 블로그 포스팅을 할 때, 글의 전체적인 목차(Table of Contents)를 잡거나 마크다운(Markdown) 표, 기본 C 언어 보일러플레이트(뼈대 코드)를 빠르게 뽑아내야 할 때가 있습니다. 퇴근하고 피곤해 죽겠는데 언제 하나하나 치고 있나요. ㅠㅠ 이럴 때 엑사원한테 던져주면 순식간에 블로그 글의 기초 공사를 끝내줍니다.

반면 젬마 4는 처음에 ‘음…’ 하고 뜸을 들이는 딜레이가 미세하게 있고, 텍스트가 출력되는 속도도 엑사원보다는 확실히 무겁고 진중한 느낌이 듭니다.

2. 코드 퀄리티 및 알고리즘 이해도: “누가 내 의도를 더 잘 아는가?”

승자: Gemma 4 (31B) 압승

처음에 엑사원 속도를 보고 “와 국산 모델 폼 미쳤네” 하다가, 막상 출력된 알고리즘 해설과 코드를 뜯어보고 생각이 확 바뀌었습니다. 정답에 훨씬 가깝고, 무엇보다 ‘내가 블로그 독자들에게 설명하고 싶은 핵심’을 정확히 짚어내는 건 젬마 4였습니다. 제 블로그 알고리즘 카테고리의 퀄리티를 책임진 진짜 일등 공신이죠.

제가 가장 크게 체감했던 두 번의 경험이 있습니다.

경험 1. [11강: KMP 알고리즘] 포스팅 작성 때 엑사원에게 KMP의 실패 함수(Pi Table) 로직을 짜고 해설해 달라고 하면, 딱 위키백과 느낌으로 밋밋한 교과서 정답을 줍니다. 하지만 젬마 4는 달랐습니다. 제가 KMP 포스팅에서 제일 강조하고 싶었던 “문자열 매칭이 틀렸다고 처음으로 무식하게 돌아가는 게 아니라, 어디로 돌아갈지 메모장을 보고 영리하게 건너뛴다”는 그 인사이트를 정확하게 캐치해서 주석과 본문 해설에 아주 찰지게 녹여내더라고요.

경험 2. [10강: 크루스칼 알고리즘] 포스팅 작성 때 크루스칼 포스팅을 쓰면서 Union-Find 최적화 코드를 요구했을 때도 차이가 컸습니다. 젬마 4는 단순히 합치는 코드를 넘어서, Path Compression(경로 압축)을 적용하면서 발생할 수 있는 엣지 케이스들을 꼼꼼하게 방어하는 C 코드를 짜줬습니다. 똑똑한 시니어 개발자한테 “이 부분 독자들이 헷갈려 할 텐데 어떻게 설명할까요?” 하고 물어보고 명쾌한 답변을 받은 기분이었습니다.

6년 차 엔지니어의 포스팅 파이프라인 결론

결국 제 방구석 서버에서 두 AI를 써보며 안착한 제 ‘블로그 자동화 파이프라인’은 이렇습니다.

EXAONE 3.5 (32B) 기용: 퇴근 후 빠른 작업 텐션이 필요할 때. 글의 전체적인 목차 잡기, 마크다운 포맷팅, 단순 반복적인 기본 코드 틀 짜기.
Gemma 4 (31B) 기용: 포스팅의 퀄리티를 끌어올릴 때. 복잡한 알고리즘(KMP, 크루스칼 등)의 핵심 원리를 독자에게 쉽게 설명하는 비유를 찾거나, 최적화된 코드의 디테일한 주석을 달 때.

단순 속도는 엑사원이 좋지만, 블로그 글의 깊이와 인사이트를 만들어주는 젬마 4 덕분에 요즘 포스팅할 맛이 납니다. ㅎㅎ

본격적인 제 실사용 썰은 여기까지고요, 객관적인 지표를 궁금해하실 분들을 위해 해외 유명 벤치마크 지표를 하나 첨부하며 글을 마칩니다.

[참고] Open LLM 성능 벤치마크 비교표

실제 사용감과 벤치마크가 얼마나 일치하는지 비교해 보는 것도 재미있습니다. (출처: Hugging Face Open LLM Leaderboard 및 각 모델 기술 문서 참고)

평가 항목	EXAONE 3.5 (32B)	Gemma 4 (31B)
코딩 능력 (HumanEval)	78.4	82.1
수학/논리 (MATH)	71.2	89.2
지시 이행 (IFEval)	81.5	85.4
한국어 이해도 (Ko-HellaSwag)	88.9	86.5

지표를 봐도 엑사원이 한국어 처리에 강점이 있다면, 젬마 4가 코딩과 논리적 추론(수학)에서 훨씬 더 깊이 있는 성능을 내는 것을 알 수 있습니다. 제 경험이 단순한 기분 탓이 아니었네요. ^^

다음번에는 알고리즘 포스팅을 넘어, 또 다른 재밌는 주제로 로컬 AI들을 굴려본 후기로 돌아오겠습니다!

나만의 블로그 로고 (이미지 추가 예정)

내 방구석 서버 사양 (Hardware)

1. 생성 속도: “답답한 건 못 참지”

2. 코드 퀄리티 및 알고리즘 이해도: “누가 내 의도를 더 잘 아는가?”

6년 차 엔지니어의 포스팅 파이프라인 결론

[참고] Open LLM 성능 벤치마크 비교표