태그: Local AI

로컬에서 DeepSeek-V4 실행하는 방법: Pro 및 Flash 설치 가이드

DeepSeek-V4는 지금까지 DeepSeek에서 공개한 가장 야심찬 오픈 웨이트 모델 중 하나입니다. 이 시리즈에는 49B 활성화 파라미터를 가진 1.6T 파라미터 Mixture-of-Experts 모델인 DeepSeek-V4-Pro와 13B 활성화 파라미터를 가진 더 작은 284B 파라미터 MoE 모델인 DeepSeek-V4-Flash가 포함되어 있습니다. 두 모델 모두 최대 백만 토큰의 컨텍스트 길이를 지원합니다.

이 조합은 매우 흥미롭지만, 실질적인 질문이 생깁니다: 실제로 DeepSeek-V4를 로컬에서 실행할 수 있을까요?

약 3 분

Gemma 4 31B 로컬에서 실행하는 방법: Unsloth, Ollama, llama.cpp, HuggingFace

Google DeepMind가 2026년 초에 Gemma 4를 공개했고, 그중 31B instruction-tuned 변형이 딱 좋은 밸런스를 보여줍니다. 프라이빗 모델들과 추론 벤치마크에서 겨룰 만큼 크고, 그래도 괜찮은 소비자용 GPU에서 돌아갈 만큼 작습니다. MMLU Pro에서 85.2%, AIME 2026에서 89.2%를 기록했고, 크기가 두 배인 모델들과 비슷한 성능입니다.

문제는 항상 "그래서 이걸 어떻게 돌리지?"였죠. 30.7B 파라미터 모델을 풀 정밀도로 돌리려면 VRAM이 약 62GB 필요합니다. 그런 거 한 장에 가진 사람은 없죠. 하지만 적절한 양자화와 도구만 있으면 24GB RTX 4090에서 돌릴 수 있고, 16GB 카드에서는 CPU로 일부 오프로드하는 것도 가능합니다. GPU 인스턴스를 부담 없이 쓰고 싶다면 LightNode를 VPS 제공자로 추천합니다.

약 5 분

Kimi-K2-Instruct 로컬 실행 방법: 종합 가이드

Kimi-K2-Instruct를 로컬에서 실행하는 것은 처음에는 복잡해 보일 수 있지만, 올바른 도구와 절차만 따르면 의외로 간단합니다. 고급 AI 모델을 실험해보고 싶은 개발자이든, 클라우드 API에 의존하지 않고 추론을 완전히 제어하고 싶은 사용자이든, 이 가이드는 전체 과정을 단계별로 안내해 드립니다.

Kimi-K2-Instruct란?

Kimi-K2-Instruct는 Moonshot AI에서 개발한 고급 AI 언어 모델로, 지시사항을 따르는 작업에 최적화되어 있습니다. 채팅 완성 기능을 지원하며 vLLM, SGLang, KTransformers, TensorRT-LLM 등 다양한 추론 엔진에 최적화되어 있습니다. OpenAI 및 Anthropic 스타일 API와 호환되어 기존 도구와 유연하게 통합할 수 있습니다.

약 1 분