새소식

300x250
AI/OpenSource

Open Code 리뷰(4) : OpenCode(oh-my-opencode)에 Z.ai GLM 연동하기(with claude code Z.aiGLM연동)

  • -
728x90

안녕하세요! 갓대희 입니다.

최근 AI 코딩 도구 비용이 부담되시는 분들이 선택하는 Plan-B(대안) 정도를 정리해 보았다.

Z.ai (구 Zhipu AI)에서 제공하는 GLM 모델 시리즈가 Claude Code나 OpenCode(Oh-my-OpenCode)와 연동하여 사용할 수 있고, 특히 Coding Plan은 월 $6부터 시작해서 가성비가 매우 뛰어나다. (첫 달 50% 할인 시 $3)

  • 무료 모델: GLM-4.5-Flash, GLM-4.6V-Flash
  • Coding Plan: 월 $6(첫 달 $3)로 5시간당 120 프롬프트
  • Context Caching: 입력 비용 80% 절감
  • Thinking Mode: 고급 추론 기능
  • Claude Code / OpenCode 연동: 설정 방법 상세 가이드
OpenCode 시리즈
이 글을 읽기 전에
이 글은 OpenCode의 기본 사용법을 알고 있다는 전제하에 작성되었다. (claude code는 기본) OpenCode가 처음이라면 먼저 Part 1: OpenCode 기초를 읽어보길 권한다.
정보 기준 시점
이 글의 정보는 2026년 1월 기준입니다. 가격, 모델, 기능은 변경될 수 있으므로, 적용 전 공식 사이트에서 최신 정보를 확인하세요.

 

1. Z.ai란? 왜 주목받는가

Z.ai (구 Zhipu AI)는 베이징에 본사를 둔 중국 AI 기업으로, 2025년에 리브랜딩되었다. 중국 LLM 시장에서 3위를 차지하며 "AI Tiger" 기업 중 하나로 꼽힌다.

 

왜 Z.ai가 핫한가?

핵심 매력: 가격 대비 성능
Claude Max Plan 구독이 월 $100~$200인 반면, Z.ai Coding Plan은 월 $6부터 시작한다. (첫 달 50% 할인 시 $3)
API 종량제 기준으로도 Claude/GPT 대비 4~7배 저렴하면서 유사한 성능을 보여준다.
구분 Claude Pro Claude Max Plan Z.ai Coding Lite
월 요금 $20 $100~$200 $6
(첫 달 $3)
5시간당 사용량 ~45개 약 225~900개
(Pro의 5~20배)
120개
컨텍스트 윈도우(한 번에 처리 가능한 텍스트 길이) 200K 200K 200K
참고: Entity List 등재
작년(2025년) 1월, 미국 상무부는 국가 안보 우려로 Z.ai를 Entity List(미국 수출 제한 대상 목록)에 등재했다. 이는 객관적 사실이며, 서비스 이용 여부는 각자 판단에 맡긴다. (출처: Wikipedia)

 

2. GLM 모델 라인업

Z.ai는 다양한 GLM 모델을 제공한다. 2026년 1월 기준 주요 모델은 다음과 같다:

 

최신 모델 (GLM-4.x 시리즈)

모델 파라미터(모델 크기) 컨텍스트 특징 가격
GLM-4.7 355B (32B 활성) 200K 최신 코딩 특화, MoE 아키텍처(Mixture of Experts, 여러 전문가 모델 중 적합한 것만 활성화하는 방식) $0.6/$2.2
GLM-4.6 - 200K 에이전트(자동 작업 수행)/추론 강화 $0.6/$2.2
GLM-4.6V 106B 128K 멀티모달(텍스트+이미지 처리) $0.3/$0.9
GLM-4.5 355B (32B 활성) 128K 범용, 추론/코딩/에이전트 통합 $0.6/$2.2
GLM-4.5-Air 106B (12B 활성) 128K 경량화 버전, 가성비 $0.2/$1.1
GLM-4.5-Flash - 128K 무료! 빠른 응답 무료
GLM-4.6V-Flash - - 무료! 멀티모달(텍스트+이미지 처리) 무료
GLM-4.5V - 128K GLM-4.5의 비전 버전 $0.6/$1.8
GLM-4.6V-FlashX - - 저가 비전 모델, 빠른 응답 $0.04/$0.4
GLM-4-32B-0414 32B 128K 초저가! 가벼운 작업용 $0.1/$0.1
무료 모델
GLM-4.5-FlashGLM-4.6V-Flash는 완전 무료로 제공된다.
간단한 작업이나 테스트 목적으로는 무료 모델만으로도 충분할 수 있다.

 

모델 선택 가이드

  • 코딩 작업: GLM-4.7 (최신, 코딩 특화)
  • 일반 대화/분석: GLM-4.5 또는 GLM-4.5-Air
  • 이미지 분석: GLM-4.6V 또는 GLM-4.6V-Flash (무료)
  • 비용 최소화: GLM-4.5-Flash (무료)
  • 빠른 응답 필요: GLM-4.5-Flash (무료) 또는 GLM-4.5-Air

 

3. 가격 비교 (무료 모델 포함)

API 종량제(사용한 만큼만 지불) 가격 - 1M 토큰(약 75만 단어)당

모델 입력 캐시 입력 출력
GLM-4.7 $0.60 $0.11 $2.20
GLM-4.6 $0.60 $0.11 $2.20
GLM-4.6V $0.30 $0.05 $0.90
GLM-4.5 $0.60 $0.11 $2.20
GLM-4.5-Air $0.20 $0.03 $1.10
GLM-4.5-Flash 무료 무료 무료
GLM-4.6V-Flash 무료 무료 무료

(출처: Z.ai 공식 가격 문서)

Context Caching 활용 시
캐시된 입력 토큰은 약 80% 저렴하다 ($0.60 → $0.11).
캐시 저장 비용은 현재 기간 한정 무료로 제공되고 있다.

 

4. Coding Plan 상세

Z.ai의 Coding Plan은 Claude Code, OpenCode, Cline 등 코딩 도구와 연동하여 사용할 수 있는 구독 서비스다.

플랜별 비교

플랜 정가 첫 달 할인가 5시간당 쿼터 특징
Coding Lite $6/월 $3/월 120 prompts 대부분의 개발자에게 적합
Coding Pro $30/월 $15/월 600 prompts 40% 빠른 응답, 이미지/비디오 입력
Coding Max ~$60/월 - ~2,400 prompts Pro의 4배 사용량

(출처: Z.ai 구독 페이지) - 프로모션 가격은 변경될 수 있음

ex) 월간

 

기간별 요금 플랜 (장기 결제 할인)

장기 결제(분기/연간) 이용 시 첫 결제 기간에 대해 파격적인 할인을 제공한다. 장기간 사용할 예정이라면 연간 결제가 가장 유리하다.

플랜 월간 (Monthly)
(첫 달 50% 할인)
분기별 (Quarterly)
(첫 분기 약 55% 할인)
연간 (Yearly)
(첫 해 60% 할인)
Coding Lite 첫 달 $3
(이후 $6/월)
첫 분기 $8.1
(이후 $18/분기)
첫 연 $28.8
(이후 $72/연)
Coding Pro 첫 달 $15
(이후 $30/월)
첫 분기 $40.5
(이후 $90/분기)
첫 연 $144
(이후 $360/연)
Coding Max 첫 달 $30
(이후 $60/월)
첫 분기 $81
(이후 $180/분기)
첫 연 $288
(이후 $720/연)
가격 정책 주의사항
  • 첫 결제 파격 할인: 월간(50%), 분기(55%), 연간(60%) 등 첫 결제 주기에만 큰 폭의 할인이 적용된다.
  • 갱신 시 정가 과금: 할인 기간 종료 후에는 정가(월 $6/$30/$60 기준)로 자동 갱신된다.
  • 해지 타이밍: 할인가로 이용 후 자동 갱신을 원치 않는다면, 결제 주기 갱신 전에 해지해야 한다.

 - 나의 경우 쿼터 요금제 / pro 요금제로 테스트 예정 이다.

 - 그리고 친구 링크를 타고 들어가면 추가 10% 할인된다고 하여 나도 링크 생성은 해보았다.

 - 🚀 You’ve been invited to join the GLM Coding Plan! Enjoy full support for Claude Code, Cline, and 10+ top coding tools — starting at just $3/month. Subscribe now and grab the limited-time deal! 

Link: https://z.ai/subscribe?ic=BVEF1AVEI0

 

ex) 분기별

 

ex) 연간

 

Coding Plan 포함 기능 - MCP Server(AI와 외부 서비스 연결)

Coding Plan에는 다음과 같은 MCP Server 기능(Model Context Protocol, AI가 외부 서비스와 소통하는 규약)이 포함되어 있다:

  • Vision Understanding: 이미지 분석 및 이해 (Pro 플랜 이상)
  • Web Search: 웹 검색 기능
  • Web Reader: 웹 페이지 내용 읽기

 

5시간 주기 쿼터(할당량) 시스템

5시간 주기란?

  • 쿼터 리셋: 매 5시간마다 프롬프트 쿼터가 자동으로 리셋된다
  • 쿼터 소진 시: 다음 5시간 주기 시작 시 자동으로 복구된다
  • 추가 과금 없음: 쿼터를 초과해도 별도 과금이 발생하지 않는다 (단, 사용 불가)
  • 제한 사항: Coding Plan은 지원 도구(Claude Code, Cline 등)에서만 사용 가능하며, 직접 API 호출은 불가
실사용 팁
Coding Lite의 5시간당 120 프롬프트는 하루 약 576개에 해당한다 (24시간 / 5시간 * 120).
일반적인 코딩 작업에는 충분한 양이다. 부족하다면 Pro 플랜을 고려하자.

 

Claude Pro 대비 비교

항목 Claude Pro Z.ai Coding Lite
월 요금 $20 $3
5시간당 메시지 ~45개 120개
가격당 메시지 2.25개/$1 40개/$1
모델 성능 Claude 5 Sonnet GLM-4.7 (~80% 수준)
사용자 후기
"GLM is really good at coding. For $3 a month, I already built 4 apps with it."
"It just seems to do what I want more reliably than other models, less reworking of prompts needed."
(출처: 커뮤니티 리뷰)

 

5. 가입 및 API 키 발급

Z.ai API를 사용하려면 계정을 만들고 API 키를 발급받아야 한다.

 

Step 1: 회원가입

1. https://z.ai 접속 또는 https://z.ai/subscribe

2. 우측 상단 "API" 또는 "로그인" 클릭

https://z.ai/
https://z.ai/subscribe



3. gmail, 이메일로 가입 선택 등 본인이 원하는 방법으로 회원 가입 진행(한국 이메일 사용 가능)

 

Step 2: API 키 발급

1. 로그인 후 "API" 또는 "콘솔" 메뉴 진입

 

2. 좌측 메뉴에서 "API Keys" 클릭

 

3. "Create API Key" 버튼 클릭

 

4. 생성된 API 키 복사 (한 번만 표시되므로 안전하게 저장)

# 환경 변수 설정 (bash/zsh)
export ZAI_API_KEY="your-api-key-here"

 

6. Claude Code 연동 설정

Z.ai GLM을 Claude Code에서 사용하려면 API 엔드포인트(API 접속 주소)와 모델 매핑을 설정해야 한다.

 

방법 1: 자동 설정 스크립트 (권장)

# Mac/Linux에서 자동 설정
curl -O "https://cdn.bigmodel.cn/install/claude_code_zai_env.sh" && bash ./claude_code_zai_env.sh

스크립트 실행 후 API 키를 입력하면 자동으로 설정이 완료된다. (혹시 1번 방법으로 잘 안되는 경우 : 방법 2로 세팅해 주자)

ex) 중간에 Z.ai API KEY 입력

 

방법 2: 수동 설정

~/.claude/settings.json 파일을 다음과 같이 수정한다:

// ~/.claude/settings.json
{
  "env": {
    "ANTHROPIC_AUTH_TOKEN": "your_zai_api_key",
    "ANTHROPIC_BASE_URL": "https://api.z.ai/api/anthropic",
    "API_TIMEOUT_MS": "3000000",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7"
  }
}

 

 - 반대로 해당 내용을 제거하면 원복 된다. 

 

ex) 제대로 변경 된 경우를 비교해보자.

 - 변경전 Opus 4.5

 

 - 변경 후 glm-4.7

 

Coding Plan 전용 엔드포인트

중요: 엔드포인트 구분
  • 일반 API: https://api.z.ai/api/paas/v4
  • Coding Plan: https://api.z.ai/api/coding/paas/v4
  • Anthropic 호환: https://api.z.ai/api/anthropic
Coding Plan 구독자가 일반 엔드포인트를 사용하면 "Authorization Failure" 오류가 발생할 수 있다.

 

방법 3: GLM CLI 도구

별도의 CLI 도구를 사용하여 더 편리하게 설정할 수도 있다:

# GLM CLI 설치
curl -fsSL https://raw.githubusercontent.com/xqsit94/glm/main/install.sh | bash

# API 토큰 설정
glm token set

# GLM으로 Claude Code 실행
glm

 

트러블슈팅

버전 호환성

  • Claude Code 2.0.14 이상 필요
  • 이전 버전에서는 연동이 정상 작동하지 않을 수 있음
  • 버전 확인: claude --version

흔한 오류와 해결

"Authorization Failure" Coding Plan 엔드포인트 확인, API 키 재확인
"Insufficient Balance" Coding Plan이 아닌 일반 API 엔드포인트 사용 중일 수 있음
"Timeout" / 응답 지연 API_TIMEOUT_MS를 3000000 이상으로 설정
모델을 찾을 수 없음 모델명 정확히 입력 (예: glm-4.7, 대소문자 구분)
주의: 모델 하드코딩
settings.json에 모델명을 하드코딩하면 Z.ai에서 새 모델이 출시되어도 자동 업데이트되지 않는다.
최신 모델을 사용하려면 주기적으로 설정을 확인하고 업데이트하자.

 

7.  VS Code 확장 프로그램 연동 (Cline, Kilo)

VS Code에서 가장 인기 있는 AI 코딩 에이전트인 ClineKilo에서도 Z.ai GLM을 손쉽게 사용할 수 있다.

 

설정 가이드

1. VS Code 마켓플레이스에서 Cline 또는 Kilo 설치

 

2. 설정(Settings) 메뉴 진입 (톱니바퀴 아이콘) 또는 버전에 따라 Use you own API key 클릭.

 

3. API Provider"OpenAI Compatible"로 선택 (Z.ai 전용 메뉴가 없다면)

 

 

 

4. 아래 정보를 입력:

Base URL Coding Plan 사용자:
https://api.z.ai/api/coding/paas/v4

일반/무료 사용자:
https://open.bigmodel.cn/api/paas/v4
API Key 발급받은 Z.ai API Key 입력
Model ID glm-4.7 또는 glm-4.5-flash 등

 

주의사항
Kilo 등 일부 도구에서는 '주소 입력' 란에 대시보드 URL(apikey-list)을 넣는 실수를 하기 쉽다. 반드시 위 표의 API 엔드포인트 URL을 정확히 입력해야 한다.

ex) 연동 확인

 

 - 좌측 하단에서 언제든 모델 변경도 가능하다.

 

8. OpenCode 연동 설정

OpenCode에서 Z.ai GLM을 사용하려면 opencode.json 설정 파일을 수정한다.

Coding Plan 사용 시

// opencode.json - Coding Plan 전용
{
  "provider": {
    "zai-coding": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Z.AI Coding Plan",
      "options": {
        "baseURL": "https://api.z.ai/api/coding/paas/v4",
        "apiKey": "{env:ZAI_API_KEY}"
      },
      "models": {
        "glm-4.7": {
          "name": "GLM-4.7 (Coding Plan)",
          "limit": { "context": 200000, "output": 16384 }
        }
      }
    }
  }
}

ex) apiKey 영역은 본인의 키 입력

 

oh-my-opencode 에이전트 설정

oh-my-opencode를 사용한다면 에이전트별로 모델을 지정할 수 있다:

// oh-my-opencode 설정
{
  "agents": {
    "Sisyphus": { "model": "zai-coding/glm-4.7" },
    "oracle": { "model": "zai-coding/glm-4.7" },
    "librarian": { "model": "zai/glm-4.5-flash" },
    "explore": { "model": "zai/glm-4.5-air" }
  }
}

ex)

하이브리드 전략
  • 가성비 조합 : 메인 작업(GLM-4.7) + 단순 작업(GLM-4.5-Flash)
  • 크로스 모델 조합 : 기획/설계는 Claude 4.5 Sonnet / Opus에게 맡기고, 실제 코딩 구현은 가성비 좋은 GLM-4.7에게 실행시키는 전략
비용을 최적화하면서 성능을 극대화할 수 있다.

ex) omo 실행 예시

 

 - 다음과 같은 오류가 발생한다면

 

ex) /connect 를 이용해서 직접 연결하자. 

 

 - 정상 연동 확인

 

9. 고급 기능

9.1 Context Caching(이전 대화 내용 저장해두고 재사용)

Z.ai는 Context Caching 기능을 제공하여 반복적인 프롬프트 사용 시 비용을 절감할 수 있다.

구분 일반 입력 캐시된 입력 절감률
GLM-4.7 $0.60/1M $0.11/1M ~82%
GLM-4.5-Air $0.20/1M $0.03/1M ~85%
기간 한정 무료
현재 캐시 저장 비용이 무료로 제공되고 있다. 이 기간을 활용하면 추가 비용 없이 캐싱의 이점을 누릴 수 있다.

 

9.2 Thinking Mode(답변 전 AI가 생각하는 과정을 거침)

GLM-4.7은 세 가지 사고 모드를 제공하여 복잡한 작업에서 정확도를 높일 수 있다:

Interleaved Thinking (인터리브드)

  • 모든 응답과 도구 호출 전에 "추론" 단계를 실행
  • 복잡한 디버깅 작업에서 환각(AI가 사실이 아닌 내용을 생성하는 현상) 감소

Preserved Thinking (보존형)

  • 멀티턴 대화에서 모든 사고 블록을 자동 보존
  • 처음부터 다시 추론하지 않고 기존 추론 재사용
  • 장기적인 복잡 작업에 적합

Turn-level Thinking (턴 레벨)

  • 세션 내에서 턴별로 추론을 제어할 수 있음
  • 간단한 요청: 사고 비활성화 → 지연/비용 감소
  • 복잡한 작업: 사고 활성화 → 정확도/안정성 향상

 

API 파라미터 예제

Thinking Mode를 API에서 활성화하려면 thinking 파라미터를 설정한다:

// Interleaved Thinking 활성화
{
  "model": "glm-4.7",
  "messages": [...],
  "thinking": {
    "type": "enabled",
    "budget_tokens": 8192
  }
}
// Preserved Thinking (멀티턴에서 사고 보존)
{
  "model": "glm-4.7",
  "messages": [...],
  "thinking": {
    "type": "enabled",
    "budget_tokens": 8192,
    "preserve": true
  }
}
budget_tokens 설정
budget_tokens는 추론에 사용할 최대 토큰 수를 지정한다. 값이 클수록 깊은 추론이 가능하지만, 응답 시간과 비용이 증가한다. 일반적으로 8192~16384 범위를 권장한다.

 

10. 벤치마크(성능 측정 테스트) 및 성능

GLM-4.7의 주요 벤치마크 결과는 다음과 같다 (2026년 1월 기준):

벤치마크 GLM-4.7 비고
SWE-bench Verified(소프트웨어 버그 수정 능력) 73.8% Claude 5 Sonnet 수준
SWE-bench Multilingual 66.7% 다국어 코딩
Terminal Bench 2.0 41% 터미널 작업
Tool-calling(외부 도구 호출) 성공률 90.6% Claude 5 Sonnet에 근접
τ²-Bench 87.4 오픈소스 최고
AIME 2025(미국 수학 경시대회) 95.7% 고난도 수학 문제 해결
GPQA-Diamond(박사급 과학 지식) 85.7% 물리/화학/생물 전문 문제
HLE(인류 최종 시험, 최고난도) 42.8% 전문가도 어려운 종합 문제

(출처: Z.ai 공식 블로그)

실사용 평가
Hacker News 등 커뮤니티 의견에 따르면 GLM-4.7은 "Claude Code의 약 80% 수준"으로 평가되는 경우가 많다.
이는 주관적 평가이며, 실제 성능은 작업 유형에 따라 다를 수 있다.

 

11. 팁 및 주의사항

엔드포인트 혼동 주의

흔한 오류
Coding Plan 구독자가 일반 API 엔드포인트를 사용하면 다음 오류가 발생할 수 있다:
  • "Authorization Failure"
  • "Insufficient Balance"
해결: Coding Plan 전용 엔드포인트 https://api.z.ai/api/coding/paas/v4를 사용하자.

 

속도 이슈

알려진 이슈
일부 사용자들이 서비스 속도가 느려졌다는 보고가 있다. 이는 신규 사용자 급증으로 인한 것으로 추정된다.
대체로 사용 가능한 수준이지만, 응답 지연이 발생할 수 있음을 감안하자.

 

실전 팁

  • 무료 모델로 시작: GLM-4.5-Flash로 먼저 테스트해보자
  • Coding Lite 추천: 대부분의 개발자에게는 $3/월 Lite로 충분하다
  • Context Caching 활용: 반복 작업 시 비용을 80% 이상 절감할 수 있다
  • 하이브리드 전략: 메인 작업은 GLM-4.7, 보조 작업은 무료 모델 조합
  • 타임아웃 설정: 응답 지연을 대비해 API_TIMEOUT_MS를 여유있게 설정하자

 

12. FAQ

Q: Coding Plan vs API 종량제, 어떤 게 유리한가?
A: 대부분의 경우 Coding Plan이 유리하다. Coding Lite (정가 $6/월, 첫 달 $3)는 5시간당 120 프롬프트를 제공하며, 이는 API 종량제로 환산하면 훨씬 비싸다. 다만, 사용량이 매우 적거나 불규칙하다면 API 종량제가 나을 수 있다.
Q: 무료 모델만으로도 충분한가?
A: 작업에 따라 다르다. GLM-4.5-Flash는 간단한 코딩 작업이나 테스트 목적으로는 충분하다. 하지만 복잡한 코딩 작업이나 대규모 프로젝트에서는 GLM-4.7의 성능이 확실히 낫다.
Q: Claude Code에서 GLM-4.7 성능은 어떤가?
A: 커뮤니티 평가에 따르면 "Claude의 약 80% 수준"이라는 의견이 많다. Tool-calling 성공률(90.6%)은 Claude 5 Sonnet에 근접하지만, 전반적인 코딩 품질에서는 아직 차이가 있을 수 있다. 가격 대비 성능을 고려하면 매우 좋은 선택이다.
Q: 한국에서 결제가 가능한가?
A: 해외 결제가 가능한 카드(Visa, Mastercard 등)로 결제할 수 있다. 일부 사용자는 PayPal을 통한 결제도 보고했다.
Q: Entity List 등재가 서비스 이용에 영향을 주는가?
A: 현재로서는 개인 사용자의 서비스 이용에 직접적인 제한은 없는 것으로 보인다. 다만, 기업 환경에서 사용하려는 경우 법무팀과 상의하는 것을 권장한다.

 

13. 참고 자료

커뮤니티 및 도구

이 글은 2026년 1월 기준 Z.ai 공식 문서와 커뮤니티 정보를 바탕으로 작성되었다. 가격, 기능, 정책은 언제든 변경될 수 있으므로, 적용 전 공식 사이트에서 최신 정보를 확인하는 것을 권장한다.

 

 

 

 

300x250
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

💡 AI 관련 질문이 있나요? 눌러보세요!