새소식

300x250
AI/WritenAI : AI 글쓰기

AI가 못 읽던 네이버 블로그, 6단계 폴백 체인으로 뚫는다 — GPTaku 딥리서치 가이드

  • -
728x90

안녕하세요! 갓대희 입니다.

GPTaku deep-research 플러그인 v2.2.0이 3월 16일에 나왔다. 변경사항이 여럿이지만 한 가지가 눈에 들어온다: AI가 제대로 못 읽던 네이버 블로그를 6단계 폴백 체인으로 처리하기 시작했다. 설치 방법부터 각 폴백 단계가 실제로 어떻게 동작하는지 정리했다.

 

아직 어떻게 활용하면 좋을지 고민중이기 때문에 완전히 검증하진  못했다. 잘못된 내용이 있다면 말씀 부탁 드립니다.

목차

  1. GPTaku Plugin 소개
    • GPTaku란?
    • 플러그인 마켓플레이스 구조
    • 전체 플러그인 목록
  2. 설치 방법
    • 마켓플레이스 등록
    • 플러그인 설치 및 업데이트
    • 사용 방법 (트리거 명령어)
  3. Deep Research 7단계 파이프라인
    • 각 단계별 설명
    • 출력 파일 구조
  4. v2.2.0 핵심 업데이트: 네이버 블로그 접근
    • 왜 AI는 네이버 블로그를 못 읽나?
    • Tier 구조 전체 소개
    • Tier 2.5 폴백 6단계 체인 상세
    • 도메인별 라우팅 테이블
  5. 버전 히스토리
  6. 실제 활용 시나리오
  7. 한계점과 주의사항
  8. 커뮤니티 반응 (2026.3.12~19)
  9. 결론
GPTaku Deep Research v2.2.0 요약

7단계로 돌아가는 멀티에이전트 파이프라인으로, 공식 문서·기술 블로그·학술 자료를 병렬로 수집하고 출처를 교차 검증한다. v2.2.0의 핵심은 AI가 막히던 사이트에 대한 폴백 체인이다. 모바일 UA 위장부터 Playwright 브라우저 자동화까지 6단계를 순서대로 시도하는데, 네이버 블로그가 주요 타깃이다.

 

1. GPTaku Plugin 소개

GPTaku란?

GPTaku는 Claude Code를 사용하는 "AI 네이티브" 개발자/비개발자를 위한 플러그인 마켓플레이스이다.

GitHub 계정 fivetaku가 운영하며, 2026년 3월 2일 첫 커밋 이후 현재 9개 플러그인이 등록되어 있다.

(저장소 생성일은 2월 21일).

"AI Native"란?

GPTaku README에는 대상 독자를 다음과 같이 정의하고 있다.

"AI Native란 AI를 단순히 도구로 쓰는 게 아니라, 기획부터 실행까지 AI를 자연스럽게 녹여내는 사람을 말합니다. 본인이 하는 일에 AI를 적용해 실질적인 성과를 만들려면, 결국 자기 자신이 먼저 AI Native해져야 합니다. 하지만 그 과정은 쉽지 않습니다. 개발 경험이 없는 사람에게는 하나하나가 새로운 벽이고, AI와 협업하는 방법 자체를 배워가야 합니다."

개발 경험이 없는 사람도 사용할 수 있도록 한국어 트리거와 인터랙티브 UI를 적극 활용한다.

  • GitHub: https://github.com/fivetaku/gptaku_plugins
  • 라이선스: MIT
  • 플러그인 수: 현재 9개 (2026년 3월 기준)
  • 대상: Claude Code 사용자

 

플러그인 마켓플레이스 구조

GPTaku 마켓플레이스는 .claude-plugin/marketplace.json 파일을 통해 플러그인 목록을 관리한다. 각 플러그인은 Git 서브모듈로 별도 저장소를 가리킨다. 예를 들어 deep-research의 소스는 https://github.com/fivetaku/deep-research-kit.git이다.

플러그인 등록 구조

마켓플레이스 URL을 한 번 등록하면, 해당 저장소의 marketplace.json에 선언된 모든 플러그인을 /plugin install로 설치할 수 있다. 각 플러그인은 독립적인 Git 저장소로 관리되어 개별 업데이트가 가능하다.

 

전체 플러그인 목록 (2026년 3월 기준)

현재 9개의 플러그인이 마켓플레이스에 등록되어 있다.

플러그인 이름 설명
docs-guide llms.txt 패턴 기반 공식 문서 페처, 68+ 라이브러리 지원
git-teacher 비개발자를 위한 Git/GitHub 온보딩, 한국어 지원
vibe-sunsang 바이브 코더를 위한 AI 멘토 에이전트, 4가지 워크스페이스 유형
deep-research 7단계 딥리서치 파이프라인, 멀티에이전트 출처 검증 (이 글의 주인공)
pumasi Claude PM + Codex CLI 병렬 개발자 조합
show-me-the-prd 인터뷰 방식의 PRD 생성기
kkirikkiri 자연어 AI 팀 빌더, 멀티모델 지원
skillers-suda 4-페르소나 스킬 빌더 (바이브 코더용)
nopal Google Workspace 오케스트레이션 (9개 서비스: Gmail·Calendar·Drive·Sheets·Docs·Slides·Chat·Tasks·Meet, gws CLI)

 

2. 설치 방법

사전 확인사항

설치 전 환경을 한 번 점검한다. 필수 항목만 갖춰도 기본 동작은 문제없으며, 권장 항목을 추가할수록 네이버 블로그 접근 성공률이 높아진다.

항목 필수/권장 비고
Claude Code CLI 필수 버전 무관. 플러그인 시스템은 Claude Code에 내장
Python 3.10+ 권장 Tier 2.5 Step 5 (curl_cffi) 사용 시 필요
Perplexity MCP 권장 Tier 1 활성화. 네이버 블로그 접근 안정성 대폭 향상 (perplexity.ai에서 API 키 발급 필요)
Playwright MCP 선택 Tier 2.5 Step 6. JS 렌더링 사이트 완전 자동화
Windows 환경 - WSL2 필수 (wsl --install). macOS/Linux는 직접 실행 가능

 

마켓플레이스 등록 (최초 1회)

Claude Code에서 아래 명령어로 GPTaku 마켓플레이스를 등록한다. 이 과정은 최초 한 번만 하면 된다.

/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git

 

플러그인 설치

마켓플레이스 등록 후, deep-research 플러그인을 설치한다.

# 특정 플러그인 바로 설치
/plugin install deep-research

# 또는 목록을 보고 선택 (인터랙티브)
/plugin install
중요: 설치/업데이트 후 재시작 필수

플러그인 설치 또는 업데이트 후에는 반드시 Claude Code를 재시작해야 새 플러그인이 인식된다.

 

설치 확인

Claude Code를 재시작한 후, 아래 명령어로 플러그인이 정상 등록됐는지 확인한다.

# 설치된 플러그인 확인 (/plugin 인터랙티브 UI의 Installed 탭)
/plugin

# 딥리서치가 동작하는지 바로 테스트
/deep-research status

/plugin의 Installed 탭에 deep-research가 보이면 설치 성공이다. 보이지 않으면 마켓플레이스 등록이 제대로 되었는지 확인하고 Step 1부터 다시 진행한다.

 

업데이트

플러그인 업데이트가 배포되면 아래 명령어로 최신 버전을 받는다.

/plugin update

 

사용 방법 (트리거 명령어)

설치 후 Claude Code에서 다음 방식으로 딥리서치를 시작할 수 있다.

# 슬래시 명령어
/deep-research [주제]

# 자연어 트리거 (한국어 지원)
딥리서치 [주제]
[주제]에 대해 리서치해줘

# 세션 재개
/deep-research resume [session_id]

# 진행 상황 확인
/deep-research status

 

3. Deep Research 7단계 파이프라인

deep-research 플러그인의 핵심은 7단계 멀티에이전트 리서치 파이프라인이다. 검색과 요약뿐 아니라 출처 삼각검증과 할루시네이션 방지까지 파이프라인에 포함되어 있다.

 

각 단계별 설명

Phase 1: 질문 범위 설정 (Question Scoping)

AskUserQuestion UI를 통해 인터랙티브하게 리서치 범위를 확정한다. 출력 형식, 대상 독자, 선호 출처 유형 등을 사전에 물어본다.

 

Phase 2: 검색 계획 수립 (Retrieval Planning)

주제를 3~5개 하위 토픽으로 분해하고, 각각에 맞는 검색 쿼리를 생성한다. 쿼리에는 항상 현재 연도가 자동 추가되어 최신 정보를 우선한다.

 

Phase 3: 병렬 쿼리 실행 (Iterative Querying)

백그라운드 에이전트들이 웹, 학술, 기술 자료를 동시에 병렬 검색한다. 이 단계에서 v2.2.0의 Tier 2.5 폴백이 실행된다 (4장에서 상세 설명).

 

Phase 4: 출처 삼각검증 (Source Triangulation)

핵심 주장은 반드시 2개 이상의 독립적 출처로 검증한다. 단일 출처의 주장은 검증 불가(Unverified) 태그가 붙는다.

 

Phase 5: 지식 통합 (Knowledge Synthesis)

에이전트들이 수집한 정보를 하나로 합친다. 같은 내용이 여러 출처에서 나오면 중복을 제거하고, 출처끼리 내용이 엇갈리면 그 충돌을 명시한 채 보고서에 반영한다.

 

Phase 6: 품질 보증 (Quality Assurance)

할루시네이션 체크, 인용 검증, 완성도 검토를 수행한다. 검증되지 않은 수치나 주장은 명시적으로 표시된다.

 

Phase 7: 출력 패키징 (Output Packaging)

최종 보고서, 참고문헌, 선택적 인터랙티브 HTML 웹사이트를 생성한다.

 

출력 파일 구조

리서치 결과는 아래 폴더 구조로 저장된다. 세션 상태가 저장되어 중간에 중단해도 재개할 수 있다.

RESEARCH/{주제}_{타임스탬프}/
├── state.json                    # 세션 상태 (재개용)
├── README.md                     # 리서치 개요
├── artifacts/                    # 중간 산출물
│   ├── research_plan.json       # 리서치 계획
│   ├── agent_results/           # 에이전트 수집 결과
│   └── drafts/                  # 초안
├── outputs/
│   ├── 00_executive_summary.md  # 핵심 요약
│   ├── 01_full_report/          # 전체 보고서
│   ├── 02_appendices/           # 부록
│   └── comparison_data.json
├── sources/
│   ├── sources.jsonl            # 출처 메타데이터
│   ├── bibliography.md          # 참고문헌
│   └── quality_report.md        # 품질 보고서
└── website/                      # 인터랙티브 HTML (선택)
    ├── index.html
    ├── styles.css
    └── script.js

 

4. v2.2.0 핵심 업데이트: 네이버 블로그 접근

왜 AI는 네이버 블로그를 못 읽나?

네이버 블로그(blog.naver.com)의 PC 버전은 봇 접근이 어려운 구조를 가지고 있다.

  • User-Agent 검사: 일반적인 봇/크롤러 UA를 차단한다 (tool_strategy.md에서 "UA 차단 우회"를 Step 1으로 제시)
  • iframe 구조: PC 버전의 실제 콘텐츠가 mainFrame iframe 내부에 있어 단순 HTML 파싱으로는 내용을 얻기 어렵다
  • JavaScript 의존: 콘텐츠 일부가 클라이언트 JavaScript로 렌더링된다. 단, 모바일 버전(m.blog.naver.com)은 상대적으로 단순한 HTML 구조로 curl 접근이 가능하다
참고: TLS 핑거프린트 차단

네이버 블로그 자체가 TLS 핑거프린트로 차단하는 것은 확인되지 않았다. tool_strategy.md에서 TLS 핑거프린트 우회(curl_cffi)는 Cloudflare 등 고급 봇 탐지 서비스가 적용된 사이트를 위한 것이다. 네이버 블로그에는 주로 모바일 UA 위장(Step 1)과 RSS(Step 2)가 유효하다.

결과적으로 Claude Code의 기본 WebFetch 도구로는 네이버 블로그 본문을 제대로 가져오지 못했다. 한국어 기술 정보 중 상당량이 네이버 블로그에 있다 보니, AI 리서치에서 자주 공백이 생기는 지점이었다.

 

Tool 전략의 Tier 구조

v2.2.0은 tool_strategy.md 파일에 사이트 접근 전략을 계층화했다. 빠르고 간단한 방법을 먼저 시도하고, 실패하면 더 강력한 방법으로 단계적으로 넘어간다.

계층 도구 특징
Tier 1 Perplexity MCP, Firecrawl MCP, Google Search MCP, Exa MCP MCP 설치 시 우선 사용. 네이버 블로그 포함 대부분 사이트 접근 가능
Tier 2 WebSearch + WebFetch (기본 내장) MCP 미설치 시 기본 동작. 티스토리, 브런치 등 일반 사이트에서 동작
Tier 2.5 ★ 신규 6단계 폴백 체인 Tier 2에서 막힌 사이트를 순차적으로 우회 (네이버 블로그 등)

 

Tier 2.5 폴백 6단계 체인 상세

이것이 v2.2.0의 핵심이다. 접근이 차단된 사이트를 만나면 아래 6단계를 순서대로 시도한다.

 

Step 1: 모바일 URL + iPhone User-Agent

네이버 블로그 URL을 모바일 버전으로 변환하고, iPhone Safari User-Agent 헤더와 한국어 Accept-Language를 설정해서 curl 요청을 보낸다.

# blog.naver.com/{ID}/{NO}
#   → m.blog.naver.com/PostView.naver?blogId={ID}&logNo={NO}
# 응답에서 se-text-paragraph CSS 클래스 추출
모바일 버전의 차이

네이버 블로그 PC 버전(blog.naver.com)은 iframe 구조로 본문이 숨겨져 있지만, 모바일 버전(m.blog.naver.com)은 상대적으로 간단한 HTML 구조를 사용해 텍스트 추출이 용이하다.

 

Step 2: RSS 피드 활용

네이버 블로그는 블로그 단위로 RSS 피드를 제공한다. API 키 없이 무료로 최대 50개 포스트의 제목, 링크, 본문 요약(최대 300자)을 가져올 수 있다. 단, RSS 활성화 여부는 블로그마다 다르며, 비활성화된 블로그는 빈 피드를 반환한다.

https://rss.blog.naver.com/{BLOG_ID}.xml
# 최근 50개 포스트, 제목 + 링크 + 300자 요약 반환

 

Step 3: OGP 메타 태그 추출

Googlebot User-Agent를 사용해 페이지의 <meta property="og:..."> 태그에서 최소한 제목과 설명을 추출한다. 본문 전체는 얻지 못하더라도 키워드 파악에 활용된다.

 

Step 4: 구글 캐시 / Wayback Machine

Google 캐시(webcache.googleusercontent.com)와 인터넷 아카이브(web.archive.org)의 캐시 버전을 시도한다. 단, Google은 2024년 2월 캐시 링크 제거를 발표하고 9월에 완전 종료했으므로 webcache.googleusercontent.com은 현재 대부분 접근 불가 상태일 수 있다. Wayback Machine이 실질적인 폴백 역할을 하며, 네이버처럼 iframe 기반 사이트는 아카이브에서도 본문 추출에 실패할 수 있다.

 

Step 5: curl_cffi (TLS 핑거프린트 우회)

Python 라이브러리 curl_cffi를 사용한다. 이 라이브러리는 Chrome 브라우저의 TLS 핑거프린트를 그대로 모방해서 Cloudflare와 같은 고급 봇 탐지 시스템을 우회한다.

pip install curl-cffi  # Python 3.10+ 필요
curl_cffi가 필요한 이유

일반 Python requests나 curl은 TLS 핑거프린트에서 일반적인 CLI 패턴을 보여 봇으로 탐지된다. curl_cffi는 실제 Chrome 브라우저와 동일한 TLS/JA3 핑거프린트를 생성해 이를 우회한다. PyPI 패키지명은 curl-cffi(하이픈)이며 Python 3.10 이상이 필요하다.

 

Step 6: Playwright MCP (최후 수단)

가장 강력하지만 가장 느린 방법이다. 실제 브라우저를 자동화해서 JavaScript 렌더링까지 완전히 처리한다. SPA 사이트라면 거의 모든 경우에 콘텐츠를 가져올 수 있다. Playwright MCP가 설치된 경우에만 사용 가능하다.

Playwright MCP 설치 명령어:

claude mcp add playwright npx @playwright/mcp@latest
폴백 동작 및 태그 처리

Tier 2.5 폴백으로 수집한 소스에는 via_fallback 태그가 출처 신뢰도 메타데이터에 자동으로 추가된다.

Playwright MCP가 없을 때: Step 6을 건너뛰고 계속 진행한다. 오류나 세션 중단은 없다.
모든 폴백(1~6단계)이 실패할 때: 해당 URL을 sources/failed_urls.txt에 기록하고, URL에서 키워드를 추출해 새로운 WebSearch를 자동 실행해 대체 출처를 탐색한다.

 

도메인별 라우팅 테이블

v2.2.0의 tool_strategy.md에는 주요 한국 사이트에 대한 라우팅이 명시되어 있다.

도메인 전략 비고
blog.naver.com 모바일 URL + iPhone UA → RSS Tier 2.5 대표 케이스
*.tistory.com WebFetch (정상 동작) 또는 RSS Tier 2로 해결 가능
brunch.co.kr WebFetch (정상 동작) Tier 2로 해결 가능
*.naver.com (기타 서브도메인) Playwright MCP 완전한 브라우저 자동화 필요
linkedin.com WebSearch → WebFetch Tier 2로 해결 가능
페이월 사이트 Wayback Machine → 대안 출처 검색 (Google Cache는 2024년 종료) 완전 우회 불가, 대안 검색

 

5. 버전 히스토리

deep-research-kit은 약 한 달 사이에 꾸준한 업데이트가 있었다. 아래 날짜는 저장소 CHANGELOG.md 기준이며, 실제 git 커밋 날짜와는 다를 수 있다 (v2.2.0은 일치).

버전 날짜 주요 변경사항
1.0.0 2026-02-23 최초 릴리스. AI 기반 딥 리서치 스킬, 로컬 저장소에 리서치 결과 자동 저장
1.0.1 2026-02-24 README 영문 통일, 로컬 저장 이점 설명 보강
1.1.0 2026-02-25 CCPS v2.0 플러그인 표준 리팩토링
2.0.0 2026-02-28 7단계 멀티에이전트 파이프라인, 구조화된 보고서 생성
2.1.0 2026-03-10 버그수정: AskUserQuestionallowed-tools에서 제거 (자동승인 시 UI 미표시 버그)
2.2.0 ★ 2026-03-16 Tier 2.5 폴백 전략 (6단계 체인): 모바일 UA curl, RSS, OGP 메타, Google 캐시/Wayback, curl_cffi, Playwright MCP. Tier 1에 Perplexity MCP 추가

 

6. 실제 활용 시나리오

한국 기술 트렌드 리서치

국내 개발자들의 실제 경험이 담긴 네이버 블로그 포스트를 공식 문서와 함께 수집할 수 있다. 예를 들어, 특정 라이브러리의 한국어 사용 사례나 국내 클라우드 서비스 실사용 후기를 자동으로 모아 분석할 수 있다.

예시 명령어
딥리서치 2026년 국내 AI 코딩 도구 실사용 트렌드

 

기술 의사결정 지원

새 기술 도입 전, 국내외 사례를 종합적으로 수집한다. 영문 공식 문서(Tier 2 WebFetch)와 국내 실사용 후기(Tier 2.5 네이버 블로그 RSS)를 동시에 가져와 비교 분석 보고서를 자동 생성한다.

 

경쟁 분석 리서치

국내 서비스의 사용자 리뷰, 커뮤니티 반응, 기술 블로그 포스트를 자동 수집한다. 네이버 블로그, 티스토리, 브런치까지 한 번에 커버할 수 있게 됐다.

실전 적용 팁
  • Perplexity MCP를 설치하면 Tier 1이 작동해 네이버 블로그 접근이 더 안정적이다
  • curl_cffi 설치(pip install curl-cffi)는 Tier 2.5 Step 5 활성화를 위해 사전에 해두는 것이 좋다 (Python 3.10+ 필요)
  • Playwright MCP까지 설치하면 JS 렌더링이 필요한 대부분의 한국 웹사이트 접근이 가능해진다 (로그인·페이월 사이트 제외)
  • /deep-research resume을 이용해 긴 리서치를 여러 세션에 나눠 진행할 수 있다

 

7. 한계점과 주의사항

100% 접근이 보장되지 않는다

GPTaku 플러그인 개발자도 Threads에서 블로그·뉴스 접근이 이전보다 개선되었지만 100% 가져오지는 못한다는 취지의 글을 올린 바 있다. Tier 2.5 폴백이 모든 경우를 해결하지는 않는다.

  • iframe 캐시 문제: 구글 캐시나 Wayback Machine도 네이버 블로그 iframe 구조에서는 실패할 수 있다
  • 페이월 콘텐츠: 유료 콘텐츠는 어떤 방법으로도 우회하지 않는다 (단, 대안 출처를 자동 검색)
  • Playwright MCP 의존성: Step 6은 Playwright MCP가 별도 설치되어야 사용 가능하다
  • 속도: 폴백 단계가 많을수록 전체 리서치 시간이 길어진다. Playwright MCP까지 내려가면 상당히 느려질 수 있다
  • 저작권 주의: 수집한 콘텐츠는 연구·분석 목적으로만 사용해야 하며, 그대로 재배포해서는 안 된다
  • 로그인 필요 콘텐츠: 네이버 블로그 중 비공개 또는 성인 인증이 필요한 글은 접근이 불가하다

 

8. 커뮤니티 반응

Threads: @gptaku_ai 최근 활동

GPTaku 운영자(@gptaku_ai)는 Threads에서 꾸준히 활동 중이다. 이번 주 가장 눈에 띈 포스트는 deep-research가 아니라 Claude Code 에이전트 팀즈용 팀빌딩 플러그인(kkirikkiri) 공개였다.

https://www.threads.com/@gptaku_ai?hl=ko

 

스레드 클코대장 지피타쿠님(@gptaku_ai) • Threads, 자유로운 소통 공간

팔로워 1.6만명 • 스레드 921개 • 📨 gptaku@axwith.com. @gptaku_ai님과의 최근 대화를 확인해보세요.

www.threads.com

 

"클로드코드 에이전트 팀즈 얘기는 들어봤는데 어떻게 써야 하는지는 제대로 모르는 사람들이 많은것 같더라. 그래서 준비했어!! 끼리끼리 원하는 팀을 만들어주는 팀 빌딩 플러그인이야."

— @gptaku_ai, Threads (2026년 3월 중)

 

9. 결론

솔직히 말하면, v2.2.0이 네이버 블로그를 항상 뚫는다고 기대하면 곤란하다.

개발자 본인도 Threads에서 "이전보다 많이 개선됐지만 100%는 아니다"라고 밝혔다. 그럼에도 6단계 폴백 체인 구조 자체는 꽤 합리적이다.

모바일 UA → RSS → OGP 메타 → 캐시 → TLS 우회 → 브라우저 자동화 순서는 사실 단순한 원칙이다: 느린 방법은 최후의 수단으로 미뤄두고, 빠른 걸 먼저 써본다. 특별히 영리한 건 아닌데, 그냥 잘 작동하도록 만들어진 구조다.

한국어 기술 정보 중 상당 부분이 아직도 네이버 블로그에 있다. 영문 공식 문서 위주로 돌아가던 AI 리서치에 국내 개발자 후기와 한국어 튜토리얼이 더 많이 들어오게 된 건 분명한 변화다.

핵심 요약
  • 설치: /plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git/plugin install deep-research
  • 사용: /deep-research [주제] 또는 한국어 트리거 딥리서치 [주제]
  • 네이버 블로그: 모바일 URL + iPhone UA가 기본 전략, RSS 피드가 백업
  • 더 강력하게: Perplexity MCP(Tier 1) + Playwright MCP(Tier 2.5 Step 6) 설치 권장
  • 주의: 모든 접근이 100% 성공하지는 않으며, 별도 크롤링이 필요한 케이스도 있다
300x250
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

💡 AI 관련 질문이 있나요? 눌러보세요!