Claude Code Auto-research 이해와 사용법

Claude Code에서 Auto-research 또는 Autoresearch는 사용자가 정한 목표를 기준으로 Claude가 가설을 세우고, 코드를 수정하고, 테스트나 벤치마크로 결과를 검증하는 과정을 반복하는 자율 실험 루프를 의미한다.

이 방식은 Andrej Karpathy가 공개한 자율 실험 루프 방법론에서 영감을 받은 접근으로 설명된다. Claude Code의 기본 기능이라기보다는 커뮤니티 스킬이나 플러그인 형태로 사용하는 경우가 많다.

Auto-research란 무엇인가

일반적인 AI 코딩 흐름이 질문 -> 답변 -> 수동 검토에 가깝다면, Auto-research는 목표 설정 -> 반복 실험 -> 최종 결과 보고 구조에 가깝다.

핵심은 목표와 검증 지표를 Claude에게 제공하고, Claude가 여러 실험을 반복하면서 지표가 개선되는 방향으로 코드를 수정하게 하는 것이다.

대표적인 반복 흐름은 다음과 같다.

  1. 목표와 지표를 정의한다.
  2. Claude가 현재 코드와 실패 조건을 분석한다.
  3. 코드를 수정한다.
  4. 테스트, 벤치마크, 커버리지 측정 등 검증 명령을 실행한다.
  5. 지표가 개선되면 변경을 유지하고, 악화되면 되돌린다.
  6. 실험 로그를 남기고 다음 가설을 세운다.

주요 활용 범위는 성능 최적화, 대규모 버그 수정, 테스트 커버리지 향상, 보안 취약점 탐색 등이다.

설치와 실행 방식

Auto-research는 사용하는 스킬이나 플러그인 구현에 따라 설치 방법과 명령어가 달라질 수 있다. 커뮤니티 구현을 사용하는 경우 Claude Code의 플러그인 또는 스킬 설치 흐름을 통해 추가한다.

예시:

/plugin marketplace add autoresearch

설치 후에는 구현체가 제공하는 슬래시 명령어를 사용해 자율 루프를 시작한다.

명령어 예시용도
/autoresearch목표와 지표를 기준으로 자율 개선 루프를 실행한다.
/autoresearch:debug특정 버그를 가설 설정과 검증 방식으로 추적한다.
/autoresearch:scenario엣지 케이스, 오류 상황, 동시성 문제 등 다양한 시나리오를 탐색한다.
/autoresearch:security보안 취약점을 탐색하고 패치를 시도한다.

워크플로우 예시

테스트 커버리지를 높이는 작업은 Auto-research와 잘 맞는 사용 사례다.

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

이 요청을 받은 Claude는 src/ 폴더와 기존 테스트를 분석하고, 누락된 테스트 케이스를 추가한다. 이후 테스트 명령을 실행해 커버리지 변화와 실패 여부를 확인한다. 커버리지가 개선되고 테스트가 통과하면 변경을 유지하고, 실패하거나 지표가 나빠지면 되돌린 뒤 다른 접근을 시도한다.

최종적으로는 개선된 코드, 실행한 실험 목록, 실패한 가설, 유효했던 변경 사항을 보고하는 방식으로 마무리한다.

Auto Mode와의 차이

Auto-research는 Anthropic 공식 권한 설정인 Auto Mode와 다른 개념이다.

구분의미
Auto ModeClaude가 도구를 사용할 때 매번 승인을 요구하지 않도록 하는 권한 설정이다. 예: --permission-mode auto
Auto-research목표 달성을 위해 Claude가 전략을 세우고 실험을 반복하는 워크플로우 또는 스킬이다.

Auto-research를 원활하게 실행하려면 도구 사용 승인이 자주 필요하므로 Auto Mode와 함께 사용하는 경우가 많다. 하지만 Auto Mode 자체가 실험 루프를 만들어 주는 것은 아니다.

사용 시 주의점

Auto-research는 검증 가능한 지표가 있을 때 가장 효과적이다. 예를 들어 코드를 더 좋게 만들어줘보다는 테스트 커버리지를 90% 이상으로 올려줘, API 응답 시간을 100ms 이하로 줄여줘, 특정 실패 테스트를 통과하게 만들어줘처럼 결과를 측정할 수 있는 목표가 적합하다.

또한 자동으로 반복 실행되는 흐름이므로 작업 전에는 Git 상태를 정리하고, 테스트 명령이 안정적으로 실행되는지 확인하는 것이 좋다. 외부 API 호출, 비용이 발생하는 작업, 데이터 삭제 가능성이 있는 명령은 루프 안에서 실행되지 않도록 제한해야 한다.