2026-05-14

Claude Code Auto-research 이해와 사용법

Claude Code에서 Auto-research 또는 Autoresearch는 사용자가 정한 목표를 기준으로 Claude가 가설을 세우고, 코드를 수정하고, 테스트나 벤치마크로 결과를 검증하는 과정을 반복하는 자율 실험 루프를 의미한다.

이 방식은 Andrej Karpathy가 공개한 자율 실험 루프 방법론에서 영감을 받은 접근으로 설명된다. Claude Code의 기본 기능이라기보다는 커뮤니티 스킬이나 플러그인 형태로 사용하는 경우가 많다.

Auto-research란 무엇인가

일반적인 AI 코딩 흐름이 질문 -> 답변 -> 수동 검토에 가깝다면, Auto-research는 목표 설정 -> 반복 실험 -> 최종 결과 보고 구조에 가깝다.

핵심은 목표와 검증 지표를 Claude에게 제공하고, Claude가 여러 실험을 반복하면서 지표가 개선되는 방향으로 코드를 수정하게 하는 것이다.

대표적인 반복 흐름은 다음과 같다.

목표와 지표를 정의한다.
Claude가 현재 코드와 실패 조건을 분석한다.
코드를 수정한다.
테스트, 벤치마크, 커버리지 측정 등 검증 명령을 실행한다.
지표가 개선되면 변경을 유지하고, 악화되면 되돌린다.
실험 로그를 남기고 다음 가설을 세운다.

주요 활용 범위는 성능 최적화, 대규모 버그 수정, 테스트 커버리지 향상, 보안 취약점 탐색 등이다.

설치와 실행 방식

Auto-research는 사용하는 스킬이나 플러그인 구현에 따라 설치 방법과 명령어가 달라질 수 있다. 커뮤니티 구현을 사용하는 경우 Claude Code의 플러그인 또는 스킬 설치 흐름을 통해 추가한다.

예시:

/plugin marketplace add autoresearch

설치 후에는 구현체가 제공하는 슬래시 명령어를 사용해 자율 루프를 시작한다.

명령어 예시	용도
`/autoresearch`	목표와 지표를 기준으로 자율 개선 루프를 실행한다.
`/autoresearch:debug`	특정 버그를 가설 설정과 검증 방식으로 추적한다.
`/autoresearch:scenario`	엣지 케이스, 오류 상황, 동시성 문제 등 다양한 시나리오를 탐색한다.
`/autoresearch:security`	보안 취약점을 탐색하고 패치를 시도한다.

워크플로우 예시

테스트 커버리지를 높이는 작업은 Auto-research와 잘 맞는 사용 사례다.

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

이 요청을 받은 Claude는 src/ 폴더와 기존 테스트를 분석하고, 누락된 테스트 케이스를 추가한다. 이후 테스트 명령을 실행해 커버리지 변화와 실패 여부를 확인한다. 커버리지가 개선되고 테스트가 통과하면 변경을 유지하고, 실패하거나 지표가 나빠지면 되돌린 뒤 다른 접근을 시도한다.

최종적으로는 개선된 코드, 실행한 실험 목록, 실패한 가설, 유효했던 변경 사항을 보고하는 방식으로 마무리한다.

Auto Mode와의 차이

Auto-research는 Anthropic 공식 권한 설정인 Auto Mode와 다른 개념이다.

구분	의미
Auto Mode	Claude가 도구를 사용할 때 매번 승인을 요구하지 않도록 하는 권한 설정이다. 예: `--permission-mode auto`
Auto-research	목표 달성을 위해 Claude가 전략을 세우고 실험을 반복하는 워크플로우 또는 스킬이다.

Auto-research를 원활하게 실행하려면 도구 사용 승인이 자주 필요하므로 Auto Mode와 함께 사용하는 경우가 많다. 하지만 Auto Mode 자체가 실험 루프를 만들어 주는 것은 아니다.

사용 시 주의점

Auto-research는 검증 가능한 지표가 있을 때 가장 효과적이다. 예를 들어 코드를 더 좋게 만들어줘보다는 테스트 커버리지를 90% 이상으로 올려줘, API 응답 시간을 100ms 이하로 줄여줘, 특정 실패 테스트를 통과하게 만들어줘처럼 결과를 측정할 수 있는 목표가 적합하다.

또한 자동으로 반복 실행되는 흐름이므로 작업 전에는 Git 상태를 정리하고, 테스트 명령이 안정적으로 실행되는지 확인하는 것이 좋다. 외부 API 호출, 비용이 발생하는 작업, 데이터 삭제 가능성이 있는 명령은 루프 안에서 실행되지 않도록 제한해야 한다.

In Claude Code, Auto-research or Autoresearch refers to an autonomous experiment loop where Claude sets hypotheses based on a user-defined goal, modifies code, and repeatedly verifies results with tests or benchmarks.

This approach is often described as inspired by the autonomous experiment loop methodology shared by Andrej Karpathy. Rather than being a built-in Claude Code feature, it is commonly used as a community skill or plugin.

What Is Auto-research?

If a typical AI coding flow is closer to question -> answer -> manual review, Auto-research is closer to goal setting -> repeated experiments -> final result report.

The core idea is to give Claude a goal and validation metric, then let Claude repeat experiments and modify the code in the direction that improves the metric.

A representative loop looks like this.

Define the goal and metric.
Claude analyzes the current code and failure conditions.
Claude modifies the code.
Claude runs validation commands such as tests, benchmarks, or coverage measurement.
If the metric improves, Claude keeps the change; if it gets worse, Claude reverts it.
Claude records the experiment log and forms the next hypothesis.

Common use cases include performance optimization, large-scale bug fixing, test coverage improvement, and security vulnerability exploration.

Installation and Execution

Installation methods and commands can vary depending on the skill or plugin implementation you use. If you use a community implementation, add it through Claude Code's plugin or skill installation flow.

Example:

/plugin marketplace add autoresearch

After installation, start the autonomous loop with the slash commands provided by the implementation.

Example command	Purpose
`/autoresearch`	Runs an autonomous improvement loop based on a goal and metric.
`/autoresearch:debug`	Tracks a specific bug through hypotheses and validation.
`/autoresearch:scenario`	Explores scenarios such as edge cases, error states, and concurrency issues.
`/autoresearch:security`	Explores security vulnerabilities and attempts patches.

Workflow Example

Improving test coverage is a good fit for Auto-research.

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

After receiving this request, Claude analyzes the src/ folder and existing tests, then adds missing test cases. It then runs the test command and checks coverage changes and failures. If coverage improves and tests pass, it keeps the change. If tests fail or the metric worsens, it reverts the change and tries another approach.

The loop usually ends with a report covering the improved code, the experiments that were run, failed hypotheses, and the changes that worked.

Difference from Auto Mode

Auto-research is different from Auto Mode, Anthropic's official permission setting.

Type	Meaning
Auto Mode	A permission setting that prevents Claude from asking for approval every time it uses a tool. Example: `--permission-mode auto`
Auto-research	A workflow or skill where Claude plans a strategy and repeats experiments to achieve a goal.

Because Auto-research often needs frequent tool-use approval, it is commonly used together with Auto Mode. However, Auto Mode itself does not create an experiment loop.

Things to Watch Out For

Auto-research is most effective when there is a verifiable metric. For example, goals such as raise test coverage above 90%, reduce API response time below 100ms, or make a specific failing test pass are better than a vague request like make the code better.

Because this is an automatically repeated workflow, it is best to clean up the Git state before starting and confirm that test commands run reliably. External API calls, costly operations, and commands that could delete data should be restricted so they do not run inside the loop.

在 Claude Code 中，Auto-research 或 Autoresearch 指的是一种自主实验循环：Claude 会根据用户设定的目标提出假设、修改代码，并通过测试或基准测试反复验证结果。

这种方式通常被解释为受到 Andrej Karpathy 公开的自主实验循环方法论启发。它更常见的形态不是 Claude Code 的内置功能，而是社区技能或插件。

Auto-research 是什么？

如果普通的 AI 编码流程更接近 问题 -> 回答 -> 手动审查，那么 Auto-research 更接近 目标设定 -> 反复实验 -> 最终结果报告。

核心是向 Claude 提供目标和验证指标，让 Claude 反复进行多个实验，并朝着指标改善的方向修改代码。

典型的循环流程如下。

定义目标和指标。
Claude 分析当前代码和失败条件。
修改代码。
运行测试、基准测试、覆盖率测量等验证命令。
如果指标改善，就保留变更；如果变差，就回滚变更。
记录实验日志，并提出下一个假设。

主要适用范围包括性能优化、大规模错误修复、测试覆盖率提升、安全漏洞探索等。

安装和执行方式

Auto-research 的安装方式和命令可能会因使用的技能或插件实现而不同。如果使用社区实现，通常通过 Claude Code 的插件或技能安装流程添加。

示例：

/plugin marketplace add autoresearch

安装后，使用实现方提供的斜杠命令启动自主循环。

命令示例	用途
`/autoresearch`	根据目标和指标运行自主改进循环。
`/autoresearch:debug`	以假设设定和验证的方式追踪特定错误。
`/autoresearch:scenario`	探索边界情况、错误状态、并发问题等多种场景。
`/autoresearch:security`	探索安全漏洞并尝试修补。

工作流示例

提高测试覆盖率是很适合 Auto-research 的使用场景。

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

收到这个请求后，Claude 会分析 src/ 文件夹和现有测试，并添加缺失的测试用例。随后执行测试命令，确认覆盖率变化和失败情况。如果覆盖率提高且测试通过，就保留变更；如果失败或指标变差，就回滚后尝试其他方法。

最终通常会以报告的形式总结改进后的代码、执行过的实验列表、失败的假设以及有效的变更。

与 Auto Mode 的区别

Auto-research 与 Anthropic 官方权限设置 Auto Mode 是不同概念。

区分	含义
Auto Mode	一种权限设置，使 Claude 使用工具时不必每次都请求批准。示例：`--permission-mode auto`
Auto-research	为了达成目标，Claude 制定策略并反复实验的工作流或技能。

为了顺畅运行 Auto-research，工具使用通常需要频繁批准，因此常常会和 Auto Mode 一起使用。但 Auto Mode 本身并不会创建实验循环。

使用时的注意事项

Auto-research 在有可验证指标时最有效。例如，与其说 把代码变得更好，不如设定 将测试覆盖率提高到 90% 以上、将 API 响应时间降低到 100ms 以下、让某个失败测试通过 这类可以测量结果的目标。

另外，由于这是会自动反复执行的流程，开始前最好整理 Git 状态，并确认测试命令能够稳定运行。外部 API 调用、会产生费用的操作、可能删除数据的命令，都应该被限制，避免在循环中执行。

Claude Code における Auto-research または Autoresearch は、ユーザーが定めた目標をもとに Claude が仮説を立て、コードを修正し、テストやベンチマークで結果を検証するプロセスを繰り返す自律的な実験ループを意味する。

この方式は、Andrej Karpathy が公開した自律実験ループの方法論に着想を得たアプローチとして説明されることが多い。Claude Code の標準機能というより、コミュニティのスキルやプラグインとして使われる場合が多い。

Auto-research とは何か

一般的な AI コーディングの流れが 質問 -> 回答 -> 手動レビュー に近いとすれば、Auto-research は 目標設定 -> 反復実験 -> 最終結果レポート という構造に近い。

重要なのは、目標と検証指標を Claude に与え、Claude が複数の実験を繰り返しながら、指標が改善する方向にコードを修正することだ。

代表的な反復フローは次のようになる。

目標と指標を定義する。
Claude が現在のコードと失敗条件を分析する。
コードを修正する。
テスト、ベンチマーク、カバレッジ測定などの検証コマンドを実行する。
指標が改善すれば変更を維持し、悪化すれば元に戻す。
実験ログを残し、次の仮説を立てる。

主な活用範囲は、性能最適化、大規模なバグ修正、テストカバレッジ向上、セキュリティ脆弱性の探索などだ。

インストールと実行方法

Auto-research は、使用するスキルやプラグインの実装によってインストール方法やコマンドが変わることがある。コミュニティ実装を使う場合は、Claude Code のプラグインまたはスキルのインストール手順で追加する。

例：

/plugin marketplace add autoresearch

インストール後は、実装が提供するスラッシュコマンドを使って自律ループを開始する。

コマンド例	用途
`/autoresearch`	目標と指標をもとに自律改善ループを実行する。
`/autoresearch:debug`	特定のバグを仮説設定と検証によって追跡する。
`/autoresearch:scenario`	エッジケース、エラー状況、並行処理の問題など、さまざまなシナリオを探索する。
`/autoresearch:security`	セキュリティ脆弱性を探索し、パッチを試みる。

ワークフロー例

テストカバレッジを高める作業は、Auto-research と相性のよいユースケースだ。

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

この依頼を受けた Claude は、src/ フォルダと既存テストを分析し、不足しているテストケースを追加する。その後、テストコマンドを実行してカバレッジの変化と失敗の有無を確認する。カバレッジが改善し、テストが通れば変更を維持し、失敗したり指標が悪化したりした場合は元に戻して別のアプローチを試す。

最終的には、改善されたコード、実行した実験の一覧、失敗した仮説、有効だった変更点を報告する形で終了する。

Auto Mode との違い

Auto-research は、Anthropic 公式の権限設定である Auto Mode とは別の概念だ。

区分	意味
Auto Mode	Claude がツールを使うたびに承認を求めないようにする権限設定。例：`--permission-mode auto`
Auto-research	目標達成のために Claude が戦略を立て、実験を繰り返すワークフローまたはスキル。

Auto-research を円滑に実行するにはツール使用の承認が頻繁に必要になるため、Auto Mode と併用されることが多い。ただし、Auto Mode 自体が実験ループを作るわけではない。

使用時の注意点

Auto-research は、検証可能な指標があるときに最も効果的だ。たとえば コードをもっと良くして よりも、テストカバレッジを 90% 以上に上げて、API 応答時間を 100ms 以下にして、特定の失敗テストを通るようにして のように、結果を測定できる目標が適している。

また、自動で反復実行される流れなので、作業前には Git の状態を整理し、テストコマンドが安定して実行されることを確認しておくとよい。外部 API 呼び出し、費用が発生する作業、データ削除の可能性があるコマンドは、ループ内で実行されないよう制限する必要がある。

En Claude Code, Auto-research o Autoresearch se refiere a un bucle autónomo de experimentación en el que Claude plantea hipótesis según un objetivo definido por el usuario, modifica el código y verifica repetidamente los resultados con pruebas o benchmarks.

Este enfoque suele describirse como inspirado en la metodología de bucles de experimentación autónoma compartida por Andrej Karpathy. Más que una función integrada de Claude Code, a menudo se usa como skill o plugin de la comunidad.

Qué es Auto-research

Si un flujo habitual de programación con IA se parece a pregunta -> respuesta -> revisión manual, Auto-research se parece más a definición de objetivo -> experimentos repetidos -> informe final de resultados.

La idea central es dar a Claude un objetivo y una métrica de validación, y permitir que repita experimentos mientras modifica el código en la dirección que mejora la métrica.

Un flujo representativo es el siguiente.

Definir el objetivo y la métrica.
Claude analiza el código actual y las condiciones de fallo.
Modifica el código.
Ejecuta comandos de validación como pruebas, benchmarks o medición de cobertura.
Si la métrica mejora, mantiene el cambio; si empeora, lo revierte.
Registra el experimento y plantea la siguiente hipótesis.

Los usos principales incluyen optimización de rendimiento, corrección de errores a gran escala, mejora de cobertura de pruebas y exploración de vulnerabilidades de seguridad.

Instalación y ejecución

La forma de instalación y los comandos pueden variar según la implementación de la skill o plugin que se use. Si se usa una implementación de la comunidad, se añade mediante el flujo de instalación de plugins o skills de Claude Code.

Ejemplo:

/plugin marketplace add autoresearch

Después de la instalación, se inicia el bucle autónomo con los comandos slash que ofrece la implementación.

Ejemplo de comando	Uso
`/autoresearch`	Ejecuta un bucle autónomo de mejora según un objetivo y una métrica.
`/autoresearch:debug`	Rastrea un error concreto mediante hipótesis y validación.
`/autoresearch:scenario`	Explora escenarios como casos límite, situaciones de error y problemas de concurrencia.
`/autoresearch:security`	Explora vulnerabilidades de seguridad e intenta parches.

Ejemplo de flujo de trabajo

Mejorar la cobertura de pruebas es un caso de uso que encaja bien con Auto-research.

/autoresearch Goal: 테스트 커버리지를 70%에서 90%로 높여줘.
Metric: npm test -- --coverage 결과값.

Al recibir esta solicitud, Claude analiza la carpeta src/ y las pruebas existentes, y añade los casos de prueba que faltan. Después ejecuta el comando de pruebas y revisa el cambio de cobertura y los fallos. Si la cobertura mejora y las pruebas pasan, mantiene el cambio. Si falla o la métrica empeora, revierte el cambio e intenta otro enfoque.

Al final, normalmente informa del código mejorado, la lista de experimentos ejecutados, las hipótesis fallidas y los cambios que funcionaron.

Diferencia con Auto Mode

Auto-research es un concepto distinto de Auto Mode, la configuración oficial de permisos de Anthropic.

Tipo	Significado
Auto Mode	Una configuración de permisos que evita que Claude pida aprobación cada vez que usa una herramienta. Ejemplo: `--permission-mode auto`
Auto-research	Un flujo de trabajo o skill en el que Claude define una estrategia y repite experimentos para alcanzar un objetivo.

Para ejecutar Auto-research con fluidez, a menudo se necesitan aprobaciones frecuentes de uso de herramientas, por lo que suele usarse junto con Auto Mode. Sin embargo, Auto Mode por sí solo no crea un bucle de experimentación.

Precauciones de uso

Auto-research es más efectivo cuando existe una métrica verificable. Por ejemplo, objetivos como sube la cobertura de pruebas por encima del 90%, reduce el tiempo de respuesta de la API por debajo de 100ms o haz que pase esta prueba concreta que falla son más adecuados que una petición vaga como mejora el código.

Como se trata de un flujo que se ejecuta repetidamente de forma automática, conviene ordenar el estado de Git antes de empezar y confirmar que los comandos de prueba se ejecutan de forma estable. Las llamadas a API externas, las tareas con coste y los comandos con posibilidad de borrar datos deben restringirse para que no se ejecuten dentro del bucle.