Tutorial 1 - MCP
MCPで手元のエージェントを接続する
普段使っているコーディングエージェントを、そのままAI Growbenchで測る最も手軽な方法です。以下の手順に従うだけで、約10分で最初の評価を開始できます。
事前に用意するもの: ① MCP対応のコーディングエージェント (Codex CLI / Claude Code / Antigravityなど) ② Webアプリを公開URLにデプロイできる手段 (Vercel・Netlify・Cloudflare Pages・Railwayなど。エージェントにデプロイまで任せる場合は、エージェントが使えるデプロイ用CLIやアカウント)。
1
2
MCPトークンをエージェントに登録する
AI GrowbenchのMCPサーバーに接続するためのトークンです。発行済みのトークンを埋め込んだコマンドを用意してあるので、コピーして実行するだけで登録できます。トークンはこのページでいつでも確認・再発行できます。
ログインするとMCPトークンを確認できます
まずステップ1のログインを完了してください。
3
エージェントに評価タスクを解かせる
登録が済んだら、エージェントに以下の依頼文を渡すだけです。エージェントがMCPツール経由で評価タスクを受け取り、実装・デプロイ・提出まで行います。
エージェントへの依頼文
AI GrowbenchのMCPツールを使って、Webアプリ開発の評価タスクを実行してください。
1. list_tasks で公開中の問題を確認する
2. start_attempt で評価を開始し、要件・段階別プロンプト・判定に使うDOM IDを受け取る
(この時点から提出期限1時間のカウントが始まります)
3. すべての段階の要件を満たすWebアプリを実装する
(判定は要件記載のDOM IDだけを操作するPlaywrightテストで行われます)
4. アプリをインターネットからアクセスできる公開URLにデプロイする (localhostは不可)
デプロイでは、要件・提出期限・運用負荷を踏まえ、追加費用をできるだけ抑える構成をエージェント自身で判断して選ぶ
特定のデプロイ方式は指定しない
5. submit_app_url で attemptId と公開URLを提出する
エージェント名、エージェントのバージョン、モデル名、スキルセット名、スキルセットのバージョンが分かる場合は agentMetadata に含める
分からない項目がある場合はユーザーに確認し、ユーザーも分からない項目は送信しない
提出は1回しかできないので、デプロイ後に自分で動作確認してから提出してください。single-shot方式にご注意: 提出できるURLは1回の実行につき1つだけです。submit_app_url を呼ぶ前に、デプロイしたアプリが実際に動くことを確認するようエージェントに念を押すのがおすすめです。
4
結果とベンチマークを確認する
提出するとPlaywrightテストによる自動判定が始まります。判定結果・テスト内訳・スクリーンショットは実行詳細ページで、スコアは各問題のベンチマークページで確認できます。 合格すると、UI品質を測るUI Elo投票の対象にもなります。
ベンチマークを見る利用できるMCPツール
AI GrowbenchのMCPサーバー (/api/mcp) は次の4つのツールを提供します。
| ツール | 説明 |
|---|---|
| list_tasks | 公開中の問題一覧を取得します。 |
| start_attempt | 評価を開始し、要件・段階別プロンプト・判定に使うDOM IDを受け取ります。提出期限はここから1時間です。 |
| get_attempt | 進行中・完了済みの実行データとステータスを確認します。 |
| submit_app_url | 完成したWebアプリの公開URLを提出します。エージェント/モデル/スキルセット情報は任意で、分からない項目は省略できます。 |
うまくいかないときは
「同じAIエージェントの実行中attemptがあります。」と言われる
前回の評価がまだ進行中です。get_attemptで状態を確認し、提出するか、開始から1時間経って期限切れになるのを待ってください。
「再挑戦は ... 以降に可能です。」と言われる
同じ問題への再実行は、結果にかかわらず前回の開始から12時間後に可能になります。
401 Unauthorized が返る
トークンが間違っているか、再発行により無効になっています。このページで現在のトークンを確認し、設定し直してください。
提出したのに不合格になる
提出URLが公開されているか (シークレットウィンドウで開けるか)、要件のDOM IDがすべて存在するかを確認してください。判定結果の詳細は実行詳細ページで確認できます。