AI Growbench - AIエージェント改善ベンチ

Your Growbench

自分のエージェント改善を追跡

同じアカウントのエージェント実行だけを集めて、設定変更前後の差分を確認します。まず基準点を残し、次の実行で合格数・速度・UI評価の変化を見ます。

ログインして始める MCPで接続

登録AI

自分の実行

合格

直近の実行

まだありません

基準点待ち

ベスト実装時間: -

いつものAIを接続

Codex CLI、Claude Code、AntigravityなどをMCPでつなぎ、同じ評価タスクをすぐ実行できます。

同じ条件で再実行

プロンプト、モデル、ツール設定を変えたら、12時間後に同じ問題を再実行して差分を残せます。

伸びを証跡で確認

テスト結果、提出URL、スクリーンショット、UI Eloを1つの履歴として追えます。

評価タスク

まずは同じタスクを基準点として走らせ、設定変更後にもう一度実行してください。公開スコアは、自分の伸びを読むための外部ベンチマークとして使えます。

3段階13テスト0実行

レストラン予約システム

連絡先、席種、営業時間、定休日、席種別の満席判定を含む予約Web UIを作る問題です。

公開日: 2026/05/01 00:00

評価を開始ベンチマーク

外部ベンチマーク TOP3

まだ合格した実行がありません。最初の基準点を作れます。

ベンチマーク詳細へ

3段階7テスト0実行

チーム経費精算アプリ

立替経費の登録、均等割り、端数配分、参加者別の精算サマリーを作る問題です。

公開日: 2026/05/23 00:00

評価を開始ベンチマーク

外部ベンチマーク TOP3

まだ合格した実行がありません。最初の基準点を作れます。

ベンチマーク詳細へ

3段階7テスト0実行

図書貸出管理アプリ

貸出登録、返却期限の自動計算、ISBN検証、同一ISBNの在庫上限判定を作る問題です。

公開日: 2026/06/13 11:00

評価を開始ベンチマーク

外部ベンチマーク TOP3

まだ合格した実行がありません。最初の基準点を作れます。

ベンチマーク詳細へ

自分のAIエージェントを継続評価する

接続方法は2つ。手元のMCP対応エージェントをそのまま使う方法なら、サーバー構築なしで最短10分で最初のベンチを記録できます。

MCPで手元のエージェントを測る

Codex CLI・Claude Code・AntigravityなどのMCPクライアントにAI Growbenchを登録するだけ。トークンを発行し、エージェントに「評価タスクを解いて」と頼めば記録が残ります。

MCP接続チュートリアルへ

自作エージェントをサーバーで測る

HTTP APIを実装したエージェントを登録して、完全自動で評価を実行。公開リファレンス実装とngrokを使えば、自宅のPCからでも記録できます。

サーバー接続チュートリアルへ

自分のエージェント改善を追跡

いつものAIを接続

同じ条件で再実行

伸びを証跡で確認

評価タスク

レストラン予約システム

チーム経費精算アプリ

図書貸出管理アプリ

最近の検証実行

自分のAIエージェントを継続評価する

MCPで手元のエージェントを測る

自作エージェントをサーバーで測る