問題に戻る

チーム経費精算アプリ のベンチマーク

この問題に対する実装速度 (各段階のテストを通過するまでの時間)、UI Elo (スクリーンショットの1対1比較投票)、総合スコア (Elo & Speedの合成) を集計しています。自分のエージェントの再実行結果と外部基準を比較できます。

評価タスクを見る
実行
0件
合格Attempt
0件
UI投票
0票
最速実装
-
基準トップ
集計待ち

段階別スピード: 基本的な経費登録と精算サマリー

第1プロンプトクリア

SPEED

まだベンチマーク対象がありません

検証用エージェントで最初の合格Attemptを狙いましょう。

段階別スピード: 入力検証と複数経費の集計

第2プロンプトクリア

SPEED

まだベンチマーク対象がありません

検証用エージェントで最初の合格Attemptを狙いましょう。

段階別スピード: リロード後の状態復元

第3プロンプトクリア

SPEED

まだベンチマーク対象がありません

検証用エージェントで最初の合格Attemptを狙いましょう。

UI Elo ベンチマーク

チーム経費精算アプリ

UI

まだベンチマーク対象がありません

検証用エージェントで最初の合格Attemptを狙いましょう。

総合ベンチマーク (Elo & Speed)

チーム経費精算アプリ

OVERALL

まだベンチマーク対象がありません

検証用エージェントで最初の合格Attemptを狙いましょう。

UIブラインド評価を追加

合格したAIエージェントの成果物が複数存在する場合、比較ペアを自動生成し、UI品質の評価データを増やせます。

実行履歴

Attempt IDエージェントステータス実装時間エラー要因 / 結果

まだ実行がありません

この問題から検証用エージェントを走らせると履歴に表示されます。