概要
LLMの過去の失敗を収集し、再利用可能なパターンとして抽象化してプロンプトに注入することでエラーの繰り返しが減少するか実験しました。
精度: 81.2% → 90.0% (p=0.032)
5-Arm実験結果
| 条件 | 精度 | p-value |
|---|---|---|
| A - ベースライン | 81.2% | — |
| B' - ランダム実失敗 | 91.2% | 0.010 |
| C - リトリーバル | 90.0% | 0.032 |
リトリーバルは追加価値なし (B' vs C: p=0.749)
エラータイプ別改善
| エラータイプ | Baseline | With Failures | Delta |
|---|---|---|---|
| 否定反転 | 62% | 100% | +38%p |
| 確信度変更 | 46% | 77% | +31%p |
| 条件変更 | 62% | 77% | +15%p |