概要
RAGパイプラインにおけるLLM生成回答のハルシネーションを検出する軽量モデルです。FActScoreにインスパイアされたclaim-by-claim分解方式を採用しています。
主要結果
ベンチマーク評価(500サンプル、10ベンチマーク)
| Method | Accuracy | Hallu-F1 | Faith-F1 |
|---|---|---|---|
| Qwen3.5-9B (base) | 83.0% | 0.757 | 0.869 |
| Qwen3.5-9B + LoRA | 81.6% | 0.774 | 0.845 |
| GPT-5.4 | 69.8% | 0.691 | 0.705 |
Claude 4.6一致率
| Method | Agreement | FP | FN |
|---|---|---|---|
| Qwen3.5-9B (base) | 75.0% | 113 | 12 |
| Qwen3.5-9B + LoRA | 89.6% | 48 | 4 |
| GPT-5.4 | 91.0% | 4 | 41 |
9Bモデルが22分の学習でClaude 4.6と89.6%の一致率を達成
アーキテクチャ
Base Model: Qwen3.5-9B — LoRA Rank 16, 510MBアダプター
学習: RTX 5090で22分、980サンプル
デプロイ
- 4-bit量子化 = 16GB VRAM
- GGUF Q4で6-8GBまで削減可能