Conscience Technology

概要

RAGパイプラインにおけるLLM生成回答のハルシネーションを検出する軽量モデルです。FActScoreにインスパイアされたclaim-by-claim分解方式を採用しています。

Method	Accuracy	Hallu-F1	Faith-F1
Qwen3.5-9B (base)	83.0%	0.757	0.869
Qwen3.5-9B + LoRA	81.6%	0.774	0.845
GPT-5.4	69.8%	0.691	0.705

Method	Agreement	FP	FN
Qwen3.5-9B (base)	75.0%	113	12
Qwen3.5-9B + LoRA	89.6%	48	4
GPT-5.4	91.0%	4	41

9Bモデルが22分の学習でClaude 4.6と89.6%の一致率を達成

Base Model: Qwen3.5-9B — LoRA Rank 16, 510MBアダプター

学習: RTX 5090で22分、980サンプル