개요
RAG 파이프라인에서 LLM이 생성한 답변의 환각(Hallucination)을 탐지하는 경량 모델입니다. 단순 이진 분류가 아니라, FActScore에서 영감을 받은 claim-by-claim 분해 방식을 사용합니다.
답변을 개별 원자적 주장(atomic claim)으로 분해하고, 각 주장을 소스 컨텍스트와 대조하여 Supported / Unsupported / Contradicted로 검증합니다.
핵심 결과
벤치마크 평가 (500 샘플, 10개 벤치마크)
| Method | Accuracy | Hallu-F1 | Faith-F1 |
|---|---|---|---|
| Qwen3.5-9B (base) | 83.0% | 0.757 | 0.869 |
| Qwen3.5-9B + LoRA | 81.6% | 0.774 | 0.845 |
| GPT-5.4 | 69.8% | 0.691 | 0.705 |
LoRA 모델이 가장 높은 Hallu-F1 (0.774)을 달성했습니다.
Claude 4.6 일치율
| Method | Agreement | FP | FN |
|---|---|---|---|
| Qwen3.5-9B (base) | 75.0% | 113 | 12 |
| Qwen3.5-9B + LoRA | 89.6% | 48 | 4 |
| GPT-5.4 | 91.0% | 4 | 41 |
9B 모델이 22분 학습으로 Claude 4.6과 89.6% 일치율을 달성했습니다. GPT-5.4의 91.0%에 거의 근접합니다.
벤치마크별 성능
| Benchmark | Accuracy |
|---|---|
| RAGBench-HotpotQA | 95.1% |
| FaithEval-CF | 93.3% |
| RAGBench-MSMARCO | 89.8% |
| HaluEval | 87.5% |
| RAGBench-FinQA | 87.0% |
| HaluBench | 84.1% |
RAGTruth 데이터만으로 학습했지만, 외부 벤치마크에서도 80% 이상의 범용성을 보입니다.
아키텍처
Base Model: Qwen3.5-9B (Self-Attention + Mamba 하이브리드, 48 레이어)
- *Fine-tuning**: LoRA
- Rank 16, Alpha 32
- 학습 파라미터: ~100M (전체의 1.1%)
- 어댑터 크기: 510MB
학습 데이터 파이프라인 1. RAGTruth에서 1,585개 샘플 시작 2. Claude가 라벨 없이 claim-by-claim 분석 수행 3. Claude 판단과 원본 라벨이 일치하는 것만 선별 4. 최종 980개 (490:490 균형) 5. 학습 882개 / 검증 98개
학습: RTX 5090에서 22분, 3 epoch
데이터 품질의 중요성
| Version | 방식 | Accuracy |
|---|---|---|
| v2 (라벨 유출) | 정답을 프롬프트에 포함 | 61.1% |
| v3 (클린) | 라벨 없이 독립 분석 | 82.1% |
같은 모델, 같은 코드 — 데이터 품질만 다르게 했을 때 21%p 차이. v2 추론의 90%가 유출된 라벨을 직접 참조하고 있었습니다.
실용 배포
- 4-bit 양자화 + 510MB 어댑터 = 16GB VRAM
- GGUF Q4 양자화 시 6-8GB까지 축소 가능
- 추론 속도: ~4.3초/샘플 (batch 8)
- 실시간 서빙보다는 비동기 검증 파이프라인에 적합