Conscience Technology
Researchresearch

Nora Hallucination Detector: 9B 모델로 프론티어급 환각 탐지 달성

2026년 4월 12일

개요

RAG 파이프라인에서 LLM이 생성한 답변의 환각(Hallucination)을 탐지하는 경량 모델입니다. 단순 이진 분류가 아니라, FActScore에서 영감을 받은 claim-by-claim 분해 방식을 사용합니다.

답변을 개별 원자적 주장(atomic claim)으로 분해하고, 각 주장을 소스 컨텍스트와 대조하여 Supported / Unsupported / Contradicted로 검증합니다.


핵심 결과

벤치마크 평가 (500 샘플, 10개 벤치마크)

MethodAccuracyHallu-F1Faith-F1
Qwen3.5-9B (base)83.0%0.7570.869
Qwen3.5-9B + LoRA81.6%0.7740.845
GPT-5.469.8%0.6910.705

LoRA 모델이 가장 높은 Hallu-F1 (0.774)을 달성했습니다.

Claude 4.6 일치율

MethodAgreementFPFN
Qwen3.5-9B (base)75.0%11312
Qwen3.5-9B + LoRA89.6%484
GPT-5.491.0%441

9B 모델이 22분 학습으로 Claude 4.6과 89.6% 일치율을 달성했습니다. GPT-5.4의 91.0%에 거의 근접합니다.

벤치마크별 성능

BenchmarkAccuracy
RAGBench-HotpotQA95.1%
FaithEval-CF93.3%
RAGBench-MSMARCO89.8%
HaluEval87.5%
RAGBench-FinQA87.0%
HaluBench84.1%

RAGTruth 데이터만으로 학습했지만, 외부 벤치마크에서도 80% 이상의 범용성을 보입니다.


아키텍처

Base Model: Qwen3.5-9B (Self-Attention + Mamba 하이브리드, 48 레이어)

  • *Fine-tuning**: LoRA
  • Rank 16, Alpha 32
  • 학습 파라미터: ~100M (전체의 1.1%)
  • 어댑터 크기: 510MB

학습 데이터 파이프라인 1. RAGTruth에서 1,585개 샘플 시작 2. Claude가 라벨 없이 claim-by-claim 분석 수행 3. Claude 판단과 원본 라벨이 일치하는 것만 선별 4. 최종 980개 (490:490 균형) 5. 학습 882개 / 검증 98개

학습: RTX 5090에서 22분, 3 epoch


데이터 품질의 중요성

Version방식Accuracy
v2 (라벨 유출)정답을 프롬프트에 포함61.1%
v3 (클린)라벨 없이 독립 분석82.1%

같은 모델, 같은 코드 — 데이터 품질만 다르게 했을 때 21%p 차이. v2 추론의 90%가 유출된 라벨을 직접 참조하고 있었습니다.


실용 배포

  • 4-bit 양자화 + 510MB 어댑터 = 16GB VRAM
  • GGUF Q4 양자화 시 6-8GB까지 축소 가능
  • 추론 속도: ~4.3초/샘플 (batch 8)
  • 실시간 서빙보다는 비동기 검증 파이프라인에 적합