Conscience Technology

개요

RAG 파이프라인에서 LLM이 생성한 답변의 환각(Hallucination)을 탐지하는 경량 모델입니다. 단순 이진 분류가 아니라, FActScore에서 영감을 받은 claim-by-claim 분해 방식을 사용합니다.

답변을 개별 원자적 주장(atomic claim)으로 분해하고, 각 주장을 소스 컨텍스트와 대조하여 Supported / Unsupported / Contradicted로 검증합니다.

핵심 결과

벤치마크 평가 (500 샘플, 10개 벤치마크)

Method	Accuracy	Hallu-F1	Faith-F1
Qwen3.5-9B (base)	83.0%	0.757	0.869
Qwen3.5-9B + LoRA	81.6%	0.774	0.845
GPT-5.4	69.8%	0.691	0.705

LoRA 모델이 가장 높은 Hallu-F1 (0.774)을 달성했습니다.

Claude 4.6 일치율

Method	Agreement	FP	FN
Qwen3.5-9B (base)	75.0%	113	12
Qwen3.5-9B + LoRA	89.6%	48	4
GPT-5.4	91.0%	4	41

9B 모델이 22분 학습으로 Claude 4.6과 89.6% 일치율을 달성했습니다. GPT-5.4의 91.0%에 거의 근접합니다.

벤치마크별 성능

Benchmark	Accuracy
RAGBench-HotpotQA	95.1%
FaithEval-CF	93.3%
RAGBench-MSMARCO	89.8%
HaluEval	87.5%
RAGBench-FinQA	87.0%
HaluBench	84.1%

RAGTruth 데이터만으로 학습했지만, 외부 벤치마크에서도 80% 이상의 범용성을 보입니다.

아키텍처

Base Model: Qwen3.5-9B (Self-Attention + Mamba 하이브리드, 48 레이어)

*Fine-tuning**: LoRA
Rank 16, Alpha 32
학습 파라미터: ~100M (전체의 1.1%)
어댑터 크기: 510MB

학습 데이터 파이프라인 1. RAGTruth에서 1,585개 샘플 시작 2. Claude가 라벨 없이 claim-by-claim 분석 수행 3. Claude 판단과 원본 라벨이 일치하는 것만 선별 4. 최종 980개 (490:490 균형) 5. 학습 882개 / 검증 98개

학습: RTX 5090에서 22분, 3 epoch

데이터 품질의 중요성

Version	방식	Accuracy
v2 (라벨 유출)	정답을 프롬프트에 포함	61.1%
v3 (클린)	라벨 없이 독립 분석	82.1%

같은 모델, 같은 코드 — 데이터 품질만 다르게 했을 때 21%p 차이. v2 추론의 90%가 유출된 라벨을 직접 참조하고 있었습니다.

실용 배포

4-bit 양자화 + 510MB 어댑터 = 16GB VRAM
GGUF Q4 양자화 시 6-8GB까지 축소 가능
추론 속도: ~4.3초/샘플 (batch 8)
실시간 서빙보다는 비동기 검증 파이프라인에 적합

Industry

Brix

팀

Nora Hallucination Detector: 9B 모델로 프론티어급 환각 탐지 달성