SK쉴더스 루키즈 개발 4기

[Rookies 개발 4기] 3차 멘토링 일지

dmrdprdjr 2026. 1. 12. 15:55

2025.11.29 : 3차 멘토링 - 서비스 아키텍처 재정의와 RAG 품질 고도화 전략 (Ragas, 개인화, 퀴즈 검증)

멘토링 개요

 

주제: 사내 정보보호 AI 어시스턴트(CTRL_F) 서비스 방향 재점검 및 AI/RAG 고도화 전략 수립

지난 11월 29일 회의에서 우리는 RAG 기반 교육 어시스턴트의 개인화와 주요 기능의 UI 설계를 논의하며 프로젝트의 뼈대를 잡았습니다. 이번 3차 멘토링은 지난 회의에서 도출된 안건들을 바탕으로, 멘토님과 함께 "서비스의 명확한 구조화"와 "AI 품질의 신뢰성 확보"를 위한 구체적인 방법론을 확정 짓는 시간이었습니다.

특히 단순한 기능 구현을 넘어, 실제 기업 환경에서 사용할 수 있는 수준의 아키텍처와 검증 시나리오를 설계하는 데 집중했습니다.




핵심 논의 사항 및 피드백

1. 서비스 구성도 vs 시스템 구성도 명확화

가장 먼저 지적받은 부분은 '서비스 구성도'의 관점이었습니다. 기존에는 서버나 DB 구조 중심의 기술적 아키텍처에 가까웠다면, 이번에는 "사용자에게 어떤 가치를 제공하는가"를 기준으로 블록을 나누어야 한다는 피드백을 받았습니다.

변경 방향: 서버/인프라 관점이 아닌 기능/비즈니스 관점으로 재구성
주요 서비스 블록:
- 교육 서비스 (수강, 진도율 관리)
- 퀴즈 서비스 (자동 생성, 시선 기반 이상 탐지)
- AI 어시스턴트 (RAG 기반 규정 Q&A, 개인화)
- 운영·로그·품질 서비스 (AIOps, 품질 개선 루프)
- 신고 서비스 (핵심 로직 집중을 위해 Stub 형태로 축소 결정)



2. AI & RAG 품질 평가 및 순환 구조 (AIOps)

"AI를 도입했다"는 사실보다 중요한 것은 "얼마나 정확하며, 어떻게 개선하는가"입니다. 이를 위해 정량적 평가와 개선 루프를 설계했습니다.

Ragas 도입: 단순히 '느낌'으로 테스트하던 방식을 버리고, Ragas 프레임워크를 도입해 Recall, Faithfulness 등의 정량적 지표를 산출하기로 했습니다. 


품질 개선 루프 (Feedback Loop):
- 사용자 질문 및 피드백(👍/👎) 수집
- 로그 분석 (Intent, Route, KB Hit 등)
- Bad Case 분석 → 규칙/RAG 파라미터/프롬프트 수정 → 배포
- 이 과정을 통해 운영할수록 똑똑해지는 순환형 AI 구조를 완성합니다.



3. 퀴즈 시스템의 신뢰성 확보 (5중 방어선)

멘토님께서는 "시험/평가 영역에서 오답은 치명적"이라며, 생성형 AI의 환각(Hallucination)을 막기 위한 강력한 검증 체계를 주문하셨습니다. 이에 따라 5중 방어선을 설계했습니다.

1. 1:1 매핑: 문제는 항상 특정 원문 조항/문단에 근거하여 생성.
2. 이중 모델 검증: 모델 A가 문제를 내고, 모델 B가 원문을 보고 검증(YES/NO).
3. 역질문 테스트: 생성된 문제를 LLM이 다시 풀어보고 정답 일치 여부 확인.
4. RAG 교차 검증: 생성된 질문을 RAG에 넣어 검색된 문서 기반의 정답과 생성된 정답 비교.
5. 이상 탐지: 정답률이 지나치게 높거나 낮은 문항, 변별력이 없는 문항 자동 탐지.

4. '진짜' 개인화 (Personalization)

단순히 이름을 불러주는 수준을 넘어, "나의 업무와 성장을 관리해주는 비서" 수준으로 개인화를 확장합니다. 

확장된 개인화 시나리오:
- "올해 필수 교육 진도율 알려줘"
- "내가 자주 틀리는 보안 상식은 뭐야?" (취약점 분석)
- "오늘 처리해야 할 보안 퀴즈 추천해줘"


구현 방식: 챗봇이 의도를 파악하고 기존 LMS/HR/Quiz API를 복합적으로 호출하여 정보를 조합·요약해 답변.

5. 전처리 및 KB(Knowledge Base) 전략

RAG의 품질은 데이터 전처리에서 결정됩니다. 우리는 "전처리 규정집"을 만들어 문서 타입별 표준을 정하기로 했습니다.

파이프라인 분리: 파싱(변환) → 청킹(자르기) → 임베딩(벡터화) 과정을 독립적으로 설계하여 유연성 확보. 


KB 분할: 모든 문서를 한 곳에 넣지 않고 도메인(법률, 교육, 공지, HR)별로 인덱스를 나누어 검색 정확도 향상.
규정집 작성: HWP/PDF 변환 규칙, 표/이미지 처리 가이드라인(OCR vs 캡션) 문서화.

 




Action Items (우선순위별 정리)

이번 멘토링을 통해 도출된 방대한 숙제들을 중요도에 따라 3단계로 정리했습니다.

1순위: 즉시 착수 (기획·아키텍처)

1. 의도/도메인 & 개인화 범위 확정: 인텐트 구조표 작성 및 API 매핑, 개인화 범위(HR/연차/교육) 문서화.
2. PII 마스킹 3단계 설계: 전처리(1차) → 응답 생성(2차) → 로그 정제(3차) 단계별 정책 및 정규식 정의.
3. 서비스 구성도 재작성: 시스템 구조도가 아닌 '제공 서비스' 기준의 아키텍처 가시화.
4. 신고 기능 스코프 축소: AI 리소스를 핵심 기능에 집중하기 위해 신고 기능은 최소 기능(Stub)으로 축소.

2순위: 이번 주 내 완료 (AI·전처리·품질)

5. 전처리 변환 규정집 초안: 문서 타입별(HWP, PDF) 변환 룰셋 및 표/이미지 처리 전략 문서화.
6. KB 분할 전략 수립: 직무교육, 규정, 보안 등 도메인별 KB 분리 기준 확정.
7. Ragas 기반 품질 평가 계획: 평가용 질문셋(Question Set) 구축 및 평가 지표 설정, 로그 기반 개선 루프 설계.

3순위: 기능 고도화 및 UX

8. 퀴즈 검증 시스템 설계: LLM 생성 문제와 RAG 검색 정답을 비교하는 교차 검증 로직 구현.
9. Frontend UX 개편: FAQ 메인 노출 방식 변경(도메인 선택 → Top-K), 비진지한 질문 처리 정책(Natural Fallback) 수립.
10. 교육 영상 UI 개선: 플레이어 고정 사이즈 확대 및 반응형 레이아웃 점검.




회고 및 다음 단계

이번 3차 멘토링은 프로젝트의 '선택과 집중'을 명확히 하는 계기가 되었습니다. 욕심을 내던 신고 기능의 비중을 줄이고, 프로젝트의 핵심인 RAG의 정확도(품질 평가)개인화된 사용자 경험에 모든 역량을 집중하기로 했습니다.

특히 "RAGFlow나 오픈소스를 단순히 가져다 쓰는 것이 아니라, 그 위에서 우리가 어떤 개선을 이뤘는지가 중요하다"는 멘토님의 말씀 을 되새기며, 우리만의 전처리 노하우검증 로직을 탄탄하게 쌓아 올릴 예정입니다.