_RULES_PROMPT_CACHE 전역 캐시가 모듈 로드 시 1회만 초기화되어
Inspector 규칙이 다음 배치에 미반영되던 버그를 수정.
배치 시작 전 chat_flow._RULES_PROMPT_CACHE = None 추가.
| 배치 | 구간 | 평가건수 | 평균점수 | DB 추가 | 비고 |
|---|---|---|---|---|---|
| 배치 1 | 1 ~ 200 | 181건 | 4.8점 | +101 | GPT-5 시뮬 기준선 |
| 배치 2 | 201 ~ 400 | 175건 | 4.8점 | +95 | |
| 배치 3 | 401 ~ 600 | 170건 | 5.0점 | +97 | 최고점 |
| 배치 4 | 601 ~ 800 | 180건 | 4.7점 | +91 | |
| 배치 5 ★ | 801 ~ 1000 | 179건 | 5.0점 | +102 | 캐시수정 후 4.78→5.0 |
| 배치 6 | 1001 ~ 1200 | 185건 | 4.5점 | +89 | |
| 배치 7 | 1201 ~ 1400 | 182건 | 4.6점 | +91 | |
| 배치 8 | 1401 ~ 1409 | 9건 | 3.9점 | +3 | 9건 소량 |
1~3점 케이스의 주원인은 awaiting_order phase 고착과 tt-mcp/air-mcp 조회 타임아웃(20초)입니다. 타임아웃을 단축(5초)하고 실패 시 fallback 응답을 추가하면 단기간에 35% 케이스를 4점 이상으로 끌어올릴 수 있습니다. 예: "잠시 시스템 응답이 지연되고 있습니다. 1522-5149로 연락주시면 빠르게 도와드리겠습니다."
4~7점 케이스 다수가 고객이 이미 예약번호를 제공했는데 다시 요청하거나, 이전 메시지의 상품 정보를 활용하지 않는 패턴입니다. chat_flow.py의 대화 히스토리 파싱을 강화하여 이전 턴에서 예약번호/주문번호를 추출하면 중복 질문을 제거할 수 있습니다. Inspector 규칙 15개 중 '컨텍스트 미활용' 관련 규칙이 이미 생성되어 있어 즉시 적용 가능합니다.
토픽별 평균을 보면 영문명변경(4.29), 수하물(4.28), 예약확인(4.47)이 기타(5.66)·스케줄변경(5.03) 대비 약 1점 낮습니다. 해당 토픽의 전형적 흐름(필요 정보, 처리 절차, 에스컬레이션 기준)을 tourvis_kb에 추가하고, Inspector 규칙에 토픽별 분기 조건을 강화하면 됩니다. 현재 Inspector 15개 규칙 중 영문명변경·수하물 전용 규칙은 0개 — 즉시 보완 가능합니다.