저수지의 녹조 발생은 수자원의 안정적 관리에 중대한 위협으로 이를 효과적으로 예측하기 위해서는 수질, 수리?수문, 기상 등 다양한 시계열자료 활용이 필수적이나 시간의 흐름에 따라 수집되는 특성상 계측?처리 단계에서의 오류 등 비자연적 요인과 극한사상 같은 자연적 요인 등으로 이상(anomaly)이 발생하기 쉽다. 이렇게 재현성이 매우 작은 값들은 예측 모형의 일반화 성능을 저하하고 과적합의 원인이 될 수 있으므로 사전에 적절한 탐지 및 처리 과정이 필수적이다.
수질과 같은 시계열자료의 이상 탐지 기법으로는 통계적 접근법, 기계학습 기반 방법, 신호 처리 기법 등이 다양하게 이용되었으나 자료의 시계열적 특성에 따라 탐지 성능은 상이할 수 있다. 그러나 성능 평가를 위한 참값(ground truth)을 얻기가 어렵고, 전문가의 도메인 지식에 의존하는 경우가 많아 자료의 특성별로 적합한 탐지 기법을 판별하기란 쉽지 않다. 본 연구는 합성 이상값 주입(Synthetic Anomaly Injection), 합의 기반 평가(Consensus based Evaluation), 이상값 제거 전후 모델 예측성능 평가(Relative Performance Evaluation) 등의 비교분석법을 통해 다양한 이상값 탐지 기법의 성능을 비교?평가하였다.
본 연구의 적용 대상은 대청댐으로 약 20년간(2005~2023년)의 환경부 조류경보제 및 국가수질측정망 자료, 수자원공사 댐 운영 자료, 기상청 자료 등에서 총 27종(남조류, 클로로필-a, 수온, pH, DO, BOD, COD, TN, TP, TOC, pH, EC, SS, 강우량, 유입량, 최대유입량, 최대방류량, 저수량, 저수위, 평균기온, 최고기온, 평균풍속, 상대습도, 일조시간, 최다일사량, 일사량, 증발량), 84개의 시계열자료를 수집하였다. 이상값 탐지 기법으로는 Z-score, 수정 Z-sco