물 자연 그리고 사람 - 물로 더 행복한 세상을 만들어가겠습니다.
HOMER&D성과논문실적

논문실적

머신러닝 기반 녹조 예측을 위한 데이터 증강 기법 분석 및 적용 전략 게시글의 제목, 학술지명, 저자, 발행일, 작성내용을 보여줌
머신러닝 기반 녹조 예측을 위한 데이터 증강 기법 분석 및 적용 전략
학술지명 한국습지학회 저자 김성훈,이충성,류제완,이준행
발표일 2025-08-22

녹조 현상의 지표인 남조류 세포수는 하천과 호수의 수질관리와 생태계 건강성 평가에 매우 중요하나, 평상시에는 그 수가 매우 적거나 관측되지 않다가 녹조 우심기인 6~9월에 급증하는 특징이 있다. 특히, 환경부 조류경보제 경계 단계인 10,000 cells/mL을 초과하는 사례는 극히 제한적이다. 이렇게 데이터 분포가 불균형한 상황에서는 일반적인 머신러닝 회귀 모델의 예측 성능이 저하되고, 주로 빈도가 높은 값(적은 세포수) 위주로 학습되는 문제가 지적된다.
본 연구에서는 이러한 문제를 해결하고자 2005년 5월부터 2023년 12월까지 수집한 총 975개의 주 단위 시계열 데이터를 사용하여 데이터 증강 기법을 적용하였다. 특히 남조류 세포수를 반응변수로 하고, 녹조 발생의 주요 영향 인자인 수온, 총인(TP), 용존산소(DO), 클로로필-a 등의 환경 인자를 설명변수로 포함하여 남조류 세포수의 예측 성능 향상을 도모하였다. 데이터 증강 기법으로 대표적인 SMOTE(Synthetic Minority Over-sampling Technique)와 GAN(Generative Adversarial Networks) 외에 이를 회귀 및 시계열 데이터에 적합하도록 확장한 SMOGN, T-SMOTE, TimeGAN 등 다섯 가지 방법을 선정하여 비교?분석하였으며, 남조류 세포수와 주요 영향 인자들의 지연시간(Lag time)을 최대 4주까지 고려함으로써 녹조 증식 이벤트 시퀀스 전체가 하나의 데이터 샘플이 되도록 학습용 데이터셋을 구축하였다. 데이터 증강에 따른 예측 성능 개선 평가는 Random Forest 모형을 활용하였다.
본 연구는 소수 클래스에 해당하는 희소한 수질 데이터 문제를 효과적으로 해결하기 위해 다양한 데이터 증강 기법을 비교론적으로 적용하였다는 것에 일차적인 의의가 있다. 또한 데이터 증강 시 녹조 현상

목록