물 자연 그리고 사람 - 물로 더 행복한 세상을 만들어가겠습니다.
HOMER&D성과논문실적

논문실적

오버샘플링이 머신러닝 모델 예측성능에 미치는 영향: 녹조예측 실증분석 게시글의 제목, 학술지명, 저자, 발행일, 작성내용을 보여줌
오버샘플링이 머신러닝 모델 예측성능에 미치는 영향: 녹조예측 실증분석
학술지명 한국수자원학회 저자 김성훈,이충성,류제완,이준행
발표일 2025-12-29

본 연구의 목적은 남조류 세포수 데이터셋과 같이 고농도 샘플이 극히 희소한 불균형 시계열에서 오버샘플링이 회귀 기반 예측성능에 미치는 영향을 정량적으로 분석하는데 있다. 대청호를 대상으로 2005?2024년 주간 자료로 남조류, 일반수질, 수리·수문, 기상변수를 통합하고, 리드타임 1~3주별로 랜덤포레스트 예측모형을 구축한 뒤, SMOGN, GAN, TimeGAN을 적용한 훈련 데이터셋과 원본 데이터셋의 성능을 다양한 성능 평가 지표로 비교하였다. 그 결과 SMOGN은 연속형 분포를 유지하면서 국소 밀도에 따라 희소 구간을 선택적으로 강화함으로써 고농도 구간 오차를 줄이고, 오버샘플링 미실행 대비 대부분의 평가 지표에서 일관된 성능 개선을 보였다. 반면 GAN과 TimeGAN은 원본 분포 및 시계열 구조 보존에는 유리하나, 극히 희소한 고농도 구간을 목표로 분포를 재조정하는 데에는 한계를 나타냈다. 이러한 결과는 극단값이 드물고 불균형이 심한 수문·환경 시계열에서 단순 데이터 증대가 아닌 분포 보존과 선택적 밀도 강화를 결합한 회귀형 오버샘플링 전략이 예측모형 성능 향상에 유용함을 시사하는 기초적 근거로 활용될 것으로 기대된다.

목록