물 자연 그리고 사람 - 물로 더 행복한 세상을 만들어가겠습니다.
HOMER&D성과논문실적

논문실적

연구개발정보 문헌 자동분류를 위한 자연어 처리 딥러닝 모델 개발: 기후기술 분류체계를 중심으로 게시글의 제목, 학술지명, 저자, 발행일, 작성내용을 보여줌
연구개발정보 문헌 자동분류를 위한 자연어 처리 딥러닝 모델 개발: 기후기술 분류체계를 중심으로
학술지명 대한전자공학회 저자 노건태,이관수,이성만,천지영,최안준,주경원
발표일 2022-07-01

신기후체제에 들어서며 전세계적으로 탄소중립을 선언하고 있으며 이를 위해 국가연구개발사업이 어떤 기후기술에 투자되고 있는지 관심이 고조되고 있다. 본 연구에서는 국가연구개발사업들의 문헌정보를 활용하여 45개의 기후기술 분류체계로 자동분류하는 딥러닝 모델을 개발하였다. NTIS에 등록되어 있는 2016∼2020년에 수행된 291,381건의 연구개발과제 중 2016∼2019년의 217,880건은 훈련 데이터셋으로, 2020년의 73,501건은 테스트 데이터셋으로 구분하여 실험하였다. 형태소 분석을 위해 kiwi와 Mecab을 사용하였으며 딥러닝 모델의 구조는 1D-CNN을 활용한 FC, EC 모델과 ELECTRA 사전학습 모델을 활용한 KoE 모델을 개발하였다. 각 클래스별 빈도의 편차가 큰 불균형데이터임을 고려하여 성능지표로 F1 스코어를 활용하였으며 각
개별모델과 앙상블 모델의 성능을 확인하였다. 개별모델에서는 키워드 빈도를 중심으로 학습하는 FC 모델이 0.824의 F1 스코어로 가장 우수했으며, 앙상블 모델에서는 개별모델 모두를 소프트 보팅(soft voting)한 Ens4 모델이 0.833의 F1 스코어로 가장 높은 성능을 나타냈다. 일반적인 말뭉치보다 전문적인 용어를 다수 포함하고 있는 대량의 기술문서 자동분류에서 본 모델을 사용한다면 기술전문가가 직접 라벨링하는 방법보다 보다 효율적인 프로세스를 갖출 수 있을 것이다.

목록