데이터 정제 및 정규화 방법
원 자료 민원인이 게시한 “민원내용" 국토교통부 건축정책과의 “처리결과"
데이터 정체
특수문자 및 정형화된 인사말 제거 동일 민원의 중복 민원 내용 제거데이터 정규화
문장 분리 형태소 분석 및 품사 태깅(POS Tagging)
분석 자료
”$#x28”과 같은 특수문자와 “안녕하십니까? 평소 국토교통부 행정에 관심과 애정을 가져 주신점 깊이 감사드립니다.”와 같은 정형화된 답변 패턴 제거
- ”민원내용"을 기준으로 중복 문건을 제거한 자료는 8,326건
- ”처리결과"를 기준으로 7,165건
- ”민원내용+처리결과”를 기준으로 8,745건
문장부호(.~?)기준으로 분리 문장부호가 없는 경우 종결어미 기준으로 분리
- 형태소 조합 중 가장 분석이 적합한 품사로 태깅 처리
- 외래어, 동일한 의미의 다양한 표현, 맞춤법이 잘못된 단어 등을 분석 할 수 있는 단어로 바뀌어 표현
- 명사구를 하나의 분석 단위로 처리