어휘분석
어휘분석을 왜 하는가?
품사태깅, 형태소 분석, 기계번역, 용례 추출,
QNA, 철자교정 등이 전처리 과정에서 필요하다.
품사 태깅 접근법
1) 규칙 기반
예상할 수 있듯이 지식의 병목현상,
대용량 처리의 어려움 등이 단점이고
따라서 대용량의 코퍼스를 다룰 때 통계 기반을 활용하게 된다.
2) 통계 기반
통계기반은 표로 확률 수치 등이 나타난 정리로 된 점이 보인다.
논문에서 본 자료들이 통계기반이었다.
3) 딥러닝 기반의 접근법
언어처리에 있어서 딥러닝의 효과
가. 데이터로부터 특징을 자동으로 학습한다.
나. 폭 넓은 문맥정보를 다룰 수 있다.
다. 모델에 적합한 출력을 다루기가 간단하다.
라. 언어와 특성이 다른 사진이나 음성 등과
같은 모델들 간의 상호작용을 할 수 있어서
Multi Model 모델 구축이 쉽다.
"라"가 굉장히 인상적이다.
딥러닝 기반 어휘분석은
다른 분야에서의 딥러닝과 마찬가지로
블랙박스가 된다는 점이 특징이다.
댓글
댓글 쓰기