기본 콘텐츠로 건너뛰기

자연어 처리 성균관대 민무홍 교수님 4주차

어휘분석

어휘분석을 왜 하는가?

품사태깅, 형태소 분석, 기계번역, 용례 추출, 

QNA, 철자교정 등이 전처리 과정에서 필요하다.


품사 태깅 접근법

1) 규칙 기반

 예상할 수 있듯이 지식의 병목현상,

 대용량 처리의 어려움 등이 단점이고 

 따라서 대용량의 코퍼스를 다룰 때 통계 기반을 활용하게 된다.


2) 통계 기반 

 통계기반은 표로 확률 수치 등이 나타난 정리로 된 점이 보인다.

 논문에서 본 자료들이 통계기반이었다.


3) 딥러닝 기반의 접근법

 언어처리에 있어서 딥러닝의 효과

  가. 데이터로부터 특징을 자동으로 학습한다.

  나. 폭 넓은 문맥정보를 다룰 수 있다.

  다. 모델에 적합한 출력을 다루기가 간단하다.

  라. 언어와 특성이 다른 사진이나 음성 등과

      같은 모델들 간의 상호작용을 할 수 있어서

      Multi Model 모델 구축이 쉽다.


"라"가 굉장히 인상적이다.

딥러닝 기반 어휘분석은 

다른 분야에서의 딥러닝과 마찬가지로

블랙박스가 된다는 점이 특징이다.


댓글

Creative Commons License