민무홍 교수님의 자연어처리 논문 발표를
준비중이다.
굉장히 재미있는 분야이지만
논문은 역시 전공자가 아니어서
생소하다. 그러나 비디오센싱에서
한 번 역치를 늘려놔서 그런가
저번보다 심리적 장벽은 훨씬 적다.
대학원을 다니면서 꽤 보람있다고 느끼는 부분이다.
어제 다른 분들의 논문 발표를 들으며 떠오른
생각들을 메모해본다.
1. UC Irvine dataset 사이트에 가서
데이터를 더 구경다녀봐야 겠다고 생각했다.
2. AI를 분류할 때
행은 "인식방식"
열은 "분석방식"으로 분류해놓으니
깔끔하고 모든 것이 한 번에 정리되어 인상적이었다.
3. 논문에 등장하는 Ro-BERT, BERT, Sota 등이
무엇인지 전혀 몰라서 다른 사람에게
설명할 수 없다. 그러니 알아봐야겠다.
4. CNN이 학습 시 이미지 주변을 학습하듯이
자연어전처리에서 CNN으로 문맥을 학습한다는
아이디어가 대단하다.
5. 내가 고른 논문의 Ethical Considerations는
다른 논문에도 다 있나? 내 논문에도 넣을 수 있나?
6. 인공지능 서술형 평가의 한계와 도전에 대해
7. 정규표현식 RE는 텍스트 전처리에서 기본이다.
(Regular Expression)
Ro-Bert에 대해 읽어보고 있는 사이트
https://lsjsj92.tistory.com/626
내가 발표하고자 관심을 두고 있는 논문과
관련된 논문, 유머를 가진 텍스트에 대해
분석한다니 흥미롭다.
시상식에서 윌스미스 아내를 두고 한 유머에 대해
그렇게까지 된 데에는 유머라는 것은 문화영향도 크고
말하는 입장, 듣는 입장에 따라 웃음이 아닌 비웃음,
분노로 받아들여질 수 있다. (물론, 폭력은 잘못되었다고 생각한다.)
유머는 말 중에서도 제일 날카로운 칼같다는 생각이든다.
그래서 논문 발표는 유머 주제로 할 거야.ㅎㅎ
https://www.researchgate.net/publication/301446045_Humor_Recognition_and_Humor_Anchor_Extraction
1. 유머 논문에서 인상적이었던 점
: 페이스북의 코로나 주제의 대화와 그에 대한 리액션(눈물흘리며 웃는 얼굴ㅎㅎ)의 수를 데이터로 활용했다. 코로나가 무슨 상관이냐고 하겠지만 다양한 연령, 집단, 다양한 문화의 사람들이 공통적으로 언급해서 편향성이 적은 주제이기때문이라고 한다. 아주 흥미롭다.
그리고 공식을 구하는 과정에서 유머의 반대를 슬픔으로 생각하고 식을 세워 유머 점수가 낮은 대화를 꺼내보니 너무 극단적인 내용 가족의 죽음 친구의 죽음 병듦 등이 나왔다고 한다. 유머의 반대는 슬픔이 아니라 평범한 대화라고 판단하고 다시 평균 리액션 값에 유사한 점수를 가진 대화를 꺼내보니 “유머가 없는 대화”가 나왔다고 한다. 연구자들이 연구과정에서 꽤 인상적인 부분이 아니었을까 싶다.
댓글
댓글 쓰기