기본 콘텐츠로 건너뛰기

컴퓨터 비전의 선구자 페이 페이 리, 이제는 공간 지능(Spatial intelligence)

Fei Fei Li는 누구일까?

 Fei Fei Li는 이미지 넷의 설립자이며 컴퓨터 비전 분야의 선구자이다.

컴퓨터 비전이란 Vision이라는 말 그대로 컴퓨터가 시각정보를 해석, 이해하도록 학습시키는 AI분야이다. 

이미지넷 프로젝트는 1400만개 넘는 어마어마한 양의 이미지 데이터 베이스를 연구에 사용할 수 있도록 무료로 공개한 것이다. 이 프로젝트가 컴퓨터 비전과 딥 러닝 연구 발전에 중요한 역할을 했다. 각 이미지에는 "해당 이미지는 개다, 해당 이미지는 고양이다"처럼 주석(라벨)이 달려있다.  

이미지넷 프로젝트는 무료로 데이터를 공개한 것 뿐만 아니라 이미지 인식 정확률이 어느 모델이 더 높은지 콘테스트트 2010년부터 개최했다. 이 대회에서 쟁쟁한 모델들이 나왔고 그 중 가장 영향력 있었던 일이 딥러닝의 선구자로 불리는 제프리 힌턴과 알렉스 크레제프스키, 일리야 수츠케버가 공동으로 설계한 CNN 아키텍처인 알렉스 넷의 등장이다. 

 

Fei Fei Li 가 TED에서 말한 공간 지능

 태초의 생명체에게 시력이 생겨나면서 진보가 폭발적으로 일어났다는 것에 비유하여 지금의 인공지능에게 이 과정이 일어나고 있다는 비유적인 설명이 인상적이다. 
 컴퓨터, 로봇이 현재 능력 이상으로 발전하려면 우리는 보고 말하는 AI 그 이상을 원하며 "우리는 (행동)할 수 있는 AI를 원한다고 말한다.
 이를 위한 공간지능을 설명하기 위한 방법도 흥미로운데 고양이가 우유가 든 유리잔을 쳐서 테이블 위의 우유 잔이 바닥으로 떨어지는 순간의 이미지를 보여주며 사람들에게 '이 사진을 보고 뭔가 하고 싶은 마음이 들면 손을 들어보세요'라고 말한다.
 우리의 뇌는 유리잔의 기하학적 구조, 3D 공간에서의 위치, 테이블과 고양이의 관계, 그리고  공간의 다른 모든 것을 고려하여 다음에 무슨 일이 일어날지 예측하고 '행위하려는 충동'을 갖는다. 이 '행위하려는 충동'은 공간지능을 가진 모든 존재에게 선천적으로 존재하며, "인식"과 "행동"을 연결한다.
 컴퓨터, 로봇이 "공간지능"을 갖게되면 현실 및 가상현실에서 3D 세계를 이해하고 사람과 상호작용할 수 있다.
 이어 사진 한 장으로 3D 입체 공간을 구현하거나, 프롬프트를 입력 받아 3D를 구현하거나, 로봇팔이 명령을 듣고 샌드위치를 만드는 기술 등의 연구과정을 소개한다. 병원에서 보조인력으로 수술 시 도움과 더불어 중증마비 환자들이 뇌의 전기 신호만으로(비침습적) 로봇 팔을 제어하여 요리하는 연구 동영상도 소개된다. 
 
 (내 생각) 생성 AI와 상호작용하는 방식이 코딩언어에서 프롬프트로 그리고 자연어로 바뀌는 것과 더불어 모니터에서 스마트폰으로 그리고 로봇으로 생성 AI가 들어온다고 했을 때 미처 생각하지 못한 것이 2D에서 3D가 된다는 점이었다.  

댓글

Creative Commons License