오리씨네(Orissine) 블로그

글

LAM(Large Action Model)이란? LAM 관련 AI 어시스턴트 R1과 Act-1 알아보기

(직접 탐구하고 최대한 쉽게 써보는 요즘 AI 소식과 정보들) CES에서 많은 호응을 받았다고 들었던 R1 R1은 조그만 AI 에이전트 장치이다. 래빗이라는 미국 스타트업에서 만든 AI 장치로 CES 2024에서 공개되고 나서 하루만에 1만대 이상이 팔렸다. 가격은 199달러, 원화로 27만원 내외다. R1은 쉽게 생각하면 우리 집 인공지능 스피커를 들고 뱃지로 만들어서 들고 다닌다 생각해도 된다. 물론 R1에는 카메라도 있고 R1은 사용자와 여기저기 같이 다니므로 활용 가능성이 더 크다. 사용자가 말만 하면 택시도 불러주고, 장보기를 해줄 수도 있다. 그런데 R1은 요즘 삼성폰, 아이폰, 노트북 등의 성능을 말할 때 자주 언급되는 온디바이스가 아니다. 온디바이스 AI는 외부 서버에, 클라우드에 연결되지 않고 기기 자체에 인공지능이 들어 있는 것이다. 기기 안에 경량화된 AI가 들어있으니 서버나 클라우드에 데이터를 전공하고 받고 할 필요가 없다. 온디바이스는 보안성이 높고 처리 속도도 빠르다. R1은 온디바이스가 아니다. LLM을 쓰는 것도 아니라고 한다. 대신 자체 개발한 LAM(대규모 행동 모델)을 쓴다. LAM(Large Action Model, 대규모 행동모델, 대형액션모델)은 또 뭔가? 단어에 포함된 행동 , 액션이란 모델 자체가 생성하고 예측하는 행동 시퀀스를 의미한다. LAM 은 주어진 작업을 완수하기 위해 AI가스스로가 취해야 할 일련의 행동들을 생성하고 최적화하는 것이다. 예를 들어 로봇 제어 분야에서 LAM은 로봇이 특정 목표를 달성하기 위해 취해야 할 움직임 시퀀스(팔 구부리기, 물체 집기 등)를 예측한다. 작업 자동화라고 한다면 소프트웨어가 작업을 자동화하기 위해 수행해야 할 일련의 행동들(파일 열기, 데이터 복사, 분석 실행 등)을 하는 것이다. 즉, LAM은 환경과 작업 목표를 입력으로 받아 그에 최적화된 행동 시퀀스를 직접 출력하는 모델인 것이다. R1은 각종 앱을 사용하는 다양한 동작 , 브라우저를

애플의 OpenELM, 더 작고 효율을 추구하는 AI, iPhone 생태계를 위한 온디바이스 AI

1. 오늘 비전공자로서 영어+외계어 글을 읽을 때 인공지능 도움을 받았다. 1) PDF 번역 요약 AI한테 물어보고 질문하면서 훑었다. 2) 관련 기사를 찾아보면서 모르는 단어를 정리 해보았다. 이때도 Chat GPT에게 물어가며 했다. 3) 최종으로 내 방식대로 최대한 쉽게 요약한 것, 그리고 단어 정리를 해본다. 2. 읽어본 자료명 : OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework 3. 읽어본 자료 나 스스로 요약 : 애플이 24년 4월 24일에 오픈소스 AI 모델을 허깅페이스에 공개했다. 이름은 OpenELM이다. 이름 뜻이 오픈소스 효율 언어모델인데 LLM과 ELM은 조금 다르다. 더 작고 효율을 추구하는 AI이다. iPhone 생태계를 위한 것, 온디바이스 AI개발과 관련된 과정이라 볼 수 있다. 이 자료에서는 모델평가 및 성능 비교에 대해 나오는데 OpenELM은 효율적인 매개변수 할당 방법(레이어별 스케일링 방법)을 써서 더 정확한 결과를 얻었다고 하며 하며 다만, 아직은 처리량에서 약간 느린 병목현상이 있다고 한다. 애플은 정보를 잘 공개 안한다는데 이번에는 모델 관련 전체 프레임워크를 공개했다고 한다. ( 학습기록, 다중체크포인트, 사전 학습 구성, MLX 라이브러리 변환 코드 등) 이렇게 오픈소스로 공개하면 많은 사람들이 같이 써보고 연구할테니 개발 과정에서 이점이 있고 따라서 공개한 것으로 보인다. 이번에 공개된 OpenELM을 상업적으로 써도 되는데 편향, 유해한 결과가 생성되는 것에 대해 애플이 책임지지는 않는다고 한다. 4. 알게된 흐름, 시사점, 내생각 1) 온디바이스 AI 개발 : 업계에는 더 작고 효율적이고 저렴한 LLM을 만드는 경쟁이 있다. 마이크로소프트는 Phi-3를, 애플은 OpenELM을 출시했다. Open-AI의 GPT-4와는 다르다. 스마트폰를 비롯 여러 앱에서 쓰이려면

UDIO Beta 사용 방법, 후기

UDIO Beta 사용 방법, 후기 현재 가입만 하면 30~33초 이내 곡을 무료로 만들어볼 수 있다. 한국어는 미흡하여 우스꽝스럽기는 하지만 흥미롭다. 영어로 하면 발음이 정확하다. Acoustic, Country 로 스타일을 고르니 대사 같이 느껴진다. UDIO beta 사용방법 Udio로 검색했을 때 Udio Beta가 바로 뜨지는 않는다. https://www.udio.com 1. 위 주소로 접속해서 2. 구글 아이디 등으로 가입한 후 3. 상단에서 Prompt를 작성 후 Create 를 누른다. 영어 가사 음악 남녀 목소리는 랜덤인데 유료 요금제에 목소리를 고르는 것도 있으려나? 1. https://www.udio.com/songs/cBSThwv1zNvCK9AU8Ghaua 2. https://www.udio.com/songs/89qTedkgH5Y4u2vCtz6iLS [가사] Did you know that male and female mallard ducks look different? 청둥오리가 암수가 다르게 생긴 것을 알고 있나 I thought mallards and black-cheeked ducks went together. 나는 청둥오리와 흰뺨검둥오리가 같이 다니는 줄 알았어 It wasn't. 아니었어. They were the same species. 걔네는 같은 종이었어. It looks different. 다르게 생겼어. You didn't know either, right? 너도 몰랐지 않아? It seems like the color that goes well with green is brown. 초록과 어울리는 색이 갈색인 것 같기도 해. But I thought the white duck was the cutest. 그런데 나는 흰색 집 오리가 제일 귀엽더라. That's right. That's my opinion. 그렇다고. 그건 내 생각이야. You can be different. 너

(AI 윤리) Sand Lab 과학자들의 두 가지 프로젝트 (Fawkes, Glaze)와 내 생각

(23년 6월 10에 쓴 글) Fawkes, Glaze라는 두 가지 프로젝트 Sand Lab 과학자들의 프로젝트이다. Fawkes는 온라인에 업로드 된 사람들의 얼굴 사진이 AI의 학습데이터로 수집되어 활용되는 것으로부터 보호하기 위해 얼굴 사진을 바꿔주는 것이다. 물론 우리 인간이 보기에는 이미지가 전혀 변하지 않은 것으로 보인다. '클로킹'이라고 하는 과정을 통해 우리 인간의 눈에는 보이지 않는 픽셀 수준에서 미세하게 그림을 변경하는 것이다. AI가 나의 클로킹 된 사진을 수집해 열심히 학습을 했다고 하더라도 나의 클로킹 안 된 사진을 보았을 때 나를 인식하지 못한다고 한다. 위의 기술 출시 후 많은 예술가들이 나의 작품도 보호해줄 수 없겠느냐는 문의가 많이 들어왔다고 하는데 사람의 눈, 코, 입처럼 명확한 기준이 있는 얼굴 사진과 달리 작품은 꽤 난해한 부분이 많았고 따라서 많은 시간과 노력이 필요했다고 한다. 그렇게 탄생한 기술이 Glaze로 인터넷에 자신의 작품을 올리기 전에 Glaze 프로그램을 이용해서 작품을 AI가 학습 데이터로 쓸 수 없게 만드는 것이다. (정확히는 위의 Fawkes처럼 AI가 학습데이터로는 쓰지만 다른 그림, 스타일로 인식되게 하는 것이다.) Glaze는 우리나라 말로 "유약을 바르다"이니 얼마나 이름을 잘 지었는지 감탄이 나온다. Glaze 프로그램을 통과한, 그야말로 '유약을 바른 작품'은 우리가 보기에는 큰 차이가 없어 보인다. 하지만 작품은 보호된다. 물론 연구진은 Glaze 사이트에서 앞으로 이 기술을 넘어서는 AI가 또 나올 수 있다고 말한다. 하지만 지금까지는 최선의 기술이며 우리가 아는 한, 아티스트가 자신의 작품을 온라인에 올리면서 자신의 스타일을 미리 보호할 수 있는 유일한 도구라고 말하고 있다. 이렇게 말할 수 있는 모습에서 자신감이 엿보인다. 비영리적 목적의 예술가들을 위한 프로그램이라는 시도도 멋지고 Future Tools라는 사이트에서 꽤 높

아이디어가 인상적인 인디 게임 추천 모음

도서관에서 만난 인디게임 추천 책에서 생각거리가 있거나 발상이 독특한 게임을 추려보았다. 수업연구에도 아이디어가 될 것 같고 실제 수업에 활용된 게임도 있다. 1. 디스 워 오브 마인 (This war of mine) - 실제로 2020년 폴란드에서 세계 최초로 학교 추천 도서로 지정된 게임 (추천 게임이아니고 추천 '도서'인 이유는 궁금하다.) - 게임의 키워드 : 전쟁의 피해와 고통, 윤리, 딜레마 - 게임의 목적 : 전쟁 속 민간인이 되어 생존을 해야 하는 전략 게임 - 게임의 발상 : 보스니아 전쟁 중 사라예보 포위전을 모티프로 하였다. - 게임의 특징 : 살아남기 위해 음식을 찾고 도구를 만들고 약을 찾다가 딜레마를 마주치게 된다. 식량이 많은 노부부를 위협해서라도 우리 팀원들을 위한 음식을 뺏어올 것인가 굶어죽을 것인가. 팀원의 식량을 택하더라도 이는 스트레스가 되어 행동불등과 같은 상태가 나타나기도 한단다. 2. Oh deer - 24년 3월 16일에 출시된 게임으로 STEAM에서 평가가 긍정적이다. 게임이 아이디어 및 플레이 요소가 웃음을 준다. 플레이어는 최소 2명에서 최대 5명이다. 1명은 사냥꾼, 최대 4명까지 사슴이 된다. - 게임의 키워드 : 엽기, 코미디, 멀티플레이 게임, 서로 다른 목표 - 게임의 목적 : 사냥꾼은 해가지기 전에 여러 AI 사슴들속에서 플레이어 사슴을 찾아 사냥해야 한다. 사슴은 AI 사슴들 속에 숨어서 음식을 먹어야 한다. 음식을 먹는 것으로 인해 사냥꾼에게 들통날 수 잇다. - 게임의 발상 : 멀티플레이어 게임, 사냥과 사슴의 숨바꼭질, 낮밤에 따라 상황이 반전되는 게임 - 게임의 특징 : 낮에는 사슴이 AI인척하고 사냥꾼은 사냥한다. 그런데 밤이되면 거꾸로 된다는 것이 엽기적이다. 사슴이 두발로서서 사냥꾼을 사냥하러 다닌다. 게임의 목적이 플레이어마다 다르면서 낮밤에 따라 뒤집힌다. 3. Who's your daddy - 게임의 키워드 : 엽기, 코미디,

(실습-2) 이미지생성, GPT-4, ChatGPT, 라마인덱스, 랭체인을 활용한 인공지능 프로그래밍

GPT-4, ChatGPT, 라마인덱스, 랭체인을 활용한 인공지능 프로그래밍 오늘은 이미지 생성과 편집이다. OpenAI API의 이미지 생성 관련 기능 1) Text to image (opneai.Image.create) : 고양이 이미지를 만들자. 2) 편집 (opneai.Image.create_edit) : 고양이를 오리로 바꾸자. 3) 변형 (openai.Image.create_variation) : 또 다른 고양이 이미지를 만들자. 이미지 생성 - Prompt는 영어 입력이 토큰도 절약하고, 더 정확하다. # open ai 키 openai.api_key = "내 open ai키 쓰는 곳" #프롬프트 준비하기 prompt = "cat dancing on car" #Test to image import openai response = openai.Image.create( prompt=prompt, n= 1 , size= "512x512" ) image_url = response[ "data" ][ 0 ][ "url" ] print (image_url) 이미지 편집 - 원본과 Mask 파일을 준비한다. image.png (편집 대상 이미지) mask.png (편집영역을 투명 색상으로 지정한 이미지) 마스크의 투명하지 않은 영역이 편집대상과 같지 않아도 된다는 점이 인상적이다. 편집영역을 투명대상을 바꿀 때 Canva의 사진 편집툴이 생각난다. 위 이미지들을 코랩에 업로드 해놓고 시작한다. # 이미지 편집 image= open ( "image.png" , "rb" ) mask= open ( "mask.png" , "rb" ) # 프롬프트 준비 prompt= "many ducklings on car" import openai # open ai 키 openai

(실습) GPT-4, ChatGPT, 라마인덱스, 랭체인을 활용한 인공지능 프로그래밍

책 : GPT-4, ChatGPT, 라마인덱스, 랭체인을 활용한 인공지능 프로그래밍 한 권으로 끝내는 OpenAI API 기반 LLM 애플리케이션 구축 교양 삼아 배우는 것 치고 노마드 코더 강의가 비싸서 망설이다가 이러다가 안할 것 같아서 책을 샀다. 오늘 한 것 1. 내 API키로 코랩에서 텍스트 생성을 시켜보았다. 오늘 안 것 1. API키는 다른 사람에게 공개하지 않도록 한다. (유료인 경우 남이 가져다 쓰면 문제가 된다. 물론 한도 설정 기능은 있다.) 2. Openai API키는 로그인해서 카드등록을 하고 발급받아서 사용해야 한다. (로그인해서 바로 생성되지만 그 API는 사용 못한다. 나도 처음에 그랬는데 카드를 등록하고 다시 재발급 받은 API만 사용가능하다. 내 계정에 사용가능한 크레딧이 남아있다고 해도 소용없다. 카드 등록부터 해야 한다. 카드등록 안 한 API KEY를 사용하면 이런 에러가 뜨면서 코드가 실행되지 않는다. openai.error.RateLimitError: You exceeded your current quota, please check your plan and billing details. ) 3. Openai API 카드등록 시 처음에 유효성 검사를 위해 5달러가 빠져나가고 일주일 안에 환불된단다. (나는 바로 충전금을 입력하라는 창이 뜨길래 5달러를 입력하였는데 좀 다른 상황이 다르게 된 것 같지만 5달러는 연습에 쓸만하지!) 4. max_tokens=100 했더니 이야기가 잘렸다ㅎ 저정도 텍스트에 0.01달러 이하를 사용했다고 뜬다. # 프롬프트 준비 prompt = '''다음 이야기를 써주세요. 토실토실한 오리가 펭펭이랑 놀다가 열대 우림에서 수영을 하는 이야기.''' # 텍스트 생성 실행 import openai response = openai.Completion.create( model= "gpt-3.5-turbo-instruct" ,