1. 오늘 비전공자로서 영어+외계어 글을 읽을 때 인공지능 도움을 받았다.
1) PDF 번역 요약 AI한테 물어보고 질문하면서 훑었다.
2) 관련 기사를 찾아보면서 모르는 단어를 정리 해보았다. 이때도 Chat GPT에게 물어가며 했다.
3) 최종으로 내 방식대로 최대한 쉽게 요약한 것, 그리고 단어 정리를 해본다.
2. 읽어본 자료명 :
OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
3. 읽어본 자료 나 스스로 요약 :
애플이 24년 4월 24일에 오픈소스 AI 모델을 허깅페이스에 공개했다. 이름은 OpenELM이다. 이름 뜻이 오픈소스 효율 언어모델인데 LLM과 ELM은 조금 다르다. 더 작고 효율을 추구하는 AI이다. iPhone 생태계를 위한 것, 온디바이스 AI개발과 관련된 과정이라 볼 수 있다.
애플은 정보를 잘 공개 안한다는데 이번에는 모델 관련 전체 프레임워크를 공개했다고 한다. (학습기록, 다중체크포인트, 사전 학습 구성, MLX 라이브러리 변환 코드 등)
4. 알게된 흐름, 시사점, 내생각
1) 온디바이스 AI 개발 :
업계에는 더 작고 효율적이고 저렴한 LLM을 만드는 경쟁이 있다. 마이크로소프트는 Phi-3를, 애플은 OpenELM을 출시했다. Open-AI의 GPT-4와는 다르다. 스마트폰를 비롯 여러 앱에서 쓰이려면 작은 모델에서 많은 성능을 끌어낼 필요도 있다. 그리고 최상위 모델을 사용할 수 없는 경우도 이런 모델을 택할 수도 있다. (사진과 카톡 정도만 하는 나에게 최신형 스마트폰의 성능이 불필요하고 가격도 부담스러웠던 것이 떠오른다.)2) 이런 작고 똑똑한 모델을 만드는데 역시 훈련 텍스트의 품질이 중요하다.
: Phi-3도 데이터를 훈련 시킬 때 데이터를 훨씬 더 신경썼다고 하는데, 애플은 공개된 데이터를 필터링해서 쓴 반면, 마이크로소프트는 AI가 생성한 합성 데이터도 혼합해서 사용했다고 한다. 나는 (아주 잘모르지만) AI가 생성한 합성 데이터를 잘 활용할 줄 아는게 이런 작은 모델을 훈련시킬 때는 더욱 치명적이지 않을까 생각된다.5. 출처, 탐색한 곳, 좋은 읽을 거리
https://www.semafor.com/article/04/26/2024/microsoft-apple-look-to-go-big-with-smaller-ai-models#room-for-disagreement작고 성능 좋은 모델을 만드는 여러 기업들에 대한 이야기
https://it.chosun.com/news/articleView.html?idxno=2023092114567
6. 찾아본 단어들
1) 다중체크 포인트 : 게임에서 중간 저장하듯이 모델 훈련 중간 중간 체크 포인트를 만들면서 개발한다고 한다. 모델의 훈련은 여러 번의 반복(iteration)을 거치며 진행되는데, 각 반복마다 모델은 데이터를 사용하여 가중치를 업데이트하고, 훈련 손실(training loss)을 최소화하려고 한다. 다중 체크포인트는 이러한 반복 중 일정한 간격으로 모델의 상태를 저장하는 것이다. 이를 통해 훈련 중단이나 오류로 인해 모델이 손실될 경우, 마지막으로 저장된 체크포인트부터 다시 훈련을 시작할 수 있다. 또 다중 체크포인트는 다양한 모델을 시도해보는데도 유용하다.
2) zero-shot : 제로샷 러닝은 모델이 본 적 없는 데이터를 보고 처리하도록 학습하는 것이고 여기서는 그 제로샷 능력을 이야기 하고 있다.
3) Few-Shot : 퓨샷러닝은 적은 데이터로 새 작업이나 학습, 처리 등으로 하도록 훈련시키는 것인데 이 자료에서는 적은 양의 데이터로도 모델을 학습하고 평가할 수 있는 능력을 소개하고 있다.
4) 에폭(epoch) : 기계학습에서 모델이 학습하는 동안 전체 학습 데이터셋에 대해 한 번 훑는 것, 전체 학습 데이터셋을 모두 한 번 사용하여 학습한 것을 1 에폭, 반복적으로 모델이 에폭을 거치면서 가중치가 최적화되고 모델의 성능이 향상된다. OpenELM 모델은 타 모델들을 능가하는 성능을 보여주며, 더 적은 에폭으로 더 나은 정확도를 달성한다고 한다.
댓글
댓글 쓰기