애플의 OpenELM, 더 작고 효율을 추구하는 AI, iPhone 생태계를 위한 온디바이스 AI

1. 오늘 비전공자로서 영어+외계어 글을 읽을 때 인공지능 도움을 받았다.

1) PDF 번역 요약 AI한테 물어보고 질문하면서 훑었다.

2) 관련 기사를 찾아보면서 모르는 단어를 정리 해보았다. 이때도 Chat GPT에게 물어가며 했다.

3) 최종으로 내 방식대로 최대한 쉽게 요약한 것, 그리고 단어 정리를 해본다.

2. 읽어본 자료명 :

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

3. 읽어본 자료 나 스스로 요약 :

애플이 24년 4월 24일에 오픈소스 AI 모델을 허깅페이스에 공개했다. 이름은 OpenELM이다. 이름 뜻이 오픈소스 효율 언어모델인데 LLM과 ELM은 조금 다르다. 더 작고 효율을 추구하는 AI이다. iPhone 생태계를 위한 것, 온디바이스 AI개발과 관련된 과정이라 볼 수 있다.

이 자료에서는 모델평가 및 성능 비교에 대해 나오는데 OpenELM은 효율적인 매개변수 할당 방법(레이어별 스케일링 방법)을 써서 더 정확한 결과를 얻었다고 하며 하며 다만, 아직은 처리량에서 약간 느린 병목현상이 있다고 한다.
애플은 정보를 잘 공개 안한다는데 이번에는 모델 관련 전체 프레임워크를 공개했다고 한다. (학습기록, 다중체크포인트, 사전 학습 구성, MLX 라이브러리 변환 코드 등)

이렇게 오픈소스로 공개하면 많은 사람들이 같이 써보고 연구할테니 개발 과정에서 이점이 있고 따라서 공개한 것으로 보인다. 이번에 공개된 OpenELM을 상업적으로 써도 되는데 편향, 유해한 결과가 생성되는 것에 대해 애플이 책임지지는 않는다고 한다.

4. 알게된 흐름, 시사점, 내생각

1) 온디바이스 AI 개발 :

업계에는 더 작고 효율적이고 저렴한 LLM을 만드는 경쟁이 있다. 마이크로소프트는 Phi-3를, 애플은 OpenELM을 출시했다. Open-AI의 GPT-4와는 다르다. 스마트폰를 비롯 여러 앱에서 쓰이려면 작은 모델에서 많은 성능을 끌어낼 필요도 있다. 그리고 최상위 모델을 사용할 수 없는 경우도 이런 모델을 택할 수도 있다. (사진과 카톡 정도만 하는 나에게 최신형 스마트폰의 성능이 불필요하고 가격도 부담스러웠던 것이 떠오른다.)

2) 이런 작고 똑똑한 모델을 만드는데 역시 훈련 텍스트의 품질이 중요하다.

: Phi-3도 데이터를 훈련 시킬 때 데이터를 훨씬 더 신경썼다고 하는데, 애플은 공개된 데이터를 필터링해서 쓴 반면, 마이크로소프트는 AI가 생성한 합성 데이터도 혼합해서 사용했다고 한다. 나는 (아주 잘모르지만) AI가 생성한 합성 데이터를 잘 활용할 줄 아는게 이런 작은 모델을 훈련시킬 때는 더욱 치명적이지 않을까 생각된다.

5. 출처, 탐색한 곳, 좋은 읽을 거리

https://www.semafor.com/article/04/26/2024/microsoft-apple-look-to-go-big-with-smaller-ai-models#room-for-disagreement
작고 성능 좋은 모델을 만드는 여러 기업들에 대한 이야기
https://it.chosun.com/news/articleView.html?idxno=2023092114567

6. 찾아본 단어들

1) 다중체크 포인트 : 게임에서 중간 저장하듯이 모델 훈련 중간 중간 체크 포인트를 만들면서 개발한다고 한다. 모델의 훈련은 여러 번의 반복(iteration)을 거치며 진행되는데, 각 반복마다 모델은 데이터를 사용하여 가중치를 업데이트하고, 훈련 손실(training loss)을 최소화하려고 한다. 다중 체크포인트는 이러한 반복 중 일정한 간격으로 모델의 상태를 저장하는 것이다. 이를 통해 훈련 중단이나 오류로 인해 모델이 손실될 경우, 마지막으로 저장된 체크포인트부터 다시 훈련을 시작할 수 있다. 또 다중 체크포인트는 다양한 모델을 시도해보는데도 유용하다.

2) zero-shot : 제로샷 러닝은 모델이 본 적 없는 데이터를 보고 처리하도록 학습하는 것이고 여기서는 그 제로샷 능력을 이야기 하고 있다.

3) Few-Shot : 퓨샷러닝은 적은 데이터로 새 작업이나 학습, 처리 등으로 하도록 훈련시키는 것인데 이 자료에서는 적은 양의 데이터로도 모델을 학습하고 평가할 수 있는 능력을 소개하고 있다.

4) 에폭(epoch) : 기계학습에서 모델이 학습하는 동안 전체 학습 데이터셋에 대해 한 번 훑는 것, 전체 학습 데이터셋을 모두 한 번 사용하여 학습한 것을 1 에폭, 반복적으로 모델이 에폭을 거치면서 가중치가 최적화되고 모델의 성능이 향상된다. OpenELM 모델은 타 모델들을 능가하는 성능을 보여주며, 더 적은 에폭으로 더 나은 정확도를 달성한다고 한다.

오리씨네(Orissine) 블로그

검색할 것이 있으신가요? (Search)