AI Platforms / Deployment

NVIDIA GPU에서 훈련된 Microsoft Phi SLM에 최신 멀티모달 추가

Reading Time: 3 minutes

거대 언어 모델(LLM)은 모든 산업에 스며들어 기술의 잠재력을 변화시켰습니다. 그러나 방대한 크기로 인해 현재 많은 기업이 처한 리소스 제약 조건에서는 실용적이지 않습니다.

소규모 언어 모델(SLM)이 등장하면서 리소스를 더 적게 차지하는 모델을 만들어 품질과 비용의 격차를 해소하고 있습니다. SLM은 특정 도메인에 초점을 맞추고 더 간단한 신경망 아키텍처로 구축되는 경향이 있는 언어 모델의 하위 집합입니다. 모델이 인간이 주변 세계를 인식하는 방식을 모방하도록 성장함에 따라 모델은 다양한 형태의 멀티모달 데이터를 수용하도록 발전해야 합니다.

Microsoft는 Phi 제품군에 두 가지 새로운 기능이 추가된 차세대 개방형 SLM을 발표합니다:

  • Phi-4-mini
  • Phi-4-멀티모달

Phi-4-멀티모달은 텍스트, 오디오 및 이미지 데이터 입력을 수용하는 최초의 멀티모달 모델입니다.

이 모델은 온디바이스 배포에 적합할 정도로 작습니다. 이 릴리스는 2024년 12월 연구 전용으로 출시된 Phi-4 14B 파라미터 SLM을 기반으로 구축되었으며, 두 개의 새로운 소형 모델을 상업적으로 사용할 수 있게 되었습니다.

새 모델은 AI 애플리케이션 및 에이전트를 설계, 사용자 지정 및 관리하기 위한 Microsoft의 클라우드 AI 플랫폼인 Azure AI Foundry에서 사용할 수 있습니다.

Phi-4-멀티모달을 위한 각 모달리티와 툴 호출을 지원하는 최초의 샌드박스 환경인 NVIDIA API 카탈로그를 통해 Phi 제품군의 각 구성원을 테스트해 볼 수 있습니다. 지금 바로 NIM 마이크로서비스 미리보기를 사용하여 이 모델을 애플리케이션에 통합해 보세요.

SLM에 투자해야 하는 이유

SLM은 메모리 및 컴퓨팅 제약 환경에서 생성형 AI 기능을 지원합니다. 예를 들어, SLM은 스마트폰과 여러 소비자급 디바이스에 직접 배포할 수 있습니다. 온디바이스 배포는 규제 요건을 준수해야 하는 사용 사례에서 개인정보 보호 및 규정 준수를 용이하게 할 수 있습니다.

SLM의 다른 장점으로는 비슷한 품질의 LLM에 비해 본질적으로 더 빠른 추론으로 인해 지연 시간이 짧다는 점이 있습니다. SLM은 학습 데이터와 연관된 특수한 작업에서 더 나은 성능을 발휘하는 경향이 있습니다. 그러나 일반화 및 다양한 작업에 대한 적응성을 보완하기 위해 검색 증강 생성(RAG) 또는 네이티브 함수 호출을 사용하여 성능이 뛰어난 에이전트 시스템을 구축할 수 있습니다.

Phi-4-멀티모달

Phi-4-멀티모달은 56억 개의 파라미터를 지원하며 오디오, 이미지 및 텍스트 추론을 허용합니다. 이를 통해 자동 음성 인식(ASR), 다중 모달 요약, 번역, OCR, 시각적 추론과 같은 사용 사례를 지원할 수 있습니다. 이 모델은 21일에 걸쳐 512개의 NVIDIA A100-80GB GPU로 훈련되었습니다.

이 모델은 6.14%의 단어 오류율로 Huggingface OpenASR 리더보드에서 1위를 차지할 만큼 ASR에서 뛰어난 성능을 입증했습니다. 단어 오류율(WER)은 음성 인식의 성능을 정량화하기 위해 일반적으로 사용되는 계산법입니다. WER은 올바른 텍스트와 비교하여 잘못 입력된 단어(대체, 삽입, 삭제)의 비율을 계산합니다.

그림 1은 NVIDIA API 카탈로그에서 이미지 데이터를 미리 보고 Phi-4-멀티모달 시각적 QA를 요청하는 방법을 보여줍니다. 토큰 제한, 온도 및 샘플링 값과 같은 매개변수를 조정하는 방법도 확인할 수 있습니다. Python, JavaScript 및 Bash로 샘플 코드를 생성하여 모델을 애플리케이션에 더 쉽게 통합할 수 있습니다.

그림 1. NVIDIA API 카탈로그의 시각적 QA 데모

사전 빌드된 에이전트 세트를 사용하여 툴 호출을 데모할 수도 있습니다. 그림 2는 실시간 날씨 데이터를 검색하는 툴을 보여줍니다.

그림 2. NVIDIA API 카탈로그의 도구 호출 데모

Phi-4-mini

Phi-4-mini는 채팅에 최적화된 38억 개의 파라미터를 갖춘 텍스트 전용, 고밀도, 디코더 전용 트랜스포머 모델입니다. 여기에는 128K 토큰의 긴 형식의 컨텍스트 창이 포함됩니다. 이 모델은 14일 동안 1024개의 NVIDIA A100 80GB GPU에서 훈련되었습니다.

두 모델 모두 학습 데이터는 의도적으로 고품질 교육 데이터와 코드에 집중하여 교과서와 같이 모범벅인 수준의 품질을 제공합니다. 텍스트, 음성, 시각 벤치마크 데이터는 모델 카드에서 확인할 수 있습니다.

커뮤니티 모델 발전

NVIDIA는 오픈 소스 생태계에 적극적으로 기여하고 있으며, 오픈 소스 라이선스 하에 수백 개의 프로젝트를 공개했습니다. NVIDIA는 AI 투명성을 촉진하고 사용자가 AI 안전 및 복원력에 대한 작업을 광범위하게 공유할 수 있도록 하는 Phi와 같은 커뮤니티 소프트웨어 및 오픈 모델을 최적화하는 데 전념하고 있습니다.

이러한 개방형 모델은 NVIDIA NeMo 플랫폼을 사용하여 독점 데이터를 기반으로 커스터마이징하여 모든 산업 전반의 다양한 AI 워크플로우에 맞게 고도로 조정되고 효율적으로 사용할 수 있습니다.

NVIDIA와 Microsoft는 오랜 파트너십을 통해 Azure의 GPU 혁신을 주도하는 여러 협업, NVIDIA RTX GPU를 사용하는 PC 개발자를 위한 통합 및 최적화, 생성형 AI에서 의료 및 생명 과학에 이르는 연구를 비롯한 다양한 분야에서 협력하고 있습니다.

지금 시작하기

데이터를 가져와 build.nvidia.com/microsoft에서 NVIDIA 가속 플랫폼에서 Phi-4를 사용해 보세요.

Phi-4 멀티모달을 위한 최초의 멀티모달 샌드박스에서 텍스트, 이미지, 오디오는 물론 샘플 툴 호출을 통해 이 모델이 프로덕션에서 어떻게 작동하는지 확인할 수 있습니다.

관련 리소스

Discuss (0)

Tags