상위 질문
타임라인
채팅
관점

신경망 처리 장치

위키백과, 무료 백과사전

Remove ads

신경망 처리 장치(Neural processing unit, NPU), AI 가속기(AI accelerator) 또는 딥러닝 프로세서(deep learning processor)는 하드웨어 가속 또는 인공지능 (AI) 및 기계 학습 애플리케이션(예: 인공 신경망컴퓨터 비전)을 가속화하도록 설계된 특수 하드웨어 가속 장치[1] 또는 컴퓨터 시스템[2][3]의 한 종류이다.

사용

이들의 목적은 이미 훈련된 AI 모델을 효율적으로 실행(추론)하거나 AI 모델을 훈련하는 것이다. 이들의 응용 분야에는 로봇공학, 사물인터넷, 데이터 집약적 또는 센서 기반 작업을 위한 알고리즘이 포함된다.[4] 이들은 종종 다중 코어 또는 공간적 디자인이며, 저정밀도 연산, 새로운 데이터플로 아키텍처 또는 인메모리 컴퓨팅 기능에 중점을 둔다. 2024년 기준, 일반적인 데이터센터급 AI 집적 회로 칩인 H100 GPU는 수십억 개의 MOSFET포함한다.[5]

소비자 장치

AI 가속기는 애플 아이폰과 같은 모바일 장치, Versal 및 NPU의 AMD AI 엔진,[6] 화웨이구글 픽셀 스마트폰[7]에 사용되며, 많은 애플 실리콘, 퀄컴, 삼성, 구글 텐서 스마트폰 프로세서에서 볼 수 있다.[8]

최근(대략 2022년)에는 인텔,[9] AMD,[10]애플 실리콘의 컴퓨터 프로세서에도 추가되었다.[11] 메테오레이크 프로세서의 모든 모델에는 컴퓨터 비전 및 딥러닝을 위한 통계적 추론을 가속화하기 위한 내장된 다목적 프로세서 유닛(VPU)이 있다.[12]

소비자 장치에서 NPU는 소형 모델을 실행할 때 작고 전력 효율적이지만 합리적으로 빠르게 작동하도록 설계되었다. 이를 위해 INT4, INT8, FP8, FP16과 같은 데이터 유형을 사용하여 저비트 연산을 지원하도록 설계되었다. 일반적인 측정 단위는 초당 수조 회 연산(TOPS)이지만, 이 측정 단위만으로는 어떤 종류의 연산이 수행되는지 정량화할 수 없다.[13]

데이터센터

가속기는 클라우드 컴퓨팅 서버에서 사용되며, 여기에는 구글 클라우드 플랫폼텐서 처리 장치(TPU)[14]아마존 웹 서비스의 Trainium 및 Inferentia 칩이 포함된다.[15] 이 범주의 장치에 대한 많은 공급업체별 용어가 존재하며, 이는 신흥 기술지배적 디자인이 아직 없다.

엔비디아AMD와 같은 회사에서 설계한 그래픽 처리 장치는 종종 AI 관련 하드웨어를 포함하며, 기계 학습 훈련추론 모두를 위한 AI 가속기로 일반적으로 사용된다.[16]

Remove ads

프로그래밍

모바일 NPU 공급업체는 일반적으로 스냅드래곤 뉴럴 프로세싱 엔진과 같은 자체 응용 프로그래밍 인터페이스를 제공한다. 운영 체제 또는 상위 수준 라이브러리는 LiteRT Next (안드로이드) 또는 CoreML (iOS, macOS)이 있는 텐서플로 라이트와 같은 더 일반적인 인터페이스를 제공할 수 있다.

소비자 CPU 통합 NPU는 공급업체별 API를 통해 접근할 수 있다. AMD (Ryzen AI), 인텔 (OpenVINO), 애플 실리콘 (CoreML)[a] 각각 자체 API를 가지고 있으며, 이는 상위 수준 라이브러리에 의해 구축될 수 있다.

GPU는 일반적으로 낮은 정밀도에 맞춰 조정된 CUDA 및 OpenCL과 같은 기존 GPGPU 파이프라인을 사용한다. 구글 TPU와 같은 맞춤형 시스템은 개인 인터페이스를 사용한다.

Remove ads

같이 보기

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads