CUDA

쿠다
CUDA
개발자	엔비디아
발표일	2007년 6월 23일(18년 전)
안정화 버전	12.9 / 2025년 5월(7개월 전)
운영 체제	윈도우 XP 이상; macOS; 리눅스
플랫폼	아래의 지원 GPU 참고
종류	GPGPU
라이선스	프리웨어
웹사이트	developer.nvidia.com/cuda-zone

컴퓨팅에서 CUDA (Compute Unified Device Architecture)는 그래픽 처리 장치 (GPU)의 특정 유형을 사용하여 가속화된 범용 처리를 가능하게 하는 독점적인^[1] 병렬 컴퓨팅 플랫폼 및 API이다. 이러한 접근 방식을 GPU 기반 범용 컴퓨팅이라고 한다. CUDA는 엔비디아가 2006년에 만들었다.^[2] 처음 소개될 때 그 이름은 Compute Unified Device Architecture의 약어였지만,^[3] 엔비디아는 나중에 약어의 일반적인 사용을 중단하고 현재는 거의 확장하지 않는다.^[4]

간략 정보 개발자, 발표일 ...

CUDA는 GPU의 가상 명령어 집합 및 병렬 컴퓨팅 요소에 직접 접근하여 컴퓨트 커널을 실행할 수 있도록 하는 소프트웨어 계층이다.^[5] 드라이버 및 런타임 커널 외에도 CUDA 플랫폼에는 프로그래머가 애플리케이션을 가속화하는 데 도움이 되는 컴파일러, 라이브러리 및 개발자 도구가 포함되어 있다.

CUDA는 C, C++, 포트란, 파이썬, 줄리아와 같은 프로그래밍 언어와 함께 작동하도록 설계되었다. 이러한 접근성은 Direct3D 및 OpenGL과 같은 이전 API가 고급 그래픽 프로그래밍 기술을 요구했던 것과 대조적으로 병렬 프로그래밍 전문가가 GPU 리소스를 더 쉽게 사용할 수 있도록 한다.^[6] CUDA 기반 GPU는 OpenMP, OpenACC 및 OpenCL과 같은 프로그래밍 프레임워크도 지원한다.^[7]^[5]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

메모리 (하드웨어)	메모리 (코드, 또는 변수 스코핑)	컴퓨테이션 (하드웨어)	컴퓨테이션 (코드 구문)	컴퓨테이션 (코드 의미론)
RAM	비-CUDA 변수	호스트	프로그램	하나의 루틴 호출
VRAM, GPU L2 캐시	전역, 상수, 텍스처	장치	그리드	많은 프로세서에서 동일한 서브루틴 동시 호출
GPU L1 캐시	로컬, 공유	SM ("스트리밍 멀티프로세서")	블록	개별 서브루틴 호출
		워프 = 32 스레드		SIMD 명령어
GPU L0 캐시, 레지스터		스레드 (일명 "SP", "스트리밍 프로세서", "CUDA 코어", 이 이름들은 현재 사용되지 않음)		벡터 연산 내 개별 스칼라 연산과 유사

CUDA SDK 버전	테슬라	페르미	케플러 (초기)	케플러 (후기)	맥스웰	파스칼	볼타	튜링	암페어	에이다 러브레이스	호퍼	블랙웰
1.0^[38]	1.0 – 1.1
1.1	1.0 – 1.1+x
2.0	1.0 – 1.1+x
2.1 – 2.3.1^[39]^[40]^[41]^[42]	1.0 – 1.3
3.0 – 3.1^[43]^[44]	1.0	2.0
3.2^[45]	1.0	2.1
4.0 – 4.2	1.0	2.1
5.0 – 5.5	1.0		3.0	3.5
6.0	1.0		3.2	3.5
6.5	1.1			3.7	5.x
7.0 – 7.5		2.0			5.x
8.0		2.0				6.x
9.0 – 9.2			3.0				7.0 – 7.2
10.0 – 10.2			3.0					7.5
11.0^[46]				3.5					8.0
11.1 – 11.4^[47]				3.5					8.6
11.5 – 11.7.1^[48]				3.5					8.7
11.8^[49]				3.5						8.9	9.0
12.0 – 12.6					5.0						9.0
12.8					5.0							12.0
12.9					5.0							12.1

컴퓨팅 기능 (버전)	마이크로- 아키텍처	GPU	지포스	쿼드로, NVS	테슬라/데이터센터	테그라, 젯슨, DRIVE
1.0	테슬라	G80	GeForce 8800 Ultra, GeForce 8800 GTX, GeForce 8800 GTS(G80)	Quadro FX 5600, Quadro FX 4600, Quadro Plex 2100 S4	Tesla C870, Tesla D870, Tesla S870
1.1		G92, G94, G96, G98, G84, G86	GeForce GTS 250, GeForce 9800 GX2, GeForce 9800 GTX, GeForce 9800 GT, GeForce 8800 GTS(G92), GeForce 8800 GT, GeForce 9600 GT, GeForce 9500 GT, GeForce 9400 GT, GeForce 8600 GTS, GeForce 8600 GT, GeForce 8500 GT, GeForce G110M, GeForce 9300M GS, GeForce 9200M GS, GeForce 9100M G, GeForce 8400M GT, GeForce G105M	Quadro FX 4700 X2, Quadro FX 3700, Quadro FX 1800, Quadro FX 1700, Quadro FX 580, Quadro FX 570, Quadro FX 470, Quadro FX 380, Quadro FX 370, Quadro FX 370 Low Profile, Quadro NVS 450, Quadro NVS 420, Quadro NVS 290, Quadro NVS 295, Quadro Plex 2100 D4, Quadro FX 3800M, Quadro FX 3700M, Quadro FX 3600M, Quadro FX 2800M, Quadro FX 2700M, Quadro FX 1700M, Quadro FX 1600M, Quadro FX 770M, Quadro FX 570M, Quadro FX 370M, Quadro FX 360M, Quadro NVS 320M, Quadro NVS 160M, Quadro NVS 150M, Quadro NVS 140M, Quadro NVS 135M, Quadro NVS 130M, Quadro NVS 450, Quadro NVS 420,^[50] Quadro NVS 295
1.2		GT218, GT216, GT215	GeForce GT 340, GeForce GT 330, GeForce GT 320, GeForce 315, GeForce 310*, GeForce GT 240, GeForce GT 220, GeForce 210, GeForce GTS 360M, GeForce GTS 350M, GeForce GT 335M, GeForce GT 330M, GeForce GT 325M, GeForce GT 240M, GeForce G210M, GeForce 310M, GeForce 305M	Quadro FX 380 Low Profile, Quadro FX 1800M, Quadro FX 880M, Quadro FX 380M, Nvidia NVS 300, NVS 5100M, NVS 3100M, NVS 2100M, ION
1.3		GT200, GT200b	GeForce GTX 295, GTX 285, GTX 280, GeForce GTX 275, GeForce GTX 260	Quadro FX 5800, Quadro FX 4800, Quadro FX 4800 for Mac, Quadro FX 3800, Quadro CX, Quadro Plex 2200 D2	Tesla C1060, Tesla S1070, Tesla M1060
2.0	페르미	GF100, GF110	GeForce GTX 590, GeForce GTX 580, GeForce GTX 570, GeForce GTX 480, GeForce GTX 470, GeForce GTX 465, GeForce GTX 480M	Quadro 6000, Quadro 5000, Quadro 4000, Quadro 4000 for Mac, Quadro Plex 7000, Quadro 5010M, Quadro 5000M	Tesla C2075, Tesla C2050/C2070, Tesla M2050/M2070/M2075/M2090
2.1	페르미	GF104, GF106 GF108, GF114, GF116, GF117, GF119	GeForce GTX 560 Ti, GeForce GTX 550 Ti, GeForce GTX 460, GeForce GTS 450, GeForce GTS 450, GeForce GT 640 (GDDR3), GeForce GT 630, GeForce GT 620, GeForce GT 610, GeForce GT 520, GeForce GT 440, GeForce GT 440, GeForce GT 430, GeForce GT 430, GeForce GT 420, GeForce GTX 675M, GeForce GTX 670M, GeForce GT 635M, GeForce GT 630M, GeForce GT 625M, GeForce GT 720M, GeForce GT 620M, GeForce 710M, GeForce 610M, GeForce 820M, GeForce GTX 580M, GeForce GTX 570M, GeForce GTX 560M, GeForce GT 555M, GeForce GT 550M, GeForce GT 540M, GeForce GT 525M, GeForce GT 520MX, GeForce GT 520M, GeForce GTX 485M, GeForce GTX 470M, GeForce GTX 460M, GeForce GT 445M, GeForce GT 435M, GeForce GT 420M, GeForce GT 415M, GeForce 710M, GeForce 410M	Quadro 2000, Quadro 2000D, Quadro 600, Quadro 4000M, Quadro 3000M, Quadro 2000M, Quadro 1000M, NVS 310, NVS 315, NVS 5400M, NVS 5200M, NVS 4200M
3.0	케플러	GK104, GK106, GK107	GeForce GTX 770, GeForce GTX 760, GeForce GT 740, GeForce GTX 690, GeForce GTX 680, GeForce GTX 670, GeForce GTX 660 Ti, GeForce GTX 660, GeForce GTX 650 Ti BOOST, GeForce GTX 650 Ti, GeForce GTX 650, GeForce GTX 880M, GeForce GTX 870M, GeForce GTX 780M, GeForce GTX 770M, GeForce GTX 765M, GeForce GTX 760M, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GeForce GTX 660M, GeForce GT 750M, GeForce GT 650M, GeForce GT 745M, GeForce GT 645M, GeForce GT 740M, GeForce GT 730M, GeForce GT 640M, GeForce GT 640M LE, GeForce GT 735M, GeForce GT 730M	Quadro K5000, Quadro K4200, Quadro K4000, Quadro K2000, Quadro K2000D, Quadro K600, Quadro K420, Quadro K500M, Quadro K510M, Quadro K610M, Quadro K1000M, Quadro K2000M, Quadro K1100M, Quadro K2100M, Quadro K3000M, Quadro K3100M, Quadro K4000M, Quadro K5000M, Quadro K4100M, Quadro K5100M, NVS 510, Quadro 410	Tesla K10, GRID K340, GRID K520, GRID K2
3.2		GK20A				테그라 K1, 젯슨 TK1
3.5		GK110, GK208	GeForce GTX Titan Z, GeForce GTX Titan Black, GeForce GTX Titan, GeForce GTX 780 Ti, GeForce GTX 780, GeForce GT 640 (GDDR5), GeForce GT 630 v2, GeForce GT 730, GeForce GT 720, GeForce GT 710, GeForce GT 740M (64-bit, DDR3), GeForce GT 920M	Quadro K6000, Quadro K5200	Tesla K40, Tesla K20x, Tesla K20
3.7		GK210			Tesla K80
5.0	맥스웰	GM107, GM108	GeForce GTX 750 Ti, GeForce GTX 750, GeForce GTX 960M, GeForce GTX 950M, GeForce 940M, GeForce 930M, GeForce GTX 860M, GeForce GTX 850M, GeForce 845M, GeForce 840M, GeForce 830M	Quadro K1200, Quadro K2200, Quadro K620, Quadro M2000M, Quadro M1000M, Quadro M600M, Quadro K620M, NVS 810	Tesla M10
5.2		GM200, GM204, GM206	GeForce GTX Titan X, GeForce GTX 980 Ti, GeForce GTX 980, GeForce GTX 970, GeForce GTX 960, GeForce GTX 950, GeForce GTX 750 SE, GeForce GTX 980M, GeForce GTX 970M, GeForce GTX 965M	Quadro M6000 24GB, Quadro M6000, Quadro M5000, Quadro M4000, Quadro M2000, Quadro M5500, Quadro M5000M, Quadro M4000M, Quadro M3000M	Tesla M4, Tesla M40, Tesla M6, Tesla M60
5.3		GM20B				테그라 X1, 젯슨 TX1, 젯슨 나노, DRIVE CX, DRIVE PX
6.0	파스칼	GP100		Quadro GP100	Tesla P100
6.1		GP102, GP104, GP106, GP107, GP108	Nvidia TITAN Xp, Titan X, GeForce GTX 1080 Ti, GTX 1080, GTX 1070 Ti, GTX 1070, GTX 1060, GTX 1050 Ti, GTX 1050, GT 1030, GT 1010, MX350, MX330, MX250, MX230, MX150, MX130, MX110	Quadro P6000, Quadro P5000, Quadro P4000, Quadro P2200, Quadro P2000, Quadro P1000, Quadro P400, Quadro P500, Quadro P520, Quadro P600, Quadro P5000 (모바일), Quadro P4000 (모바일), Quadro P3000 (모바일)	Tesla P40, Tesla P6, Tesla P4
6.2		GP10B^[51]				테그라 X2, 젯슨 TX2, DRIVE PX 2
7.0	볼타	GV100	NVIDIA TITAN V	Quadro GV100	Tesla V100, Tesla V100S
7.2	볼타	GV10B^[52] GV11B^[53]^[54]				테그라 자비에르, 젯슨 자비에르 NX, 젯슨 AGX 자비에르, DRIVE AGX 자비에르, DRIVE AGX 페가수스, Clara AGX
7.5	튜링	TU102, TU104, TU106, TU116, TU117	NVIDIA TITAN RTX, GeForce RTX 2080 Ti, RTX 2080 Super, RTX 2080, RTX 2070 Super, RTX 2070, RTX 2060 Super, RTX 2060 12GB, RTX 2060, GeForce GTX 1660 Ti, GTX 1660 Super, GTX 1660, GTX 1650 Super, GTX 1650, MX550, MX450	Quadro RTX 8000, Quadro RTX 6000, Quadro RTX 5000, Quadro RTX 4000, T1000, T600, T400 T1200 (모바일), T600 (모바일), T500 (모바일), Quadro T2000 (모바일), Quadro T1000 (모바일)	Tesla T4
8.0	암페어	GA100			A100 80GB, A100 40GB, A30
8.6		GA102, GA103, GA104, GA106, GA107	GeForce RTX 3090 Ti, RTX 3090, RTX 3080 Ti, RTX 3080 12GB, RTX 3080, RTX 3070 Ti, RTX 3070, RTX 3060 Ti, RTX 3060, RTX 3050, RTX 3050 Ti (모바일), RTX 3050 (모바일), RTX 2050 (모바일), MX570	RTX A6000, RTX A5500, RTX A5000, RTX A4500, RTX A4000, RTX A2000 RTX A5000 (모바일), RTX A4000 (모바일), RTX A3000 (모바일), RTX A2000 (모바일)	A40, A16, A10, A2
8.7		GA10B				젯슨 오린 나노, 젯슨 오린 NX, 젯슨 AGX 오린, DRIVE AGX 오린, IGX 오린
8.9	에이다 러브레이스^[55]	AD102, AD103, AD104, AD106, AD107	GeForce RTX 4090, RTX 4080 Super, RTX 4080, RTX 4070 Ti Super, RTX 4070 Ti, RTX 4070 Super, RTX 4070, RTX 4060 Ti, RTX 4060, RTX 4050 (모바일)	RTX 6000 Ada, RTX 5880 Ada, RTX 5000 Ada, RTX 4500 Ada, RTX 4000 Ada, RTX 4000 SFF Ada, RTX 2000 Ada, RTX 5000 Ada (모바일), RTX 4000 Ada (모바일), RTX 3500 Ada (모바일), RTX 2000 Ada (모바일)	L40S, L40, L20, L4, L2
9.0	호퍼	GH100			H200, H100, GH200
10.0	블랙웰	GB100			B200, B100, GB200
10.1						젯슨 AGX 토르, DRIVE AGX 토르
10.3		GB200, G10			B300, GB10
12.0		GB202, GB203, GB205, GB206, GB207	GeForce RTX 5090, RTX 5080, RTX 5070 Ti, RTX 5070, RTX 5060 Ti, RTX 5060, RTX 5050	RTX PRO 6000 Blackwell, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell, RTX PRO 4000 Blackwell	B40
12.1
컴퓨팅 기능 (버전)	마이크로- 아키텍처	GPU	지포스	쿼드로, NVS	테슬라/데이터센터	테그라, 젯슨, DRIVE

기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	컴퓨팅 기능 (버전)
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
워프 투표 함수 (__all(), __any())	아니요	예
워프 투표 함수 (__ballot())	아니요		예
메모리 펜스 함수 (__threadfence_system())
동기화 함수 (__syncthreads_count(), __syncthreads_and(), __syncthreads_or())
서피스 함수
스레드 블록의 3D 그리드
워프 셔플 함수	아니요			예
통합 메모리 프로그래밍	아니요			예
퍼널 시프트	아니요				예
동적 병렬 처리	아니요					예
균일 데이터패스^[56]	아니요						예
하드웨어 가속 비동기 복사	아니요							예
하드웨어 가속 분할 도착/대기 배리어
리덕션 연산을 위한 워프 수준 지원
L2 캐시 상주 관리
가속화된 동적 프로그래밍을 위한 DPX 명령어	아니요								예
분산 공유 메모리
스레드 블록 클러스터
텐서 메모리 가속기 (TMA) 장치
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	1.0, 1.1	1.2, 1.3	2.x	3.0	3.2	3.5, 3.7, 5.x, 6.x, 7.0, 7.2	7.5	8.x	9.0, 10.x, 12.x
기능 지원 (나열되지 않은 기능은 모든 컴퓨팅 기능에서 지원)	컴퓨팅 기능 (버전)

데이터 유형	지원 벡터 유형	저장 길이 비트 (전체 벡터)	사용 길이 비트 (단일 값)	부호 비트	지수 비트	가수 비트	비고
E2M1 = FP4	e2m1x2 / e2m1x4	8 / 16	4	1	2	1
E2M3 = FP6 변형	e2m3x2 / e2m3x4	16 / 32	6	1	2	3
E3M2 = FP6 변형	e3m2x2 / e3m2x4	16 / 32	6	1	3	2
UE4M3	ue4m3	8	7	0	4	3	스케일링에 사용 (E2M1만 해당)
E4M3 = FP8 변형	e4m3 / e4m3x2 / e4m3x4	8 / 16 / 32	8	1	4	3
E5M2 = FP8 변형	e5m2 / e5m2x2 / e5m2x4	8 / 16 / 32	8	1	5	2	FP16의 지수/범위, 8비트에 들어감
UE8M0	ue8m0x2	16	8	0	8	0	스케일링에 사용 (모든 FP4 또는 FP6 또는 FP8 형식)
FP16	f16 / f16x2	16 / 32	16	1	5	10
BF16	bf16 / bf16x2	16 / 32	16	1	8	7	FP32의 지수/범위, 16비트에 들어감
TF32	tf32	32	19	1	8	10	FP32의 지수/범위, FP16의 가수/정밀도
FP32	f32 / f32x2	32 / 64	32	1	8	23
FP64	f64	64	64	1	11	52

CUDA

배경

온톨로지

프로그래밍 기능

장점

한계

예시

지원 GPU

버전 기능 및 사양

데이터 유형

부동소수점 유형

버전 지원

텐서 코어

기술 사양

멀티프로세서 아키텍처

CUDA 아키텍처 사용례

경쟁사와의 비교

인텔 OneAPI

UXL (Unified Acceleration Foundation)

AMD ROCm

같이 보기

각주

외부 링크

Wikiwand - on

데이터 유형	기본 연산	지원 시작	원자적 연산	전역 메모리 지원 시작	공유 메모리 지원 시작
8비트 정수 부호 있는/없는	로딩, 저장, 변환	1.0	빈칸	빈칸
16비트 정수 부호 있는/없는	일반 연산	1.0	atomicCAS()	3.5
32비트 정수 부호 있는/없는	일반 연산	1.0	원자적 함수	1.1	1.2
64비트 정수 부호 있는/없는	일반 연산	1.0	원자적 함수	1.2	2.0
모든 128비트 간단히 복사 가능한 유형	일반 연산	아니요	atomicExch, atomicCAS	9.0
16비트 부동소수점 FP16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	half2 원자적 덧셈	6.0
16비트 부동소수점 FP16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	5.3	원자적 덧셈	7.0
16비트 부동소수점 BF16	덧셈, 뺄셈, 곱셈, 비교, 워프 셔플 함수, 변환	8.0	원자적 덧셈	8.0
32비트 부동소수점	일반 연산	1.0	atomicExch()	1.1	1.2
32비트 부동소수점	일반 연산	1.0	원자적 덧셈	2.0
32비트 부동소수점 float2 및 float4	일반 연산	아니요	원자적 덧셈	9.0
64비트 부동소수점	일반 연산	1.3	원자적 덧셈	6.0

텐서 코어당 사이클당 FMA^[59]	지원 시작		7.0	7.2	7.5 워크스테이션	7.5 데스크톱	8.0	8.6 워크스테이션	8.6 데스크톱	8.9 데스크톱	8.9 워크스테이션	9.0	10.0	10.1	12.0
데이터 유형	조밀 행렬용	희소 행렬용	1세대 (8x/SM)	1세대? (8x/SM)	2세대 (8x/SM)		3세대 (4x/SM)			4세대 (4x/SM)			5세대 (4x/SM)
1비트 값 (AND)	8.0 (실험적)	아니요	아니요				4096		2048			속도 미정
1비트 값 (XOR)	7.5–8.9 (실험적)	아니요	아니요		1024		4096		2048			Deprecated 또는 제거?
4비트 정수	7.5–8.9 (실험적)	8.0–8.9 (실험적)	아니요		256		1024		512			Deprecated 또는 제거?
4비트 부동소수점 FP4 (E2M1)	10.0		아니요										4096	미정	512
6비트 부동소수점 FP6 (E3M2 및 E2M3)	10.0		아니요										2048		미정
8비트 정수	7.2	8.0	아니요	128	128		512		256			1024	2048		256
FP16 누적을 사용하는 8비트 부동소수점 FP8 (E4M3 및 E5M2)	8.9		아니요							256					256
FP32 누적을 사용하는 8비트 부동소수점 FP8 (E4M3 및 E5M2)	8.9		아니요							128					128
FP16 누적을 사용하는 16비트 부동소수점 FP16	7.0	8.0	64		64	64	256		128			512	1024		128
FP32 누적을 사용하는 16비트 부동소수점 FP16	7.0	8.0	64		64	32			64		128				64
FP32 누적을 사용하는 16비트 부동소수점 BF16	7.5^[60]	8.0	아니요		64^[61]				64		128				64
32비트 (19비트 사용) 부동소수점 TF32	7.5^[60]	8.0			속도 미정 (32?)^[61]		128		32		64	256	512		32
64비트 부동소수점	8.0	아니요			아니요		16	속도 미정				32	16		미정

텐서 코어 구성	7.0	7.2, 7.5	8.0, 8.6	8.7	9.0
FP16 단위의 점곱 유닛 폭 (바이트)^[68]^[69]^[70]^[71]	4 (8)		8 (16)	4 (8)	16 (32)
텐서 코어당 점곱 유닛 수	16		32
SM 파티션당 텐서 코어 수	2		1
SM 파티션당 전체 처리량 (바이트/사이클)^[72]^[73]	256		512	256	1024
FP 텐서 코어: 워프 단위 행렬 계산을 위한 최소 사이클	8		4	8
FP 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)^[74]	2048
INT 텐서 코어: 워프 단위 행렬 계산을 위한 최소 사이클	아니요	4
INT 텐서 코어: 전체 처리량을 위한 최소 행렬 형태 (바이트)	아니요	1024	2048	1024

FP64 텐서 코어 구성	8.0	8.6	9.0
FP64 단위의 점곱 유닛 폭 (바이트)	4 (32)	미정	4 (32)
텐서 코어당 점곱 유닛 수	4	미정	8
SM 파티션당 텐서 코어 수	1
SM 파티션당 전체 처리량 (바이트/사이클)^[72]^[73]	128	미정	256
워프 단위 행렬 계산을 위한 최소 사이클	16	미정
전체 처리량을 위한 최소 행렬 형태 (바이트)^[74]	2048