AMD Instinct - Wikiwand

AMD Instinct es la marca de GPU profesionales de AMD.^[1]^[2] Reemplazó la marca FirePro S de AMD en 2016. En comparación con la marca Radeon de productos convencionales para consumidores/jugadores, la línea de productos Instinct está diseñada para acelerar el aprendizaje profundo, las redes neuronales artificiales y las aplicaciones GPGPU / computación de alto rendimiento.

Datos rápidos Información, Tipo ...

AMD Instinct

Información
Tipo	Unidad de procesamiento gráfico (GPU)
Desarrollador	AMD
Fabricante	TSMC 28 nm GloFo 14 nm TSMC 7 nm TSMC 6 nm
Fecha de lanzamiento	20 de junio de 2017 (8 años)
Datos técnicos
Microarquitectura	GCN 3 GCN 4 GCN 5 CDNA CDNA 2
[editar datos en Wikidata]

La línea de productos Radeon Instinct compite directamente con Ampere e Intel Xeon Phi de Nvidia y las líneas entrantes de Intel Xe de aprendizaje automático y tarjetas GPGPU.

Antes de la presentación del MI100 en noviembre de 2020, la familia Instinct se conocía como AMD Radeon Instinct, AMD eliminó la marca Radeon de su nombre.

Las supercomputadoras basadas en (CPU AMD y) GPU AMD Instinct ahora lideran la lista de supercomputadoras Green500 con más del 50% de ventaja sobre cualquier otra, y encabezan los primeros 4 lugares, incluido el segundo, que es el más rápido del mundo en la actualidad en el Lista TOP500, Frontier.

Remove ads

Productos

Resumir

Contexto

Véanse también: AMD Workstation GPUs y AMD Mobile Workstation GPUs.

Los tres productos Radeon Instinct iniciales se anunciaron el 12 de diciembre de 2016 y se lanzaron el 20 de junio de 2017, cada uno basado en una arquitectura diferente.^[3]^[4]

MI6

El MI6 es una tarjeta basada en Polaris 10 con refrigeración pasiva con 16 GB de memoria GDDR5 y con un TDP de <150 W.^[1]^[2] A 5,7 TFLOPS (FP16 y FP32), se espera que el MI6 se utilice principalmente para inferencia, en lugar de entrenamiento de redes neuronales. El MI6 tiene un rendimiento informático máximo de doble precisión (FP64) de 358 GFLOPS.^[5]

MI8

La MI8 es una tarjeta basada en Fiji, análoga a la R9 Nano, y se espera que tenga un TDP de <175 W.^[1] El MI8 tiene 4 GB de memoria de alto ancho de banda. A 8,2 TFLOPS (FP16 y FP32), el MI8 está marcado para la inferencia. El MI8 tiene un rendimiento de cómputo de doble precisión pico (FP64) de 512 GFLOPS.^[6]

MI25

La MI25 es una tarjeta basada en Vega que utiliza memoria HBM2. Se espera que el rendimiento del MI25 sea de 12,3 TFLOPS utilizando números FP32. A diferencia del MI6 y el MI8, el MI25 puede aumentar el rendimiento cuando se utilizan números de menor precisión y, en consecuencia, se espera que alcance los 24,6 TFLOPS cuando se utilizan números FP16. El MI25 tiene una potencia nominal de <300 W TDP con refrigeración pasiva. El MI25 también proporciona 768 GFLOPS pico de doble precisión (FP64) a una tasa de 1/16.^[7]

Más información Acelerador, Arquitectura ...

Acelerador	Arquitectura	Litografía	Unidades de cómputo	Memoria	Tipo de memoria	Compatibilidad con PCIe	Factor de forma	Rendimiento FP16	Rendimiento BF16	Rendimiento FP32	Rendimiento de la matriz FP32	Rendimiento FP64	Rendimiento de la matriz FP64	Rendimiento INT8	Rendimiento INT4	Pico TBP
MI6	GCN 4	14 nm	36	16 GB	GDDR5	3.0	PCIe	5.7 TFLOPS	N/A	5.7 TFLOPS	N/A	358 GFLOPS	N/A	N/A	N/A	150 W
MI8	GCN 3	28 nm	64	4 GB	HBM	8.2 TFLOPS	8.2 TFLOPS	512 GFLOPS	175 W
MI25	GCN 5	14 nm	64	16 GB	HBM2	26.4 TFLOPS	12.3 TFLOPS	768 GFLOPS	300 W
MI50	GCN 5	7 nm	60	4.0	26.5 TFLOPS	13.3 TFLOPS	6.6 TFLOPS	53 TOPS	300 W
MI60	GCN 5	64	32 GB	29.5 TFLOPS	14.7 TFLOPS	7.4 TFLOPS	59 TOPS	300 W
MI100	CDNA	120	184.6 TFLOPS	92.3 TFLOPS	23.1 TFLOPS	46.1 TFLOPS	11.5 TFLOPS	184.6 TOPS	300 W
MI210	CDNA 2	6 nm	104	64 GB	HBM2e	181 TFLOPS	22.6 TFLOPS	45.3 TFLOPS	22.6 TFLOPS	45.3 TFLOPS	181 TOPS	300 W
MI250	CDNA 2	208	128 GB	OAM	362.1 TFLOPS	45.3 TFLOPS	90.5 TFLOPS	45.3 TFLOPS	90.5 TFLOPS	362.1 TOPS	560 W
MI250X	CDNA 2	220	383 TFLOPS	47.92 TFLOPS	95.7 TFLOPS	47.9 TFLOPS	95.7 TFLOPS	383 TOPS	560 W

Remove ads

Software

Artículo principal: ROCm

ROCm

El siguiente software, a partir de 2022, se reagrupa bajo el metaproyecto Radeon Open Compute.

MXGPU

Los productos MI6, MI8 y MI25 son compatibles con la tecnología de virtualización MxGPU de AMD, lo que permite compartir recursos de GPU entre varios usuarios.^[1]^[8]

MIOpen

MIOpen es la biblioteca de aprendizaje profundo de AMD para permitir la aceleración GPU del aprendizaje profundo.^[1] Gran parte de esto amplía el software de la Iniciativa Boltzmann de GPUOpen.^[8] Esto tiene la intención de competir con las porciones de aprendizaje profundo de la biblioteca CUDA de Nvidia. Es compatible con los marcos de aprendizaje profundo: Theano, Caffe, TensorFlow, MXNet, Microsoft Cognitive Toolkit, Torch y Chainer. La programación es compatible con OpenCL y Python, además de admitir la compilación de CUDA a través de la interfaz de computación heterogénea para portabilidad y el compilador de computación heterogénea de AMD.

Remove ads

Tabla de chips

Más información Modelo (Nombre en clave), Fecha de lanzamiento ...

Modelo (Nombre en clave)	Fecha de lanzamiento	Arquitectura	Fab	Transistores y tamaño del chip	Núcleo		Tasa de relleno^[a]		Poder de procesamiento^[a]^[b] (TFLOPS)			Memoria				TBP	Interfaz del bus
Modelo (Nombre en clave)	Fecha de lanzamiento	Arquitectura	Fab	Transistores y tamaño del chip	Config.^[c]	Reloj^[a] (MHz)	Textura^[d] (GT/s)	Píxel^[e] (GP/s)	Media	Simple	Doble	Tipo de bus y ancho	Tamaño	Reloj (MT/s)	Ancho de banda (GB/s)	TBP	Interfaz del bus
Radeon Instinct MI6 (Polaris 10)^[9]^[10]^[11]^[12]^[13]^[14]	20 de junio de 2017	GCN 4	GloFo 14LP	5.7×10⁹ 232 mm²	2304:144:32 36 CU	1120 1233	161.3 177.6	35.84 39.46	5.161 5.682	5.161 5.682	0.323 0.355	GDDR5 256-bit	16 GB	7000	224	150 W	PCIe 3.0×16
Radeon Instinct MI8 (Fiji)^[9]^[10]^[11]^[15]^[16]^[17]		GCN 3	TSMC 28 nm	8.9×10⁹ 596 mm²	4096:256:64 64 CU	1000	256.0	64.00	8.192	8.192	0.512	HBM 4096-bit	4 GB	1000	512	175 W
Radeon Instinct MI25 (Vega 10)^[9]^[10]^[11]^[18]^[19]^[20]^[21]		GCN 5	GloFo 14LP	12.5×10⁹ 510 mm²	4096:256:64 64 CU	1400 1500	358.4 384.0	89.60 96.00	22.94 24.58	11.47 12.29	0.717 0.768	HBM2 2048-bit	16 GB	1890	484	300 W
Radeon Instinct MI50 (Vega 20)^[22]^[23]^[24]^[25]^[26]^[27]	18 de noviembre de 2018	GCN 5	TSMC N7	13.2×10⁹ 331 mm²	3840:240:64 60 CU	1450 1725	348.0 414.0	92.80 110.4	22.27 26.50	11.14 13.25	5.568 6.624	HBM2 4096-bit	16 GB 32 GB	2000	1024		PCIe 4.0×16
Radeon Instinct MI60 (Vega 20)^[23]^[28]^[29]^[30]	18 de noviembre de 2018	GCN 5	TSMC N7	13.2×10⁹ 331 mm²	4096:256:64 64 CU	1500 1800	384.0 460.8	96.00 115.2	24.58 29.49	12.29 14.75	6.144 7.373		32 GB	2000	1024
AMD Instinct MI100 (Arcturus)^[31]^[32]^[33]	16 de noviembre de 2020	CDNA	TSMC N7	25.6×10⁹ 750 mm²	7680:480:- 120 CU	1000 1502	480.0 721.0	N/A	122.9 184.6	15.36 23.07	7.680 11.54		32 GB	2400	1228.8
AMD Instinct MI210 (Aldebaran)^[34]^[35]^[36]	22 de marzo de 2022	CDNA 2	TSMC N6	28 x 10⁹ ~770 mm²	6656:416:- 104 CU (1 × GCD)^[f]	1000 1700	416.0 707.2		106.5 181.0	13.31 22.63	13.31 22.63	HBM2e 4096-bit	64 GB	3200	1638.4
AMD Instinct MI250 (Aldebaran)^[37]^[38]^[39]	8 de noviembre de 2021			58 x 10⁹ 1540 mm²	13312:832:- 208 CU (2 × GCD)		832.0 1414		213.0 362.1	26.62 45.26	26.62 45.26	HBM2e 2 × 4096-bit^[g]	2 × 64 GB		2 × 1638.4	500 W 560 W (Pico)
AMD Instinct MI250X (Aldebaran)^[40]^[38]^[41]	8 de noviembre de 2021			58 x 10⁹ 1540 mm²	14080:880:- 220 CU (2 × GCD)		880.0 1496		225.3 383.0	28.16 47.87	28.16 47.87	HBM2e 2 × 4096-bit^[g]	2 × 64 GB		2 × 1638.4	500 W 560 W (Pico)

Remove ads

Véase también

ROCm: la pila de software de computación abierta de AMD
AMD FirePro: el predecesor de AMD de Radeon Instinct
AMD Radeon Pro: la solución GPGPU y gráficos para estaciones de trabajo de AMD
Nvidia Quadro: la solución de gráficos para estaciones de trabajo de la competencia de Nvidia
Nvidia Tesla: la solución GPGPU de la competencia de Nvidia
Xeon Phi: la línea de procesadores multinúcleo masivamente paralelos de la competencia de Intel
Unidades de procesamiento gráfico de AMD

Remove ads

Notas

[a]
los valores turbo (si están disponibles) se indican debajo del valor base en cursiva.
[b]
El rendimiento de precisión se calcula a partir de la velocidad del reloj central base (o turbo) en función de una operación FMA.
[c]
Sombreadores unificados: Unidades de mapeo de texturas: Unidades de salida de renderizado y Unidades de cómputo (CU)
[d]
La tasa de relleno de texturas se calcula como el número de unidades de mapeo de texturas multiplicado por la velocidad del reloj del núcleo base (o turbo).
[e]
La tasa de relleno de píxeles se calcula como el número de unidades de salida de renderizado multiplicado por la velocidad de reloj del núcleo base (o turbo).
[f]
GCD se refiere a un chip de cálculo de gráficos. Cada GCD es una pieza diferente de silicio
[g]
Las tarjetas basadas en CDNA 2.0 adoptan un diseño que utiliza dos troqueles en el mismo paquete. Están vinculadas con un enlace Infinity Fabric bidireccional de 400 GB/s. El sistema host trata los troqueles como GPU individuales.

Remove ads

Referencias

Loading content...

Enlaces externos

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads