Loading AI tools
величина, используемая для измерения производительности вычислительных систем Из Википедии, свободной энциклопедии
FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point OPerations per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от флопс, образуемые путём использования приставок СИ.
Производительность суперкомпьютеров | ||
---|---|---|
Название | год | флопсы |
флопс | 1941 | 100 |
килофлопс | 1949 | 103 |
мегафлопс | 1964 | 106 |
гигафлопс | 1987 | 109 |
терафлопс | 1997 | 1012 |
петафлопс | 2008 | 1015 |
эксафлопс | 2022 | 1018 |
зеттафлопс | Не ранее 2030[1][2] | 1021 |
иоттафлопс | Не ранее 2040-х | 1024 |
роннафлопс | Не ранее 2050-х | 1027 |
кветтафлопс | Не ранее 2060-х | 1030 |
Существуют разногласия насчёт того, допустимо ли использовать слово FLOP от англ. FLoating point OPeration в единственном числе (и такие варианты как flop или флоп). Некоторые считают, что FLOP (флоп) и FLOPS (флопс или флоп/с) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы), а FLOPS — мера производительности, способность выполнять определённое количество операций с плавающей запятой за секунду.
Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеров TOP500[источник не указан 511 дней].
Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.
Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.
Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом различаться; более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.
Так, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.
Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата[4][5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[6][7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[8] и тяжело сравнить с другими системами.
Для подсчёта максимального количества флопсов для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в ЭВМ CDC 6600 в 1964 году. Массовое производство компьютеров с суперскалярной архитектурой началось с выпуском процессора Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре[9][10][11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4×4×3,5=56 гигафлопсов, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2×4×3=24 гигафлопса, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.
AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц:
2200 МГц × 4 ядра × 4⋅10−3 = 35,2 гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600:
2400 МГц × 4 ядра × 4⋅10−3 = 38,4 гигафлопса.
Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций над 64-битными числами с плавающей запятой в такт (на каждом ядре)[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)[12]
Sandy и Ivy Bridge c AVX: 8 Флопс/такт двойной точности[13], 16 Флопс/такт одинарной точности
Intel Core i7 2700:/Intel Core i7 3770: 8*4*3900 МГц = 124,8 Гфлопс пиковая двойной точности, 16*4*3900 = 249,6 Гфлопс пиковая одинарной точности.
Intel Haswell/Broadwell с AVX2 и FMA3: 16 Флопс/такт двойной точности[13]; 32 одинарной точности Флопса/такт
Intel Core i7 4770: 16*4*3900 МГц = 249,6 Гигафлопс пиковая двойной точности, 32*4*3900 = 499,2 Гфлопс пиковая одинарной точности.
Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.
В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.
Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.
В период с 2030 по 2035 год ведущими компаниями мира планируется создать суперкомпьютер мощностью 1 зеттафлопс. Планируемая потребляемая мощность от 80 до 120 мегаватт, энергоэффективность: 10 терафлопсов/ватт, пропускная способность ввода-вывода: 10-100 петабайт/сек, объем памяти: 1,0 зеттабайт.
В марте 2024 года на мероприятии компании NVIDIA GTC 2024 было представлено новое семейство ускорителей Blackwell и дата центры на их базе. На их основе уже в 2024 году возможно создание суперкомпьютера с 64000 ускорителей Blackwell(2 кластера по 32000 ускорителей 625 Экзафлопс каждый) общей мощностью 1,25 зеттафлопс в задачах обучения искусственного интеллекта при энергопотреблении 40 мегаватт.
В марте 2024 года компанией Cerebras Systems был представлен гигантский процессор WSE-3 c 900 тысячами ядер и содержит 4 трлн транзисторов, кластер может масштабироваться до 2048 ускорителей с энергопотреблением 48 мегаватт и производительностью до 256 экзафлопс с точностью FP16 и 1 зеттафлопс с точностью FP4(точность актуальна для задач искусственного интеллекта и машинного обучения)
В 2025 году словацкая компания Tachyum планирует запустить суперкомпьютер на базе универсальных процессоров Prodigy. После запуска он обеспечит производительность 8 зеттафлопсов в задачах обучения искусственного интеллекта для больших языковых моделей (в стандартных задачах расчётная производительность — более 50 эксафлопсов).
В период с 2027 по 2030 год правительство Японии планирует создать преемника флагманского суперкомпьютера Fugaku - Fugaku Next. За реализацию проекта будут отвечать сотрудники Института физико-химических исследований (RIKEN) вместе с компанией Fujitsu. По предварительным оценкам, производительность системы при работе с искусственным интеллектом составит 50 экзафлопс. В отдельных задачах система будет способна выдавать до 1 зеттафлопса мощности. Пропускная способность системы будет достигать нескольких сотен терабайт в секунду. На первый этап проекта выделено финансирование в размере 29 миллиона долларов. Общее финансирование может превысить 761 миллион долларов.
Oracle и NVIDIA анонсировали самый крупный на сегодняшний день облачный ИИ-кластер, состоящий из 131 072 ускорителей NVIDIA B200 (Blackwell). По словам компаний, это первая в мире система производительностью 2,4 зеттафлопс (FP8). Кластер заработает в I половине 2025 года.
Во 2 половине 2025 года планируется запуск суперкомпьютера Илона Маска, состоящего из нескольких кластеров общим энергопотреблением до 500 мегаватт. Суперкомпьютер на первых порах будет включать в себя тысячи собственных ускорителей Tesla Dojo D1 и 100 тыс. ускорителей Nvidia H100, далее будут добавлены 300 тыс. GPU Nvidia B200. Производительность составит порядка 7 зеттафлопс. Суперкомпьютер будет использоваться для улучшения технологии полностью автономного вождения и для развития AI-чат-бота GrokAI.
В период с 2035 по 2041 года планируется создание суперкомпьютера мощностью 1 Иоттафлопс. При создании будут использованы новые архитектуры, техпроцессы, интерконнекты, технологии увеличения плотности размещения чипов, также возможно использование биотехнологий, квантовых вычислений, оптических и лазерных технологий, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии. Энергопотребление моделей на классических технологиях составит сотни Мегаватт и потребует для питания ядерной энергии. Японские ученые заявили, что к 2034 году планируют уменьшить энергопотребление чипов в 130 раз по отношению к современным, за счёт применения оптических технологий.
При достижении плановых характеристик к 2035 году возможно создание суперкомпьютера мощностью 1 иоттафлопс с точностью вычислений FP4(для задач искусственного интеллекта и машинного обучения) и 6 зеттафлопс со стандартной точностью при энергопотреблении 250-300 мегаватт.
Уровень производительность 1 роннафлопс судя по прогнозам будет достигнут в период с 2040-х годов по 2063 год. При создании возможно будут использоваться техпроцессы ангстремного уровня, оптико-лазерные технологии, биотехнологии, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине (в том числе планируемых к внедрению - 450 мм)
Пиковая производительность двойной точности[27]
Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.
(single) — одинарной точности; (double) — двойной точности[51]
Указаны операции с плавающей запятой над 32-разрядными данными
Информация в этом разделе устарела. |
Теоретическая производительность (FMA; гигафлопсы):
Графический процессор | Год выпуска | Техпроцесс | Гигафлопсов, для 32-разрядных вычислений | Гигафлопсов, для 64-разрядных вычислений | Источник |
---|---|---|---|---|---|
GeForce RTX 5090 (BG202) | 2024 | 3 нм | 142540 | 2227 | |
GeForce RTX 4090 (AD102) | 2022 | 4 нм | 82 580 | 1290 | |
GeForce RTX 3090 (GA102) | 2020 | 8 нм | 29 388 | 918,4 | |
Geforce RTX 2080 Ti (TU102) | 2018 | 12 нм | 13 450 | 420,2 | [84] |
GeForce GTX 1080 (GP104) | 2016 | 16 нм | 8873 (Boost) | 277 (Boost) | |
GeForce GTX 780 Ti (GK110-425-B1) | 2013 | 28 нм | 5046 | 210 | |
GeForce GTX 680 (GK104) | 2012 | 28 нм | 3090,4 | 128,8 | |
Radeon HD 7970 (Tahiti) | 2012 | 28 нм | 3789 | 947-1 024 | [85] |
Radeon HD 6990 (2xCayman) | 2011 | 40 нм | 2×2550 = 5 100 | 2×637 = 1 274 | [85] |
Radeon HD 5970 (2xRV870) | 2009 | 40 нм | 2×2320 = 4 640 | 2×464 = 928 | [85] |
Radeon R9 Fury X (Fuji) | 2015 | 28 нм | 8602 | 538 | [85] |
Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.
Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.