FLOPS (FLoating-point Operations Per Second) là một chỉ số đo lường hiệu suất của máy tính, đặc biệt quan trọng trong các ứng dụng tính toán khoa học đòi hỏi thực hiện nhiều phép toán thập phân mỗi giây.
1 tflops, hay còn gọi là 1 teraflops, tương đương với một nghìn tỷ phép toán mỗi giây. Đây là đơn vị thường được sử dụng để đánh giá hiệu năng của các siêu máy tính song song, và là một chỉ số quan trọng trong việc so sánh tốc độ của phần cứng máy tính trong quá trình huấn luyện mạng neuron trong trí tuệ nhân tạo.
Hiệu suất FLOPs của một số bộ xử lý
Vi kiến trúc | ISA | FP64 | FP32 | FP16 |
---|---|---|---|---|
Intel CPU | ||||
Intel 80486 | x87 (32-bit) | ? | 0.128 | ? |
Intel P5 Pentium Intel P6 Pentium Pro |
x87 (32-bit) | ? | 0.5 | ? |
Intel P5 Pentium MMX Intel P6 Pentium II |
MMX (64-bit) | ? | 1 | ? |
Intel P6 Pentium III | SSE (64-bit) | ? | 2 | ? |
Intel Netburst Pentium 4 (Willamette, Northwood) | SSE2 (64-bit) | 2 | 4 | ? |
Intel P6 Pentium M | SSE2 (64-bit) | 1 | 2 | ? |
Intel Netburst Pentium 4 (Prescott, Cedar Mill) Intel Netburst Pentium D (Smithfield, Presler) Intel P6 Core (Yonah) |
SSE3 (64-bit) | 2 | 4 | ? |
Intel Core (Merom, Penryn) Intel Nehalem (Nehalem, Westmere) |
SSSE3 (128-bit) SSE4 (128-bit) |
4 | 8 | ? |
Intel Atom (Bonnell, Saltwell, Silvermont and Goldmont) | SSE3 (128-bit) | 2 | 4 | ? |
Intel Sandy Bridge (Sandy Bridge, Ivy Bridge) | AVX (256-bit) | 8 | 16 | 0 |
Intel Haswell (Haswell, Devil's Canyon, Broadwell) Intel Skylake (Skylake, Kaby Lake, Coffee Lake, Comet Lake, Whiskey Lake, Amber Lake) |
AVX2 & FMA (256-bit) | 16 | 32 | 0 |
Intel Xeon Phi (Knights Corner) | SSE & FMA (256-bit) | 16 | 32 | 0 |
Intel Skylake-X (Skylake-X, Cascade Lake) Intel Xeon Phi (Knights Landing, Knights Mill) Intel Ice Lake, Tiger Lake and Rocket Lake |
AVX-512 & FMA (512-bit) | 32 | 64 | 0 |
AMD CPU | ||||
AMD Bobcat | AMD64 (64-bit) | 2 | 4 | 0 |
AMD Jaguar AMD Puma |
AVX (128-bit) | 4 | 8 | 0 |
AMD K10 | SSE4/4a (128-bit) | 4 | 8 | 0 |
AMD Bulldozer (Piledriver, Steamroller, Excavator) | AVX (128-bit) Bulldozer-Steamroller
AVX2 (128-bit) Excavator FMA3 (Bulldozer) FMA3/4 (Piledriver-Excavator) |
4 | 8 | 0 |
AMD Zen (Ryzen 1000 series, Threadripper 1000 series, Epyc Naples) AMD Zen+ (Ryzen 2000 series, Threadripper 2000 series) |
AVX2 & FMA (128-bit, 256-bit decoding) | 8 | 16 | 0 |
AMD Zen 2 (Ryzen 3000 series, Threadripper 3000 series, Epyc Rome))
AMD Zen 3 (Ryzen 5000 series) |
AVX2 & FMA (256-bit) | 16 | 32 | 0 |
ARM CPU | ||||
ARM Cortex-A7, A9, A15 | ARMv7 | 1 | 8 | 0 |
ARM Cortex-A32, A35, A53, A55, A72, A73, A75 | ARMv8 | 2 | 8 | 0 |
ARM Cortex-A57 | ARMv8 | 4 | 8 | 0 |
ARM Cortex-A76, A77, A78 | ARMv8 | 8 | 16 | 0 |
ARM Cortex-X1 | ARMv8 | 16 | 32 | ? |
Qualcomm Krait | ARMv8 | 1 | 8 | 0 |
Qualcomm Kryo (1xx - 3xx) | ARMv8 | 2 | 8 | 0 |
Qualcomm Kryo (4xx - 5xx) | ARMv8 | 8 | 16 | 0 |
Samsung Exynos M1 and M2 | ARMv8 | 2 | 8 | 0 |
Samsung Exynos M3 and M4 | ARMv8 | 3 | 12 | 0 |
IBM PowerPC A2 (Blue Gene/Q) | ? | 8 | 8 (as FP64) | 0 |
Hitachi SH-4 | SH-4 | 1 | 7 | 0 |
Nvidia GPU | ||||
Nvidia Curie (GeForce 6 series and GeForce 7 series) | PTX | ? | 8 | ? |
Nvidia Tesla 2.0 (GeForce GTX 260-295) | PTX | ? | 2 | ? |
Nvidia Fermi (chỉ tính GeForce GTX 465–480, 560 Ti, 570-590) | PTX | 1/4 (locked by driver, 1 in hardware) | 2 | 0 |
Nvidia Fermi (chỉ tính Quadro 600-2000) | PTX | 1/8 | 2 | 0 |
Nvidia Fermi (chỉ tính Quadro 4000–7000, Tesla) | PTX | 1 | 2 | 0 |
Nvidia Kepler (GeForce (trừTitan and Titan Black), Quadro (except K6000), Tesla K10) | PTX | 1/12 (for GK110 | 2 | 0 |
Nvidia Kepler (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (trừ K10)) | PTX | 2/3 | 2 | 0 |
Nvidia Maxwell Nvidia Pascal (không tính Quadro GP100 and Tesla P100) |
PTX | 1/16 | 2 | 1/32 |
Nvidia Pascal (chỉ tính Quadro GP100 and Tesla P100) | PTX | 1 | 2 | 4 |
Nvidia Volta | PTX | 1 | 2 (FP32) + 2 (INT32) | 16 |
Nvidia Turing (chỉ tính GeForce 16XX) | PTX | 1/16 | 2 (FP32) + 2 (INT32) | 4 |
Nvidia Turing (không tính GeForce 16XX) | PTX | 1/16 | 2 (FP32) + 2 (INT32) | 16 |
Nvidia Ampere (chỉ tính Tesla A100/A30) | PTX | 2 | 2 (FP32) + 2 (INT32) | 32 |
Nvidia Ampere (gồm GeForce và Quadro, Tesla A40/A10) | PTX | 1/32 | 2 (FP32) + 0 (INT32) or 1 (FP32) + 1 (INT32) | 8 |
AMD GPU | ||||
AMD TeraScale 1 (Radeon HD 4000 series) | TeraScale 1 | 0.4 | 2 | ? |
AMD TeraScale 2 (Radeon HD 5000 series) | TeraScale 2 | 1 | 2 | ? |
AMD TeraScale 3 (Radeon HD 6000 series) | TeraScale 3 | 1 | 4 | ? |
AMD GCN (chỉ tính Radeon Pro W 8100-9100) | GCN | 1 | 2 | ? |
AMD GCN (không tính Radeon Pro W 8100-9100, Vega 10-20) | GCN | 1/8 | 2 | 4 |
AMD GCN Vega 10 | GCN | 1/8 | 2 | 4 |
AMD GCN Vega 20 (chỉ tính Radeon VII) | GCN | 2 | 4 | |
AMD GCN Vega 20 (chỉ tính Radeon Instinct MI50 / MI60 and Radeon Pro VII) | GCN | 1 | 2 | 4 |
AMD RDNA AMD RDNA 2 |
RDNA | 1/8 | 2 | 4 |
AMD CDNA | CDNA | 1 | 4 (Tenxơ) | 16 |
AMD CDNA 2 | CDNA 2 | 4 (Tenxơ) | 4 (Tenxơ) | 16 |
Qualcomm GPU | ||||
Qualcomm Adreno 5x0 | Adreno 5xx | 1 | 2 | 4 |
Qualcomm Adreno 6x0 | Adreno 6xx | 1 | 2 | 4 |
Graphcore | ||||
Graphcore Colossus GC2 (values estimated) | ? | 0 | 18 | 72 |
Graphcore Colossus GC200 Mk2 (values estimated) | ? | 0 | 36 | 144 |
Supercomputer | ||||
ENIAC @ 100 Khz with 385 Flops | ||||
48-bit processor @ 208 kHz in CDC 1604 in 1960 | ||||
60-bit processor @ 10 Mhz in CDC6600 in 1964 | 0.3 (FP60) | |||
60-bit processor @ 10 Mhz in CDC7600 in 1967 | 1.0 (FP60) | |||
Cray-1 @ 80 Mhz in 1976 | 2 | |||
CDC Cyber 205 @ 50 Mhz in 1981 | FORTRAN compiler
(ANSI 77 with vector extensions) |
8 | 16 | |
Vi kiến trúc | ISA | FP64 | FP32 | FP16 |
Nguồn: