找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 9|回复: 4

[原理] 如何评估AI 芯片的真实性能?TOPS、FPS 与 Token/sec 全解析

[复制链接]
  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
发表于 2026-2-25 01:34:07 | 显示全部楼层 |阅读模式
ai算力的发展与TOPS(Tera Operations Per Second)紧密相关。TOPS是衡量芯片每秒能执行的基本操作次数的单位,通常用于评估AI芯片
性能,特别是在处理大量整数或定点运算任务时。随着AI技术进步,对算力的需求不断增加,TOPS作为衡量AI芯片算力的关键指标,其数值的增长反映了AI算力的发展水平。TOPS的提高意味着AI芯片能更快地处理数据,对于需要实时响应的应用场景,如自动驾驶,具有重要意义
TOPS的定义是非常明确的,代表每秒运行多少条指令(instruction,汇编或机器码的一行, 一般是32位2进制数)。
以CPU为例,一般CPU的频率,比如3GHz,代表一秒钟能输入一组流水线3 billion条指令。比如现在的ARM大核,都是4发射(可以理解为有并行的四组执行流水线,其实不止,但每周期只会最多选择4个开始执行),最高理论TOPS,即为3*4=12GOPS。
还没有完,因为arm的数据寄存器是32位的,所以一条arm指令可以做1次int32的加法,如果是int8,理论上一条指令可以做四次加法。所以,对于int8,最高理论算力为12*4=48GOPS。
乘法和加法又不一样,因为一个int32的乘法,理论上(虽然很多情况下实际没有)最多可以拆成4*4=16个int8的乘法(不增加运算器的前提下),这时最高算力为12*16=192GOPS≈0.2TOPS,(int8)。
至于其他指令,则没有int8还是int32的区别,都是12GOPS.
结论1,多少算力,是和具体运行什么指令相关的。
一般的程序,不全是乘法运算(NPU对应乘加运算),这部分会严重偏离理论算力。除此之外,还有一个重大的问题,就是运算器是不是满负荷运转。一般而言,远远不是,原因包括:cache miss,流水线冒险,无法并行 等等。
结论2,乘加的指令和数据如果没有准备好,运算单元就会空闲回到NPU。
NPU的算力大部分来自于tensor core,也就是只有矩阵乘法计算才能享受到理论算力,对应的是卷积
和MLP和矩阵乘法算子。其他算子都和理论峰值算力没有关系。nVidia的理论峰值算力,在tensor-core执行Fused Multiply–accumulate指令时达到,它把这一条指令算成两条指令(所以叫fused),对应了一次乘法和加法。
但大家都知道,一个乘法器需要的资源远超过加法器,这么算还算有良心。
另外,nvidia的理论峰值算力,没有把cuda-core的算力叠加上来,这也很有良心,不然可以增长40%。因为tensor-core全力运行的时候,cuda-core是不能工作的。NPU对于卷积更容易达到理论算力,因为卷积的数据复用好于MLP。
大核,一条指令的计算量大,对指令吞吐能力要求变低。小核,指令来不及准备好,会成为导致运算单元空闲的瓶颈。
数据分为权重和输入流。最理想的情况是一个网络的权重一次能加载完毕,但一般片上的ram没有那么大。如果一次可以容得下两层权重,通过流水,可以至少保证有下一层的权重处于ready状态,不会让乘加单元等待。
问题出在全连接层,它的权重非常多,一般而言会遇到存储墙,所以全连接层的计算效率会比卷积下降几倍。
输入流,对于CV来讲,就是图片,比如一次推理需要加载7张图片。需要做到从输入到网络输出写回,没有瓶颈,管路各处粗细相等。各种缓存和流水机制都需要仔细设计。上一层网络输出的中间结果,一般不用写回主存,而是直接去和已经加载好的新权重去做加乘。这时,我们会发现,一个网络:如果,刚开始加载一帧输入流 然后加载各层权重 然后写回最终结果。它和主存的通信带宽,可以通过 (一帧输入+各层权重+一帧输出) * 帧率 算出来。
如果用one-model(多输入共享backbone),加载权重的时间比重会变小,降低存储带宽需求。(7V能降低50%以上,所以基本上现在所有方案都是one-model)
如果中间结果要写回,比如某些运算要交给CPU(如reshape等),会增加存储带宽需求。
(增加一次写回增加30%)一般一个CNN网络,运算卷积占用的时间为1/3,MLP运算占用1/3,其他1/3。综合考虑各种损失,平均算力能达到峰值的25%是正常的。
对一些设计不佳的NPU来讲,乘加之外的运算效率极低,或者只能交给CPU去做,那平均算力达到峰值的5%也是正常的。
这些运算时间上的巨大差异,都和算力多少没关系。而如果其他设计不变,只是增加乘加单元,即使算力增长100倍,时间也只能节省1/3。所以算力的增长,要和cache的增长,带宽的增长,标量与向量计算能力的增长相匹配。




  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
 楼主| 发表于 2026-2-25 01:36:03 | 显示全部楼层
一、什么是Tokens? 在大语言模型中,Token 是指输入文本的一小部分,它可以是一个单词、一个字符或者一部分单词。在不同的语言模型中,Token 的定义和处理方式可能有所不同,但基本原理是一致的:模型将文本分割成更小的单元进行处理和理解。
1. 拆解文本的“乐高积木” Tokens不是简单的“字”或“词”,而是大模型理解文本的最小单位。
  • 中文:1个汉字 ≈ 1.5-2个Tokens(因为要考虑词语组合)
  • 英文:1个单词 ≈ 1-3个Tokens(比如“ChatGPT”会被拆成“Chat”+“GPT”)
特殊符号:标点、空格都可能单独算Token
  举个例子:
“你好!今天天气真好。”(共8个字)
实际可能被拆成:你 | 好 | ! | 今天 | 天气 | 真 | 好 |。 → 8个Tokens
2. 为什么非要拆成Tokens? 人类看文字是整体,但AI只能处理数字。Tokens相当于把文字转成数字编码的“桥梁”,每个Token对应一串数字(比如你=1024,好=2048),方便AI计算。
1. 成本跟着Tokens走
  • 算力消耗:处理100个Tokens的提问,比10个Tokens复杂10倍,GPU显卡要烧更多电。
  • 内存占用:AI生成答案时,需要记住之前的Tokens(类似你写作文要记得前文),Tokens越多,内存压力越大。
  • 响应时间:Tokens越多,AI“思考”时间越长,服务器排队更久。
  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
 楼主| 发表于 2026-2-25 01:45:39 | 显示全部楼层
AI 芯片在实际部署中,其理论峰值性能往往无法反映真实执行效率。如何科学评估一颗 AI 芯片的“真实性能”,已成为芯片选型与系统集成环节中的关键技术问题。本文从工程实战角度出发,深入拆解当前常用性能评估指标(TOPS、FPS、Token/sec)背后的定义逻辑与使用陷阱,并结合推理模型部署与执行路径,系统讲解 AI 芯片在不同场景下的性能验证方法。通过对芯片算力-功耗-调度三维关系的分析,读者将掌握评估一颗 AI 芯片是否“跑得动业务”的核心判断能力。
第1章:真实 vs 理论——AI芯片性能评估的常见误区与分歧
1.1 为什么“跑得快”≠“性能强”
AI芯片的宣传页面往往以一个鲜明的数字作为主打:XXX TOPS。但在实际工程部署中,开发者最关心的问题从来不是“芯片峰值能算多少”,而是:
    真实业务下的推理速度是否达标?
    系统资源是否足以支撑连续工作?
    功耗是否控制在设备允许的热设计功耗(TDP)内?
这就形成了第一层 “理论性能”与“系统性能”之间的鸿沟。例如一颗声称 128 TOPS 的芯片,在一个 INT8 精度的分类任务中,实际推理速度只有 200FPS,资源利用率不到 30%。这并不一定代表芯片无效,而是说明:
    芯片的结构设计、数据流路径、调度策略、模型架构之间存在不匹配。

1.2 典型的性能评估误区
常见误区     说明     实际表现
仅看TOPS     峰值理论性能    忽略数据搬运、调度等待
忽略任务调度模式     推理延迟依赖于Tile编排与DMA时序     任务切换导致帧延迟激增

混用精度指标     不同精度下TOPS/FPS不可直接横向比较     FP32与INT8无可比性
误用FPS评估小模型     小模型可能早已饱和带宽     芯片资源空转但吞吐看似很高
以Benchmark代替业务验证     公共模型无法代表业务复杂度     真实部署时性能反而下降

因此,对于企业部署、工程交付场景而言,必须转向 “场景绑定式性能评估”:即围绕实际任务模型、目标延迟与吞吐量、精度设定三大维度开展测试与优化。
1.3 建议的评估原则
    业务驱动优先:以任务维度的 Token 延迟、任务完成时间为核心评价指标;
    多指标组合:同时测量 TOPS 占比、FPS、功耗、资源利用率;
    调度对齐验证:绑定真实模型调度路径,避免 synthetic benchmark 干扰判断;
    精度透明化:明确每个指标对应的精度类型(如INT8、BF16等);
    片内瓶颈定位:区分计算瓶颈(PE不足)、数据瓶颈(带宽不足)、调度瓶颈(控制路径不匹配)。

第2章:TOPS 指标详解——定义、计算方式与误导风险
2.1 什么是 TOPS?
TOPS(Tera Operations Per Second)即“每秒万亿次操作数”,用于表征 AI 芯片在特定精度下的理论最大计算能力。
一般计算公式为:
TOPS = PE数量 × 每个PE的OPS × 主频 × 精度效率系数 / 10^12
误导二:忽略资源调度和内存带宽
TOPS 不考虑数据是否能“及时喂给”算子执行:
    数据通路不畅,PE 就会空转;
    模型结构不规则导致 PE 活跃率低;
    Tile 执行不均衡引发 pipeline 断裂。

误导三:实测场景不说明前提条件
很多“峰值TOPS”是在最理想模型结构(大卷积、规则矩阵乘)中测得,工程中常见的剪枝模型、小算子模型根本无法激活全部PE。、

  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
 楼主| 发表于 2026-2-25 01:49:27 | 显示全部楼层
算力通常由数据处理单元提供,也就是我们俗称的芯片,如CPU、GPU、FPGA、TPU等。
2.算力的衡量
算力的单位体系庞大且存在多种维度和多重标准,其核心关系可总结为“两大维度、四类单位、场景决定一切”
2.1.算力单位的两大维度
维度定义典型单位应用场景
基础操作维度
每秒执行的基础计算操作数量
FLOPS,OPS,IPS,H/s
硬件性能标定
任务效能维度
每秒完成的应用层任务量
FPS,QPS,图像/秒
用户体验衡量

2.2.四类核心单位详解2.2.1.数值计算类(底层硬件)
单位全称计算类型量级换算典型场景
OPS
OperationsPerSecond
通用操作
(整数/逻辑等)
1TOPS=10¹²OPS
AI推理芯片、边缘设备
FLOPS
Floating-PointOperationsPerSecond
浮点运算
(小数/科学计算)
1TFLOPS=10¹²FLOPS
超算、GPU、AI训练
IPS
InstructionsPerSecond
指令集操作
1GIPS=10⁹IPS
CPU架构效能评估

说明:OPS、FLOPS、IPS是业界最常用的三种算力衡量单位。
OPS与FLOPS的关系:
  • OPS:每秒执行的运算次数(OperationsPerSecond)。
  • FLOPS:每秒执行的浮点运算次数(Floating-PointOperationsPerSecond)。
  • FLOPS是OPS的子集。OPS是广义的“操作”,包含:

    • 整数运算(如5+3)
    • 逻辑运算(如AND/OR)
    • 浮点运算(如3.14×2.18)→这部分即FLOPS
  • 举例:某芯片1秒内执行了200亿次操作(OPS),其中50亿次是浮点运算→它的算力是50GFLOPS+150亿次其他操作。

2.2.2.领域专用类(垂直场景)
单位全称含义等价关系应用领域
H/s
HashesPerSecond
每秒哈希计算次数
1TH/s=10¹²H/s
比特币挖矿
IPS
InferencesPerSecond
每秒推理次数
依赖模型复杂度
AI推理(如ResNet-50)
FPS
FramesPerSecond
每秒渲染帧数
受GPU+CPU共同影响
游戏/图形渲染

2.2.3.任务吞吐类(应用层效能)
单位含义依赖因素案例
QPS
每秒查询次数
数据库芯片+算法优化
MySQL数据库性能
图像/秒
每秒处理图片数量
NPU算力(TOPS)+图像分辨率
手机AI相册分类速度
token/秒
每秒生成文本单元数
GPU算力(TFLOPS)+大模型参数规模
ChatGPT响应速度

2.2.4.能效比类(综合价值)
单位公式意义
FLOPS/W
算力(FLOPS)÷功耗(W)
每瓦电产生多少浮点算力(数据中心核心)
TOPS/W
算力(TOPS)÷功耗(W)
每瓦电产生多少AI算力(手机芯片关键)

2.3.常见单位的换算2.3.1.OPS衡量单位
衡量单位
英文全称
换算关系
中文全称
MOPSmegaOPS=10^6OPS
每秒一百万次的运算
GOPSgigaOPS=10^9OPS
每秒十亿次的运算
TOPSteraOPS=10^12OPS
每秒一万亿次的运算
POPSpetaOPS=10^15OPS
每秒一千万亿次的运算
EOPSexaOPS=10^18OPS
每秒一百亿亿次的运算
ZOPSzettaOPS=10^21OPS
每秒十万亿亿次进雾

其中TOPS和OPS是最常被提到的单位,TOPS是AI芯片常用单位。
2.3.2.FLOPS衡量单位
衡量单位
英文全称
换算关系
中文全称
KFLOPSKiloFLOPS=10^3FLOPS
每秒一千次的浮点运算
MFLOPSmegaFLOPS=10^6FLOPS
每秒一百万次的浮点运算
GFLOPSgigaFLOPS=10^9FLOPS
每秒十亿次的浮点运算
TFLOPSteraFLOPS=10^12FLOPS
每秒一万亿次的浮点运算
PFLOPSpetaFLOPS=10^15FLOPS
每秒一千万亿次的浮点运算
EFLOPSexaFLOPS=10^18FLOPS
每秒一百亿亿次的浮点运算
ZFLOPSzettaFLOPS=10^21FLOPS
每秒十万亿亿次浮点进雾

其中其中TFLOPS和FLOPS是最常被提到的单位。
2.3.3.精度换算关系(以AI芯片为例)
精度算力单位换算比例算力值示例
INT8
TOPS
1×(基准)
100TOPS
FP16
TFLOPS
1TOPS≈0.5TFLOPS
→50TFLOPS
FP32
TFLOPS
1TOPS≈0.25TFLOPS
→25TFLOPS

【举例】:
  • 芯片型号:英伟达H100GPU
  • FP16算力:1979TFLOPS
  • INT8算力:≈3958TOPS(按比例推算)

2.4.单位选择
算力单位的选择因场景而异:
  • 科学计算→FLOPS
  • AI推理→TOPS/IPS
  • 图形渲染→FPS(帧率)+TFLOPS

3.算力陷阱
  • 厂商宣传的TOPS/TFLOPS通常是理论峰值,实际性能可能仅达30%~70%(受算法、软件栈、内存限制)。
  • 没有“绝对最强”:适合需求的算力才是最优解(如自动驾驶芯片追求低延迟而非峰值TOPS)。
  • 芯片的实际算力不等于理论峰值,还受内存系统、精度与量化策略、功耗与散热、软件栈与编译器等多种因素的影响。


  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
 楼主| 发表于 2026-2-25 01:52:18 | 显示全部楼层
AI算力的单位TOPS是什么意思
随着人工智能技术的快速发展,算力已经成为衡量芯片性能的重要指标。TOPS(Tera Operations Per Second)作为最新的算力单位,在AI芯片领域应用广泛,但其具体含义和计算方法常常被误解。本文将深入探讨TOPS的定义、计算方法及其对于AI算力的重要性。
---
一、TOPS的定义及计算方法
TOPS,全称为Tera Operations Per Second,是衡量一枚芯片每秒能够执行多少次基本操作的单位。一“次操作”通常指一次加法或乘法,对应大多数AI计算场景中的基本运算(如MAU中的乘法累加操作)。在实际应用中,TOPS往往用来衡量神经网络处理单元(NPU)的算力。
计算TOPS的方法通常与芯片的时钟频率和乘法累加单元(MAU)的数量有关。例如,Intel的Core Ultra 7 155H在1.4GHz的时钟频率下,配置有4096个INT8的MAU,每个MAU在一个时钟周期内可以进行2次操作(即一次乘法和一次加法),其总计算能力为11 TOPS。这说明该芯片每秒能够执行约11万亿次整数运算。
二、为什么汽车芯片算力用TOPS而不是GHz
在自动驾驶技术领域,芯片的计算能力通常用TOPS而不是GHz来衡量。这是因为自动驾驶的核心之一是感知系统,而该系统往往依赖复杂的神经网络进行大量的数字运算。相比GHz,TOPS更能够直观地反映芯片在自动驾驶场景中的能力。
非常简单地说,GHz主要代表硬件的时钟频率,即每秒内进行时钟振荡的次数,例如1 GHz代表每秒10亿次时钟振荡。然而,时钟频率并不能直接反映出芯片在实际场景中处理复杂AI运算的能力。TOPS则直观地表示了芯片实际执行的基础操作数量,例如,一个脑子每秒钟可以通过1 GHz的时钟频率幻想10亿次,在每次幻想的过程中处理8位数据,则其实际处理能力为8 TOPS。
自动驾驶要求芯片能高效处理大规模并发的图像和传感器数据,这需要一种能够量化这些实时计算能力的单位,TOPS因此成为了更加合适的选择。
三、TOPS vs TFLOPS:不同单位的适用场景
除了TOPS,AI领域还有另一种常见的算力度量单位——TFLOPS(Tera Floating Point Operations Per Second),用以表征每秒可执行的浮点运算数量,常用于GPU和其他浮点运算密集的硬件。
1 TFLOPS表示每秒执行一万亿次浮点运算操作。相比之下,TOPS则主要用于定点运算的场合,更适于AI推理任务。然而,AI推理中对于数据的精度要求通常并不高,因此使用定点运算的TOPS即能满足大部分需求,而不必追求更为复杂的浮点运算。
在某些场景下,还引入了TOPS/W(每瓦特功率下执行的万亿次操作),用以度量处理器的能效比。例如,一个具有1太拉(W)功耗和2TOPS算力的处理器,其能效比为2TOPS/W。这种度量方式能够反映出芯片在实际使用中的效率和能源消耗。
四、算力追求与实际应用
近年来,不断提高芯片的算力已经成为许多厂商竞逐的目标。30 TOPS、100 TOPS、200 TOPS甚至2000 TOPS的芯片相继发布,表面上看大家都在追求更高的算力。然而,算法工程师和产品经理们普遍认为,仅仅一味追求高算力是“不智”的,关键还在于软硬件的协同能力以及实际应用场景中的效率。
假设一个自动驾驶芯片有2000 TOPS的理论峰值算力,但在实际应用中能有效利用的算力也可能只有其十分之一。这主要是因为软件算法、数据带宽和存储访问等多种因素限制了计算资源的利用效率。业界一些芯片厂商,如地平线和Mobileye,更加强调优化算法和提高软硬件协同能力,以更高效地利用现有算力,而不是一味地堆砌硬件。
具体案例来看,一款高算力芯片如果配备了不成熟的算法,其性能也难以充分发挥。地平线的征程3芯片虽然单颗仅有5 TOPS的算力,但其在8兆摄像头实时计算中表现出色。这得益于其硬件与算法的高度协同,实现了高效的计算资源利用率。
五、真实AI效能:FPS与实际利用率
TOPS数值虽然高,但在实际应用场景中能否充分利用是一个关键问题。行业逐渐意识到,理论峰值算力并不能完全反映芯片的实际效能,算力的有效利用率也需考虑。
例如,特斯拉的FSD芯片以72 TOPS的算力,经过高效的算法支持处理每秒2300帧图像,极大提升了计算效率。类似于FPS(Frame Per Second, 每秒处理帧数)也是评估芯片真实效能的关键指标之一。FPS较高的芯片在实际应用场景中,能够更快速地进行数据处理,带来更高的安全性和效率。
六、软硬一体:优化算法与芯片设计
AI芯片设计的壁垒不仅是硬件性能,更是在于对算法的深度理解。芯片公司必须具备强大的软硬件协同设计能力,以确保高效的资源利用率。
地平线创始人余凯多次强调,“硬件性能非唯一评价标准,架构设计和对算法的洞察才是芯片进化的推动力。”地平线征程系列芯片,即通过优化算法和提高硬件架构设计,成功提高了算力的利用率。具体来看,地平线在设计芯片时,已经前瞻性地融入了主流神经网络算法的计算特点,使得芯片在面对不同算法时仍能保持极高的计算效率。
Mobileye和安霸等芯片厂商也在推行类似的理念,通过软硬件协同设计,优化芯片的真实AI效能。Mobileye的EyeQ Ultra芯片虽然物理算力仅为176 TOPS,但其优秀的计算效率足以在两片芯片上运行整个SuperVision系统,实际效能非常高。
TOPS作为AI算力的度量单位,在评估芯片性能中发挥了重要作用,但其仅仅是表征芯片理论运算能力的指标。实际应用中,算力的有效利用率、硬件的设计架构、以及与算法的配合度均是影响芯片性能的重要因素。通过合理评估和优化这些因素,芯片厂商才能真正实现“高效AI”,优化AI应用场景中的实际计算效能。
TOPS在当前AI芯片领域是一个重要的算力度量标准,但它并非评价芯片性能的唯一指标。真正的AI性能还需综合考虑多方面因素,通过软硬件的深度结合,才能在实际应用中发挥出最佳效果。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2026-3-25 08:44 , Processed in 0.040581 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表