找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 11|回复: 1

[原理] ai芯片的速度

[复制链接]
  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
发表于 2026-2-25 01:14:07 | 显示全部楼层 |阅读模式
4万亿晶体管5nm制程,全球最快AI芯片碾压H100
AI世界的进化快的有点跟不上了。刚刚,全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程。更厉害的是,WSE-3打造的单个超算可训出24万亿参数模型,相当于GPT-4/Gemini的十倍大。
全球最快、最强的AI芯片面世,让整个行业瞬间惊掉了下巴!
就在刚刚,AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」(WSE-3)。
性能上,WSE-3是上一代WSE-2的两倍,且功耗依旧保持不变。
90万个AI核心,44GB的片上SRAM存储,让WSE-3的峰值性能达到了125 FP16 PetaFLOPS。这相当于52块英伟达H100 GPU!不仅如此,相比于800亿个晶体管,芯片面积为814平方毫米的英伟达H100。
采用台积电5nm制程的WSE-3,不仅搭载了40000亿个晶体管(50倍),芯片面积更是高达46225平方毫米(57倍)。
专为AI打造的计算能力
此前,在传统的GPU集群上,研究团队不仅需要科学地分配模型,还必须在过程中处理各种复杂问题,比如处理器单元的内存容量、互联带宽、同步机制等等,同时还要不断调整超参数并进行优化实验。
更令人头疼的是,最终的实现很容易因为小小的变动而受到影响,这样就会进一步延长解决问题所需的总时间。
相比之下,WSE-3的每一个核心都可以独立编程,并且专为神经网络训练和深度学习推理中,所需的基于张量的稀疏线性代数运算,进行了优化。
而团队也可以在WSE-3的加持下,以前所未有的速度和规模训练和运行AI模型,并且不需要任何复杂分布式编程技巧。
单芯片实现集群级性能其中,WSE-3配备的44GB片上SRAM内存均匀分布在芯片表面,使得每个核心都能在单个时钟周期内以极高的带宽(21 PB/s)访问到快速内存——是当今地表最强GPU英伟达H100的7000倍。
超高带宽,极低延迟
而WSE-3的片上互连技术,更是实现了核心间惊人的214 Pb/s互连带宽,是H100系统的3715倍。
单个CS-3可训24万亿参数,大GPT-4十倍
由WSE-3组成的CS-3超算,可训练比GPT-4和Gemini大10倍的下一代前沿大模型。
再次打破了「摩尔定律」!2019年Cerebras首次推出CS-1,便打破了这一长达50年的行业法则。
官方博客中的一句话,简直刷新世界观:
在CS-3上训练一个万亿参数模型,就像在GPU上训练一个10亿参数模型一样简单!
显然,Cerebras的CS-3强势出击,就是为了加速最新的大模型训练。
它配备了高达1.2PB的巨大存储系统,单个系统即可训出24万亿参数的模型——为比GPT-4和Gemini大十倍的模型铺平道路。
简之,无需分区或重构,大大简化训练工作流提高开发效率。
在Llama 2、Falcon 40B、MPT-30B以及多模态模型的真实测试中,CS-3每秒输出的token是上一代的2倍。
而且,CS-3在不增加功耗/成本的情况下,将性能提高了一倍。
除此之外,为了跟上不断升级的计算和内存需求,Cerebras提高了集群的可扩展性。
上一代CS-2支持多达192个系统的集群,而CS-3可配置高达2048个系统集群,性能飙升10倍。
具体来说,由2048个CS-3组成的集群,可以提供256 exafloop的AI计算。
能够在24小时内,从头训练一个Llama 70B的模型。
相比之下,Llama2 70B可是用了大约一个月的时间,在Meta的GPU集群上完成的训练。
与GPU系统的另一个不同是,Cerebras晶圆规模集群可分离计算和内存组件,让开发者能轻松扩展MemoryX单元中的内存容量。
得益于Cerebras独特的Weight Streaming架构,整个集群看起来与单个芯片无异。
换言之,一名ML工程师可以在一台系统上开发和调试数万亿个参数模型,这在GPU领域是闻所未闻的。
具体来说,CS-3除了为企业提供24TB和36TB这两个版本外,还有面向超算的120TB和1200TB内存版本。(之前的CS-2集群只有1.5TB和12TB可选)
单个CS-3可与单个1200 TB内存单元配对使用,这意味着单个CS-3机架可以存储模型参数,比10000个节点的GPU集群多得多。
除此之外,与使用GPU相比,在Cerebras平台上开发所需的代码量还减少了高达97%。
更令人震惊的数字是——训练一个GPT-3规模的模型,仅需565行代码!
Playground AI创始人称,GPT-3正稳步成为AI领域的新「Hello World」。在Cerebras上,一个标准的GPT-3规模的模型,只需565行代码即可实现,创下行业新纪录。
首个世界最强芯片打造的超算来了
由G42和Cerebras联手打造的超级计算机——Condor Galaxy,是目前在云端构建AI模型最简单、最快速的解决方案。
它具备超过16 ExaFLOPs的AI计算能力,能够在几小时之内完成对最复杂模型的训练,这一过程在传统系统中可能需要数天。
其MemoryX系统拥有TB级别的内存容量,能够轻松处理超过1000亿参数的大模型,大大简化了大规模训练的复杂度。
与现有的基于GPU的集群系统不同,Condor Galaxy在处理GPT这类大型语言模型,包括GPT的不同变体、Falcon和Llama时,展现出了几乎完美的扩展能力。
这意味着,随着更多的CS-3设备投入使用,模型训练的时间将按照几乎完美的比例缩短。
而且,配置一个生成式AI模型只需几分钟,不再是数月,这一切只需一人便可轻松完成。
在简化大规模AI计算方面,传统系统因为需要在多个节点之间同步大量处理器而遇到了难题。
而Cerebras的全片级计算系统(WSC)则轻松跨越这一障碍——它通过无缝整合各个组件,实现了大规模并行计算,并提供了简洁的数据并行编程界面。
此前,这两家公司已经联手打造了世界上最大的两台AI超级计算机:Condor Galaxy 1和Condor Galaxy 2,综合性能达到8exaFLOPs。
G42集团的首席技术官Kiril Evtimov表示:「我们正在建设的下一代AI超级计算机Condor Galaxy 3,具有8exaFLOPs的性能,很快将使我们的AI计算总产能达到16exaFLOPs。」
如今,我们即将迎来新一波的创新浪潮,而全球AI革命的脚步,也再一次被加快了。
参考资料:
https://www.cerebras.net/



  • 打卡等级:热心大叔
  • 打卡总天数:274
  • 打卡月天数:5
  • 打卡总奖励:8403
  • 最近打卡:2026-03-18 01:46:44

378

主题

596

回帖

1万

积分

管理员

积分
11313
 楼主| 发表于 2026-2-25 01:23:42 | 显示全部楼层
芯片的还有高手?刚刚推出的一款最新芯片,直接冲上硅谷热榜。峰值推理速度高达每秒 17000 个 token。
什么概念呢?当前公认最强的 Cerebras,速度约为 2000 token/s。速度直接快 10 倍,同时成本骤减 20 倍、功耗降低 10 倍。这就意味着,LLM 真正来到了亚毫秒级的即时响应速度。
但这块一夜之间刷屏硅谷的芯片,并非出自英伟达、AMD 之手,而是一家成立仅两年、团队仅有 24 人的初创公司 ——Taalas。一、核心突破:暴力美学设计,极致速度与成本优势
1.技术颠覆:模型固化,告别“内存墙”
传统GPU等通用计算平台面临“内存墙”困境——模型参数需在显存与计算单元间频繁传输,耗时耗能。
Taalas反其道而行之,将Llama 3.1 8B模型的每个权重直接映射到芯片特定晶体管,矩阵乘法通过物理电路电流直接完成,无需软件调度。这种“硬件固化”设计如同“刻死模型的黑胶唱片”,插上电即可全速运行,彻底规避数据传输损耗。
2.性能碾压:速度与能效双突破
速度峰值:运行Llama 3.1 8B时输出速度达16960 tokens/秒(实测最高17000 tokens/秒),较业界最快的Cerebras快近10倍,较英伟达B200快50倍;
体验极致:响应延迟低至0.037秒,用户输入指令后答案“瞬间砸在屏幕上”,无任何等待感,体验网站chatjimmy.ai已开放实测;
成本与功耗优化:抛弃HBM显存与液冷系统,成本仅为传统方案的1/20,功耗缩减至1/10,十张芯片组成的服务器仅需2.5千瓦空气冷却,大幅降低部署门槛。
3.硬件规格:尖端工艺支撑
HC1芯片采用台积电6纳米制程,面积815平方毫米,集成530亿晶体管,由仅24人的团队耗时两年研发,总投入3000万美元,展现出极高的研发效率。Taalas已筹集2亿美元投资,计划春季推出集成中等规模推理模型的第二代产品,冬季部署密度更高、速度更快的HC2。
二、争议与短板:固化设计的先天局限
1.模型锁定,无法升级迭代
HC1芯片出厂即固化Llama 3.1 8B模型,无法微调、更换模型或升级版本。若未来Meta发布Llama 4等新版本,或用户需适配其他模型,现有芯片将直接沦为“电子垃圾”,与当前模型日均迭代的行业节奏形成冲突。
2.小模型幻觉问题突出
受限于8B参数规模,HC1存在严重的模型幻觉,甚至无法正确完成简单加减乘除。测试显示,其生成复杂教程类内容时错误频发,难以满足高精度、高可靠性的使用场景,被质疑参数规模可能不足10亿。
3.应用场景受限
芯片仅适配特定垂直场景,无法支撑多任务处理。适合毫秒级响应的语音助手、流水线数据标注、扫地机避障等简单任务,但难以应用于需要复杂推理、多模型协同的高端场景。
三、行业震动:路线之争与未来可能
1.硅谷大佬的路线决裂
Taalas的技术思路源于CEO Ljubisa Bajic的激进理念——这位曾任职于英伟达、AMD的资深架构师,曾创办AI芯片公司Tenstorrent,后与“芯片之神”Jim Keller因路线分歧分道扬镳。Jim Keller坚持“通用可编程平台”信仰,而Ljubisa选择“极致专用固化”,这场分歧本质是AI硬件的未来方向之争。
2.两极分化的行业评价
支持者认为:HC1的速度优势专为智能体间交互设计,海量垂直场景(如物联网终端、自动化设备)无需全知模型,仅需“廉价极速的专用工具”,其设计暗合人脑“硬件固化”的低功耗逻辑(人脑1立方毫米就包含57000个细胞、1.5亿个突触,靠固化结构实现高效运算);
反对者质疑:流片成本高昂,模型迭代速度远超硬件更新周期,专用芯片可能快速过时,且无法满足复杂场景需求,难以撼动GPU的通用计算地位。
3.未来趋势:通用与专用并行
HC1的出现并非要取代GPU,而是开辟了AI硬件的新赛道:云端仍需GPU等通用平台支撑复杂多任务处理,而终端侧、垂直场景则可通过专用固化芯片实现低成本、零延迟部署。Taalas的尝试证明,AI硬件正走向“两极分化”——一部分是云端昂贵的“通用神灵”,另一部分是渗透生活的“专用工匠”。
四、总结:一场冒险的行业实验
Taalas HC1芯片以“暴力固化”的颠覆性设计,打破了AI硬件的速度与成本边界,其17000 tokens/秒的纪录证明专用硬件的巨大潜力。但模型锁定、幻觉严重等短板也限制了其应用范围,使其更适合特定垂直场景而非通用市场。这场实验不仅为AI硬件提供了新的技术思路,更凸显了行业核心矛盾:在模型快速迭代的时代,如何平衡硬件专用性与灵活性。无论最终成败,HC1都已在AI硬件史上留下刺眼裂痕,推动行业重新思考“通用计算”的绝对主导地位。




HC1的独特设计:把AI模型“焊死”在芯片里传统AI加速器,如NVIDIA的GPU或Google的TPU,通常是“通用型”的:模型权重存储在内存中,芯片负责反复读取数据进行计算。这种方式灵活,能随时切换模型,但也带来瓶颈——内存访问延迟高、功耗大、成本不菲。
Taalas HC1走了一条截然不同的路:它将Llama 3.1 8B模型的权重直接“硬编码”进硅片,使用一种名为“mask ROM”的结构。这相当于把模型本身变成了芯片的一部分,而不是软件运行在硬件上。计算和存储深度融合,权重“就在计算单元旁边”,几乎消除了内存墙(memory wall)问题。
结果?在单用户场景下,HC1能实现17,000 tokens/秒的推理速度,比主流软件快近10倍;成本和功耗也大幅降低,一张卡只需约200W功率。这项创新源于一个24人团队,用2.5年时间和3000万美元投资打造而成。简单说,它牺牲了灵活性(芯片出厂后只能跑这个模型),换来了极端性能。但正如任何创新,这条路并非一帆风顺。
背后的技术挑战:从实验室到实用的艰难跨越尽管HC1在演示中表现出色,但实现这种“模型即芯片”的设计面临诸多工程难题。首先是密度问题:在815平方毫米的芯片上塞下80亿参数,需要极高的存储密度。他们用mask ROM实现“单晶体管存4位数据并完成乘法”,但这也导致了量化精度损失——第一代产品采用3-6位混合量化,模型输出质量不如原版,容易出现幻觉或数学错误。
其次,KV cache(上下文存储)容量有限,主要靠芯片上的SRAM,这限制了长对话场景的应用。模型更新更是痛点:权重一旦硬编码,任何改动都需要重新流片(制造新芯片),周期至少2个月,成本不低。此外,大芯片的制造良率、热管理、多芯片互联等,都是潜在风险。
Taalas团队承认这些是第一代产品的妥协,他们通过优化流程(如只改两层金属掩膜)来降低迭代成本。但要从8B小模型扩展到70B甚至更大规模,挑战会成倍放大。这提醒我们,技术创新往往是权衡的结果:追求极致性能,就得在灵活性和质量上让步。
下一步:从HC1到HC2,瞄准前沿大模型Taalas并没有停留在演示阶段。他们的路线图清晰而 ambitious:2026年上半年,将基于HC1平台推出第二款中型推理模型(可能13B-20B规模),聚焦实用性,如提升质量和上下文长度。夏季,他们计划硬编码Llama 3.1 20B版本,进一步验证技术。
更关键的是HC2第二代平台,预计2026年冬季登场。它将提升单芯片密度到20B参数,支持多芯片互联,并采用标准4位浮点量化,以解决质量问题。模拟显示,HC2能用30个自定义芯片运行671B参数模型,远少于传统方案的数百卡集群。商业上,他们将按客户订单优先流片,甚至探索API服务模式,目标是让AI像通用计算一样普及。
这个计划赌的是AI模型迭代放缓——如果主流模型趋于稳定,2个月流片周期就足够跟上。但在开源社区模型每周更新的当下,这仍是不确定因素。
如果成功:AI推理市场的潜在颠覆假设Taalas克服挑战,HC2顺利落地,会发生什么?首先,推理成本可能下降10-100倍:从几分钱/百万tokens掉到几分之一美分。这将让AI应用从“奢侈品”变成“基础设施”,催生实时聊天、个人代理、嵌入式设备等新场景。能耗降低5-10倍,也能缓解数据中心能源危机,推动绿色AI。
更深层影响在于范式转变:从通用GPU转向推理专用ASIC。NVIDIA的霸主地位可能被蚕食,尤其是开源模型更容易被硬编码,拉平闭源玩家的优势。边缘计算(如手机、汽车)将迎来爆发,AI真正“无处不在”。
当然,成功并非必然。竞争激烈(Groq、Cerebras等也在发力),模型质量、多模型兼容、规模部署都是关卡。但Taalas已融得超2亿美元,媒体称其为“slam dunk”(必胜球)。这至少证明,在AI硬件领域,极端特化或许是打破瓶颈的关键路径。
结语:理性看待创新的潜力与风险Taalas HC1不是万能解药,它更像一场实验:用硬编码换取性能极限,挑战传统计算范式。如果成功,它将加速AI民主化,让更多人受益;如果失败,也会为后人提供宝贵教训。在这个快速演进的时代,我们需要更多这样的尝试,但也要保持警惕——技术进步,最终服务于人类福祉,而非盲目追逐速度



HC1的独特设计:把AI模型“焊死”在芯片里传统AI加速器,如NVIDIA的GPU或Google的TPU,通常是“通用型”的:模型权重存储在内存中,芯片负责反复读取数据进行计算。这种方式灵活,能随时切换模型,但也带来瓶颈——内存访问延迟高、功耗大、成本不菲。
Taalas HC1走了一条截然不同的路:它将Llama 3.1 8B模型的权重直接“硬编码”进硅片,使用一种名为“mask ROM”的结构。这相当于把模型本身变成了芯片的一部分,而不是软件运行在硬件上。计算和存储深度融合,权重“就在计算单元旁边”,几乎消除了内存墙(memory wall)问题。
结果?在单用户场景下,HC1能实现17,000 tokens/秒的推理速度,比主流软件快近10倍;成本和功耗也大幅降低,一张卡只需约200W功率。这项创新源于一个24人团队,用2.5年时间和3000万美元投资打造而成。简单说,它牺牲了灵活性(芯片出厂后只能跑这个模型),换来了极端性能。但正如任何创新,这条路并非一帆风顺。
背后的技术挑战:从实验室到实用的艰难跨越尽管HC1在演示中表现出色,但实现这种“模型即芯片”的设计面临诸多工程难题。首先是密度问题:在815平方毫米的芯片上塞下80亿参数,需要极高的存储密度。他们用mask ROM实现“单晶体管存4位数据并完成乘法”,但这也导致了量化精度损失——第一代产品采用3-6位混合量化,模型输出质量不如原版,容易出现幻觉或数学错误。
其次,KV cache(上下文存储)容量有限,主要靠芯片上的SRAM,这限制了长对话场景的应用。模型更新更是痛点:权重一旦硬编码,任何改动都需要重新流片(制造新芯片),周期至少2个月,成本不低。此外,大芯片的制造良率、热管理、多芯片互联等,都是潜在风险。
Taalas团队承认这些是第一代产品的妥协,他们通过优化流程(如只改两层金属掩膜)来降低迭代成本。但要从8B小模型扩展到70B甚至更大规模,挑战会成倍放大。这提醒我们,技术创新往往是权衡的结果:追求极致性能,就得在灵活性和质量上让步。
下一步:从HC1到HC2,瞄准前沿大模型Taalas并没有停留在演示阶段。他们的路线图清晰而 ambitious:2026年上半年,将基于HC1平台推出第二款中型推理模型(可能13B-20B规模),聚焦实用性,如提升质量和上下文长度。夏季,他们计划硬编码Llama 3.1 20B版本,进一步验证技术。
更关键的是HC2第二代平台,预计2026年冬季登场。它将提升单芯片密度到20B参数,支持多芯片互联,并采用标准4位浮点量化,以解决质量问题。模拟显示,HC2能用30个自定义芯片运行671B参数模型,远少于传统方案的数百卡集群。商业上,他们将按客户订单优先流片,甚至探索API服务模式,目标是让AI像通用计算一样普及。
这个计划赌的是AI模型迭代放缓——如果主流模型趋于稳定,2个月流片周期就足够跟上。但在开源社区模型每周更新的当下,这仍是不确定因素。
如果成功:AI推理市场的潜在颠覆假设Taalas克服挑战,HC2顺利落地,会发生什么?首先,推理成本可能下降10-100倍:从几分钱/百万tokens掉到几分之一美分。这将让AI应用从“奢侈品”变成“基础设施”,催生实时聊天、个人代理、嵌入式设备等新场景。能耗降低5-10倍,也能缓解数据中心能源危机,推动绿色AI。
更深层影响在于范式转变:从通用GPU转向推理专用ASIC。NVIDIA的霸主地位可能被蚕食,尤其是开源模型更容易被硬编码,拉平闭源玩家的优势。边缘计算(如手机、汽车)将迎来爆发,AI真正“无处不在”。
当然,成功并非必然。竞争激烈(Groq、Cerebras等也在发力),模型质量、多模型兼容、规模部署都是关卡。但Taalas已融得超2亿美元,媒体称其为“slam dunk”(必胜球)。这至少证明,在AI硬件领域,极端特化或许是打破瓶颈的关键路径。
结语:理性看待创新的潜力与风险Taalas HC1不是万能解药,它更像一场实验:用硬编码换取性能极限,挑战传统计算范式。如果成功,它将加速AI民主化,让更多人受益;如果失败,也会为后人提供宝贵教训。在这个快速演进的时代,我们需要更多这样的尝试,但也要保持警惕——技术进步,最终服务于人类福祉,而非盲目追逐速度

Taalas 的芯片定制流程借鉴了 2000 年代早期结构化 ASIC(Application-Specific Integrated Circuit,专用集成电路)的思路。结构化 ASIC 通过固化门阵列和硬化 IP 模块,只修改互连层来适配不同工作负载,在成本和性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)和全定制 ASIC 之间。

Taalas 的做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,这两层掩模同时决定模型权重的编码和数据在芯片内部的流动路径。Bajic 表示,从拿到一个新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需要一周的工程工作量,整个从模型到芯片的周期目标是两个月。

这个两个月的周转速度如果能稳定实现,意味着什么?意味着当一个模型在生产环境中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可以在较短时间内为它制造专用硅片,以远低于 GPU 的成本和功耗来提供推理服务。Bajic 承认,这种模式要求客户对某个特定模型做出至少一年的承诺,“肯定有很多人不愿意,但会有人愿意”。

那么,这种极端专用化能扩展到更大的模型吗?Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模型需要大约 30 颗芯片协同工作,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独立芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片成本并不高。

模拟结果显示,这套 30 芯片系统在 DeepSeek R1 上可以达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约在 200 tokens/s/user。推理成本约 7.6 美分/百万 token,不到 GPU 吞吐优化方案的一半。

这些数字当然还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不可小觑,30 颗大面积芯片协同工作的验证复杂度也是指数级增长的。Bajic 自己也提到,因为芯片完全不可编程,“出错的余地基本为零”,唯一能建立信心的方法就是在流片前对整个模型进行完整的仿真——如何在合理时间内完成 30 颗芯片的联合仿真,本身就是一个巨大的工程问题。Taalas 声称已经建立了可以在大规模计算集群上运行的仿真流程来应对。

还有一个值得关注的细节是,HC1 使用了自定义的 3-bit 基础数据类型进行激进量化,结合 3-bit 和 6-bit 参数,会带来相对于标准量化模型的质量损失。Taalas 对此并未回避,承认模型在质量基准测试中会有退化。他们的第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善这一问题。第二款产品预计是一个中等规模的推理模型,计划今年春季在实验室完成,随后接入推理服务。基于 HC2 平台的前沿大模型则计划冬季部署。

当前 AI 推理芯片市场大致可以按专用化程度排列成一个光谱:一端是 Nvidia GPU 这样的高度通用方案;中间是 Groq、Cerebras、SambaNova 等,它们设计了针对 LLM 推理优化的定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,牺牲部分灵活性换效率;而 Taalas 直接站在了最末端,把一个特定模型焊死在硅片里。

这种极端策略的风险很明显。AI 领域模型迭代速度极快,去年的前沿模型今年可能就被淘汰。如果一颗芯片只能跑一个模型,而那个模型在芯片寿命结束前就过时了,投资就打了水漂。这也是 Bajic 所说的“为什么之前没人敢走到这个角落”。但他认为随着行业成熟,总有一些模型在实际业务中被长期使用。Taalas 产品副总裁 Paresh Kharya(此前曾在 Nvidia 长期任职)也对 EE Times 表示,对于在重要业务场景中运行的模型,用户粘性可能持续一年甚至更久。

商业模式上 Taalas 还在摸索。Kharya 透露了几种可能方向:自建基础设施运行开源模型并提供 API 推理服务;直接向客户出售芯片;或者与模型开发者合作,为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通,取决于市场对这种极端专用化方案的接受程度。

不过从纯技术角度来说,Taalas 的方案确实触及了一个被主流路线忽略的设计空间。存算分离带来的带宽墙(memory wall)是当前推理硬件的核心瓶颈,而 Taalas 通过将权重以 Mask ROM 形式与计算逻辑同层集成,从根本上消除了这个瓶颈。代价是灵活性的彻底丧失,但如果应用场景允许这种刚性,换来的性能和成本优势是实打实的。

Bajic 还透露,Taalas 能用单个晶体管同时存储 4-bit 模型参数并完成乘法运算。他拒绝透露更多,但确认计算仍然是全数字的。如果属实,这意味着 Taalas 在电路层面实现了一种极为高效的存内计算(Compute-in-Memory)机制,虽然不同于学术界讨论较多的模拟存内计算方案,但目标一致:让数据就地参与运算,不再搬来搬去。

硬接线芯片还带来了一个意想不到的副产品:软件栈的极度简化。Bajic 说“软件作为一个东西基本消失了”,公司只有一个工程师负责软件栈,而且这人还兼顾其他工作。对比当前 GPU 推理系统中 vLLM、TensorRT-LLM、PagedAttention 等复杂软件优化层的工程投入,这种简化几乎是降维式的。当然,这种简化是以极端硬件专用化为前提的,不具有一般性。

Bajic 在博客中用 ENIAC 到晶体管的演化做类比,暗示当前以 GPU 数据中心为核心的 AI 基础设施可能只是早期的“笨重原型”,未来终将被更高效的方案取代。这个类比有一定道理,但也不宜过度引申。GPU 数据中心的“暴力”不仅仅是硬件层面的,它背后是整个 CUDA 软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易,颠覆生态难。Taalas 的芯片或许在特定场景下拥有压倒性的性能和成本优势,但要成为主流路线的替代方案,需要的远不止一颗跑得快的芯片。

不过,Taalas 可能也从未打算成为“替代方案”。Kharya 表示:“模型最优硅片不会取代满是 GPU 的大型数据中心,但它会适合某些应用。”



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2026-3-25 08:43 , Processed in 0.038682 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表