芯片的还有高手?刚刚推出的一款最新芯片,直接冲上硅谷热榜。峰值推理速度高达每秒 17000 个 token。
什么概念呢?当前公认最强的 Cerebras,速度约为 2000 token/s。速度直接快 10 倍,同时成本骤减 20 倍、功耗降低 10 倍。这就意味着,LLM 真正来到了亚毫秒级的即时响应速度。
但这块一夜之间刷屏硅谷的芯片,并非出自英伟达、AMD 之手,而是一家成立仅两年、团队仅有 24 人的初创公司 ——Taalas。一、核心突破:暴力美学设计,极致速度与成本优势
1.技术颠覆:模型固化,告别“内存墙”
传统GPU等通用计算平台面临“内存墙”困境——模型参数需在显存与计算单元间频繁传输,耗时耗能。
Taalas反其道而行之,将Llama 3.1 8B模型的每个权重直接映射到芯片特定晶体管,矩阵乘法通过物理电路电流直接完成,无需软件调度。这种“硬件固化”设计如同“刻死模型的黑胶唱片”,插上电即可全速运行,彻底规避数据传输损耗。
2.性能碾压:速度与能效双突破
速度峰值:运行Llama 3.1 8B时输出速度达16960 tokens/秒(实测最高17000 tokens/秒),较业界最快的Cerebras快近10倍,较英伟达B200快50倍;
体验极致:响应延迟低至0.037秒,用户输入指令后答案“瞬间砸在屏幕上”,无任何等待感,体验网站chatjimmy.ai已开放实测;
成本与功耗优化:抛弃HBM显存与液冷系统,成本仅为传统方案的1/20,功耗缩减至1/10,十张芯片组成的服务器仅需2.5千瓦空气冷却,大幅降低部署门槛。
3.硬件规格:尖端工艺支撑
HC1芯片采用台积电6纳米制程,面积815平方毫米,集成530亿晶体管,由仅24人的团队耗时两年研发,总投入3000万美元,展现出极高的研发效率。Taalas已筹集2亿美元投资,计划春季推出集成中等规模推理模型的第二代产品,冬季部署密度更高、速度更快的HC2。
二、争议与短板:固化设计的先天局限
1.模型锁定,无法升级迭代
HC1芯片出厂即固化Llama 3.1 8B模型,无法微调、更换模型或升级版本。若未来Meta发布Llama 4等新版本,或用户需适配其他模型,现有芯片将直接沦为“电子垃圾”,与当前模型日均迭代的行业节奏形成冲突。
2.小模型幻觉问题突出
受限于8B参数规模,HC1存在严重的模型幻觉,甚至无法正确完成简单加减乘除。测试显示,其生成复杂教程类内容时错误频发,难以满足高精度、高可靠性的使用场景,被质疑参数规模可能不足10亿。
3.应用场景受限
芯片仅适配特定垂直场景,无法支撑多任务处理。适合毫秒级响应的语音助手、流水线数据标注、扫地机避障等简单任务,但难以应用于需要复杂推理、多模型协同的高端场景。
三、行业震动:路线之争与未来可能
1.硅谷大佬的路线决裂
Taalas的技术思路源于CEO Ljubisa Bajic的激进理念——这位曾任职于英伟达、AMD的资深架构师,曾创办AI芯片公司Tenstorrent,后与“芯片之神”Jim Keller因路线分歧分道扬镳。Jim Keller坚持“通用可编程平台”信仰,而Ljubisa选择“极致专用固化”,这场分歧本质是AI硬件的未来方向之争。
2.两极分化的行业评价
支持者认为:HC1的速度优势专为智能体间交互设计,海量垂直场景(如物联网终端、自动化设备)无需全知模型,仅需“廉价极速的专用工具”,其设计暗合人脑“硬件固化”的低功耗逻辑(人脑1立方毫米就包含57000个细胞、1.5亿个突触,靠固化结构实现高效运算);
反对者质疑:流片成本高昂,模型迭代速度远超硬件更新周期,专用芯片可能快速过时,且无法满足复杂场景需求,难以撼动GPU的通用计算地位。
3.未来趋势:通用与专用并行
HC1的出现并非要取代GPU,而是开辟了AI硬件的新赛道:云端仍需GPU等通用平台支撑复杂多任务处理,而终端侧、垂直场景则可通过专用固化芯片实现低成本、零延迟部署。Taalas的尝试证明,AI硬件正走向“两极分化”——一部分是云端昂贵的“通用神灵”,另一部分是渗透生活的“专用工匠”。
四、总结:一场冒险的行业实验
Taalas HC1芯片以“暴力固化”的颠覆性设计,打破了AI硬件的速度与成本边界,其17000 tokens/秒的纪录证明专用硬件的巨大潜力。但模型锁定、幻觉严重等短板也限制了其应用范围,使其更适合特定垂直场景而非通用市场。这场实验不仅为AI硬件提供了新的技术思路,更凸显了行业核心矛盾:在模型快速迭代的时代,如何平衡硬件专用性与灵活性。无论最终成败,HC1都已在AI硬件史上留下刺眼裂痕,推动行业重新思考“通用计算”的绝对主导地位。
HC1的独特设计:把AI模型“焊死”在芯片里传统AI加速器,如NVIDIA的GPU或Google的TPU,通常是“通用型”的:模型权重存储在内存中,芯片负责反复读取数据进行计算。这种方式灵活,能随时切换模型,但也带来瓶颈——内存访问延迟高、功耗大、成本不菲。
Taalas HC1走了一条截然不同的路:它将Llama 3.1 8B模型的权重直接“硬编码”进硅片,使用一种名为“mask ROM”的结构。这相当于把模型本身变成了芯片的一部分,而不是软件运行在硬件上。计算和存储深度融合,权重“就在计算单元旁边”,几乎消除了内存墙(memory wall)问题。
结果?在单用户场景下,HC1能实现17,000 tokens/秒的推理速度,比主流软件快近10倍;成本和功耗也大幅降低,一张卡只需约200W功率。这项创新源于一个24人团队,用2.5年时间和3000万美元投资打造而成。简单说,它牺牲了灵活性(芯片出厂后只能跑这个模型),换来了极端性能。但正如任何创新,这条路并非一帆风顺。
背后的技术挑战:从实验室到实用的艰难跨越尽管HC1在演示中表现出色,但实现这种“模型即芯片”的设计面临诸多工程难题。首先是密度问题:在815平方毫米的芯片上塞下80亿参数,需要极高的存储密度。他们用mask ROM实现“单晶体管存4位数据并完成乘法”,但这也导致了量化精度损失——第一代产品采用3-6位混合量化,模型输出质量不如原版,容易出现幻觉或数学错误。
其次,KV cache(上下文存储)容量有限,主要靠芯片上的SRAM,这限制了长对话场景的应用。模型更新更是痛点:权重一旦硬编码,任何改动都需要重新流片(制造新芯片),周期至少2个月,成本不低。此外,大芯片的制造良率、热管理、多芯片互联等,都是潜在风险。
Taalas团队承认这些是第一代产品的妥协,他们通过优化流程(如只改两层金属掩膜)来降低迭代成本。但要从8B小模型扩展到70B甚至更大规模,挑战会成倍放大。这提醒我们,技术创新往往是权衡的结果:追求极致性能,就得在灵活性和质量上让步。
下一步:从HC1到HC2,瞄准前沿大模型Taalas并没有停留在演示阶段。他们的路线图清晰而 ambitious:2026年上半年,将基于HC1平台推出第二款中型推理模型(可能13B-20B规模),聚焦实用性,如提升质量和上下文长度。夏季,他们计划硬编码Llama 3.1 20B版本,进一步验证技术。
更关键的是HC2第二代平台,预计2026年冬季登场。它将提升单芯片密度到20B参数,支持多芯片互联,并采用标准4位浮点量化,以解决质量问题。模拟显示,HC2能用30个自定义芯片运行671B参数模型,远少于传统方案的数百卡集群。商业上,他们将按客户订单优先流片,甚至探索API服务模式,目标是让AI像通用计算一样普及。
这个计划赌的是AI模型迭代放缓——如果主流模型趋于稳定,2个月流片周期就足够跟上。但在开源社区模型每周更新的当下,这仍是不确定因素。
如果成功:AI推理市场的潜在颠覆假设Taalas克服挑战,HC2顺利落地,会发生什么?首先,推理成本可能下降10-100倍:从几分钱/百万tokens掉到几分之一美分。这将让AI应用从“奢侈品”变成“基础设施”,催生实时聊天、个人代理、嵌入式设备等新场景。能耗降低5-10倍,也能缓解数据中心能源危机,推动绿色AI。
更深层影响在于范式转变:从通用GPU转向推理专用ASIC。NVIDIA的霸主地位可能被蚕食,尤其是开源模型更容易被硬编码,拉平闭源玩家的优势。边缘计算(如手机、汽车)将迎来爆发,AI真正“无处不在”。
当然,成功并非必然。竞争激烈(Groq、Cerebras等也在发力),模型质量、多模型兼容、规模部署都是关卡。但Taalas已融得超2亿美元,媒体称其为“slam dunk”(必胜球)。这至少证明,在AI硬件领域,极端特化或许是打破瓶颈的关键路径。
结语:理性看待创新的潜力与风险Taalas HC1不是万能解药,它更像一场实验:用硬编码换取性能极限,挑战传统计算范式。如果成功,它将加速AI民主化,让更多人受益;如果失败,也会为后人提供宝贵教训。在这个快速演进的时代,我们需要更多这样的尝试,但也要保持警惕——技术进步,最终服务于人类福祉,而非盲目追逐速度
。
HC1的独特设计:把AI模型“焊死”在芯片里传统AI加速器,如NVIDIA的GPU或Google的TPU,通常是“通用型”的:模型权重存储在内存中,芯片负责反复读取数据进行计算。这种方式灵活,能随时切换模型,但也带来瓶颈——内存访问延迟高、功耗大、成本不菲。
Taalas HC1走了一条截然不同的路:它将Llama 3.1 8B模型的权重直接“硬编码”进硅片,使用一种名为“mask ROM”的结构。这相当于把模型本身变成了芯片的一部分,而不是软件运行在硬件上。计算和存储深度融合,权重“就在计算单元旁边”,几乎消除了内存墙(memory wall)问题。
结果?在单用户场景下,HC1能实现17,000 tokens/秒的推理速度,比主流软件快近10倍;成本和功耗也大幅降低,一张卡只需约200W功率。这项创新源于一个24人团队,用2.5年时间和3000万美元投资打造而成。简单说,它牺牲了灵活性(芯片出厂后只能跑这个模型),换来了极端性能。但正如任何创新,这条路并非一帆风顺。
背后的技术挑战:从实验室到实用的艰难跨越尽管HC1在演示中表现出色,但实现这种“模型即芯片”的设计面临诸多工程难题。首先是密度问题:在815平方毫米的芯片上塞下80亿参数,需要极高的存储密度。他们用mask ROM实现“单晶体管存4位数据并完成乘法”,但这也导致了量化精度损失——第一代产品采用3-6位混合量化,模型输出质量不如原版,容易出现幻觉或数学错误。
其次,KV cache(上下文存储)容量有限,主要靠芯片上的SRAM,这限制了长对话场景的应用。模型更新更是痛点:权重一旦硬编码,任何改动都需要重新流片(制造新芯片),周期至少2个月,成本不低。此外,大芯片的制造良率、热管理、多芯片互联等,都是潜在风险。
Taalas团队承认这些是第一代产品的妥协,他们通过优化流程(如只改两层金属掩膜)来降低迭代成本。但要从8B小模型扩展到70B甚至更大规模,挑战会成倍放大。这提醒我们,技术创新往往是权衡的结果:追求极致性能,就得在灵活性和质量上让步。
下一步:从HC1到HC2,瞄准前沿大模型Taalas并没有停留在演示阶段。他们的路线图清晰而 ambitious:2026年上半年,将基于HC1平台推出第二款中型推理模型(可能13B-20B规模),聚焦实用性,如提升质量和上下文长度。夏季,他们计划硬编码Llama 3.1 20B版本,进一步验证技术。
更关键的是HC2第二代平台,预计2026年冬季登场。它将提升单芯片密度到20B参数,支持多芯片互联,并采用标准4位浮点量化,以解决质量问题。模拟显示,HC2能用30个自定义芯片运行671B参数模型,远少于传统方案的数百卡集群。商业上,他们将按客户订单优先流片,甚至探索API服务模式,目标是让AI像通用计算一样普及。
这个计划赌的是AI模型迭代放缓——如果主流模型趋于稳定,2个月流片周期就足够跟上。但在开源社区模型每周更新的当下,这仍是不确定因素。
如果成功:AI推理市场的潜在颠覆假设Taalas克服挑战,HC2顺利落地,会发生什么?首先,推理成本可能下降10-100倍:从几分钱/百万tokens掉到几分之一美分。这将让AI应用从“奢侈品”变成“基础设施”,催生实时聊天、个人代理、嵌入式设备等新场景。能耗降低5-10倍,也能缓解数据中心能源危机,推动绿色AI。
更深层影响在于范式转变:从通用GPU转向推理专用ASIC。NVIDIA的霸主地位可能被蚕食,尤其是开源模型更容易被硬编码,拉平闭源玩家的优势。边缘计算(如手机、汽车)将迎来爆发,AI真正“无处不在”。
当然,成功并非必然。竞争激烈(Groq、Cerebras等也在发力),模型质量、多模型兼容、规模部署都是关卡。但Taalas已融得超2亿美元,媒体称其为“slam dunk”(必胜球)。这至少证明,在AI硬件领域,极端特化或许是打破瓶颈的关键路径。
结语:理性看待创新的潜力与风险Taalas HC1不是万能解药,它更像一场实验:用硬编码换取性能极限,挑战传统计算范式。如果成功,它将加速AI民主化,让更多人受益;如果失败,也会为后人提供宝贵教训。在这个快速演进的时代,我们需要更多这样的尝试,但也要保持警惕——技术进步,最终服务于人类福祉,而非盲目追逐速度
Taalas 的芯片定制流程借鉴了 2000 年代早期结构化 ASIC(Application-Specific Integrated Circuit,专用集成电路)的思路。结构化 ASIC 通过固化门阵列和硬化 IP 模块,只修改互连层来适配不同工作负载,在成本和性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)和全定制 ASIC 之间。
Taalas 的做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,这两层掩模同时决定模型权重的编码和数据在芯片内部的流动路径。Bajic 表示,从拿到一个新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需要一周的工程工作量,整个从模型到芯片的周期目标是两个月。
这个两个月的周转速度如果能稳定实现,意味着什么?意味着当一个模型在生产环境中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可以在较短时间内为它制造专用硅片,以远低于 GPU 的成本和功耗来提供推理服务。Bajic 承认,这种模式要求客户对某个特定模型做出至少一年的承诺,“肯定有很多人不愿意,但会有人愿意”。
那么,这种极端专用化能扩展到更大的模型吗?Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模型需要大约 30 颗芯片协同工作,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独立芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片成本并不高。
模拟结果显示,这套 30 芯片系统在 DeepSeek R1 上可以达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约在 200 tokens/s/user。推理成本约 7.6 美分/百万 token,不到 GPU 吞吐优化方案的一半。
这些数字当然还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不可小觑,30 颗大面积芯片协同工作的验证复杂度也是指数级增长的。Bajic 自己也提到,因为芯片完全不可编程,“出错的余地基本为零”,唯一能建立信心的方法就是在流片前对整个模型进行完整的仿真——如何在合理时间内完成 30 颗芯片的联合仿真,本身就是一个巨大的工程问题。Taalas 声称已经建立了可以在大规模计算集群上运行的仿真流程来应对。
还有一个值得关注的细节是,HC1 使用了自定义的 3-bit 基础数据类型进行激进量化,结合 3-bit 和 6-bit 参数,会带来相对于标准量化模型的质量损失。Taalas 对此并未回避,承认模型在质量基准测试中会有退化。他们的第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善这一问题。第二款产品预计是一个中等规模的推理模型,计划今年春季在实验室完成,随后接入推理服务。基于 HC2 平台的前沿大模型则计划冬季部署。
当前 AI 推理芯片市场大致可以按专用化程度排列成一个光谱:一端是 Nvidia GPU 这样的高度通用方案;中间是 Groq、Cerebras、SambaNova 等,它们设计了针对 LLM 推理优化的定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,牺牲部分灵活性换效率;而 Taalas 直接站在了最末端,把一个特定模型焊死在硅片里。
这种极端策略的风险很明显。AI 领域模型迭代速度极快,去年的前沿模型今年可能就被淘汰。如果一颗芯片只能跑一个模型,而那个模型在芯片寿命结束前就过时了,投资就打了水漂。这也是 Bajic 所说的“为什么之前没人敢走到这个角落”。但他认为随着行业成熟,总有一些模型在实际业务中被长期使用。Taalas 产品副总裁 Paresh Kharya(此前曾在 Nvidia 长期任职)也对 EE Times 表示,对于在重要业务场景中运行的模型,用户粘性可能持续一年甚至更久。
商业模式上 Taalas 还在摸索。Kharya 透露了几种可能方向:自建基础设施运行开源模型并提供 API 推理服务;直接向客户出售芯片;或者与模型开发者合作,为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通,取决于市场对这种极端专用化方案的接受程度。
不过从纯技术角度来说,Taalas 的方案确实触及了一个被主流路线忽略的设计空间。存算分离带来的带宽墙(memory wall)是当前推理硬件的核心瓶颈,而 Taalas 通过将权重以 Mask ROM 形式与计算逻辑同层集成,从根本上消除了这个瓶颈。代价是灵活性的彻底丧失,但如果应用场景允许这种刚性,换来的性能和成本优势是实打实的。
Bajic 还透露,Taalas 能用单个晶体管同时存储 4-bit 模型参数并完成乘法运算。他拒绝透露更多,但确认计算仍然是全数字的。如果属实,这意味着 Taalas 在电路层面实现了一种极为高效的存内计算(Compute-in-Memory)机制,虽然不同于学术界讨论较多的模拟存内计算方案,但目标一致:让数据就地参与运算,不再搬来搬去。
硬接线芯片还带来了一个意想不到的副产品:软件栈的极度简化。Bajic 说“软件作为一个东西基本消失了”,公司只有一个工程师负责软件栈,而且这人还兼顾其他工作。对比当前 GPU 推理系统中 vLLM、TensorRT-LLM、PagedAttention 等复杂软件优化层的工程投入,这种简化几乎是降维式的。当然,这种简化是以极端硬件专用化为前提的,不具有一般性。
Bajic 在博客中用 ENIAC 到晶体管的演化做类比,暗示当前以 GPU 数据中心为核心的 AI 基础设施可能只是早期的“笨重原型”,未来终将被更高效的方案取代。这个类比有一定道理,但也不宜过度引申。GPU 数据中心的“暴力”不仅仅是硬件层面的,它背后是整个 CUDA 软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易,颠覆生态难。Taalas 的芯片或许在特定场景下拥有压倒性的性能和成本优势,但要成为主流路线的替代方案,需要的远不止一颗跑得快的芯片。
不过,Taalas 可能也从未打算成为“替代方案”。Kharya 表示:“模型最优硅片不会取代满是 GPU 的大型数据中心,但它会适合某些应用。”
|