压缩技术腾出存储空间
若提速效果得到验证
反而将促进半导体消费
近期“TurboQuant冲击”被高估

谷歌 TurboQuant 在 ICLR 接受检验引关注:“AI 服务将进一步扩大”(综合) View original image

“全球人工智能行业的目光,都集中在本月23日至27日于巴西里约热内卢举行的 ICLR(国际学习表征会议)上。因为谷歌将在会上对其公开的人工智能内存压缩技术‘TurboQuant’进行具体验证。”(Shin Dongju Mobilint代表)


谷歌将在作为人工智能领域三大学术会议之一的 ICLR 上正式发表与 TurboQuant 相关的论文,并在经过同行研究者的验证后,于6月左右向全球公开实际程序代码。自从谷歌研究部门在博客上公开 TurboQuant 论文、点燃关于其对全球存储半导体市场冲击的争论以来,仅过去了一个月。


TurboQuant 是一种压缩大型语言模型(LLM)用于记忆上下文的“KV缓存(临时内存)”的算法。通过压缩,将内存使用量减少到原来的六分之一,由此引发了担忧:这可能会成为目前垄断全球存储半导体市场的三星电子与 SK海力士的利空因素。然而,以学界和人工智能半导体业界为中心,认为这种所谓“TurboQuant冲击”被市场夸大的反对意见正逐渐占据上风。


谷歌量化方式创意可取:“将有助于扩大基础设施”


Lee Jinwon HyperExcel 首席技术官(CTO)表示:“学界一直在持续讨论一种技术,即将原本以16位存储的 KV 缓存,通过量化方式压缩为3至4位,从结构上实现最优化”,“谷歌提出的量化方式本身确实是个好点子,但4位量化并不是完全全新的东西。”


这位首席技术官称:“TurboQuant 通过提升人工智能模型的效率,会连同那些过去因成本高昂而无法使用英伟达图形处理器(GPU)的企业在内,一并推高需求”,“相反,如果在 ICLR 会议上得到切实验证,证明 TurboQuant 不仅高效地腾挪出了内存存储空间,而且速度也如目标般提升,那么这反而会成为促进半导体消费的契机。”内存使用量减少到六分之一,意味着效率提高,可以实现更复杂、更庞大的人工智能服务;这最终并非削减存储半导体生产企业的“蛋糕”,而是通过基础设施扩张带动需求增长。


Shin Dongju Mobilint 代表同样表示:“借助 TurboQuant 这类提升效率的技术,原本无法应用人工智能的领域也将被纳入,市场随之扩大,存储半导体需求也会持续增加”,“美国美光、三星电子、SK海力士三家公司之间的竞争,以及围绕产能(生产能力)扩充展开的博弈,再加上中国存储厂商的追赶等供给侧问题,将决定今后三星电子与 SK海力士股价的走向。”


他接着表示:“对神经网络处理器(NPU)企业而言,将像 TurboQuant 这类能够缓解内存瓶颈的算法体现在硬件上,正变得愈发重要”,“NPU 市场正在扩大,如果在 TurboQuant 之后出现了更加突破性的下一代算法,而某些 NPU 无法支持该算法,那么对这些 NPU 厂商来说将极具风险。”


Shin Dongpyeong 科学技术企划评价院(KISTEP)技术预测中心主任表示:“TurboQuant 是试图用软件来解决硬件问题的一环”,“受 TurboQuant 影响,从长期看,人工智能服务将进一步扩张,更多设备可以进行人工智能运算,进而带动端侧人工智能(On-Device AI)市场的扩大。”



这位中心主任将“后Transformer人工智能模型”的出现,视为今后改变人工智能市场范式的关键转折点。他表示:“可以替代既有 Transformer 的新模型正不断被提出”,“未来后Transformer人工智能模型的出现,可能成为从根本上改变以图形处理器(GPU)占优为特征的人工智能半导体市场的最大变量。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点