算力芯片最新技术趋势解读

小编 次浏览

摘要: 比来两年的人工智能郁勃,让英伟达依据GPU登上了芯片之巅。于是网罗AMD、Intel、Graphcore、Cerebras和Tenstorrent等正在内的古代和新贵芯片企业试图正在这个周围将英伟达拉下马。  可是,固然他们都极度勤苦,但类似依旧难动英伟达分毫。于是,商场上又冒出来了一群AI芯片新公司,他们希冀用差别的架构和思绪,以期将英伟达赶下神坛。  Ljubisa Bajic 暗示,纵然

  比来两年的人工智能郁勃,让英伟达依据GPU登上了芯片之巅。于是网罗AMD、Intel、Graphcore、Cerebras和Tenstorrent等正在内的古代和新贵芯片企业试图正在这个周围将英伟达拉下马。

  可是,固然他们都极度勤苦,但类似依旧难动英伟达分毫。于是,商场上又冒出来了一群AI芯片新公司,他们希冀用差别的架构和思绪,以期将英伟达赶下神坛。

  Ljubisa Bajic 暗示,纵然是当今的专用人工智能芯片也过于通用化,无法知足其须要。他的新草创公司 Taalas(印地语是锁匠的有趣)容许通过斥地最终针对特定型号的架构和芯片,将成果贫穷再次冲破几个数目级。

  据先容,新公司已从 Quiet Capital 和 Pierre Lamond 处通过两轮迷你融资(1200 万美元和 3800 万美元)筹集了 5000 万美元,依据他们的设念,硅可能正在创筑时进一步优化以适宜特定型号。固然人工智能和机械研习正在软件和硬件方面都正在疾速开展,但咱们起头看到“足够好”模子的趋向,专用策画途径确实预示着更专用、更高效的芯片办法。

  咱们以为 Taalas 最终将操纵一种深化的可摆设硬件——存正在于真正固定效力 ASIC/DSP 或全体可从新摆设的硬件治理计划(如 FPGA 或 CGRA)(两者都具有正在人工智能周围也找到了利基)。该周围的很众芯片安排公司都运转 eASIC(即机闭化 ASIC)交易,此中底层硬件是可摆设的,但正在最终创筑时可能锁定为给定的摆设。这使得创筑经过依旧可能创筑通用可编程芯片,但可能削减安插到客户商场的可从新摆设开销。

  据 Taalas 称,这治理了当今人工智能硬件的两个要紧题目——效能和本钱。机械研习正在消费者平日生存中的预期普及水平将像电力相通无处不正在,以是它将存正在于从汽车到白色家电到智能电外以及全豹可能电气化的栈房中的总共事物中。为了知足本钱、策画才智/成果的需求,以及这些装备中的极少/大无数装备始终不会衔接到互联网的到底,该硬件须要正在安插时专用并固定。惟有当策画管事负载固定(或简略)时才会爆发这种情状,Taalas 和 Ljubisa 以为这是一个即将到来的前沿周围(假若即日还没有闪现的话)。

  正在音讯稿中他们Ljubisa Bajic暗示:“人工智能就像电力——一种须要向全豹人供应的根本商品。人工智能的商品化须要策画才智和成果抬高 1000 倍,这是通过现在渐进办法无法达成的倾向。进步的道道是达成“咱们不该当正在通用策画机上模仿智能,而该当将智能直接注入硅中。正在硅中推行深度研习模子是达成可连续人工智能的最直接途径。”

  Taalas 正正在斥地一种主动化流程,用于正在硅中疾速推行全豹类型的深度研习模子(Transformers、SSM、Diffusers、MoE 等)。专有的立异使其一款芯片也许容纳一共大型人工智能模子,而无需外部存储器。硬连线策画的成果使单个芯片的功能优于小型 GPU 数据核心,从而为 AI 本钱消重 1000 倍开荒了道道。

  “咱们信托 Taalas 的‘direct to silicon’代工场达成了三项基本性冲破:大幅重置当今人工智能的本钱机闭,实在可行地达成模子尺寸接下来 10-100 倍的伸长,以及正在任何消费装备上当地高效运转壮大的模子。Quiet Capital 合资人Matt Humphrey暗示:“看待人工智能来日的可扩展性而言,这能够是当今策画周围最紧张的职责。咱们很自尊也许赞成这个精采的 n-of-1 团队来结束这件事。”

  简而言之,假若您须要正在产物中使器材有 7B 参数的 Llama2 型号,而且该公司确定这即是它正在一共人命周期中所须要的全体,那么可认为该手持装备供应最低功耗和最低本钱的专用硬核 Llama2-7B 芯片和型号装备即是您能够须要的总共。

  据通晓,Taalas团队位于加拿大家伦众,具有来自 AMD、NVIDIA 和 Tenstorrent 的专业学问。该公司将于 2024 年第三季度推出首款大型措辞模子芯片,并筹划于 2025 年第一季度向早期客户供应。

  来自韩邦科学身手院 (KAIST) 的科学家团队正在比来的 2024 年邦际固态电道聚会 (ISSCC) 上精确先容了他们的“Complementary-Transformer”人工智能芯片。新型C-Transformer芯片据称是环球首款也许举行大措辞模子(LLM)打点的超低功耗AI加快器芯片。

  正在一份音讯稿中,商量职员对嚣张叫板Nvidia ,声称 C-Transformer 的功耗比绿色团队的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它还讲明,三星晶圆代工芯片的成果很大水平上源于严密的神经拟态策画身手。

  即使咱们被见知 KAIST C-Transformer 芯片可能结束与 Nvidia 壮大的A100 GPU之一沟通的 LLM 打点职责,但咱们正在音讯或聚会质料中都没有供应任何直接的功能比拟目标。这是一个紧张的统计数据,因为它的缺失而引人耀眼,愤世嫉俗的人能够会料想功能比拟不会给 C-Transformer 带来任何好处。

  上面的图片有一张“芯片照片”和打点器规格的摘要。您可能看到,C-Transformer 目前采用三星 28nm 工艺创筑,芯局部积为 20。25mm2。它的最高运转频率为 200 MHz,功耗低于 500mW。最好的情状下,它可能抵达 3。41 TOPS。从外外上看,这比 Nvidia A100 PCIe 卡声称的 624 TOPS 慢 183 倍(但 KAIST 芯片据称操纵的功率低 625 倍)。然而,咱们更喜好某种基准功能比拟,而不是查看每个平台声称的 TOPS。

  据注明,C-Transformer 芯片不光仅增添了极少现成的神经拟态打点举动其压缩 LLM 大参数的“special sauce”。韩邦科学身手院的音讯稿称,此前,神经拟态策画身手看待法学硕士的操纵不敷无误。然而,商量团队暗示,它“胜利抬高了该身手的无误性,以完婚[深度神经汇集]DNN”。

  即使因为没有与行业准则人工智能加快器举行直接比拟,第一款 C-Transformer 芯片的功能存正在不确定性,但毫无疑难,它将成为搬动策画的一个有吸引力的采取。同样令人激励的是,商量职员欺骗三星测试芯片和平凡的 GPT-2 测试博得了如许大的希望。

  比来,普林斯顿大学的优秀人工智能芯片项目由DARPA和 EnCharge AI 赞成,希望显着抬高能源成果和策画才智,旨正在彻底改革人工智能的可及性和利用。

  普林斯顿大学电气和策画机工程教师纳文维尔马 (Naveen Verma) 暗示,新硬件针对新颖管事负载从新安排了人工智能芯片,而且可能操纵比当今最优秀的半导体少得众的能源运转壮大的人工智能体系。率领该项宗旨维尔马暗示,这些先进冲破了打击人工智能芯片开展的枢纽贫穷,网罗尺寸、成果和可扩展性。

  “最好的人工智能仅存正在于数据核心,有一个极度紧张的局限,”维尔马说。“我以为,你从中解锁了它,咱们从人工智能中获取价格的形式将会爆炸。”

  正在普林斯顿大学率领的项目中,商量职员将与 Verma 的草创公司EnCharge AI合营。EnCharge AI 总部位于加利福尼亚州圣克拉拉,正正在将基于 Verma 实践室展现的身手贸易化,此中网罗他早正在 2016 年与电气工程商量生配合撰写的几篇紧张论文。

  依据项目提案,Encharge AI“正在壮大且可扩展的搀和信号策画架构的斥地和施行方面处于领先职位”。Verma于 2022 年与前 IBM 院士 Kailash Gopalakrishnan 和半导体体系安排周围的率领者 Echere Iroaga 配合创立了该公司。

  Gopalakrishnan 暗示,当人工智能起头对策画才智和成果发作洪量新需求时,现有策画架构的立异以及硅身手的纠正起头放缓。纵然是用于运转当今人工智能体系的最好的图形打点单位 (GPU),也无法缓解行业面对的内存和策画能源瓶颈。

  “固然 GPU 是当今最好的可用器材,”他说,“但咱们得出的结论是,须要一种新型芯片来开释人工智能的潜力。”

  普林斯顿大学 凯勒工程造就立异核心主任 Verma 暗示,从 2012 年到 2022 年,人工智能模子所需的策画才智达成了指数级伸长。为了知足需求,最新的芯片封装了数百亿个晶体管,每个晶体管之间的宽度惟有一个小病毒的宽度。然而,这些芯片的策画才智依旧亏空以知足新颖需求。

  当今的领先模子将大型措辞模子与策画机视觉和其他机械研习办法相团结,每个模子都操纵赶上一万亿个变量来斥地。激动人工智能高潮的英伟达安排的 GPU 变得极度有价格,据报道,各至公司都通过装甲车运输它们。置备或租赁这些芯片的积存依然抵达了消亡的水平。

  为了创筑也许正在紧凑或能源受限的境遇中打点新颖人工智能管事负载的芯片,商量职员必需全体从新构念策画的物理道理,同时安排和封装可能操纵现有创筑身手创筑而且可能与现有策画身手优异配合的硬件,比如中间打点单位。

  “人工智能模子的领域呈爆炸式伸长,”维尔马说,“这意味着两件事。” 人工智能芯片须要正在数学策画方面变得加倍高效,正在统制和搬动数据方面也须要加倍高效。

  险些每台数字策画机的主旨架构都遵照 20 世纪 40 年代初度斥地的看似简略的形式:正在一个地方存储数据,正在另一个地方举行策画。这意味着正在存储单位和打点器之间传输音信。正在过去的十年中,Verma 率先商量了一种更新办法,其入网算直接正在内存单位中结束,称为内存策画。这是第一片面。内存策画希望削减搬动和打点洪量数据所需的时候和能源本钱。

  但到目前为止,内存策画的数字办法还极度有限。维尔马和他的团队转向了另一种办法:模仿策画。那是第二片面。

  “正在内存策画的奇特情状下,你不光须要高效地举行策画,”Verma 说,“你还须要以极度高的密度举行策画,由于现正在它须要适合这些极度小的内存单位。” 模仿策画机不是将音信编码为一系列 0 和 1,然后操纵古代逻辑电道打点该音信,而是欺骗装备更厚实的物理性情。

  数字信号正在 20 世纪 40 年代起头代替模仿信号,要紧是由于跟着策画的指数级伸长,二进制代码可能更好地扩展。但数字信号并没有深化通晓装备的物理道理,以是,它们能够须要更众的数据存储和统制。云云他们的成果就较低。模仿通过欺骗装备的固有物理性情打点更严密的信号来抬高成果。但这能够会亡故精度。

  维尔马说:“枢纽正在于找到适合该管事的物理道理,使装备也许被很好地把握并大领域创筑。”

  他的团队找到了一种办法,操纵特意安排用于无误开闭的电容器天生的模仿信号来举行高精度策画。这是第三片面。与晶体管等半导体器件差别,通过电容器传输的电能不依赖于质料中的温度和电子转移率等可变条目。

  “它们只依赖于几何样式,”维尔马说。“它们取决于一根金属线和另一根金属线之间的空间。” 几何样式是当今最优秀的半导体创筑身手可能把握得极度好的一件事。

  宾夕法尼亚大学的工程师斥地了一种新芯片,它操纵光波而不是电力来施行熬炼人工智能所必要的庞杂数学。该芯片有能够从基本上加快策画机的打点速率,同时消重能耗。

  该硅光子 (SiPh) 芯片的安排初度将本杰明富兰克林奖章得回者和 H。 Nedwill Ramsey 教师 Nader Engheta 正在纳米级独霸质料方面的开创性商量团结正在沿道,欺骗光(能够是最速的通讯形式)举行数学策画SiPh 平台操纵硅,硅是一种低价且厚实的元素,用于大领域临蓐策画机芯片。

  光波与物质的彼此效率代外了斥地策画机的一种能够途径,这种策画机可能代替当今芯片的范围性,这些芯片素质上与 20 世纪 60 年代策画革命初期的芯片沟通的道理。

  正在《自然光子学》杂志上揭晓的一篇论文中,Engheta 的团队与电气和体系工程副教师 Firooz Aflatouni 的团队沿道描绘了新芯片的斥地经过。

  “咱们决心联手,”Engheta 说道,他欺骗了 Aflatouni 的商量小组率先斥地纳米级硅器件的到底。

  他们的倾向是斥地一个平台来施行所谓的向量矩阵乘法,这是神经汇集斥地和效力中的主旨数学运算,神经汇集是当今人工智能器材的策画机架构。

  Engheta 注明说,“你可能将硅做得更薄,例如 150 纳米”,而不是操纵高度平均的硅晶片,但仅限于特定区域。这些高度的变革(无需增添任何其他质料)供应了一种把握光正在芯片中宣称的办法,由于高度的变革可能漫衍以使光以特定的图案散射,从而使芯片也许施行数学策画以光速。

  Aflatouni 暗示,因为临蓐芯片的贸易代工场施加的局限,该安排依然为贸易利用做好了企图,而且有能够合用于图形打点单位 (GPU),跟着平凡利用,图形打点单位 (GPU) 的需求猛增。对斥地新的人工智能体系的趣味。

  “他们可能采用硅光子平台举动附加组件,”Aflatouni 说,“然后就可能加快熬炼和分类速率。”

  除了更速的速率和更少的能耗除外,Engheta 和 Aflatouni 的芯片还具有隐私上风:因为很众策画可能同时举行,以是无需正在策画机的管事内存中存储敏锐音信,使得采用此类身手的来日策画机险些无法被黑客攻击。

随机内容