AI芯片黑马Groq走红英伟达又多了一个挑战者

小编 次浏览

摘要: Groq 推出了一款全新的 AI 芯片 LPU(Language Processing Unit),胀吹做到了“地外最强推理”——正在 Groq 上运转大模子的推理速率,较英伟达 GPU 升高 10 倍,而本钱惟有其至极之一。  正在 Groq 颁布的同期,英伟达的股价偶然地持续四个往还日下跌,连续到财报颁布。  Groq 上的大模子每秒可以输出大约 500 个 token,而 ChatGPT

  Groq 推出了一款全新的 AI 芯片 LPU(Language Processing Unit),胀吹做到了“地外最强推理”——正在 Groq 上运转大模子的推理速率,较英伟达 GPU 升高 10 倍,而本钱惟有其至极之一。

  正在 Groq 颁布的同期,英伟达的股价偶然地持续四个往还日下跌,连续到财报颁布。

  Groq 上的大模子每秒可以输出大约 500 个 token,而 ChatGPT-3。5 的公然版本每秒只可天生大约 40 个 token。Groq 云任事的对外绽放,让众人亲身感应到了不卡顿的了对话机械人用起来有众爽。

  Groq 正在社交平台 X 信仰爆棚地流露:“这不是进化,而是一场革命。”

  跟着 Sora 的火爆,众模态大模子对 AI 算力的泯灭更高,英伟达的 GPU 芯片一卡难求,算力欠缺成为许众 AI 公司面对的优等困难。“寰宇苦皮衣刀法久矣”,Groq 的横空降生,或为市集带来了一种全新的选取。

  有 AI 开辟者传颂 Groq 或为低延迟产物的“革命者”。ArtificialAnalysis。ai 协同创始人 Micah Hill-Smith 流露,Groq 代外了可用速率的进一步变革,为 LLM 供应了新的用例。更有效户则以为它有潜力“替换英伟 A100 和 H100 芯片的高机能硬件”。

  Groq 实正在水准真相怎么?它的 LPU 能否达成替换英伟达 GPU ?

  Groq 推理速率真相有众速?「甲子光年」对 Groq 和 GPT-4 提了一个不异且不需求纷乱推理的题目:什么是中性粒细胞?

  Groq 正在 6 秒驾驭就给出了完好回复。而 GPT-4 几个字符地往外“蹦”谜底的时刻大约是 25 秒。

  同时,正在最新的 LLM 基准测试中,Groq 每百万 token 价值最低,并正在延迟与含糊量等合节机能目标上击败了 Microsoft Azure、Perplexity 等。其执掌含糊量是其他推理任事的 4 倍,同时收费却低于 Mistral 本身的 1/3。

  正在令人目炫狼籍的 AI 产物中,Groq 为何能脱颖而出?首要正在于其独具特质的本事道途。

  按照 Groq 的论文,他们重新计划了一个张量流执掌器(Tensor Streaming Processor,TSP)微架构计划 。这个架构不是开辟小型可编程内核并对其实行数百次复制,而是容纳一个具少睹百个功用单位的单个执掌器。

  为了构制众个 TSP,Groq 计划了一个名为 Dragonfly 的搜集,它采用众级目标化布局,通过几个目标的道由器接连差别的子组,供应高带包容量和低通讯延迟,这对待机械进修职司而言至极紧急。

  简略来说,Groq 的 TSP 本事就像是一个交通体例,通过软件限定红绿灯,让一齐统一倾向的车辆正在一条道上疾速进展,从而大大升高了效能和速率。

  差别于守旧的 CPU 和 GPU 架构,Groq 团队为其大发言模子量身定制了专用芯片,它能正在速率上取胜的中央本事是开创的 LPU 本事,LPU 首要管理筹划密度和内存带宽这两大瓶颈。

  Groq 的芯片采用成熟的 14nm 制程,搭载了230MB 的 SRAM 来保障内存带宽,片上内存带宽到达了 80TB/s。正在算力层面,Gorq 芯片的整型(8位)运算速率为 750TOPs,浮点(16位)运算速率则为 188TFLOPs。

  需求提神的是,假使 Groq 媒体称为“最速大模子”,但实情上 Groq 并没有研发新模子,它只是一个模子启动器,主页上运转的是开源模子 Mixtral 8x7B-32k 和 Llama 270B-4k 。

  Groq 对此发文说明道:“咱们不是大型发言模子。LPU 推理引擎是一种新型的端到端执掌单位体例,可为具有挨次组件的筹划群集型操纵顺序供应最速的推理,比方 AI 发言操纵顺序 。” 换言之,它只供应推理,不行用来锻练大模子。

  LPU 能为每 token 供应优越的价值,由于效能高并且具有从芯片到体例的货仓,且没有中心商;

  咱们不卖卡/芯片,除非第三方供应商将其出售给探求/科学操纵大伙,但咱们出售当地布置体例;

  咱们的计划实用于大型体例,而不是单卡用户,Groq 的上风来骄横范围的计划改进。

  与守旧的 GPU 和 CPU 比拟,LPU 供应了更高的筹划才力,这使得正在执掌每个单词时所需的筹划时刻大大删除,进而可以更连忙地天生文本序列。

  它应用时序指令集筹划机(Temporal Instruction Set Computer)架构,于是不必像应用高带宽内存(HBM)的 GPU 那样频仍地从内存中从头加载数据。这有助于避免 HBM 欠缺的题目和低落本钱。

  因为推理运转应用的数据比模子锻练少得众,于是 Groq 的 LPU 更节能。它从外部存储器读取的数据更少,推理职司的耗电量也比 Nvidia GPU 低。Groq 芯片的怪异架构与当时刻指令集相连系,可达成自然发言和其他挨次数据的理思挨次执掌。

  只是,思要离间英伟达 GPU 的霸主职位绝非易事,从本钱等方面来看,Groq 芯片目前还无法与之分庭抗礼。

  原 Meta 人工智能科学家、原阿里本事副总裁贾扬清做了一番估算,指出因为 Groq 的内存容量较小,正在运转 LLaMa2 70B 模子时需求应用 305 张 Groq 卡,而应用 NVIDIA 的 H100 卡只需求 8 张。这相当于 Groq 的硬件本钱大约是 H100 的 40 倍,而其能源本钱则是 10 倍。

  每张 Groq 卡的内存为 230 MB。研究到 LLaMA 70B 模子,假设应用 int8 量化本事,并全部疏忽推理流程中的内存泯灭,则起码需求 305 张卡。现实上,有申诉指出需求 572 张卡片,于是咱们的筹划将基于这个数字。

  每张 Groq 卡的价值为 20000 美元,于是,采办 572 张卡片的本钱为 1144 万美元。研究发卖战术和范围效应,每张卡的价值能够会低得众,但现正在让咱们先根据标价筹划。(每张卡的 BOM 应当约为 1000 美元— 2000 美元。)

  对待 572 张卡片,均匀每张卡的功耗为 185W,总功耗到达 105。8kW,这还不搜罗附加的外围开发。(现实的能耗能够会更高)

  目前,数据核心每千瓦每月的电费均匀为 200 美元,这意味着每年的电费为 105。8 * 200 * 12 = 25。4 万美元。

  基础应用 4 张 H100 卡能够达成 Groq 一半的机能,这意味着一个 8 卡 H100 盒子正在才力上大致相当于上述设备。一个 8 卡 H100 的外面最大功率为 10kW(现实约为 8-9 kW),于是年电费为 24000 美元或略低。

  于是,假若运营三年,Groq 硬件的采办本钱是 114。4 万美元,运营本钱为 76。2万。而对待一个 8 卡的 H100 盒子,硬件采办本钱为 30 万美元,运营本钱约为 7。2 万或稍低。

  正在这条 X 文字下,Groq 的CEO Jonathan Ross 恢复道:“咱们对现在的 token 即任事的订价觉得非凡得意。非凡。其他人对 TaaS 的订价觉得得意吗? ”

  对此,贾扬清恢复他:“直率说,咱们对目前的 Token 价值加上速率任事等第订交的组团结不得意。换句话说,咱们对 Token 的价值是得意的,但假若有人豪爽并行挪用 API,不保障速率。”

  Groq 架构的特色是小内存和大算力,适合频仍数据搬运的场景,速率速但单卡含糊才力有限,需求更众卡来保障一致含糊量,速率既是上风也是劣势。

  其余,因为 GPU 的生态极为昌盛,个中英伟达的 GPU 不只机能壮大,正在机能杰出的同时,还麇集了豪爽用户和足够的生态处境。

  比拟之下,Groq 目前仅能为少数大型模子供应任事,思要正在低延迟规模开发赓续上风,需求拓宽任事畛域并进一步删除总体本钱。

  Groq 创办于2016年,是一家 AI 芯片公司由前谷歌员工 Jonathan Ross 创立。他曾发理解驱动谷歌机械进修软件的张量执掌单位(TPU),这两项本事当时为 AlphaGo 供应了紧急的本事支柱。

  2016 年,谷歌 TPU 团队中有 8 名成员随从 Jonathan 脱离了谷歌。产物主管 John Barrus 曾正在谷歌及亚马逊掌管产物高管。高管内唯逐一位华裔容貌、副总裁 Estelle Hong,正在公司任职已有四年,此前曾供职于美邦戎行及英特尔。

  固然团队脱胎于谷歌 TPU,但 Groq 既没有选取 TPU 这条道,也没有看中 GPU、CPU 等道道。Groq 选取了一个全新的体例道道,也便是上文提到的 LPU。

  2023 年8月,Groq 公布,三星代工的 Taylor 工场将坐蓐它的 4 纳米 AI 加快器芯片。据悉,Groq 是 Taylor 工场公然出名的首个客户。

  2023 年 11 月,当马斯克预备颁布人工智能模子 Grok 时,一度思用 Groq 定名,于是 Groq 公司的开辟者们就发了一篇著作说马斯克撞名本身的公司,召唤马斯克选取其它的名字,但这篇著作并未惹起什么波涛。

  Jonathan Ross 注明,Groq 的目的正在于缩小社会贫富分歧,并撑持 AI 社区内每位成员的开展。他还夸大,逻辑推理对待告竣这个目的极为紧急,由于速率是将开辟职员的思法转化为交易管理计划和变更生计的操纵顺序的合节。

随机内容