「鲶鱼」DeepSeek 正在搅动上下游

春节结束,DeepSeek 热度不减,而要说刚刚过去的春节假期,留给科技圈的印象可能是“卷上加卷”,几乎无人不在热议分析着 DeepSeek 这条“鲶鱼”。

硅谷方面迎来了空前的危机感:开源的信徒们声量再度走高,甚至连 OpenAI 都在反思闭源的决策是否正确;低算力成本的新范式引发芯片巨头英伟达连锁反应,创下美股史上最大规模单日市值蒸发纪录;政府部门下场调查 DeepSeek 使用芯片的合规性……

在海外对 DeepSeek 评价褒贬不一的同时,国内也迎来了空前繁荣。

DeepSeek 发布 R1 模型后上线的 APP 接到泼天流量,初步验证了应用端增长将会拉动整个 AI 生态发展。利好在于 DeepSeek 会把整个应用的可能性都打开,换言之就是以后发现 ChatGPT 不用这么贵。

这点在近日 OpenAI 的频繁动作中也可以窥见,其为应战 DeepSeek R1 首次向免费用户提供推理模型 o3-mini,并也在后续升级公开了 o3-mini 的推理思维链,不少海外网友在评论中向 DeepSeek 表示感谢,不过这一思维链仅为总结版。

图片

同时能乐观看到的是,DeepSeek 这一波无疑又将国内拎成一股绳。

在其将模型降本按下加速键后,以其为圆心,上游芯片厂商、中间层云厂以及一众创业公司都在积极加入生态中,为 DeepSeek 模型使用的降本增效持续添砖加瓦。

据 DeepSeek 论文介绍,V3 模型完整训练仅需 278.8 万 H800 GPU 小时,且训练过程十分稳定。

在这背后,MoE 架构是 V3 相比 Llama 3 405B 预训练成本降低十倍最关键的原因,当前,V3 是在公开领域第一个证明 MoE 的稀疏度可以做到这么高的模型。此外,MLA 同样相辅相成,这部分则主要体现在推理侧。

“越稀疏的 MoE 在推理的时候需要越大的 batch size 才能充分利用算力。而限制 batch size 的最关键因素就是 KVCache 的大小,MLA 大幅度缩小了 KVCache 大小。”趋境科技研究员向 AI 科技评论分析道。

从整体上来看,DeepSeek 的成功在于各项技术的组合,而非单一技术。业内评价,DeepSeek 团队工程能力极强,其在并行训练、算子优化等方面也都做得很好,把每个细节做到极致后才实现了最终的突破性效果。

而 DeepSeek 开源也意味着能为大模型整体发展再添一把柴,其现阶段成果还体现在语言模型,业内判断,后续如有类似路线的模型在图像、视频等领域发力,将会进一步带动行业整体需求。

第三方推理服务的机遇

据数据显示,DeepSeek 自发布后,截止一月末上线仅 21 天,其日活跃用户 DAU 2215 万,达 ChatGPT 日活用户的 41.6%,超过豆包的日活用户 1695 万,成为全球增速最快的应用,并收割了苹果应用商店 157 个国家/地区第一。

用户大量涌入之余,外网黑客也在疯狂攻击,DeepSeek APP 目前服务器繁忙已有多时,这背后在业内看来,其实也与 DeepSeek 将卡投入训练,用在推理侧的算力不太够有关。

业内人士向 AI 科技评论分析道,“服务器频繁的问题其实很好解决,收费或者融资买更多机器,不过这要看 DeepSeek 的选择了。”

这也是专注技术和产品化的抉择博弈,一直以来 DeepSeek 都在依靠幻方量化实现自我供血,几乎未接受过外部融资,在现金流方面压力不大,所以其技术氛围也相对纯粹。

当前,面对前述问题,一部分用户在社交平台呼吁 DeepSeek 增高使用门槛、加设付费项目来提升自身的使用舒适度。

另外,也有开发者选择调用官方 API 或者使用第三方 API 获得部署优化。不过,日前,DeepSeek 开放平台又发布消息称,“当前服务器资源紧张,已暂停 API 服务充值。”

图片

这无疑为 AI Infra 层的第三方厂商提供了更多机会。

近日,国内外数十家云巨头已纷纷上线了 DeepSeek 的模型 API——海外云厂两大巨头微软、亚马逊于 1 月底便抢先接入。

国内华为云率先出击,在 2 月 1 日与硅基流动合作上新 DeepSeek R1 & V3 推理服务,当前,据 AI 科技评论了解,硅基流动平台服务已被大量用户涌入“打爆”。

BAT 三巨头以及字节跳动也纷纷在 2 月 3 日陆续打出低价限免牌,这波狂欢如同回到去年 DeepSeek 在发布 V2 模型时点燃的云厂价格战,自那时起 DeepSeek 就开始被称为“价格屠夫”。

云厂的疯狂“抢食”和早些年微软云强绑定 OpenAI 的逻辑也有些相似之处:

2019 年,微软云便已早早压注 OpenAI 并注资 10 亿美元,并在 2023 年后者发布 ChatGPT 后吃到了红利。但二者的亲密关系则在 Meta 开源 Llama 后出现了裂痕,开源模型的出现意味着微软云外的其他厂商也能布局自己的大模型。

此次 DeepSeek 不仅在产品侧比 ChatGPT 当年热度更甚,更是在 o1 之后相对应推出了开源模型,这就如同当年的 Llama 开源复现 GPT-3 所引发的轰动一般。

实际上,云厂也是在压注 AI 应用的流量入口,换言之,和更为开发者深入绑定意味着能够抢占先机。据悉,百度智能云在上线 DeepSeek 模型首日,便已有超 1.5 万客户通过千帆平台进行调用。

另外,也有不少小厂给出了解决方案,除硅基流动外,潞晨科技、趋境科技、无问芯穹、PPIO 派欧云等 AI Infra 厂商也已陆续上线对 DeepSeek 模型的支持。

AI 科技评论了解到,目前,针对 DeepSeek 的本地化部署优化空间主要存在于两方面:

一是针对 MoE 模型稀疏性的特性,能够采用混合推理的思路优化,在本地部署 DeepSeek 671B 大小的 MoE 模型,GPU/CPU 混合推理是非常重要的方向,二是 MLA 的优化实现。

不过,DeepSeek 的两款模型在部署优化上还有些许难点问题。

“因为模型大、参数多,优化确实有一定的复杂度,尤其需要本地化部署的话,如何做到效果和成本的最优平衡会有难度。”趋境科技研究员告诉 AI 科技评论。

其中最大难点在于如何克服显存容量的限制。“我们采用异构协同的思路是充分利用 CPU 等其余算力,仅将非Shared 部分的稀疏 MoE 矩阵放在 CPU/DRAM 上并通过高性能的 CPU 算子进行处理,剩余稠密部分放在 GPU 上。”他进一步介绍。

据了解,趋境的开源框架 KTransformers 主要是通过一套注入模板将各种策略和算子注入到原本的 Transformers 实现中,同时,通过通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。

DeepSeek 也为这些创业公司带来了生存空间,当前增长效益已开始初显成效,上线 DeepSeek API 后,不少厂商在与 AI 科技评论交谈中提到,其均得到了明显客户增长,许多客户找上门提出优化诉求。

有相关业者发文表示,“以往稍具规模的客户群体,往往早已被大厂的标准化服务套牢,被他们规模效应带来的成本优势牢牢绑定。然而春节前完成 DeepSeek-R1/V3 的部署后,我们突然接到多家知名客户的合作需求,连此前一度沉寂的老客户也主动联络,希望引入我们的 DeepSeek 服务。”

目前来看,DeepSeek 这波让模型的推理性能变得更加重要,而且大模型普及更为广泛,这会持续影响 AI Infra 行业的发展,如果能够低成本地在本地落地一个 DeepSeek 级别的模型,将会对政府和企业智能化的发展有很大的帮助。

但与此同时,挑战也是存在的,也会有部分客户可能会对大模型的能力期待比较高,在实际的部署使用中,大模型的使用效果、成本这些要做到平衡的挑战更明显了。

「颠覆英伟达」的冷思考

当前,除华为外,摩尔线程、沐曦、壁仞科技、天数智芯等数十家国产芯片厂商也纷纷跟进适配了 DeepSeek 两款模型。

有芯片厂商向 AI 科技评论表示,“DeepSeek 在结构上有创新,但还是 LLM,我们适配 DeepSeek 都是聚焦推理应用,所以技术实现上并不难,实现得都很快。”

不过,MoE 这一路线对存储和分布式有更高的要求,再加上使用国产芯片部署也需要考虑一些系统兼容问题,在适配过程中仍有许多工程上的难题需要解决。

“当前,国产算力在使用的便利性和稳定性方面与英伟达仍存较大差异,软件环境、故障排查、涉及底层的性能优化等都需要原厂参与解决推进。”从业者在实践过后告诉 AI 科技评论。

同时,“由于 DeepSeek R1 参数规模较大,国产算力也需要更多节点的并行才能使用。另外,国内在硬件规格上也还存在些许落后,例如,华为 910B 当前还不能支持 DeepSeek 所引入的 FP8 推理。”

DeepSeek V3 模型的亮点之一便是引入了 FP8 混合精度训练框架,并在超大规模模型上验证了有效性,这点作为首次公开验证具有重大意义。此前,微软、英伟达等巨头都曾提及过相关工作,但业内一直以来都有声音对此表示质疑。

据了解,相比于 INT8 而言,FP8 的最大优势在于其后训练量化能够获得几乎无损的精度,同时显著提升推理速度,与 FP16 相比,在英伟达 H20 上可以实现 2 倍的加速效果,在 H100 上可获得超过 1.5 倍的加速。

值得一提的是,近期,随着国产算力+国产模型这一趋势的讨论愈发热烈,关于英伟达是否会被颠覆、CUDA 护城河将会被绕开的声音也甚嚣尘上。

一个不可否认的事实是,DeepSeek 确实凭借一己之力让英伟达市值暴跌,但这背后实则是英伟达高端算力方面受到质疑,过往受资本裹挟的算力堆砌论被打破,而目前来看,英伟达卡在训练方面被替代仍旧有难度。

从 DeepSeek 对 CUDA 的使用深度中可以发现,类似用 SM 做通信甚至直接操纵网卡这种灵活性其实不是一般的 GPU 可以支持的。

业内观点也强调,英伟达的护城河是 CUDA 整个生态,并非 CUDA 本身,DeepSeek 所使用的 PTX(并行线程执行)指令仍是 CUDA 生态的一环。

“短期来看,英伟达算力还无法绕开,这点在训练层尤为明显,推理上国产卡的推行会相对容易些,所以进度也会快些。大家做国产卡适配也都是推理侧,没人能用国产卡大规模训练出 DeepSeek 这种性能的模型。”有从业者向 AI 科技评论分析。

整体从推理上来看,对于国产大模型芯片是利好的。国内芯片厂商的机会在推理会更为明显,训练由于要求太高所以很难进。

业内看来,推理国产卡就可以,再不济多买一台机器,训练不一样,机器多了管理起来会累,而且失误率高会影响训练的效果。

训练对集群规模也有要求,推理对集群要求则没那么高,对 GPU 的要求也相对低,当前,英伟达 H20 单卡的性能其实并没有华为、寒武纪强,强在集群。

从算力市场的整体影响情况上来看,潞晨科技创始人尤洋告诉 AI 科技评论,“DeepSeek 这波短期内可能会打击超大训练算力集群的建设和租赁,长期来看,由于其显著降低了大模型训练、推理、应用的成本,市场需求高涨,以此为基础的AI迭代,会继续推动算力市场的持续需求。”

同时,“DeepSeek 在推理和微调侧的需求提升,也更适合国内算力建设比较散、国产算力相对弱情况,减少集群建设后的闲置浪费,这是全国产化的算力生态各层级厂商有效落地的机会。”

潞晨科技也和华为云合作推出了基于国产算力的 DeepSeek R1 系列推理 API 及云镜像服务,尤洋乐观表示,“有 DeepSeek 给大家国产化的信心,后续大家对于国产算力的热情和投入也会更多。”

主题测试文章,只做测试使用。发布者:广众网,转转请注明出处:https://www.zmdnky.org.cn/article/8995.html

(0)
广众网的头像广众网
上一篇 2025年2月8日 下午6:44
下一篇 2025年2月8日 下午6:45

相关推荐

  • 也许是第一次,小米发布了一款激动人心但还无法量产的手机

    无法量产的亮银版,价格据说10万元都搞不定。

    2017年4月19日
    8310
  • 首张低空物流全境覆盖运营合格证颁发 低空经济迎来黄金发展期

    记者获悉,美团自研第四代无人机近日通过民航局审查,获得了全国首张低空物流全境覆盖运营合格证。据悉,取证后美团可在全国范围内开启常态化商业运营,成为国内首个被民航局批准可在中国全境开展物流运输的低空运营人。 东兴证券指出,低空经济符合S型曲线增长规律,预计未来发展速度逐渐加快。2012年开始新能源汽车在政策扶持下缓慢增长,后续仅用4年时间渗透率从2020年的1…

    2025年4月23日
    3300
  • 苹果“关税大逃杀”:3月创纪录iPhone从印度空运赴美!

    4月16日讯(编辑 卞纯)据媒体报道,海关数据显示,3月份苹果公司在印度的主要供应商富士康和塔塔电子向美国运送了价值近20亿美元的iPhone手机,创下历史新高。苹果公司空运这些手机以避开美国总统特朗普(当时)即将实施的关税。 据媒体查阅的可公开获取的海关数据,苹果在印度的最大供应商富士康3月份向美国出口了价值13.1亿美元的智能手机,创下单月最高纪录,相当…

    2025年4月16日
    3700
  • 佳迈股份完成新一轮近亿元融资

    近日,佳迈股份宣布完成新一轮近亿元的融资。本轮融资由弘晖基金领投,博源资本、靖烨投资、珠海高新金投等跟投。本轮融资将进一步助力佳迈股份在气动元件领域的研发创新和产能扩张,加速中高端气动元件的国产化替代进程。此前,佳迈股份已获得诺华资本、芯动能、芯创资本、丰年资本等产业及风险投资机构的投资。 佳迈股份深耕于气动、精密控制领域十余年,是一家专注于中高端气动元件研…

    2025年2月18日
    7400
  • A股有了一条叫“宇树”的人形机器人产业链

    2024年12月末,宇树科技旗下的UnitreeB2-W机器狗的短视频引发全球市场大讨论。在视频里,该机器狗可以进行丝滑的“霹雳舞”表演,又可以几乎90°垂直的碎石坡滑下,冲入湿滑河流,并稳步前进…… 紧接着,在2025年央视春晚《秧BOT》节目中,一大批穿着花棉袄的机器人在现场手持红帕,扭起秧歌,动作精准流畅,步伐与鼓点契合,再度引发全民热议。该机器人正是…

    2025年2月17日
    6700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信