• 2025-05-13 07:07:44
  • 阅读(453)
  • 评论(23)
  • DeepSeek爆火让模型平权,今年以来,市面上的DeepSeek一体(ti)机可谓五花八门,有的声称可以“跑满血”,有的称可以运转70B、32B模型;有的是量化版本(ben),有的是全精度版本(ben);价格(ge)也是相差(cha)甚远,从几万元到上百万元都在售卖。

    汹涌科技记者日前调查发(fa)现,目前DeepSeek一体(ti)机市场鱼龙混杂、打营销擦边球(qiu),降低功能(neng)就有套利空间,这也是为甚么有人发(fa)现买回来的一体(ti)机变“笨(ben)”了。只(zhi)要对模型进行量化或蒸(zheng)馏,使用阉割版的模型,硬件资源就可以间接(jie)减半。“在这上面稍微 ‘偷’一点(dian),价格(ge)就能(neng)看(kan)起来便宜很多,但(dan)实际使用体(ti)验会打折。”多位(wei)业内人士向汹涌科技表示,目前一体(ti)机市场存在较多信息差(cha),行业处于早(zao)期阶(jie)段,市场秩序(xu)的建立仍需时间。

    在业内人士看(kan)来,当前,大模型和业务场景(jing)连系仍处于试(shi)点(dian)阶(jie)段,DeepSeek一体(ti)机是一个过渡产物。至于后续发(fa)展,则取决于大模型能(neng)力的持续提升和与企业业务的连系程度。

    一体(ti)机很火

    “现在一体(ti)机很火,每家(jia)都有自己的产物。”在4月尾的第八届数字中(zhong)国建设峰会的展台上,参(can)展商蔺文强报告(su)汹涌科技,所有大模型都需要算力支持,算力来源无外乎向各大云(yun)厂商租赁和企业自建。如(ru)果数据不涉(she)密,企业也不希望发生(sheng)任何运维或硬件成本(ben),上云(yun)就是一个好(hao)选择(ze)。出于对数据安全的考虑,一些业务无法上云(yun),必须部署在本(ben)地,是以(ci)催生(sheng)了DeepSeek一体(ti)机需求。

    睁开剩余 86 %

    DeepSeek一体(ti)机事后安装软硬件,主打“开箱即用”,这就好(hao)比用户使用电(dian)脑做(zuo)表格(ge)时,既可以选择(ze)使用Office,也可以选择(ze)使用WPS。从形(xing)态来看(kan),有服务器级别的一体(ti)机,有台式机级别的一体(ti)机,也有体(ti)型较小的终端级别一体(ti)机。

    蔺文强介绍(shao),目前他所在的公司客户主要推销(gou)满血版DeepSeek一体(ti)机,比如(ru)服装企业推销(gou)DeepSeek一体(ti)机用于记账和阐明(xi)消费(fei)者喜欢(hao);基层州里会推销(gou)非满血版一体(ti)机,“一个办公室放一排,20并发(fa)就够(gou)用。我们把服务预装好(hao),就像APP软件一样,一插电(dian)就能(neng)用。”

    在另外一家(jia)企业展台上,汹涌科技记者看(kan)到,其展示的DeepSeek一体(ti)机集成了安全防护软件。这些一体(ti)机面向政府、企业、高校等贩卖。展台事情人员介绍(shao),以往(wang)闭源大模型使用成本(ben)高,DeepSeek开源让模型成本(ben)骤降为0,模型平权后只(zhi)需推销(gou)硬件,一体(ti)机成本(ben)更低、需求增长。“目前一二三线厂商都在提供DeepSeek一体(ti)机。”该事情人员同样表示。大型计算中(zhong)心承接(jie)训练需求,一体(ti)机本(ben)地化部署满足推理需求。服务器集群由多台服务器组(zu)成,而DeepSeek一体(ti)机是一种最简化配置。该企业生(sheng)产的8卡满血版DeepSeek一体(ti)机的典范应用是每秒2000token、200个用户并发(fa)。“一所1万人的学校,并发(fa)峰值10%,意味(wei)着1000个学生(sheng)使用,一台DeepSeek一体(ti)机就不敷(gou)用了。我们目前做(zuo)了好(hao)几个大项目,都是8-16台一体(ti)机供一两万名高校学生(sheng)和老(lao)师(shi)使用。”

    硅基流动(dong)团结创始人胡健(jian)报告(su)汹涌科技,DeepSeek的能(neng)力获得了验证,企业对DeepSeek的认可度提高。考虑到私(si)有化数据的安全性,企业若(ruo)采纳私(si)有化集群使用DeepSeek,现阶(jie)段算力成本(ben)仍然较高。在尝鲜阶(jie)段,轻量级的一体(ti)机对企业而言(yan)是更好(hao)的选择(ze)。如(ru)果试(shi)水(shui)成功,将来再选择(ze)上云(yun)。

    满血版未必真满血

    企业针对DeepSeek大模型不同参(can)数的版本(ben)推出了不同型号的机型。一台DeepSeek一体(ti)机的主要成本(ben)会合(zhong)在GPU上。目前市面上的DeepSeek一体(ti)机价格(ge)有高有低。

    有的展台上,一台供小我私家使用的满血版DeepSeek一体(ti)机价格(ge)8.98万元;有的展台上两台满血版671B一体(ti)机售价上百万元。

    所谓满血版,即671B的DeepSeek模型。目前市面上的DeepSeek一体(ti)机中(zhong),有的称可以“跑满血”,有的称可以运转70B、32B模型;有的是量化版本(ben),有的是全精度版本(ben)。

    一名(wei)AI范畴创业者对汹涌科技表示,年后DeepSeek一体(ti)机随着DeepSeek大模型的出圈而火爆,由于市场发(fa)展快(kuai),目前市场信息较为混乱。“偶然候说的是跑DeepSeek,但(dan)实际可能(neng)只(zhi)是一个70B或32B蒸(zheng)馏之后的模型。有的70B模型本(ben)质上是拿着LLaMA模型,用DeepSeek生(sheng)成的数据微调,终究说话效果和DeepSeek很像。32B的模型一般用通义千问的32B模型,连系DeepSeek生(sheng)成的数据简朴训练。”他表示,671B的模型和32B的模型对硬件的请求至少相差(cha)一个数量级,是以(ci)形成有的一体(ti)机只(zhi)需几万元或几十万元,而有的价格(ge)需要上百万元。

    与此(ci)同时,业界对于“满血”的尺度并不统一。上述创业者介绍(shao),有的满血版是模型量化后的满血。DeepSeek官方公布的参(can)数精度是FP8,即8比特参(can)数,一台8卡A100的一体(ti)机运转原版模型尚显吃力,需要两台才能(neng)流畅运转。一些厂家(jia)为了压低成本(ben),缩小参(can)数,量化为4比特参(can)数,导致用户间接(jie)感受到模型变“笨(ben)”了。即便同样是8比特参(can)数,个中(zhong)也有玄机。有的8比特参(can)数是指INT8而非FP8。为了实现FP8的效果,必须使用诸如(ru)BF16等更宽的数据类型,这就导致对硬件的请求更高,需要4台8卡一体(ti)机才能(neng)运转起来,一体(ti)机成本(ben)间接(jie)飙升到六七百万元。

    “除非专(zhuan)业人士,大多数人对于功能(neng)本(ben)身没有很强的认知和理解力。”胡健(jian)同样表示,满血版一体(ti)机中(zhong),除了真实的原版模型,还存在量化版和蒸(zheng)馏版,蒸(zheng)馏版还可以分为32B、70B等。用千问模型和DeepSeek数据训练获得的蒸(zheng)馏版也带有思(si)维链,但(dan)智商比原版低。而将8比特变为4比特的量化版,其精度和功能(neng)同原版比拟都有所下落,但(dan)强于蒸(zheng)馏版。

    一种过度需求

    “现阶(jie)段,用户想尝鲜,企业想卖一体(ti)机,就可能(neng)存在鱼龙混杂。”胡健(jian)表示,模型版本(ben)、并发(fa)数、吞吐量都决意了DeepSeek一体(ti)机在企业内的适用程度。

    并发(fa)数是影响DeepSeek一体(ti)机使用功能(neng)的关键因素。胡健(jian)介绍(shao),一些价格(ge)10万元的满血版一体(ti)机只(zhi)能(neng)做(zuo)到一个并发(fa),仅(jin)供单个用户使用,首(shou)字延迟时间也长,影响使用体(ti)验。一个100人左右的企业使用一体(ti)机检索企业内部知识库,至少要包管10个并发(fa)。满血版DeepSeek一体(ti)机的并发(fa)数在200以内,“如(ru)果输出特别长,并发(fa)会进一步降低。比如(ru)输出一个长文档,再加上一段很长的输出,并发(fa)数就会下落。”

    行云(yun)集成电(dian)路创始人兼CEO季宇则报告(su)汹涌科技,并发(fa)数越多,用户体(ti)验感越差(cha)。比方(ru)1000个并发(fa)之下,单个用户每秒只(zhi)能(neng)生(sheng)成5个token,这样的高并发(fa)是无意义的,因为输出输出速率也影响实际体(ti)验。业界公认的临界输出速率是20 token/秒,这也是DeepSeek官网提供的体(ti)验。10 token/秒的输出速率较慢,6 token/秒易令人焦急守候输出。但(dan)输出速率慢,对硬件资源的请求就低。

    多位(wei)业内人士对汹涌科技表示,当前DeepSeek一体(ti)机爆火乃至过热,但(dan)挑衅在于持续维护进级,一体(ti)机的综合使用成本(ben)仍然奋发。一体(ti)机是一种过度需求,无法满足大规(gui)模使用,企业终究还是会上云(yun)。

    胡健(jian)表示,一旦进入私(si)有化环境,出于安全考虑,企业不会同意外部近程访问私(si)有数据和系(xi)统进行迭代进级。对于贩卖企业而言(yan),“卖一台几十万元的一体(ti)机,还要让人带硬盘飞(fei)过去安装进级,也不实际。”对于服务器级别的一体(ti)机而言(yan),机房、电(dian)力、温度都要满足使用条件,这些改善成本(ben)分摊上去,使得一体(ti)机的“尝鲜价”并不低。

    在胡健(jian)看(kan)来,当前大模型和业务场景(jing)连系仍处于试(shi)点(dian)阶(jie)段,DeepSeek一体(ti)机是一个过渡性产物。一台满血版DeepSeek一体(ti)机可支持100-200个并发(fa),可支持线上问答应用场景(jing),“一旦真正和业务场景(jing)连系,一台一体(ti)机的并发(fa)完整不敷(gou)。这时候要末建私(si)有化机房,要末利用公有云(yun)或混合云(yun)解决高并发(fa)、多场景(jing)的使用问题。”对于DeepSeek一体(ti)机市场的可持续性,胡健(jian)以为,这取决于大模型能(neng)力的持续提升和与企业业务的连系程度,一旦与企业内部流程和应用打通,就会出现混合云(yun)或私(si)有云(yun)形式。“如(ru)果打通速率快(kuai),那(na)就转向上云(yun),如(ru)果速率慢,一体(ti)机还会持续存在一段时间。”

    “开箱即用”的条件

    DeepSeek技能革新降低了AI大模型本(ben)地化部署的成本(ben)和门坎,促进了对于数据安全请求较高的央国企和金融类企业本(ben)地化部署DeepSeek等AI大模型。广发(fa)证券计算机首(shou)席阐明(xi)师(shi)刘雪峰今年3月在研报中(zhong)提到,随着DeepSeek本(ben)地化部署的广泛展开,算力一体(ti)机无望放量。预安装了DeepSeek大模型的算力一体(ti)机无望在各企业用户侧快(kuai)速渗透。除了推出不同型号的机型,各家(jia)企业还搭载(zai)了用于模型微调、语料训练、应用开辟(fa)的AI基础工具。

    但(dan)CCF(中(zhong)国计算机学会)数据发(fa)展委员会主任陆志鹏4月份表示,一些企业以为把DeepSeek模型部署到服务器上就是一体(ti)机,就可以“开箱即用”,效果客户推销(gou)后发(fa)现并没有到达仿单上的效果,反而引起法律纠纷。

    胡健(jian)介绍(shao),公文写作一体(ti)机、合同审核一体(ti)机等连系使用场景(jing)的DeepSeek一体(ti)机,其开箱即用的概率更高。对于脱(tuo)离场景(jing)的一体(ti)机,开箱即用的是模型调用,但(dan)打通业务流程仍需接(jie)入和管理数据,整理数据库,二次开辟(fa)或微调。

    蔺文强建议企业要根据自身使用需求推销(gou)DeepSeek一体(ti)机,明白(que)是追(zhui)求极致的功能(neng)还是极致的性价比、是否有国产化需求、是否需要满血版的一体(ti)机,同时还要考虑服务调优的响应速率和支持方式,“推销(gou)一体(ti)秘密考虑适不得当企业业务,如(ru)果不得当就需要调优,乃至需要二次训练。”

    对于推销(gou)建议,新华(hua)三展台的事情人员表示,尽(jin)管当前一二三线厂商都在贩卖一体(ti)机,但(dan)缺乏安万能(neng)力。“如(ru)果要有安万能(neng)力,就得找其他厂家(jia)再买一个服务器做(zuo)开辟(fa)和对接(jie)。”该事情人员表示,DeepSeek一体(ti)秘密考虑数据安全问题。比方(ru)一些集团公司旗下多个子公司之间数据隔离,这些子公司之间乃至存在竞争(zheng)关系(xi),集团公司利用不同子公司的数据进行训练就需要包管数据安全。与此(ci)同时,由于硬件成本(ben)和软件开辟(fa)成本(ben)有差(cha)异,一些小厂家(jia)的一体(ti)机价格(ge)反而更高。推销(gou)一体(ti)机时还需要考虑厂家(jia)的技能能(neng)力,尤其是当出现毛病时能(neng)否及时提供修复(fu)服务。此(ci)外要识别DeepSeek版本(ben),不同版本(ben)精度不同。

    4月尾,行云(yun)集成电(dian)路推出10万元级的满血版一体(ti)机,“很多客户在五一期间跟我们对接(jie),现在也有一些客户已经下单。”季宇说,目前一体(ti)机行业处于早(zao)期阶(jie)段,市场秩序(xu)的建立仍需时间。如(ru)果能(neng)够(gou)降低新鲜事物的成本(ben),就可以降低试(shi)错成本(ben),扩展体(ti)验覆盖面,让行业发展起来。“相对于上百万元的机器来讲, 10万元的价位(wei)已经便宜了很多,但(dan)实际上还是比较贵,我们希望能(neng)持续降低价格(ge),让大家(jia)能(neng)够(gou)低成本(ben)体(ti)验大模型带来的价值。”

    发(fa)布于:上海市
    49  收藏