媒体:DeepSeek不需要被神话 理性看待其成就【热搜】_商家新闻_微材之窗网
推广 热搜: 广州  SEO  贷款  深圳    医院  网站建设  摩托车  机器人  用户体验 

媒体:DeepSeek不需要被神话 理性看待其成就【热搜】

   日期:2025-01-28 00:12:28     来源:互联网    作者:微材之窗网    浏览:5    
核心提示:1月27日,DeepSeek AI智能助手登上中美iOS免费应用排行榜榜首,这是中国应用首次取得这一成绩。与此同时,与该公司相关的多个词条进入微博热搜,其中一条是“DeepSeek彻底爆发”。这背后反映了开源模型追赶甚至超越闭源模型的情绪

1月27日,DeepSeek AI智能助手登上中美iOS免费应用排行榜榜首,这是中国应用首次取得这一成绩。与此同时,与该公司相关的多个词条进入微博热搜,其中一条是“DeepSeek彻底爆发”。这背后反映了开源模型追赶甚至超越闭源模型的情绪。

事实上,DeepSeek在这几天并没有特别的动作,将其推上舆论中心的力量主要来自meta。三天前,在美国匿名职场社区teamblind上,有meta员工表示,DeepSeek的低成本训练工作让meta的生成式AI团队感到恐慌,工程师们正努力分析DeepSeek,试图从中复制任何可能的东西。随后,meta首席人工智能科学家杨立昆在X平台上表示,对于认为“中国在人工智能领域正在超越美国”的人,正确的看法是“开源模型正在超越闭源模型”。

DeepSeek并不是突然崛起。从DeepSeek-V2开始,这家公司已被硅谷视为一股神秘力量。它在国内大模型行业率先发起了一场真正意义上的“降价潮”,凭借“MoE+MLA”架构创新实现了成本降低。近期热议的原因在于它在过去一个月内相继发布了DeepSeek-V3和R1两款大模型产品。

2024年底,DeepSeek发布新一代MoE模型DeepSeek-V3,拥有6710亿参数,激活参数为370亿,在14.8万亿token上进行了预训练。V3在知识类任务上接近当前表现最好的Claude-3.5-Sonnet-1022,在代码能力上稍好于后者,并且在数学能力上领先其他开闭源模型。更重要的是,DeepSeek-V3的总训练成本仅为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型所需成本的十分之一。

一周前,DeepSeek发布了推理模型R1,其性能对齐OpenAI-o1正式版,并同步开源模型权重。R1在多项任务上与OpenAI-o1-1217基本持平,尤其在AIME 2024、MATH-500、SWE-Bench Verified三项测试集上以微弱优势取胜。此外,R1还开源了仅通过强化学习训练的大语言模型R1-Zero,尽管没有人类监督数据介入,但该模型足以对标OpenAI-o1-0912,探索出仅通过强化学习就能获得推理能力的技术可能性。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 微材之窗网对此不承担任何保证责任, 微材之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://news.gzbj58.com/308141.html

打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  粤ICP备11090451号
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,微材之窗网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站资讯与建议:wfzcw@qq.com