大家好,我们是成都小火科技。今天是2025年2月5日,春节过后上班的第一天。随着DeepSeek、宇树机器人、强脑科技等国内公司的突起,让全球看到了中国科技力量!作为一名软件人,今天我给大家分享国产大模型里的超级“新星”——DeepSeek-V3,你能想象不?它参数虽说只有 671B,37B 活跃 MoE,看起来不算特别夸张,可实力强得离谱,跟 3.5 Sonnet 和 4o 这些超厉害的模型较量起来,一点都不落下风,双方打得难解难分。
为什么DeepSeek能异军突起?是因为,目前那些走在前沿、特领先的模型堆里,DeepSeek 背后可没有那种财大气粗、要啥有啥的大科技巨头给它撑腰。它是从哪儿冒出来的呢?是一家叫幻方的量化私募基金捣鼓出来的。这还不算完,在开源的队伍里,它更是厉害,连 Meta 家的 Llama 都被它比下去了,效能那叫一个出类拔萃,让人忍不住竖起大拇指。
再讲讲 DeepSeek-V3 为啥这么牛气哄哄的,它有个超级厉害的 “杀手锏”—— 打价格战。在大多数用来衡量模型好坏的基准测试里,它的表现比 4o 还要出色,可价格呢,仅仅是 4o 的十分之一。这就好比往平静的湖面狠狠扔了块大石头,“哗啦” 一声,新一轮的 AI 价格战瞬间就爆发了。那些靠着大把烧钱才能勉强撑着的 AI 企业,这下可惨了,估计得有一大批得 “黄”,根本扛不住 DeepSeek-V3 这种低价高质的冲击,就跟纸糊的房子,风一吹就摇摇欲坠。
咱们再唠唠它的性能提升,DeepSeek-V3 在生成回答的速度这块,和之前的 V2.5 版本相比,那可快了不是一星半点,足足快了 3 倍呢!以前是 20TPS,现在一下子飙升到 60TPS。啥意思呢?就是你跟它唠嗑的时候,刚把问题输完,感觉它那边好像早就料到你要问啥,答案 “嗖” 的一下就出来了,用起来那叫一个顺畅,就跟坐滑梯似的,一点卡顿都没有。咱再仔细瞅瞅它在不同场景下的表现:
百科知识:在那些知识类的任务里,像是 MMLU、MMLU-Pro、GPQA、SimpleQA 这些,它可比上一代的 DeepSeek-V2.5 厉害太多了,知识储备又多又扎实,运用起来也得心应手,都快赶上现在公认最牛的 Claude-3.5-Sonnet-1022 了,简直就是个行走的 “知识宝库”。
长文本:在 DROP、FRAMES 和 LongBench v2 这些专门测评长文本的地方,DeepSeek-V3 的平均表现那是把其他模型远远地甩在了身后,处理那些长篇大论的文字,就跟老司机开车一样熟练,一点都不费劲。
代码:要是写算法类代码,在 Codeforces 这个场景下,它比市面上几乎所有非 o1 类的模型都要领先;要是写工程类代码呢,在 SWE-Bench Verified 里,它紧紧咬着 Claude-3.5-Sonnet-1022,差一点就能超过了,这对程序员们来说,可真是帮了大忙,就像给他们配备了一把超厉害的 “代码神器”。
数学:在美国数学竞赛(AIME 2024、MATH)还有全国高中数学联赛(CNMO 2024)这些赛场上,DeepSeek-V3 更是一骑绝尘,把所有开源闭源的模型都远远地抛在了后头,不管多刁钻的数学难题,到它这儿就跟砍瓜切菜似的,轻松搞定。
中文能力:跟 Qwen2.5-72B 比起来,在教育类测评 C-Eval 和代词消歧这些评测集上,DeepSeek-V3 的表现不相上下,不过在事实知识 C-SimpleQA 上,那可是更胜一筹,对中文的理解和运用那叫一个地道,就跟咱土生土长的中国人说话一样自然流畅。
这么强的性能,再配上低得吓人的价格,能不引起轰动吗?同类型模型价格的十分之一啊,这就好比你去逛街买东西,同样品质的东西,别人卖 100 块,它就卖 10 块,换你你不心动?那些大模型公司看到这情况,心里能不慌吗?就连 OpenAI 和 Claude 这样的大牌,估计都得静下心来,好好掂量掂量,是接着跟它打价格战,还是赶紧埋头升级自家模型,要不然市场份额可都要被抢光了。
而且啊,DeepSeek-V3 特别实在,它是在 14.8T 高质量 token 上完成训练的,关键是模型和论文还百分百开源。论文地址就在 https://github.com/deepseek-ai/ ,这下可好,整个 AI 圈都被它这 “大方” 劲儿惊到了。大家都跟发现了宝藏似的,争着抢着要研究研究,为啥它只用 2048 块 GPU 训练 2 个月,花 557.6 万美金就能做到这么牛的程度。要知道,一般要达到这水平,得动用差不多 1.6 万个 GPU 的计算集群呢,现在有些业界大佬,甚至都用到 10 万个 GPU 了。在资源受限这么个情况下,DeepSeek-V3 还能在 LLM 竞技场名列前茅,这研发和工程能力,简直让人佩服得五体投地,它的论文也自然而然成了 AI 圈人人必看的 “宝典”,就跟武侠小说里的武功秘籍一样抢手。
下面来点技术干货,要是你对这些不太感兴趣,跳过也没关系。DeepSeek-V3 差不多就是 V2 的 “升级版”,各项参数都有大幅度的提升。模型结构有三个关键变化:
第一,在 MOE 结构里,它用 sigmoid 当作门控函数,把 V2 里的 softmax 函数给换掉了。这么一换可不得了,模型就能在更多的专家集合里挑选手,不像以前用 softmax 函数的时候,老是把输入分给少数几个专家,现在选择面一下子就拓宽了,就跟找工作,以前只能在几个公司里选,现在能在一大堆公司里挑,机会多多了。
第二,它引入了新的 Top-k 选择方法,这方法厉害就厉害在不需要辅助损失。一般的 MoE 模型得靠辅助损失帮忙训练,就是为了让模型学会挑最相关的专家来处理输入样本,可 DeepSeek-V3 不用这么麻烦,直接靠主要任务的损失函数就能把 Top-k 个专家选好,这么一来,训练过程就简化了,效率还蹭蹭往上涨,就跟给汽车换了个超强发动机,跑得更快更稳了。
第三,V3 延续了 V2 的结构,还用多头潜在注意力机制来实现高效推理能力,关键是成本还低,这就很了不起了,就像花小钱办大事,性价比超高。
除了这些基本框架的优化,研究人员还想出了两个 “妙招”,进一步增强模型能力:一个是采用无辅助损失(auxiliary-loss-free)方法实现负载均衡,目的就是尽量减小负载均衡对性能的负面影响,就好比给房子打地基,让房子盖得更稳;另一个是采用多 token 预测训练目标,这么一搞,V3 在评估基准上的整体性能就跟坐火箭一样往上蹿。
在工程优化方面,团队用了 “FP8 混合精度训练”,简单说,就是用 8 位浮点数格式(FP8)这种更紧凑的数据格式来加速计算、减少内存占用,让训练又快又省,就跟你出门旅游,找了个既便宜又舒服的酒店,简直完美。
咱再聊聊 DeepSeek 的商业选择,这事儿可有意思了。在中国 7 家大模型创业公司里,它是唯一一家到现在都坚持不做 toC 应用的。好多人都纳闷,现在大家都一门心思搞商业化,忙着赚钱,它咋就这么 “轴” 呢?其实啊,DeepSeek 心里有自己的 “小九九”。梁文锋解释说,他们觉得现在最重要的是参与全球创新浪潮,过去中国公司老是拿着别人的技术做应用变现,这次他们想走到技术前沿,推动整个生态发展。梁文锋觉得现在是技术创新爆发期,不是应用爆发期,要是还用互联网时代的商业逻辑来看待 AI 发展,那可就跟 “刻舟求剑” 似的,根本跟不上时代变化。DeepSeek 就想形成一种生态,让业界直接用他们的技术成果,他们专注基础模型和前沿创新,别的公司在这基础上做 toB、toC 的业务,要是产业上下游打通了,他们就没必要自己做应用,当然,真有需要,做应用也没问题,只是技术创新永远是第一位的。
说起来,这可不是 DeepSeek 第一次搞 “价格地震” 了。今年 5 月,它推出 DeepSeek V2 开源模型,性价比高得吓人,推理成本每百万 token 才 1 元,差不多是 GPT-4 Turbo 的七十分之一,这价格一出来,字节、腾讯、百度、阿里这些大厂都跟着降价,可见它的影响力有多大。DeepSeek 创办人梁文锋还挺幽默,说他们不是故意当 “鲶鱼”,就是按自己节奏做事、核算成本定价,不赔钱,也不赚暴利。我个人觉得,幻方的梁文锋这眼光确实独到,比很多人看得远,知道 AI 发展的真正方向在哪,就跟在黑暗里给大家指了条明路一样。
发表评论 取消回复