深度求索:推翻AI职业的我国力量练习本钱仅为GPT的120!
时间: 2025-03-04 23:09:58 | 作者: 体育场地建设
- 规格参数
在全球AI范畴,一个名为“深度求索”的我国草创公司依托全新的大言语模型DeepSeek-V3,悄然兴起,打破了传统大模型研制的本钱捆绑。依据最新报导,DeepSeek的练习耗费只要OpenAI GPT-4的1/20,成为全世界AI圈内的热门话题。
站在汇金世界大厦的远景下,这家仅建立一年半的企业具有150人的小团队,但是却凭借着开创人梁文锋的独到见解以及年青团队的立异力敏捷兴起。DeepSeek最新推出的V3版别,报导称其练习进程的算力耗费仅为全球最强开源模型Llama3405B的1/11,令人瞩目。
那么,DeepSeek是如安在竞赛十分剧烈的AI商场中锋芒毕露的?首要,DeepSeek在架构规划前进行了明显立异,采用了多头潜在注意力机制(MLA),经过更有用的数据处理方式大幅度降低了练习本钱。传统的“洪流漫灌”式的模型练习方法耗费了很多算力,而DeepSeek则先将数据来进行归类与收拾,并经过优化算法输入到大模型中,构建了一种更高效的练习机制。
业界专家剖析称,DeepSeek在处理功率和数据压缩方面的优势,让其在开发进程中仅使用了2048块GPU,花费550多万美元。这一数字与GPT-4的近1亿美元本钱构成鲜明比照,显示出DeepSeek在技能与商场沉积上的巨大优势,乃至让一位OpenAI开创成员为之一震。
除了本钱优势,DeepSeek还在我国大模型的价格战中扮演了引领者的人物。早在5月,DeepSeek就已将推理本钱压低至每百万token仅1元,招引了多家AI公司跟进。这一行为不只让其获得了“AI界拼多多”的称谓,更是打破了国内大模型的盈利模式,推动了整个职业的前进。
但是,面临这些成果,外界对DeepSeek也不乏质疑的声响。有谈论指出,这个团队在技能和论文宣布上相对单薄,虽然他们的立异更多依赖于已有的前沿模型,但DeepSeek的比照优势和快速迭代才能无疑为未来的AI产品开展打开了簇新的思路。
清华大学人工智能学院教授沈阳在评价DeepSeek时表明,他们在算法立异与优化练习战略方面的打破,不只让其在国内大模型中占有了一席之地,更将有或许影响全球AI开展的走向。
面临未来,DeepSeek的开源战略和对技能的专心,或将助其在竞赛日益剧烈的AI商场中稳住脚跟。或许,在不久的将来,咱们将见证这股我国新力量怎么引领AI职业的下一个顶峰。回来搜狐,检查更加多