DeepSeek将降低AI开发费用让辉达完蛋?政大副教授戳破流言 * 阿波罗新闻网
新闻 > 科教 > 正文
DeepSeek将降低AI开发费用让辉达完蛋?政大副教授戳破流言
作者:

中国AI新创公司DeepSeek日前推出大型推理模型DeepSeek-R1以及开源模型DeepSeek-V3,标榜低价且性能直逼OpenAI的GPT-4旗鼓相当,引发美国科技界热议。有部分讨论声浪指向DeepSeek将大大降低AI开发费用,对于这说法,政大应数系副教授蔡炎龙认为根本完全错误,因DeepSeek是在大量高性能GPU作为硬件支持的开源模型,如Llama为基础,才有办法做出。

蔡炎龙在脸书粉专“呆一布呀Diveai”指出,如果没有基础的开源模型,比如说 Llama等,就没办法做出 DeepSeek R1。DeepSeek的成功,没有pre-trained模型是做不到的,因此,那些称“DeepSeek大大降低AI开发费用”的说法完全错误。

蔡炎龙提到,DeepSeek真正重要贡献之一,在强化学习方面改了 OpenAI的(Proximal Policy Optimization),推出GRPO(Gradient Policy Optimization)。

对于那些觉得辉达是不是完蛋的说法,蔡炎龙也吐槽,事实上NVIDIA GPU可能会更难买,他表示,你可能不用也买不起训练基础模型的超多高级 GPU,就可以做出一些厉害的模型,DeepSeek许多模型都开源,基本上方法也是公开的,可以用 DeepSeek的方法,打造一个更符合自己需求的模型,也就是不要觉得只有有钱的超级大公司才能做 AI。

他提到,DeepSeek使用的 GPU数量和等级,对大多数的企业还是天价的。但让大家有新的希望,那就是说不定买少一点的 GPU,不要训练到 DeepSeek的程度,但非常符合自己需求是可能的。看懂这件事的就会去买没那么多的 NVIDIA H100,再没钱的就买消费级的 NVIDIA RTX5090等等

最后,蔡炎龙强调,DeepSeek真正令人振奋的地方是,可以用类似的方法,用自己的电脑跑得动的小模型,打造一个完全符合自身的需求和效能的模型出来。DeepSeek最聪明的地方是,把重点放在“引导 LLM回应”的部分。如果你可以写出一个非常好的 prompt引导,你的语言模型就可以回应得很好。DeepSeek有许多有趣的地方,也让大家更知道怎么用 LLM方式,这才是真正的重点。

责任编辑: 李华  来源:新头壳 转载请注明作者、出处並保持完整。

本文网址:https://d3lxuwvwo1hamd.cloudfront.net/2025/0129/2167476.html