重磅！"AI界拼多多"发布DeepSeek-V3开源模型，总训练成本557万美元，比肩GPT-4o

okhxyyo · 发表于2024-12-30 10:11

重磅！"AI界拼多多"发布DeepSeek-V3开源模型，总训练成本557万美元，比肩GPT-4o [复制链接]

12月27日，中国大模型创业公司 DeepSeek 悄悄惊艳了AI 技术圈，重磅发布了一个全新的超大规模模型——DeepSeek-V3。

这个新模型拥有 6710 亿个参数，但采用了 MOE（混合专家）架构，能根据任务需求激活特定参数，每处理一个词元激活 370 亿参数，从而实现高效又准确的任务处理。

DeepSeek-V3 的发布令业界振奋，不仅因为它是开源模型，更因为测试结果显示，它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型，甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型，大大缩小了开源和闭源 AI 之间的差距。

目前，DeepSeek-V3的代码已通过 MIT 许可证在 GitHub（

链接已隐藏，如需查看请登录或者注册

）上公开，模型则以公司自有的许可协议提供。同时，也可以在 Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)体验，但需要遵守公司的许可协议。

感兴趣的小伙伴可以查阅技术论文：

链接已隐藏，如需查看请登录或者注册

有小伙伴感兴趣的想玩一玩不？记得整活了来论坛晒一晒哦~~

未来是不是会有越来越多的开源模型出现呢？

大家对此怎么看呢？

wangerxian · 发表于2024-12-30 14:12

不知道效果和速率怎么样，确实得测试测试才知道