重磅!"AI界拼多多"发布DeepSeek-V3开源模型,总训练成本557万美元,比肩GPT-4o
[复制链接]
12月27日,中国大模型创业公司 DeepSeek 悄悄惊艳了AI 技术圈,重磅发布了一个全新的超大规模模型——DeepSeek-V3。
这个新模型拥有 6710 亿个参数,但采用了 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激活 370 亿参数,从而实现高效又准确的任务处理。
DeepSeek-V3 的发布令业界振奋,不仅因为它是开源模型,更因为测试结果显示,它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型,大大缩小了开源和闭源 AI 之间的差距。
目前,DeepSeek-V3的代码已通过 MIT 许可证在 GitHub()上公开,模型则以公司自有的许可协议提供。同时,也可以在 Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)体验,但需要遵守公司的许可协议。
感兴趣的小伙伴可以查阅技术论文:
有小伙伴感兴趣的想玩一玩不?记得整活了来论坛晒一晒哦~~
未来是不是会有越来越多的开源模型出现呢?
大家对此怎么看呢?
|