当前位置: 网站首页 >资讯广场 >资讯广场 >正文

月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型

来源:北街游戏网 时间:2025-02-25 14:27:03

本站 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。

月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调整每个参数的更新幅度等技术进行扩展,并具备如下亮点:

这些技术使得 Muon 能够在大规模训练中开箱即用,无需进行超参数调优。扩展法则实验表明,与计算最优训练的 AdamW 相比,Muon 实现了约 2 倍的计算效率。

本次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B,其使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得上述成绩。

我们的模型不仅突破了当前的 Pareto 前沿,还在训练所需的 FLOP 数大幅减少的情况下,达到了比以往模型更优的性能。

我们开源了一个分布式版本的 Muon 实现,它在内存使用和通信效率上都进行了优化。同时,我们也发布了预训练模型、经过指令调优的模型以及中间训练检查点,旨在为未来的研究提供支持。

本站附有关链接如下:

    GitHub:点此前往

    Hugging Face :点此前往

上一篇:《金花瓶楷书下的梅花字韵之谜》——汉字艺术的独特魅力究竟何在?
相关资讯 更多+
  • 月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
    月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型

    本站 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 160 亿参数

    资讯广场 2023-04-14

  • 《金花瓶楷书下的梅花字韵之谜》——汉字艺术的独特魅力究竟何在?
    《金花瓶楷书下的梅花字韵之谜》——汉字艺术的独特魅力究竟何在?

    《金花瓶楷书下的梅花字韵之谜》——汉字艺术的独特魅力探究 金花瓶楷书下的梅花字韵之谜,是中华汉字艺术中的一个奇妙体现。中华汉字不仅仅是我们交流的符号,更蕴含了独特的文化与艺术魅力。在深度探索汉字艺术时,我们会发现它的美远远超越了简单的文字表达。 一、金花瓶楷书与梅花字韵的独特结合 金花瓶楷书作为汉字书法中的一种,以其特有的严谨与典雅闻名。在每一笔一划之中,都能看出古人对于艺术的严谨态度和无尽的创

    资讯广场 2023-04-14

  • 如何找到大地资源二中文在线观看免费高清平台:高清内容丰富、无需注册便捷看!
    如何找到大地资源二中文在线观看免费高清平台:高清内容丰富、无需注册便捷看!

    大地资源二中文在线观看免费高清是近年来在网络上备受关注的话题之一,尤其是对于喜欢观看电影、电视剧和其他娱乐内容的用户来说,这样的平台提供了丰富的资源。随着高清画质和流畅播放体验的不断提升,越来越多的人选择通过大地资源二中文免费观看高清内容。对于爱好者来说,这种平台不仅满足了视觉享受的需求,还在方便性和多样性方面提供了很大便利。本文将带你了解大地资源二中文在线观看免费高清的优势以及如何使用该平台,让

    资讯广场 2023-04-14

  • 神秘的13000部幼儿作品:汉字背后的故事与谜题是什么?
    神秘的13000部幼儿作品:汉字背后的故事与谜题是什么?

    神秘的13000部幼儿作品:汉字背后的故事与谜题 在浩如烟海的中华文化中,汉字不仅仅是文字的代表,更是中华文明的瑰宝。当我们翻开那神秘的13000部幼儿作品时,除了那一幅幅生动的画面,更有那深藏在每一个汉字背后的故事与谜题。 一、汉字与幼儿的奇妙缘分 这13000部幼儿作品,从某种程度上来说,是汉字与幼儿之间的一场奇妙缘分。汉字作为世界上最古老的文字之一,其独特的魅力深深吸引着孩子们。从最简单的

    资讯广场 2023-04-14

确定