科技日报记者 都芃
11月5日,腾讯混元宣布其最新的MoE(混合专家)模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。这也是腾讯混元继文生图模型开源后的又一开放举措。
MoE模型是目前国内外主流的大模型结构。2024年年初,腾讯混元宣布在国内率先采用MoE架构模型,总体性能比上一代Dense(稠密)模型提升50%。
腾讯混元Large是目前开源领域参数规模最大、应用效果最好的MoE模型之一。在模型结构和训练策略方面,腾讯混元Large全面探索了MoE ScalingLaw(规模法则),进行了MoE共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。
数据方面,腾讯混元Large构建了覆盖数十个类目、高质量、高多样性、大量级的中英文合成数据,显著提升模型效果,其中数学和代码效果提升超过10%。针对长文领域测评数据集缺乏、方法不够客观等问题,腾讯混元Large还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放,助力大模型长文领域技术研究。
腾讯混元3D生成大模型是业界首个同时支持文字、图像生成3D的开源大模型,解决了现有的3D生成模型在生成速度和泛化能力上存在的问题,可以帮助3D创作者和艺术家自动化生产3D资产。该模型具有强大泛化能力和可控性,可重建各尺度物体,大到建筑,小到工具、花草。经过定性、定量多个维度的评估,腾讯混元3D生成大模型的生成质量已达到开源模型的先进水平,并在多个业务场景进行应用。
例如,腾讯地图基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标,相比传统的3D车标重建方案,速度提升了91%。此前,腾讯元宝APP也上线了“3D 角色梦工厂”玩法,支持个性化的3D人物生成。
腾讯混元3D生成大模型首批开源模型包含轻量版和标准版,轻量版仅需10秒即可生成高质量3D资产,目前已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,可供开发者、研究者等各类用户免费使用。
随着自研大模型技术的不断成熟和应用实践经验的逐渐丰富,开源已成为腾讯混元大模型的战略选择。未来,腾讯混元将继续带来更多模态、更多尺寸的开源模型,将更多经过腾讯业务场景打磨和检验的模型开源,促进大模型技术进步和行业生态繁荣。