腾讯混元生图是腾讯混元大模型的重要功能模块,依托腾讯全链路自研的腾讯混元大模型而生,具备强大的图像创作能力,能够结合输入的文本或图片智能创作出与之相关的图像内容,为用户带来丰富且优质的图像生成体验。腾讯混元大模型在 2023 年 8 月 3 日进入应用内测阶段,10 月 26 日正式对外开放 “文生图” 功能,在 2024 年 5 月 14 日宣布混元大模型升级,并对外开源。升级后的混元生图大模型采用了与 Sora 一致的 DiT 架构,是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿,其开源内容包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
腾讯混元生图

技术原理

算法层面

  • 语义理解:自研跨模态预训练大模型,实现中文、英文、图像三者的 “跨模态对齐”,强化文本和图像细粒度特征的联系,解决语义理解差的问题。

  • 生成构图:采用扩散模型和 Transformer 混合的架构,利用旋转位置编码刻画人体结构,让模型能掌握全局信息和局部信息,使生成构图更合理。

  • 画面细节:自研超分辨率模型,并结合多种算法针对图像不同细节进行优化,提升画面细节质感。

数据层面

  • 质量提升:细化中文文本描述,提升图文数据相关性。

  • 效果优化:对训练数据进行 “金银铜” 分层分级,20 亿 +“青铜数据” 用于预训练,6 亿 +“白银数据” 提升生成质量,1.12 亿 +“黄金数据” 用于精调。

  • 效率提高:建立数据飞轮,自动化构建训练数据并加快模型迭代,提升生成准确率,解决数据长尾场景难题。

  • 工程平台:自研 Angel 机器学习平台,包括训练框架 AngelPTM 和推理框架 AngelHCF,为模型训练提供强大的并行能力。

功能特点

  • 高图像质量:能生成 1024×1024 分辨率的高质量、高清晰度图像,图像细节丰富、视觉吸引力强。

  • 强大中文理解:可准确解析中文文本关键词和语义信息,能根据复杂中文描述精准生成匹配图像。

  • 多绘画风格:支持通过提示词自定义风格,也有动漫、插画、水墨、写实等多种预设风格,满足个性化需求。

  • 多轮交互生成:理解自然语言指令,与用户多轮交互,帮助构建动态、迭代的创作流程。

  • 操作体验便捷:系统有智能扩写功能,提供多样化输入词模板参考,降低使用门槛。

应用场景

  • 广告营销:在 AI 广告创意平台腾讯广告妙思中,可进行文生图、图生图、商品背景合成等,提高广告生产和投放效率。

  • 媒体内容生产:《央视新闻》《新华日报》《南方都市报》等主流媒体已使用,为新闻报道快速生成相关配图。

  • 游戏开发:能生成游戏角色、场景、道具等各种风格的图像素材,如生成王者荣耀风格的图片。

  • 影视制作:可用于生成概念图、分镜脚本、虚拟场景设计等,为影视创作提供创意和素材支持。

  • 创意设计:设计师可借助其生成创意草图、设计概念图等,激发创作灵感,拓展设计思路。

相关荣誉

  • 在智源研究院发布的 FlagEval 大模型评测排行榜中,腾讯混元文生图模型荣登多模态模型评测榜单的文生图模型榜首,展现了其卓越的技术实力。
相关网址