腾讯混元生图是腾讯混元大模型的重要功能模块,依托腾讯全链路自研的腾讯混元大模型而生,具备强大的图像创作能力,能够结合输入的文本或图片智能创作出与之相关的图像内容,为用户带来丰富且优质的图像生成体验。腾讯混元大模型在 2023 年 8 月 3 日进入应用内测阶段,10 月 26 日正式对外开放 “文生图” 功能,在 2024 年 5 月 14 日宣布混元大模型升级,并对外开源。升级后的混元生图大模型采用了与 Sora 一致的 DiT 架构,是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿,其开源内容包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
算法层面
语义理解:自研跨模态预训练大模型,实现中文、英文、图像三者的 “跨模态对齐”,强化文本和图像细粒度特征的联系,解决语义理解差的问题。
生成构图:采用扩散模型和 Transformer 混合的架构,利用旋转位置编码刻画人体结构,让模型能掌握全局信息和局部信息,使生成构图更合理。
画面细节:自研超分辨率模型,并结合多种算法针对图像不同细节进行优化,提升画面细节质感。
数据层面
质量提升:细化中文文本描述,提升图文数据相关性。
效果优化:对训练数据进行 “金银铜” 分层分级,20 亿 +“青铜数据” 用于预训练,6 亿 +“白银数据” 提升生成质量,1.12 亿 +“黄金数据” 用于精调。
效率提高:建立数据飞轮,自动化构建训练数据并加快模型迭代,提升生成准确率,解决数据长尾场景难题。
工程平台:自研 Angel 机器学习平台,包括训练框架 AngelPTM 和推理框架 AngelHCF,为模型训练提供强大的并行能力。
高图像质量:能生成 1024×1024 分辨率的高质量、高清晰度图像,图像细节丰富、视觉吸引力强。
强大中文理解:可准确解析中文文本关键词和语义信息,能根据复杂中文描述精准生成匹配图像。
多绘画风格:支持通过提示词自定义风格,也有动漫、插画、水墨、写实等多种预设风格,满足个性化需求。
多轮交互生成:理解自然语言指令,与用户多轮交互,帮助构建动态、迭代的创作流程。
操作体验便捷:系统有智能扩写功能,提供多样化输入词模板参考,降低使用门槛。
广告营销:在 AI 广告创意平台腾讯广告妙思中,可进行文生图、图生图、商品背景合成等,提高广告生产和投放效率。
媒体内容生产:《央视新闻》《新华日报》《南方都市报》等主流媒体已使用,为新闻报道快速生成相关配图。
游戏开发:能生成游戏角色、场景、道具等各种风格的图像素材,如生成王者荣耀风格的图片。
影视制作:可用于生成概念图、分镜脚本、虚拟场景设计等,为影视创作提供创意和素材支持。
创意设计:设计师可借助其生成创意草图、设计概念图等,激发创作灵感,拓展设计思路。