腾讯混元生图

腾讯混元生图是腾讯混元大模型的重要功能模块

图像工具 2 个月前

腾讯混元生图是腾讯混元大模型的重要功能模块，依托腾讯全链路自研的腾讯混元大模型而生，具备强大的图像创作能力，能够结合输入的文本或图片智能创作出与之相关的图像内容，为用户带来丰富且优质的图像生成体验。腾讯混元大模型在 2023 年 8 月 3 日进入应用内测阶段，10 月 26 日正式对外开放 “文生图” 功能，在 2024 年 5 月 14 日宣布混元大模型升级，并对外开源。升级后的混元生图大模型采用了与 Sora 一致的 DiT 架构，是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解，参数量 15 亿，其开源内容包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。
腾讯混元生图

技术原理

算法层面

语义理解：自研跨模态预训练大模型，实现中文、英文、图像三者的 “跨模态对齐”，强化文本和图像细粒度特征的联系，解决语义理解差的问题。
生成构图：采用扩散模型和 Transformer 混合的架构，利用旋转位置编码刻画人体结构，让模型能掌握全局信息和局部信息，使生成构图更合理。
画面细节：自研超分辨率模型，并结合多种算法针对图像不同细节进行优化，提升画面细节质感。

数据层面

质量提升：细化中文文本描述，提升图文数据相关性。
效果优化：对训练数据进行 “金银铜” 分层分级，20 亿 +“青铜数据” 用于预训练，6 亿 +“白银数据” 提升生成质量，1.12 亿 +“黄金数据” 用于精调。
效率提高：建立数据飞轮，自动化构建训练数据并加快模型迭代，提升生成准确率，解决数据长尾场景难题。
工程平台：自研 Angel 机器学习平台，包括训练框架 AngelPTM 和推理框架 AngelHCF，为模型训练提供强大的并行能力。

功能特点

高图像质量：能生成 1024×1024 分辨率的高质量、高清晰度图像，图像细节丰富、视觉吸引力强。
强大中文理解：可准确解析中文文本关键词和语义信息，能根据复杂中文描述精准生成匹配图像。
多绘画风格：支持通过提示词自定义风格，也有动漫、插画、水墨、写实等多种预设风格，满足个性化需求。
多轮交互生成：理解自然语言指令，与用户多轮交互，帮助构建动态、迭代的创作流程。
操作体验便捷：系统有智能扩写功能，提供多样化输入词模板参考，降低使用门槛。

应用场景

广告营销：在 AI 广告创意平台腾讯广告妙思中，可进行文生图、图生图、商品背景合成等，提高广告生产和投放效率。
媒体内容生产：《央视新闻》《新华日报》《南方都市报》等主流媒体已使用，为新闻报道快速生成相关配图。
游戏开发：能生成游戏角色、场景、道具等各种风格的图像素材，如生成王者荣耀风格的图片。
影视制作：可用于生成概念图、分镜脚本、虚拟场景设计等，为影视创作提供创意和素材支持。
创意设计：设计师可借助其生成创意草图、设计概念图等，激发创作灵感，拓展设计思路。

相关荣誉

在智源研究院发布的 FlagEval 大模型评测排行榜中，腾讯混元文生图模型荣登多模态模型评测榜单的文生图模型榜首，展现了其卓越的技术实力。

文章标题：腾讯混元生图
文章链接：https://www.url111.com/post-955.html
免责声明：我们致力于为用户提供丰富且有价值的跨境电商相关信息，但由于内容收集渠道众多，可能存在个别文章内容侵犯他人知识产权的情况，文中所涉跨境电商相关内容仅供参考，观点建议非决策依据，如有侵权，请联系我们（ipiaoyang@aliyun.com）进行删除。