美团推出开源图像生成模型LongCat-Image,聚焦中文场景与图像编辑能力

发布时间:2026-02-17 03:41:10admin

12月8日,美团LongCat团队于今日正式发布图像生成与编辑模型LongCat-Image,并同步开启开源。这款模型的参数规模达60亿(6B),据官方介绍,其核心目标是借助一套统一的架构,同时完成文本生成图像以及遵循自然语言指令进行图像编辑这两类任务。

模型架构

根据官方信息,LongCat-Image运用了文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),同时融入了视觉语言模型(VLM)条件编码器。它的核心技术特性包含:

1. 集成生成与编辑功能:该模型不仅能够依据文本提示生成图像,还可以借助自然语言指令对图像开展多轮编辑操作。官方举例说明了涵盖对象添加或移除、风格迁移、背景替换、文本修改等在内的15种编辑任务类型,并且声称在多轮编辑过程里能够维持图像风格以及光照的一致性。

风格迁移与属性编辑能力对比

2. 中文文本渲染能力:该模型着重突出对中文文本生成的支持力度,宣称可以应对标准汉字、生僻字以及部分书法字体,并且能够依据不同场景自动适配字体样式、尺寸大小与排版布局。在技术实现层面,模型借助预训练环节来学习各类字形特征,同时在后续的训练过程中融入真实世界的文本图像数据,以此增强自身的泛化性能。

文字生成能力对比

3. 输出效率与质量:借助模型结构轻量化设计以及训练策略的优化,该技术声称能够在消费级GPU上达成高效推理,进而生成具备“摄影棚级”精细度的图像。

图像生成综合能力对比

在性能评估方面,官方提供了部分基准测试数据:

1在图像编辑领域的权威基准测试GEdit-Bench与ImgEdit-Bench中,LongCat-Image模型表现卓越:在GEdit-Bench的中英文测试中分别取得7.60分与7.64分,在ImgEdit-Bench中获得4.50分,各项成绩均位居开源模型的顶尖行列,达到了当前最优(SOTA)水平。

2. 在中文文本渲染专项评测ChineseWord中,得分为90.7分。

3. 在文生图基础能力测试GenEval与DPG-Bench中,其得分依次为0.87和86.8。

目前,这个模型已经在GitHub平台上开源了,大家可以通过LongCat APP或者网页端(longcat.ai)来体验它的功能。官方称,这次开源的目的是为了支持从研究到商业应用的整个流程,同时也邀请开发者们加入进来共同建设。

此次开源举措表明美团在AIGC领域,尤其是面向中文市场与复杂图像编辑需求的技术规划。开源策略利于其汇聚开发者生态,进而在迅猛发展的图像生成领域树立影响力。

【:凤凰网科技】