ACE++
Consistency generation of portrait and subject
A collection of generator or post-processing software demo spaces in AIGC image generation. 图像后处理演示空间集合,大部分可以部署在自己的设备上。主要功能有:自然语言修改图片,打光/风格修改等等。
Consistency generation of portrait and subject
Note ACE++ 是一个基于指令的图像编辑和生成框架,具有三种强大的模式:肖像 ID 保留生成(portrait)、对象 ID 保留生成(subject)和局部控制生成(local editing)。借助这些模式,它能实现角色面部参考与迁移、图标和物品的参考与迁移,以及局部涂鸦重绘等功能。 更多用法详见https://ali-vilab.github.io/ACE_plus_page/ 下方的ACE-chat是其早期版本,BrushEdit和谷歌的gemini-flash-exp也有类似的功能
(Tongyi Lab) ACE: All-round Creator and Editor
Note ACE-chat,阿里团队推出的全能创造与编辑器 (All-round Creator and Editor),在聊天对话框中@图片编号,然后用自然语言描述你要让AI做什么即可:换装、换背景、换角色特征、换画风,局部重绘添加/删减画面内容等等都可以。更多案例和使用方法详情请看https://ali-vilab.github.io/ace-page/
Execute custom code from environment variable
Note 控制网作者张吕敏推出的IC-Light V2-very,根据prompt(预设了一些prompt以供快速组合)和打光位置选项更换图片光照和背景。比IC-Light V2变化更大
ColorFlow: Retrieval-Augmented Image Sequence Colorization
Note 腾讯推出的上色工具,可以对灰度图、线稿上色,可以参考多张图片上色
Edit images using instructions or masks
Note 腾讯推出的BrushEdit:一体化图像编辑与修复技术,利用多模态大语言模型和图像修复模型,实现了自由编辑和修复。用户可以轻松移除对象、添加对象,进行背景编辑和对象替换/移除。可用自然语言修改图片(替换背景、风格、服饰等等),可以绘制蒙版局部重绘。与阿里的ACE比较相似。 这个demo无法拉取qwen模型损毁,可以自己本地部署体验。
remove background from any image
Note 移除背景
Create HD cutouts from any image with just a prompt
Note 自然语言移除背景
Easily expand image boundaries
Note 图片向外扩展
Transform images based on text instructions
Note 最早的自然语言编辑图片项目,可以替换画面元素,更改风格,更改角色动作等等,但可能不如最新的ACE 更多详见https://github.com/timothybrooks/instruct-pix2pix
Generate and edit images using text instructions
Note #自然语言改图 字节跳动的seededit,现在应该是关掉了,要用可以去豆包官网或者集梦官网使用他们更新后的闭源版本(效果更好)
Universal Image Editing is worth a single LoRA
Note 基于flux的开源自然语言修图
Note 光源控制方案,截止目前还没有开源
Generate styled image from reference image and external LoRA
Note 使用LoRA进行风格转换,基于flux
OmniGen2: Unified Image Understanding and Generation.
Note 开源的方案,自然语言改图就像4o那样,但是效果一般,甚至默认参数图片画质有大问题
Edit images using text prompts
Note HiDream开源的自然语言改图,效果一般,语义理解很一般,非ood的时候还凑合
Edit an image based on the given instruction.
Note step开源的自然语言改图,效果一般
Demo for BAGEL
Note 字节跳动开源的多模态模型,AR架构的3B小模型,类似4o是LLM和出图模型一体的。架构很好但是太小了只是验证技术的模型。支持自然语言改图,读图问答等,效果一般。
Kontext image editing on FLUX[dev]
Note 【推荐】黑森林实验室开源的kontext模型,有三个尺寸,开源的dev是最小的12B,其他两个更大的可以在他们官网和合作伙伴网站(付费/积分)使用。自然语言改图很强,在多个榜单上比4o还强,但是在ood的场景下4o几百甚至上千B的参数就碾压了它,自然语言理解能力肯定是不如4o的,但是其他很多方面比如角色一致性,只修改局部而不是全局变化等等方面比4o强多了
relight images with Flux Kontext[dev]
Note 基于kontext的打光LoRA
SeedVR2-3B Image & Video API Demo
Note 字节seed团队的视频放大模型,在ComfyUI里可以直接放大图片,效果超越传统放大算法。在本demo中也可以先把图片做成2秒2帧的视频,放大后再取出其中的一帧作为图片
Multimodal Instruction-based Editing and Generation