支撑「图像 coding agent」的引擎
首页说它会自己干活。这一页,告诉你它怎么做到的。底层是一个 coding agent 式的推理引擎:两层上下文压缩、模型自动降级链、结构化视频线、三层一致性锚 —— 让任何模型,哪怕 Qwen,都能在你本地稳定交付整套视觉。
图片编排能力
智能体把需求拆成多张子图,在同一块分层画布上并行生成、统一构图与色调,再逐张落到可回退的图层工程里 —— 不是一次性出图,而是把整套电商 / 品牌物料编排好交付。
- ·分层画布:每张图都是非破坏性图层工程,蒙版 / 调整 / 局部随时回退
- ·成套一致:一款货 → 主图 / 详情 / 多色变体,主体与风格跨图统一
- ·多模型择优:按子任务在 16 个模型间自动选型,不用记参数
- ·本地直读直写:读项目素材、成片写回硬盘,不强制上云
视频生成能力
把编排好的画面直接拉进视频线:每个镜头的首帧、尾帧、参考片、配音都由智能体填好并可视编辑,沿时间线串成一支完整的品牌短片 —— 全程非黑盒,逐镜可改。
- ·图生视频:从成套静帧直接生成镜头,主体与风格延续
- ·逐镜可控:首帧 / 尾帧 / 参考片 / 配音逐个镜头独立设定
- ·时间线编排:多镜头拼接成片,节奏与转场可调
- ·模型调度:Veo / Seedance 等视频模型按镜头需求自动选用
本地操作能力
智能体不是只会出图的聊天框:它能列目录、读文件、grep 定位、改代码、新建目录、删旧脚本、跑构建并做类型检查 —— 全部在你本机完成,破坏性操作前先列清单等你确认,素材与代码不离开本地。
- ·文件系统:列目录 / 读写 / 编辑 / 新建目录 / 删除,直达你的工作区
- ·代码与检索:glob / grep 定位,改完跑 LSP 类型检查兜底
- ·Shell:执行构建、批处理等命令,产物写回本地目录
- ·权限分级:删除 / 改写等破坏性操作先确认,不擅自动手
驱动这一切的智能体引擎
上面是能力,下面是支撑能力的引擎层 —— 完整工具箱与工程纵深,面向想深入了解的人(技术文档)。
智能体的完整工具箱
Agent 在每一轮循环中,从一整套工具里挑选下一步要调用的那个。按职能分为 13 类,权限按风险三级分级。
Generation
4Agent 的核心生成能力
Editing & Analysis
5视觉理解 + AI 修图
Filesystem
8本地直读直写,零云端中转
Shell & I/O
3操作系统级访问
Network
2联网获取上下文
Tasks
6崩溃零损失任务系统
User Interaction
3高敏感操作必须二次确认
Multi-Agent
7Agent 雇佣 Agent
Workflow
4Plan Mode + 工具发现
Memory & Team
7长对话不失忆 + 团队消息
Code & Schedule
12Cron + LSP + Worktree
Asset Library
8资产分类 + 全局画风锚,跨镜一致性
Video Line & Voice
8连续分镜 + 角色音色,长片一气呵成
十个工程纵深
上面是清单。下面是清单背后的真功夫——这十个工程点决定了 Agent 不是噱头,而是可以交付电商生产的工业级系统。
循环推理
市面上大多数 AI Agent 本质是流水线——把大模型调用串成一条预设步骤,遇到临场变化立刻僵住。
FigCraft 的图像 Agent 是真正的循环推理:每一轮都重新观察画布、参考图、历史决策,动态决定下一步调哪个工具。单次任务最多支持 200 轮闭环推理。
- ·每轮 LLM 重新判断,不按预设脚本走
- ·工具调用结果立即反馈到下一轮决策
- ·单工具失败不会让整个任务崩溃,Agent 会诊断错误后改变策略
工具三级权限
Agent 手上的 77 个工具按风险严格分级,让品牌方安心交权给 AI。
- ·只读工具(分析图片、搜索参考、截屏画布)→ 并行执行,速度最快
- ·破坏性工具(生图、修图、合成、导出)→ 串行执行,避免并发冲突
- ·高敏感工具(终端命令、覆盖本地文件、批量删除)→ 每次弹窗二次确认,Agent 无法绕过
- ·工具可返回 terminal 信号立即结束循环,防止无意义继续烧 token
服装多 SKU 一致性
服装品牌最头疼的问题:同一款冲锋衣 30 个颜色拍出来全是不同人穿的——AI 生图时随机性让主体发散。
FigCraft 为电商图专门构建了一套主体一致性机制,无论一组图多大,主体都严格统一。
- ·系统自动识别任务类型,单张、成组变体、序列演化各走最合适的生成方式
- ·可让每一张图都贴近你上传的原始产品/人物,最大限度还原真实
- ·也可让整组图统一在同一张「定妆照」的基调下,风格高度一致
- ·支持跨图延续,后面的图能继承前面某张的整体观感
- ·一致性策略都写进执行计划,批准前可见、可改
零意外消耗
Agent 启动多步任务前,必须先把完整步骤展示给用户:「将生成 1 张白底主图 + 3 张雪山场景 + 2 张沙漠场景,预计消耗 12 积分,每张锚定用户上传图」。
用户三选项:一键批准执行 / 取消 / 用自然语言修改。只有批准后 Agent 才真正花钱。
- ·批准前零积分消耗:计划阶段不调用生图
- ·支持多轮修订:不满意可以反复让 Agent 重出计划
- ·批准过的计划自动归档,事后可追溯每一笔积分的去向
智能缓存
中等智能的大模型有个常见毛病:同一个工具反复调用,一遍不够调两遍,每次都烧 token。
我们在单次运行内做了结果复用——重复的只读操作不会反复消耗算力,直接复用上一次的结果。
- ·同一次运行内,重复的只读操作自动复用结果
- ·精确识别重复调用,避免无谓的重复执行
- ·单次复杂任务可显著降低 token 消耗
长对话不失忆
服装品牌一次拍摄会生成上百张图,对话滚到几十轮。普通框架这时候要么爆上下文、要么胡言乱语。
我们做了两层记忆:短期自动摘要压缩,长期持久化记住关键信息。
- ·短期:对话变长时自动把早期内容摘要压缩,腾出上下文
- ·长期:关键信息持久记住,跨会话延续不丢
- ·每张图都带有来源信息(谁上传的、第几轮、什么需求),不会张冠李戴
- ·Agent 在第 80 轮对话里依然记得第 3 轮用户上传过什么图
崩溃零损失任务系统
企业环境下,应用崩溃、断电、关机重启是常事。传统 AI 工具一崩溃,当前任务全部丢失。
我们的任务系统采用三层设计,崩溃恢复零损失。
- ·任务 ID 用递增字符串(1 / 2 / 3)而非 UUID,降低模型记忆负担,调度更稳
- ·子任务用位置索引(0 / 1 / 2),模型不用记长字符串
- ·本地持久化最多 100 个任务历史,随时查看随时恢复
- ·重启自动修复:所有「假进行中」任务降级为 paused,不会出现幽灵任务
网络容错
调用第三方大模型 API 的人都懂——偶尔超时、偶尔 500、偶尔限流。Agent 必须把这些都吃下来。
- ·API 120s 超时(长思考模型留够时间)
- ·3 次重试 + 指数退避(500ms → 1s → 2s)
- ·4xx 客户端错误立即失败不重试,5xx / 429 / 超时自动重试
- ·响应格式异常也当失败处理,触发重试而非返回空
- ·空响应显式报错(可能是安全过滤 / max_tokens 被 thinking 吃光),不静默退出
系统提示词每轮重建
大多数 Agent 的系统提示词是「一次性定死」——开机注入一次,后续对话里 Agent 不知道画布变了、你换了模型、新上传了参考图。
我们的 Agent 每一轮循环都重新构建系统提示词,把当前画布状态、参考图池、选中物体、可用模型能力全部动态注入。
- ·画布有图 / 空白 / 比例 / 分辨率 实时感知
- ·参考图池总览逐索引标注,Agent 不会搞混
- ·可用模型 + 当前模型能力(多参考 / inpainting / 最大 N 张)实时传入
- ·用户切换模型后 Agent 立即知道新模型能做什么不能做什么
全程可见
Agent 在思考什么、调了什么工具、返回了什么结果、为什么请求确认——全部实时推送给前端 UI。
客户能看见 Agent 每一次决策,信任感完全不同于「转圈圈等结果」的黑盒工具。
- ·事件类型:thinking / tool_call / tool_result / message / permission_request / error
- ·工具调用参数实时展示,客户能反向学习 Agent 怎么思考
- ·错误信息友好化:提示切换模型、简化请求等具体可操作建议