← 全部日报AIGC 信息日报Daily Digest
2026-06-04 · 周四
31 条 · 4 板块
Daily Digest

2026-06-04

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

Ideogram 发布 4.0 版本,号称全球最佳开源图像模型。权重开放下载,支持本地部署和微调,已上线所有 Ideogram 套餐和 API。

Ideogram 4.0 开源了,权重可下载、可微调、可本地跑。做视觉开发和美术总设的可以直接拿来做风格基底,短剧团队也能微调出统一角色脸。

Reve 发布 2.0 版本,定位为 4K 图像模型,宣称支持精确布局生成和图像编辑,可实现高分辨率、高可控性的图像创作。具体技术细节和 API 开放情况待确认。

4K 图像模型新选手,主打精确布局生成和编辑,做视觉/美术的可以第一时间上手测出图精度和可控性。

Grok 官方宣布 Imagine 1.5 图像生成模型预览版已推出,并开放 API 试用。该模型是 Grok 自研的图像生成模型,具体能力参数(分辨率、风格支持、一致性等)未在推文中公开,需通过 API 实测验证。

Grok 的 Imagine 1.5 图像生成模型预览版上线 API,做视觉和短剧的可以接 API 测一周,看风格一致性和出图质量。

OpenAI 对 Codex 进行重大更新,从编码工具扩展为面向白领办公的自动化平台。更新内容包括六个角色专属插件,捆绑 62 个应用和 110 个自动化技能,覆盖数据分析、创意制作、销售、产品设计、公共股权投资、投行等场景。同时上线 Sites 功能。

OpenAI 把 Codex 从编码工具扩成白领办公套件,62 个应用 + 110 个自动化技能,做 AI 工作流整合的可以看看怎么接进自己的工具链。

Google 发布 Gemma 4 12B 开源模型,支持高级 Agent 推理、视觉和音频能力,可在笔记本本地运行。性能接近更大尺寸的 Gemma 模型,但内存占用显著更小。

Google 把大模型推理、视觉、音频塞进 12B 参数的开源模型,能跑在笔记本上。做 AI 工具链整合的可以直接拉下来测本地部署和 Agent 能力。

xAI 发布 Grok Imagine 1.5 Preview,已开放 API 调用。这是 Imagine 系列图像生成模型的升级版本,具体能力参数和性能提升未在推文中公开,需通过 API 实测验证。

xAI 的 Imagine 1.5 预览版上线 API,做 AI 视觉和短剧的可以接 API 测一周,看生成质量和风格控制有没有升级。

开发者实测 OpenAI Sites 功能:输入一句“构建一个内容管理系统网站”,10-15 分钟后 AI 自动完成建站、配置、Git 管理、部署全流程,且无报错。目前主要产出 UI 层,后端功能需手动补充。

一句话让 AI 从零搭好一个 CMS 网站并自动部署,做短剧平台或工具链整合的可以关注这个能力边界在哪。

工具与能力更新

Tools

HeyGen 发布 frame.md,一种专为视频和动态内容设计的规范文件,让 AI Agent 在生成视频时能保持品牌视觉一致性(配色、版式、动效等),解决此前 design.md 在视频场景下被 Agent 错误转译为网页/幻灯片的问题。

HeyGen 给视频品牌一致性开了个新口子,做品牌视频和短剧的可以直接用 spec 控视觉风格,不用每帧手调。

Black Forest Labs 宣布 FLUX.2 模型(Klein 系列)已支持在华硕 ProArt 系列笔记本上本地运行,无需联网调用云端 API。这意味着 AI 视觉创作者可以在本地完成图像生成和风格迭代,适合需要频繁调参、批量出图或对数据隐私有要求的场景。

FLUX.2 模型能跑在华硕 ProArt 笔记本本地了,做 AI 视觉和短剧的可以省掉云端排队,直接本地出图调风格。

ComfyUI 宣布原生支持 Ideogram 4.0。该模型为 9.3B 参数的开源文生图基础模型,采用结构化 JSON 标注数据集训练,具备精准文字渲染、专业版式控制、可自定义调色板和边界框调整能力。ComfyUI 同时支持开源版和 API 节点版本。

ComfyUI 原生支持 Ideogram 4.0,做视觉和美术的可以直接在 ComfyUI 里跑这个 9.3B 开源文生图模型,文字渲染和版式控制是亮点。

ElevenLabs 宣布与孩之宝合作,开发者、企业和应用构建者现可集成孩之宝旗下角色的正版授权语音(权利已清理),用于互动体验、应用和内容创作。这意味着 AI 配音和虚拟角色对话场景可直接使用官方角色声音,无需单独处理版权。

ElevenLabs 拿下孩之宝角色语音授权,做 AI 配音、虚拟角色、互动叙事的可以直接集成官方正版角色声音,省掉版权风险。

阿里 Wan 平台上线两项新技能:Extract Line Art(将复杂视觉转为干净线稿)和 Render(将线稿即时转为精细视觉成品),两项功能已可直接使用,适用于概念设计、分镜草图、美术风格开发等场景。

Wan 上线线稿提取和渲染两个新技能,做视觉和美术的可以直接在工具里跑一遍,省掉来回切软件的时间。

Blackmagic Camera 10.2 更新,为 PYXIS 6K 电影机新增相位检测自动对焦(PDAF)和 Blackmagic Cloud 云串流路由支持,现已开放下载。相位对焦大幅提升跟焦可靠性,云串流让远程监看和协作更顺畅。

Blackmagic PYXIS 6K 用户直接更新,相位对焦和云串流都是实打实的干活升级。

昆仑万维 Skywork 推出 Goal Mode(目标模式),用户设定一个期望结果后,模型会自动规划、执行、检查进度,跨多轮对话持续工作直到条件达成。该模式面向自动化任务场景,已上线可体验。

Skywork 新出的目标模式,设定一个结果让模型自己规划执行直到完成,做 AI 工作流编排的可以接 API 测一轮自动化能力。

ComfyUI 官方宣布扩展对 Claude Code 的支持。

ComfyUI 官方推了 Claude Code 集成,搞工作流编排和自动化管线的技术整合者可以直接点链接看具体怎么接。

ClaudeDevs 官方将 Claude 动态工作流的显式触发词从“workflow”改为“ultracode”。用户仍可在对话中自然使用“workflow”一词,但只有明确说“ultracode”时才会触发动态工作流。

Claude 把触发词从 workflow 改成 ultracode,做 AI 编程/Agent 工作流集成的顺手改一下 prompt 里的关键词就行,别让 Claude 误启动动态工作流。

方法与经验

Methods

B 站 UP 主发布 10 分钟教程,拆解 AI 短剧全制作流程:从剧本大纲、角色资产库搭建到分集视频生成,重点讲解如何利用 Seedance 2.0 的模型特性建立可复用的角色和场景资产库,避免每次生成都重新抽卡,从而大幅降低制作成本。视频还涉及短剧出海变现模式,并附有操作教程和秘籍文档链接。

UP 主拆了 AI 短剧从剧本到分集的全流程,重点讲怎么用 Seedance 2.0 建资产库来省掉反复抽卡的成本。做短剧的制片和编导可以直接套用这套工作流,省的是真金白银。

Glif 官方展示其智能体(agent)在电影级打斗场景中的能力:漫画风格神父用玫瑰念珠鞭、香炉烟雾和十字架匕首与恶魔战斗,全程动作编排在一个工作流内完成,非静态图轮播。

Glif 智能体跑出的打斗动作编排,视觉师和编导可以拉片看镜头调度和动作连贯性,短剧团队也能当动作戏参考模板。

Replicate 为 xAI 的 Grok Imagine Video 1.5 视频模型推出官方提示词指南,涵盖风格、构图、运动控制等 prompt 模板,帮助创作者快速上手该模型的视频生成能力。

Replicate 官方出的 Grok Imagine Video 1.5 提示词指南,做 AI 视频的可以直接当模板库用,省去自己试 prompt 的时间。

Krea K2 Large 模型支持通过单一 prompt 批量生成超个性化角色,示例 prompt 为「细节丰富的奇怪可爱角色,全身绘制,极粗轮廓线,白背景」。用户实测认为 K2L 在角色多样性上碾压其他模型。

Krea K2 Large 做角色设计,一个 prompt 就能出无限变体,做角色 IP 和美术总设的可以直接套用这个 prompt 跑一轮看看风格上限。

Anthropic 官方博客分享内部实践:用 Claude 构建智能体分析栈(agentic analytics stack),自动化处理 95% 的业务分析查询,整体准确率约 95%。核心思路是通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。Anthropic 数据科学团队因此得以从重复查询转向因果建模、预测和机器学习等战略工作。

Anthropic 用 Claude 自动化了 95% 的业务分析查询,准确率约 95%。做 AI 工作流编排和 Agent 落地的可以看他们怎么解决概念歧义和数据过时问题。

Lovart AI 官方发布教程,演示用其 Pencil 工具绘制飞行路径,生成高速 FPV 无人机风格镜头。用户可在 Lovart 平台上直接尝试该功能,无需手动操控无人机或实拍。

Lovart 官方出的 FPV 运镜教程,用 Pencil 工具画路径就能生成高速穿越机镜头,做视觉和导演的可以直接套用工作流出片。

Hal Watmough 在 CapCut 中展示 AI 角色逐帧制作工作流:先用 Nano Banana 生成角色参考图,作为首帧输入到 AI agent,再通过电影级提示词逐帧迭代生成角色 Shona 的连续镜头。

一个逐帧做 AI 角色的工作流拆解,从角色参考图到逐帧迭代,做角色一致性的可以看看这个思路。

创作者 @underwoodxie96 发布其 AI 工作流的第 3 版,角色动作复杂度提升,生成难度也随之增加,需多次生成才能得到理想结果。推文附 ComfyUI 工作流链接,可 fork 复现。

个人创作者迭代到第 3 版工作流,角色动作更复杂了,做 AI 短片的可以 fork 下来跑几轮看看动作一致性怎么调的。

个人经验分享:用 GPT 5.5 Pro 生成 Codex Goal 指令文档时,发现写不好 Goal 可以先切到 plan 模式,让 AI 反问自己问题来收敛指令。

个人分享用 GPT 5.5 Pro 写 Codex Goal 指令的技巧,搞 AI 编程/Agent 工作流的可以看一眼那个 plan 模式反问法。

个人技术分享:针对 OpenAI Codex OAuth 登录时触发手机验证码弹窗的问题,作者给出了核心结论和避坑建议。面向遇到该问题的开发者,属于实操类 troubleshooting 内容。

Codex OAuth 登录验证码的实操避坑帖,技术整合者如果遇到这个弹窗可以当 troubleshooting 参考。

作品 / 案例

Works

新片场发布全球首部 AI 电影《地狱磨砺》第一集,使用 Seedance 2.0 制作。该片定位为 AI 长片系列,题材偏剧情向,展示了单工具链完成长叙事成片的可行性。

AI 长片第一集,用 Seedance 2.0 单工具链完成,做 AI 短剧和长片的可以拉片看叙事节奏和角色一致性处理。

Codex 发布首支品牌短片,今晚 NBA 总决赛第一场期间播出。短片由 AI 生成,作为品牌首支官方视觉叙事作品,面向大众传播场景。

Codex 首支品牌短片,今晚 NBA 总决赛首播,做 AI 短剧和品牌片的可以蹲正片拉片看叙事和视觉一致性处理。

新片场 AIGC 分类下的国风木偶动画 AI 短片《琴中魄》第一部分,已发布可观看。题材为国风木偶动画,视觉风格偏传统木偶戏质感,AI 生成的角色一致性和镜头语言处理是创作看点。

国风木偶动画 AI 短片,视觉风格和角色一致性是看点,做 AI 动画和短剧的可以拉片看木偶质感怎么用 AI 还原。

新片场 AIGC 分类下的赛博朋克题材 AI 科幻短片《补丁匠》作品。题材为赛博朋克科幻,视觉风格偏暗黑工业风,适合编导和视觉师拉片分析长叙事节奏与角色一致性。

赛博朋克 AI 短片,做 AI 短剧和长叙事的可以拉片看节奏和视觉一致性处理。