← 全部日报AIGC 信息日报Daily Digest
2026-05-30 · 周六
33 条 · 4 板块
Daily Digest

2026-05-30

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

Google 在 I/O 2026 发布 Gemini Omni 和 Gemini 3.5 系列模型。Omni 支持多模态输入(图像、音频、视频、文字)直接生成高质量视频,并可通过对话进行视频编辑,底层结合 Gemini 的推理能力。Gemini 3.5 Flash 首发,主打 Agent 和编程场景,擅长复杂长周期任务。

Google I/O 2026 压轴发布:Gemini Omni 能根据任意输入(图片、音频、视频、文字)直接生成视频,还能对话式剪辑;Gemini 3.5 Flash 主打 Agent 和编程。做 AI 短剧和视觉的可以蹲 demo 看生成质量,搞工作流集成的直接看 API 文档。

一部95分钟的AI生成动作片在戛纳电影市场完成首映。制作周期仅两周,预算约50万美元,大部分用于算力支出。该片证明了AI电影制作从短片段向完整长片过渡的可行性,且预算远低于传统制作。

95分钟AI长片戛纳首映,两周50万美元预算,大部分花在算力上。做AI长片和短剧的可以拉片看叙事连贯性和镜头一致性怎么撑住长片时长。

Google 发布 Flow Agent,基于 Gemini 模型构建,能理解用户输入的创意项目上下文,辅助完成复杂创意任务的规划与推理,用户可全程控制输出方向。适用于剧本拆解、分镜规划、项目前期脑暴等场景,目前通过链接可进一步了解详情。

Google 官方出的创意规划 Agent,能理解项目上下文帮你拆复杂任务。编导和短剧团队可以接进来当分镜/剧本的 AI 助手用,省掉前期大量脑力活。

OpenAI 推出专用实时翻译模型 gpt-realtime-translate,支持 70+ 种语言语音输入,翻译成 13 种目标语言语音输出。该模型为特定用例设计,非通用大语言模型,已在智能眼镜上运行测试,已开放 API 调用。

OpenAI 出了个专用翻译模型,70+语言语音输入转13种语言输出,已经在智能眼镜上跑。做 AI 配音、实时字幕、多语言后期处理的可以直接接 API 测延迟和自然度。

阶跃星辰(StepFun)发布并开源了一款新的多模态模型,官方强调其特点是“小”(Small is a feature),体积显著小于 V4-Flash,同时保持多模态能力和推理速度。具体参数、架构和性能数据尚未在推文中公开。

阶跃星辰开源了一款比 V4-Flash 小得多、支持多模态的模型,做本地部署和工具链集成的可以直接拉下来跑跑看。

LumaLabs 发布 Luma Agents 功能,用户只需输入内容素材并定义宣传钩子,系统即可自动生成全套宣传图形物料,覆盖多版本、多尺寸的推广视觉。该功能面向营销和内容宣发场景,旨在将创意到成图的流程自动化,减少人工逐张调整的工作量。

Luma 把宣传物料生成自动化了:丢内容、定钩子,自动出全套宣传图。做短剧宣发和视觉物料批量生产的可以直接套用,省掉每张图单独调的工作量。

一位备受尊敬的动画导演今早宣布退出一个他原本非常期待的项目。项目本身并未失败,而是在宣布两天后,因使用AI而遭到网络舆论围攻,最终在压力下道歉并退出。该事件反映了AI在影视创作领域引发的舆论争议和从业者面临的社会压力,对AI影视创作者具有警示意义。

一位资深动画导演因使用AI被网暴到退出项目,做AI短剧和动画的同行都该看看——这不是技术问题,是舆论场上的真实风险。

工具与能力更新

Tools

Runway 官方宣布持续向 API 新增模型和端点,目前已集成 Seedance 2.0 和 GPT Image 2 等模型,开发者可通过单一 API 调用多种生成能力,无需分别对接不同厂商接口,适用于视频生成、图像生成等场景的集成开发与自动化工作流编排。

Runway API 把 Seedance 2.0 和 GPT Image 2 塞进同一个接口,做短剧和视觉开发的可以接 API 测一周,看多模型混用能不能省掉来回切工具的功夫。

OpenAI 宣布 Codex 的 Computer Use 功能正式支持 Windows 系统,Codex 可直接在 Windows 电脑上执行操作(如点击、输入、文件处理等)。同时 ChatGPT 移动端 App 也支持 Windows 版 Codex,用户可在手机上发起、查看和遥控任务,后台在 Windows 机器上持续运行。该更新面向 AI 编程和自动化工作流场景,适用于批量处理、工具链编排等任务。

OpenAI 把 Codex 的 Computer Use 搬到了 Windows 上,还能用 ChatGPT 手机 App 远程遥控。做 AI 自动化工作流的可以直接在 Windows 机器上跑脚本、调工具,省掉来回切系统的麻烦。

fal 上线 Assets 功能,将用户在平台上生成的所有内容(图片、视频、音频、3D)统一存入一个可语义搜索的资产库,支持在 Sandbox、Playground、Workflows 之间直接引用为输入,无需重新上传或翻文件名。

fal 把生成资产统一入库了,图片、视频、音频、3D 全在一个库里,语义搜索加跨工具复用,做批量出图和后期整合的可以省掉来回拖文件的时间。

ComfyUI 新增对 OpenRouter 的支持,用户可在 ComfyUI 工作流内直接调用 20+ 个 LLM 模型,无需切换平台或受限于单一模型。该更新降低了工作流中的模型切换摩擦,提升了灵活性和集成效率,已附工作流链接。

ComfyUI 直接接入了 OpenRouter,不用再被单一 LLM 锁死,工作流里能调 20+ 模型。做 AI 工作流编排和工具链整合的,可以直接装起来用,省掉中间跳转的麻烦。

OpenAI 联合创始人 Greg Brockman 转发演示:Codex 现在可以自主创建、搜索、整理、固定对话线程,并为并行任务启动工作树(worktrees),实现对话线程的自我管理。该功能由用户 Guinness Chen 展示,Codex 不再需要人工维护对话结构,可自动处理多线程并行任务的组织与优先级管理。

Codex 现在能自己管理自己的对话线程和并行任务了,做 AI 编程和 Agent 工作流编排的可以直接套用这个自管理逻辑,省掉手动整理线程的功夫。

ComfyUI 新增对 OpenRouter 的原生支持,用户可在 ComfyUI 工作流中直接调用 OpenRouter 平台上的 20 多个大语言模型,无需切换工具或单独配置 API。OpenRouter 提供包括免费模型在内的 500+ 模型统一 API 接口。

ComfyUI 直接调 OpenRouter 的 20+ 模型,不用再切窗口。搞工作流编排的可以接上跑一周,看哪个模型配哪个节点最顺。

Glif 推出新功能:用户只需与 AI Agent 对话,即可完整生成一支音乐视频(MV),无需手动操作多工具或编写复杂工作流。该推文仅含标题和链接。

Glif 新功能:跟 AI 聊天就能生成一支 MV,不用切工具。做短剧和 MV 的可以点进去看 demo,看生成质量和可控性到哪一步了。

AI 视频工作流平台 FLORA 新增 Google Drive 直连功能,支持从 Drive 导入素材、在工作流中处理、再将成品直接导出回 Drive,省去下载和重新上传的步骤。该更新面向批量出片和自动化管线场景,减少手动搬运环节,提升素材流转效率。

FLORA 直接连上 Google Drive,素材导入、跑工作流、导出成品一条线,不用下载再上传。做批量出片和自动化管线的团队,省掉手动搬运这一步,效率能提一截。

Pika Labs 推出 Pika MCP(Model Context Protocol)工具包,安装后可调用 Build-A-Brand(品牌视觉生成)、App Store Screens(应用商店截图)、Product Sizzle(产品宣传视频)、Founder Video(创始人视频)四项技能,面向品牌视觉和产品营销素材的自动化生成场景。

Pika 出了 MCP 工具包,装一个就能批量生成品牌视觉、App 截图、产品视频和创始人视频。做 AI 视觉和工具链整合的可以装起来跑一遍,看自动化程度够不够用。

方法与经验

Methods

创作者 @maxescu 演示了用 Google Omni 对 Seedance 2.0 生成的视频进行实时风格重绘:将一段原始视频分别重绘为《后室》风格和拍立得桌面展示风格。Omni 能理解视频内容并基于文字 prompt 重新想象画面,适用于后期风格化、素材二次创作和视觉实验场景。

用 Seedance 2.0 生成的视频喂进 Google Omni,能实时重绘成不同风格(后室、拍立得桌面),做后期和视觉的可以直接拿这个工作流试风格迁移和素材再创作。

李飞飞团队发布 GPIC(Giant Permissive Image Corpus)视觉生成基准数据集,包含 1 亿 VLM 标注图文对用于训练、100 万图文对用于基准测试,总计约 28 万亿像素,完全开放研究及商业使用许可。该数据集规模远超现有公开数据集,旨在为大规模生成模型时代提供统一的训练与评测标准。

李飞飞团队开源 GPIC 基准数据集,1 亿图文对 + 100 万测试对,全许可商用。做视觉生成模型训练和评测的可以直接拿来当训练集和测试集用。

Runway 官方发布幕后制作解析,介绍 AI 短片《The Rogue》的制作过程:由单人创作者在不到一个月内完成,全程使用 Runway 工具链。该片是 Runway 新项目 Project Luxo 的首部作品,旨在验证 AI 生成视频已跨越恐怖谷效应。幕后内容涵盖从概念到成片的完整工作流。

Runway 官方拆解《The Rogue》幕后:单人、一个月、全 AI 出片。做 AI 短剧和独立制作的可以拉片看工作流和效率上限。

创作者 @MrLarus 发布 AI 微表情控制 demo,15 秒内实现「笑意迟疑→压抑伤心→强压哭意→情绪释放→强收泪水→含泪释怀」6 种复杂情绪连续转换,宣称一次性成片、无抽卡无拼接。提示词方法在评论区公开。

15 秒 6 种微表情一次性成片,不抽卡不拼接。做 AI 短剧和角色动画的可以直接去评论区扒提示词方法,拉片看情绪转换的节奏控制。

博主展示 Google Omni Flash 在视频编辑中的两个实用案例:1)视频内物体无缝替换(可乐变芬达再变老干妈);2)在实拍画面中凭空添加行人,光影融合自然。操作门槛低,无需复杂后期合成。

后期和视觉师直接看案例:视频里无缝换物和凭空加人,光影自然到不用二次调色,跑一遍就知道能省多少合成时间。

Google Cloud 发文介绍 WPP 利用生成式媒体推动创意边界,其 Nano Banana 模型提供更高的一致性和控制力,已快速成为客户规模化内容生产系统的基础。该案例展示了广告集团如何将生成式模型嵌入商业内容生产流程。

WPP 用 Nano Banana 模型做规模化内容生产,做 AI 制片的可以看看大广告集团怎么用生成式媒体降本提效。

开发者 lifcc 为 AI 编程工具 Codex 开发了两个自定义 skill:codex-retrospective 让 Codex 定期回顾过去几周的会话历史,自动更新 AGENTS.md 并提炼可复用的小 skill;codex-fluent 解决长期 session 的流畅性问题。两个 skill 均以最小改动实现,可提升 Codex 的长期使用体验和知识积累能力。

给 Codex 加两个 skill 就能让它越用越聪明、不卡顿,做 AI 工作流编排的可以直接抄作业装起来用。

@CharaspowerAI 分享了一套动画工作流:先用工具生成角色表(character sheet),再接入 Seedance 2.0 生成 30 秒动画片段,实现角色一致性和动态镜头。推文附完整工作流和 prompt 链接。

角色表生成+Seedance 的动画工作流,30 秒成片效果不错。做 AI 动画和短剧的可以点开看完整工作流和 prompt,直接套用试试出片稳定性。

用户 @fabianstelzer 用 Glif Agent 演示了一条指令工作流:输入一张图片,Agent 自动识别区域并生成视频,每个区域配 2 个高光点,同时自动生成旁白和背景音乐。展示了 Glif Agent 在图片转视频+自动配音配乐场景下的端到端能力。

Glif Agent 一条指令走完从图到视频+配音+音乐的流程,做批量内容生产的可以看看自动化程度有多高。

开发者 Zayn Hao 分享个人工作流:Codex 的 token 额度(5 小时)消耗快,他在剩余 10-20% token 时,让 Codex 自动生成/更新一份交接文档,再将该文档交给 Claude Code 继续执行后续任务,避免因额度耗尽导致工作中断。

个人经验分享:Codex token 不耐用,剩 10% 时让它写交接文档,再转给 Claude Code 续跑。做 AI 编程/Agent 工作流编排的可以抄这个兜底策略,省得半路断档重来。

作品 / 案例

Works

阿里万相官方推介第 16 届北京国际电影节 [万相+] 主题竞赛获奖短片《Perfect Plan》,该片获 Outstanding AI-Themed Short Film 奖,主题围绕 AI 觉醒与欺骗,非传统情感叙事路线。

AI 主题短片获奖作品,做 AI 短剧和编导的可以拉片看叙事和视觉一致性处理。

Claude AI 团队发布一支 hyperframes 视频,由 Opus 4.8 模型生成,导演 @Miguel07Code。视频以连贯镜头和干净画面为特点,展示了 AI 在风格一致性和镜头语言上的控制力。

Claude AI 团队用 Opus 4.8 做的 hyperframes 视频,镜头干净、风格统一,做 AI 短片的可以拉片看视觉一致性处理。

阿里万相官推展示一部获奖 AI 音乐短片,由多位创作者联合制作,获第 16 届北京国际电影节「优秀 AI 主题短片」奖。短片以 AI 作为人类创造力的毁灭者与延续者为主题,视觉风格和叙事手法是看点。

北影节获奖 AI 音乐短片,视觉和叙事有看头,编导和视觉师可以拉片分析镜头语言和风格一致性处理。

B站UP主「南阳野人ZLB」发布AI创作大赛三国主题赛参赛作品《AI易中天品新三国》第12集,以AI模拟易中天讲史风格,结合AI生成画面与配音,作品延续系列化叙事,聚焦秦皇汉武题材。

B站AI创作大赛三国主题赛参赛作品,用AI模拟易中天风格讲三国,做AI短剧和IP化内容的可以拉片看角色声音一致性处理和叙事节奏。

B 站 UP 主展示一款国产游戏,其中所有 NPC 均接入 AI 驱动,支持玩家与每个角色进行自然语言对话和互动,非预设脚本。视频为实机演示片段,展示了 NPC 根据玩家输入实时生成回应、执行任务、改变行为等能力。

国产游戏 NPC 全接入 AI 的实机演示,做 AI 短剧和互动叙事的可以拉片看角色对话逻辑和场景交互设计。

PixVerse 官方发布 15 秒动画 IP 预告片《MILO & BUMBLE: Underground Postal Riders》,展示从角色设定到成片的完整工作流。

PixVerse 官方用自家工具跑了一条角色动画短片,从角色设定到成片全流程展示,做 IP 动画和短剧的可以拉片看角色一致性处理。

B 站 UP 主发布了一款 AI 制作的 Galgame 成品,包含三位可攻略女主,提供在线游玩链接。

AI 做 Galgame 的完整成品,短剧和互动叙事团队可以点进去看看角色设计和叙事结构怎么用 AI 落地。