← 全部日报AIGC 信息日报Daily Digest
2026-05-23 · 周六
16 条 · 4 板块
Daily Digest

2026-05-23

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

Google 发布 Gemini Omni,将物理理解能力与 Gemini 的通用知识结合,支持通过自然语言指令(如“调暗灯光”“放入黑白棋盘格房间”)生成符合物理逻辑的视觉内容,画面能对动作指令做出实时响应。该模型面向 AI 视觉创作和交互式场景生成场景,官方推文附有演示链接。

Google 把物理理解塞进 Gemini,画面能根据指令实时响应逻辑动作。做 AI 短剧和视觉开发的可以直接上手试,看场景交互和物理一致性够不够稳。

Google 发布 Gemini Omni 模型,主打视频生成与编辑的对话式交互,用户可通过自然语言指令直接创建和修改视频内容,无需传统剪辑工具。该模型将视频创作流程简化为实时对话,适用于快速原型、短剧制作、镜头调整等场景。

Google 把视频生成和编辑做成交互式对话,编导和短剧团队可以直接用自然语言改镜头、调节奏,不用切工具。

Google DeepMind 宣布 Project Genie 与 Google Maps Street View 集成,用户可将美国真实街景地点一键转化为可交互的 3D 世界。该功能基于 Genie 的生成式交互环境技术,目前面向美国地区开放。

Google DeepMind 把 Genie 接入了地图街景,真实地点一键转成可交互的 3D 世界。做视觉开发和场景设计的可以直接拿真实街景当素材库,省掉搭场景的功夫。

Google DeepMind 官方宣布 Gemini Omni 正式上线,并展示了一周内用户产出的多模态创作案例。该模型支持文本、图像、音频、视频的混合输入与生成,官方精选案例覆盖了从视觉风格实验到短叙事片段等方向。

Google 官宣 Gemini Omni 上线,并晒了一周内创作者产出的优秀案例。做 AI 视觉和短剧的可以点进去看看官方精选的创作方向,当风格参考和灵感库用。

工具与能力更新

Tools

Google 官方宣布 Gemini Omni 新增视频编辑功能,用户可通过自然语言指令对已有视频进行局部修改或整体重拍,无需传统剪辑软件。该能力基于 Gemini 的多模态理解与生成模型,将用户拍摄的视频作为起点,生成原本无法实拍的内容,支持局部修改、整段重拍、风格融合及自定义虚拟形象生成。

Google 把 Gemini 的视频理解能力直接做成剪辑工具,改局部或重拍整段都能在对话里完成,做后期和短剧的可以上手试一轮,看废片率能降多少。

ElevenLabs 推出声音创作者控制新规:声音所有者可自主选择授权对象、使用场景、设置通知期限(以年为单位),并可设定缓冲期后主动退休声音。所有授权与撤回权完全归声音创作者本人,平台不干预。

ElevenLabs 把声音授权控制权完全交给创作者,谁用、用在哪、用多久、怎么退休,全由声音本人定。做配音、短剧、虚拟角色的后期和制片可以直接套用这套授权模板,省掉自己拟合同。

LumaLabs 官方宣布 Seedance 2.0 已集成至 Luma Agents 产品中,支持人像、风景、科幻、奇幻等多种风格的高质量镜头渲染,用户可直接在 Agents 工作流内调用 Seedance 2.0 生成画面,无需切换工具或额外配置。

Seedance 2.0 正式集成进 Luma Agents,做 AI 短剧和视觉开发的可以直接在 Agents 里跑高质量镜头,不用切工具链了。

OpenAI 在 Codex 应用、IDE 扩展和 CLI 中上线 Goal mode 功能,支持用户设定一个目标后让 Codex 自主工作数小时甚至数天,无需逐条指令干预。该模式面向需要长时间、多步骤 AI 编程任务的场景,如批量处理、自动化工作流编排等,已开放使用。

Codex 的 Goal mode 让 AI 编程从单次指令变成持续数小时甚至数天的自主任务,做 AI 短剧工具链和自动化工作流的可以直接接 API 测一周,看能不能把批量生成脚本、分镜、字幕的流程串起来跑通。

方法与经验

Methods

FLORA 发布 Technique 功能,允许用户在画布上构建可复用的创作工作流,输入素材后一键输出成品,无需每次重新编写 prompt。该功能面向批量生产场景,降低重复劳动,适合短剧、视觉物料等需要统一风格和流程的创作任务。

FLORA 推出可一键复用的创作工作流模板,输入素材直接出成品,不用每次从头写 prompt。做 AI 短剧和视觉的可以点开链接看怎么搭,适合批量出片场景。

PixVerse 官方发布一条工作流演示:用 GPT Image 2 生成分镜图,再通过 Seedance 2.0 转成动态短片,主题为一只柯基独自在家的日常。推文附有工作流链接,需关注、转发、评论后获取。该链路展示了从静态分镜到 AI 视频成片的完整流程,适用于短剧和视觉开发场景。

PixVerse 官方演示了一条从分镜到成片的完整工作流:GPT Image 2 出分镜图,Seedance 2.0 转成动态短片。做 AI 短剧和视觉开发的可以直接套用这个链路,跑一遍看自己项目出片稳不稳。

PixVerse 官方账号分享 AI 动画工作流:先用 GPT Image 2 生成角色设定三视图(固定风格化 3D 参考图),再输入视频生成模型进行动画制作。核心思路是在动画前先明确角色定义,让视频模型保持角色一致性。具体案例为 BAOBAO 和主厨两个角色的固定风格参考图制作。

做 AI 动画的可以直接抄这个工作流:先用 GPT Image 2 定角色三视图,再喂给视频模型,角色一致性比直接生视频稳得多。

ComfyUI 官方演示:用 Seedance 2.0 生成写实格斗家与全动漫风格角色对比,结合详细提示词和参考图,工作流内嵌 LLM 辅助提示词生成,旨在实现更可控的影视级画面输出。该工作流已公开,适合在 ComfyUI 内复现。

ComfyUI 官方演示 Seedance 2.0 结合 LLM 提示词的工作流,做视觉和短剧的可以跑一遍看风格控制效果。

HeyGen 官方发布 MCP(Model Context Protocol)集成教程,指导开发者如何将 AI 视频生成能力接入自定义工作流。

HeyGen 官方出的 MCP 集成教程,做 AI 视频工作流编排的技术整合者可以直接跑一遍,看怎么把 AI 视频生成塞进现有工具链。

作品 / 案例

Works

B站UP主「有料唐呱呱」用10天时间独立完成一部AI短片,引发国内外关注,播放量近7万。题材和视觉风格偏向剧情向,角色一致性、镜头语言和叙事节奏是可拆解的核心看点。

中专生10天用AI搓出短片,海外也有热度。做AI短剧的可以拉片看低成本叙事和角色一致性处理,编导关注节奏和镜头语言怎么在有限资源下撑起来。

Pika Labs 官方发布 AI 生成情景喜剧片段(系列第 2/3 集),延续其 AI 视频生成模型在叙事性内容上的探索,主打角色互动与场景一致性。

Pika 官方发的 AI 情景喜剧片段,做 AI 短剧和视觉的可以拉片看角色互动和场景一致性处理。

Pika 官方账号转发用户 @TheJunkyardGold 及其 Pika 智能体 Curly Joe 生成的多段 AI 短片片段,涵盖动画、超现实游戏秀、真人情景剧等多种风格,展示了 Pika 模型在角色一致性和风格多样性上的能力。

Pika 官方精选的 AI 短片合集,从动画虫虫到超现实游戏秀到真人情景剧,风格跨度大,做视觉和编导的可以当风格参考拉片看。