← 全部日报AIGC 信息日报Daily Digest
2026-06-18 · 周四
25 条 · 4 板块
Daily Digest

2026-06-18

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

xAI 发布 Imagine Video 1.5,API 已开放,同时面向消费者推出 Video 1.5 Fast 版本,画质提升且等待时间大幅缩短。720p 视频渲染时间从上一代的 40 秒以上降至约 25 秒。

xAI 视频模型大版本更新,API 和消费端同步上线,720p 出片从 40 秒压到 25 秒,做短剧和视觉的可以直接接 API 测一周出片效率。

阿里云6月17日发布开放式世界模型HappyOyster 1.0,基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面,保持人物和环境长程一致性。官网开放「实时导演」(随时叫停改写故事、与虚拟男友实时互动等)与「世界探索」(自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互)两种玩法。4月16日已开放内测,即日起至7月17日官网不定期掉落体验积分。

阿里云把实时交互世界模型做出来了,一句话生成还能边跑边改。做互动短剧和虚拟角色的可以直接上手试「实时导演」玩法,看交互叙事能玩到什么程度。

天工 AI 推出 Skywork Design,将设计能力迁移至无限画布。用户输入需求即可生成完整页面组(首页、流程页、仪表盘等),支持逐页迭代并锁定品牌资产(Logo、配色、版式),确保多页面风格一致。

从一句话描述到整站页面布局,AI 设计工具又卷了一步。做视觉和美术总设的可以上手测,看品牌资产锁定和页面级迭代的实际体验。

Claude 6月17日更新Design功能,支持跨项目统一设计系统,可从GitHub、设计文件或原始上传导入,团队管理员可锁定标准系统防止篡改。编辑器支持拖拽、对齐、缩放,稳定性提升。新增桌面端侧边栏入口及独立网页端claude.ai/design。支持导出PDF、PPT,集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。

做视觉开发和品牌物料管理的团队可以直接把设计系统导入Claude Design,跨项目保持视觉一致性,省掉反复对稿的环节。

火山引擎Kickart 3.0(原“创作Agent”)正式上线,核心升级为对话式视频生成模式,用户通过多轮自然语言对话调整商品图、故事板并生成营销视频。新增“爆款裂变”能力:上传视频链接后自动拆解爆款逻辑并重构至新商品视频。平台已接入Seedance 2.0 mini,支持SaaS、API及Skill多种交付方式,并内置抖音电商内容合规与质量预审核功能。

火山引擎把营销视频生成工具升级到3.0,对话式出片+爆款拆解+抖音合规预审一条龙,做短剧和广告投放的可以接API跑一轮,看批量出片效率能提多少。

HeyGen 宣布其视频生成产品 HyperFrames 正式上线 Grok 平台。Grok 的任意回答可在几分钟内自动生成一条完整视频,官方演示视频即由该功能生成。面向 Grok 用户提供从文本到视频的端到端生成能力,适用于快速内容生产与短剧批量制作场景。

HeyGen 把 HyperFrames 塞进 Grok,Grok 的回答能直接转成视频。做短剧和内容批量的可以接上 Grok 的 API 试一轮,看自动出片的质量和速度。

ComfyUI 官方预告一场直播对谈:Ideogram CEO Mohsen Norouzi 与 ComfyUI CEO Yoland Yan 将讨论开源文生图模型现状、开源权重 vs 闭源 API 的竞争格局,以及下一步发展方向。直播时间待定,链接已发布。

Ideogram 和 ComfyUI 两位 CEO 对谈,聊开源文生图模型 vs 闭源 API 的现状和下一步。做工作流整合和模型选型的可以蹲回放听一手判断。

工具与能力更新

Tools

Runway 在 API 中推出 Recipes 功能,将 Runway 自有的 prompt 和 workflow 经验封装为可直接调用的 API 端点,开发者无需自行构建或维护工作流,即可在平台中集成生产级生成式媒体功能。

Runway 把自家 prompt 和 workflow 经验打包成 API 端点,做工具链整合的可以直接接,省掉自己搭工作流的功夫。

FLORA 推出局部重绘新功能:在 prompt 中用 @ 引用画布上任意已有图像作为参考,模型会基于该参考图进行局部重绘,无需再用文字描述目标风格或角色外观。适用于保持产品、角色、场景的视觉一致性,减少反复调参。

FLORA 把局部重绘升级成「引用画布任意图」做参考,不用再靠文字描述碰运气。做角色/产品视觉一致性的可以直接上手试,省掉反复调 prompt 的功夫。

Midjourney 为 V8.1 模型推出 big-batch draft 模式,一次生成 24 张低分辨率图像,价格仅为标准 4 张图的一半。用户选中满意结果后,可通过 Vary 功能将其升级为全分辨率版本。该模式面向需要大量快速出图筛选概念方向的创作者,大幅降低前期视觉探索的试错成本。

Midjourney 出了个省钱模式:24 张低分辨率图只要标准 4 张图一半的价,看中哪张点 Vary 再升全分辨率。做短剧批量出角色/场景概念图的可以直接当草稿箱用,省预算利器。

AI 推理平台 fal 正式上线 1080p 图生视频和文生视频能力,同时保留 720p 选项。用户可通过官方链接直接体验,无需额外配置。这是 fal 在视频生成分辨率上的重要升级,此前仅支持 720p。

fal 把图生视频和文生视频都推到 1080p 了,做短剧和视觉的可以直接跑一遍看画质和一致性有没有跟上。

fal 上线新版 LTX 2.3 LoRA Trainers,覆盖 23 个训练端点,支持 audio to video、video to video、image to video、outpaint、text to audio 等生成与编辑工作流,可直接在 fal 平台训练自定义 LoRA。

fal 把 LTX 2.3 LoRA 训练器铺到 23 个端点,覆盖音视频双向生成和编辑,做工作流整合的可以直接接 API 跑自定义 LoRA。

Claude Code v2.1.181 发布,新增 `/config key=value` 语法可在提示中直接设置配置项,新增 `sandbox.allowAppleEvents` 选项,新增 `CLAUDE_CLIENT_PRESENCE_FILE` 环境变量抑制移动端推送。内置 Bun 升级至 1.4,改进长段落流式输出(逐行显示)和 API 中断自动重试。子 agent 面板优化:空闲 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

Claude Code 小版本更新,修了不少启动和网络重试的痛点。做 AI 编程工作流整合的可以升一下,长段落流式输出和子 agent 面板优化对日常写脚本效率有提升。

Replit 宣布与 Claude Design 联动,用户可将 Claude Design 中的设计稿直接发送至 Replit 平台,自动生成可运行的应用。该功能打通了从设计到开发的关键环节,减少手动编码和工具切换成本。对 AIGC 技术整合者和快速原型验证场景有直接价值。

Claude Design 和 Replit 打通了,设计稿一键变可运行应用。做 AI 工具链整合和原型快速验证的可以直接上手试,省掉中间切工具的手工活。

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计,任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。

本地跑动画导出,后期和整合师可以直接拉下来跑一遍,看帧帧精确的截图方案稳不稳。

方法与经验

Methods

ComfyUI 官方账号展示创作者 seungho__yeo 的工作流:用 Hyper POV 节点 + Seedance 2 模型,从单张静态图生成多机位 POV 镜头序列,替代传统实拍所需的摄影机位、场地勘景和多镜头编排。

ComfyUI 官方推的 POV 镜头工作流,用单张图+Seedance 2 出多机位效果,做 AI 短剧和视觉开发的可以跑一遍看镜头调度上限。

VFX 艺术家 @heydoughogan 在 ComfyUI 上搭建了一套天空替换工作流:输入实拍素材后逐帧解码,用图像模型重写天空(白天→日落、风暴等),生成完整的动态氛围而非静态贴图替换,且能锁定镜头运动。

VFX 师用 ComfyUI 做天空替换工作流,不只是贴图而是生成动态氛围,后期和视觉师可以直接跑一遍看效果稳不稳。

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如"移动并旋转桌上放水果的木碗"),预测未来数秒内这些点的3D轨迹。提供自回归(AR)和流匹配(FM)两个变体,同时开源了含116万视频的MolmoMotion-1M数据集和PointMotionBench基准测试。模型权重、数据集和基准测试均已开源。

一个能根据文字指令预测物体3D运动轨迹的开源模型,做AI动画和视觉特效的可以看看能不能接进工作流里做自动运动匹配。

Lovart 团队跟风「自拍变游戏加载画面」趋势,用一张自拍生成希腊神话风格标题画面,含动态背景和可交互 HTML 菜单。推文附完整工作流链接。

一个把自拍变游戏加载画面的玩法,视觉师可以当风格参考,工作流链接在推文里,想复现的直接点开跑一遍。

作品 / 案例

Works

Pika Labs 官方发布 AI 短片《Dinner: A Broccumentary》,标题为 broccoli(西兰花)与 documentary(纪录片)的文字组合,推测为一部以西兰花为主题的 AI 生成短片。

Pika 官方发的新短片,标题玩了个 broccoli + documentary 的文字梗,视觉师和编导可以点开看看 Pika 现在的出片质感到了什么程度。

创作者 WHORANGE 用 Midjourney 风格参考(--sref 3733128026 --v 7)制作了一部短片,风格为图形化构图、象征性角色、黑暗童话插画质感。个人创作者独立完成,展示了从单帧风格到连贯叙事的转化能力。

个人创作者用 Midjourney 风格参考做了一部短片,视觉师和编导可以拉片看图形化构图和象征性角色怎么撑起叙事。

小红书作者「数字生命卡兹克」发布 AI 模拟实验视频,让 5 个 AI 文明在虚拟世界中自主演化、互动直至灭亡。视频展示了 AI 驱动的多智能体叙事实验,适合关注 AI 叙事和短剧创意的创作者参考。

卡兹克用 AI 模拟文明演化的实验视频,做 AI 短剧和叙事实验的可以看看他如何用 AI 驱动多角色、多文明互动,当个叙事灵感参考。

小红书作者「中二班班长」发布的 AI 动画短片,由三位北大理工男在 36 小时内完成制作并获奖。短片题材和视觉风格偏二次元/动画向,展示了小团队在极短周期内完成 AI 叙事成片的可能性。

三个北大理工男 36 小时做出来的 AI 动画短片,做短剧和编导的可以拉片看看学生团队在极限时间下的叙事取舍和视觉风格处理。

James Yeung 发布 AI 短片《哨站 III》,个人创作者作品,视觉风格偏科幻/末世题材。

个人创作者 AI 短片新作,视觉师和编导可以拉片看风格和镜头处理。