2026-06-09

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

面壁智能 OpenBMB 发布 VoxCPM2 技术报告，2B 参数语音生成模型，基于超 200 万小时多语言数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力，采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

2B 参数语音模型开源，支持 30 种语言和 9 种中文方言，带可控语音克隆。做 AI 配音和后期声音的可以直接下权重跑，微调代码和推理工具都给了。

02 @ViggleAI Viggle API 上线：任意角色任意动作秒级生成

Viggle AI 正式推出 Viggle API，支持通过一次 API 调用为任意角色添加任意动作，数秒内生成动画。起价 $0.01/秒，注册即获 100 次免费额度，可接入 Claude、Codex 或自定义智能体。适用于角色动画、短剧素材批量生成、视觉开发等场景。

Viggle 把角色动画能力打包成 API 了，0.01 美元/秒，100 次免费额度。做短剧和视觉开发的可以直接接进工作流，批量生成角色动作素材，省掉逐帧手调的时间。

工具与能力更新

Tools

03 @Alibaba_Wan New feature alert on Wan

阿里 Wan 视频生成模型上线新功能 Character X，支持一键创建统一角色面部，可用于定制头像、新角色或独特身份，无需额外训练 LoRA 或手动调参。

Wan 官方上线角色一致性功能，一键生成统一角色脸，做短剧和角色 IP 的可以直接上手测，省掉手动调 LoRA 的功夫。

04 公众号 Kimi Code 焕新升级（附视频教程）

Kimi Code 开源 Coding Agent 大版本升级：一行命令安装，毫秒级启动；新增视频理解能力，支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码；集成同花顺、天眼查等数据源；支持 ACP 协议，可在 JetBrains、Zed 中使用；底层视觉推理由 Kimi K2.6 模型提供。

Kimi Code 这次升级对视觉和后期创作者有直接价值：视频理解能力能提取风格生成 LUT、长视频切片、根据录屏生成代码。做 AI 工作流整合的可以接 ACP 协议塞进 JetBrains/Zed 用。

05 @ChatGPTapp ChatGPT 新增数据图表生成功能

ChatGPT 官方宣布新增数据图表生成功能，用户可直接在对话中将数据或比较转化为图表，无需切换第三方工具。该功能已同步上线移动端和网页端。

ChatGPT 现在能直接生成图表，做方案汇报、数据可视化、提案展示的可以省掉切工具的时间，网页端和移动端都能用。

06 @NotebookLM NotebookLM重大升级：智能体能力与高级推理

Google 旗下 NotebookLM 推出重大升级，新增对话中的智能体能力、更高级的推理，以及新的输出格式，可处理复杂的多步骤研究问题。该功能已面向 Google AI Ultra 订阅者开放。

NotebookLM 升级了智能体推理和多步研究能力，做 AI 编程、Agent 工作流整合的可以接 API 测一周，看能不能当研究助手用。

07 IT之家微信AI官宣内测：两种接入模式供开发者选择

微信AI今日官宣内测，开放平台提供两种接入模式：自动模式可授权平台读取小程序源码，无需额外开发即可让微信AI直接操作页面；开发模式下开发者可自主开发技能，审核后由微信AI调用。两种模式可同时开启。微信AI是微信内的AI助手，用户通过自然语言对话即可调用、访问和操作小程序。服务条款称"微信AI"可能非最终名称。接入与否不影响现有小程序服务。

微信AI开放内测，两种接入模式让小程序开发者不用写代码就能让AI操作页面。做AI短剧分发、小程序互动叙事的可以关注这个入口，省掉自建对话系统的成本。

08 @OpenRouter OpenRouter Advisor 助小模型问高级模型

OpenRouter 推出 Advisor 新功能：允许低成本的「小模型」在遇到复杂问题时，自动向一个更高智能的「顾问」模型（如 GPT-4o、Claude 3.5 Sonnet）发起咨询，帮助小模型跳出推理困境或错误循环。该功能旨在降低 API 调用成本，让用户在不牺牲关键任务质量的前提下，将更多常规任务迁移到更便宜的模型上。

OpenRouter 新出的 Advisor 功能，让便宜小模型卡住时自动问贵模型，做 AI 短剧批量生产的可以接上省 API 成本，技术整合者直接跑一遍看效果。

方法与经验

Methods

09 HuggingFace Daily Papers dots.tts 技术报告

dots.tts 是一个 2B 参数的开源连续自回归 TTS 模型，核心创新包括多目标训练的 AudioVAE 构建连续语音空间、全历史条件 flow-matching 头保证长文一致性、无奖励自纠正后训练提升鲁棒性。在 Seed-TTS-Eval 上中文 WER 0.94%、英文 1.30%、中文-hard 6.60%，SIM 分别为 81.0/77.1/79.5，达开源 SOTA。推理延迟低：输出流首包 85ms，双流 54ms。训练推理代码及检查点已开源。

2B 参数的开源 TTS 基座模型，中文 WER 低至 0.94%，推理首包 85ms。做 AI 配音、后期、虚拟角色对白的可以直接拉代码跑一遍，看音质和长文一致性够不够进生产管线。

10 @xiaohu 小互开源视频翻译工具：一句话自动下载、转写、翻译、烧字幕

小互开源视频翻译工具，一句话指令即可全自动完成视频下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行不花API费，支持YouTube、B站、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex等AI编程工具，已开源附安装指南。

后期和短剧团队做海外素材本地化、多语言字幕批量生产的，可以直接拉下来跑一遍，省掉手动转写翻译的环节。

11 @perplexity_ai Perplexity与哈佛：AI智能体提效87%降本94%

Perplexity 与哈佛大学联合发布研究，对比自主 AI 智能体（Computer）与纯搜索界面在知识工作场景中的效率。3 个月实验数据显示，使用 Computer 的工人完成任务速度快 87%，成本低 94%，且用户满意度更高。研究指向从聊天界面转向自主智能体的工作流变革。

Perplexity 和哈佛联合出的研究，数据扎实：自主 AI 智能体比纯搜索快 87%、省 94% 成本。做 AI 工作流编排和自动化管线的技术整合者值得细读，制片人也可以拿这个数据去算团队提效空间。

12 @cuisitekp Openclaw 作者 Peter Steinberger …

Openclaw 作者 Peter Steinberger 提出 Loop Engineering 概念，主张构建闭环系统替代手动写 Prompt 和盯 Agent 跑代码：系统自动 prompt agent、跑结果、判断对错、决定下一步。核心是从单次交互转向可自循环的任务设计。

做 AI 短剧批量生产或工具链整合的，可以看看 Loop Engineering 的思路——把 Agent 从单次对话变成自动闭环，省掉反复盯 Prompt 的人力。

13 @EHuanglu AI 演员变得越来越吓人了…… 花了 2 天时间制作这部短片…

创作者 @EHuanglu 发布 AI 短片，声称耗时 2 天制作，主题聚焦 AI 演员对真人演员的冲击。推文附有提示词和工作流链接（buzzy 平台）。

个人创作者 2 天出片，附了提示词和工作流链接，做 AI 短片的可以直接扒流程跑一遍，看 2 天能到什么质感。

14 @mranti 我已经不订阅DeepL，因为这两个月，我逐步写好了自己用的e…

个人开发者 Michael Anti 用 DeepSeek V4 Flash 自建 epub/pdf/OCRpdf 翻译程序，并发引擎加审查 fallback，称古文和汉语人名翻译效果远超 DeepL。

个人开发者用 DeepSeek V4 Flash 自建翻译管线，专治古文和汉语人名翻译痛点。搞 AI 后期字幕和本地化翻译的可以看看这个思路，自己搭一套也不难。

作品 / 案例

Works

15 B站「AI 短片/短剧/视频」搜索 18万积分手搓AI武侠《山海·剑歌》／打爽就完事儿了

北京必火制作出品的AI武侠短片《山海·剑歌》，设定为古代废土西北地区的打劫事件，全片仅用Seedance 2.0单工具链制作，耗时一两个月，创作者自述人物一致性有瑕疵、视听语言不完美，但核心思路是“先做出来再说”。

废土武侠AI短片，全片只用Seedance 2.0单工具链搓完，做短剧的可以拉片看单工具链下的角色一致性和镜头处理，预算有限时怎么取舍。