← 全部日报AIGC 信息日报Daily Digest
2026-06-09 · 周二
15 条 · 4 板块
Daily Digest

2026-06-09

为影视导演 / 编导 / AIGC 创作者精选 — 每天 8 点准时送达

行业与平台动向

Industry

面壁智能 OpenBMB 发布 VoxCPM2 技术报告,2B 参数语音生成模型,基于超 200 万小时多语言数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力,采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

2B 参数语音模型开源,支持 30 种语言和 9 种中文方言,带可控语音克隆。做 AI 配音和后期声音的可以直接下权重跑,微调代码和推理工具都给了。

Viggle AI 正式推出 Viggle API,支持通过一次 API 调用为任意角色添加任意动作,数秒内生成动画。起价 $0.01/秒,注册即获 100 次免费额度,可接入 Claude、Codex 或自定义智能体。适用于角色动画、短剧素材批量生成、视觉开发等场景。

Viggle 把角色动画能力打包成 API 了,0.01 美元/秒,100 次免费额度。做短剧和视觉开发的可以直接接进工作流,批量生成角色动作素材,省掉逐帧手调的时间。

工具与能力更新

Tools

阿里 Wan 视频生成模型上线新功能 Character X,支持一键创建统一角色面部,可用于定制头像、新角色或独特身份,无需额外训练 LoRA 或手动调参。

Wan 官方上线角色一致性功能,一键生成统一角色脸,做短剧和角色 IP 的可以直接上手测,省掉手动调 LoRA 的功夫。

Kimi Code 开源 Coding Agent 大版本升级:一行命令安装,毫秒级启动;新增视频理解能力,支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码;集成同花顺、天眼查等数据源;支持 ACP 协议,可在 JetBrains、Zed 中使用;底层视觉推理由 Kimi K2.6 模型提供。

Kimi Code 这次升级对视觉和后期创作者有直接价值:视频理解能力能提取风格生成 LUT、长视频切片、根据录屏生成代码。做 AI 工作流整合的可以接 ACP 协议塞进 JetBrains/Zed 用。

ChatGPT 官方宣布新增数据图表生成功能,用户可直接在对话中将数据或比较转化为图表,无需切换第三方工具。该功能已同步上线移动端和网页端。

ChatGPT 现在能直接生成图表,做方案汇报、数据可视化、提案展示的可以省掉切工具的时间,网页端和移动端都能用。

Google 旗下 NotebookLM 推出重大升级,新增对话中的智能体能力、更高级的推理,以及新的输出格式,可处理复杂的多步骤研究问题。该功能已面向 Google AI Ultra 订阅者开放。

NotebookLM 升级了智能体推理和多步研究能力,做 AI 编程、Agent 工作流整合的可以接 API 测一周,看能不能当研究助手用。

微信AI今日官宣内测,开放平台提供两种接入模式:自动模式可授权平台读取小程序源码,无需额外开发即可让微信AI直接操作页面;开发模式下开发者可自主开发技能,审核后由微信AI调用。两种模式可同时开启。微信AI是微信内的AI助手,用户通过自然语言对话即可调用、访问和操作小程序。服务条款称"微信AI"可能非最终名称。接入与否不影响现有小程序服务。

微信AI开放内测,两种接入模式让小程序开发者不用写代码就能让AI操作页面。做AI短剧分发、小程序互动叙事的可以关注这个入口,省掉自建对话系统的成本。

OpenRouter 推出 Advisor 新功能:允许低成本的「小模型」在遇到复杂问题时,自动向一个更高智能的「顾问」模型(如 GPT-4o、Claude 3.5 Sonnet)发起咨询,帮助小模型跳出推理困境或错误循环。该功能旨在降低 API 调用成本,让用户在不牺牲关键任务质量的前提下,将更多常规任务迁移到更便宜的模型上。

OpenRouter 新出的 Advisor 功能,让便宜小模型卡住时自动问贵模型,做 AI 短剧批量生产的可以接上省 API 成本,技术整合者直接跑一遍看效果。

方法与经验

Methods

dots.tts 是一个 2B 参数的开源连续自回归 TTS 模型,核心创新包括多目标训练的 AudioVAE 构建连续语音空间、全历史条件 flow-matching 头保证长文一致性、无奖励自纠正后训练提升鲁棒性。在 Seed-TTS-Eval 上中文 WER 0.94%、英文 1.30%、中文-hard 6.60%,SIM 分别为 81.0/77.1/79.5,达开源 SOTA。推理延迟低:输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。

2B 参数的开源 TTS 基座模型,中文 WER 低至 0.94%,推理首包 85ms。做 AI 配音、后期、虚拟角色对白的可以直接拉代码跑一遍,看音质和长文一致性够不够进生产管线。

小互开源视频翻译工具,一句话指令即可全自动完成视频下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行不花API费,支持YouTube、B站、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex等AI编程工具,已开源附安装指南。

后期和短剧团队做海外素材本地化、多语言字幕批量生产的,可以直接拉下来跑一遍,省掉手动转写翻译的环节。

Perplexity 与哈佛大学联合发布研究,对比自主 AI 智能体(Computer)与纯搜索界面在知识工作场景中的效率。3 个月实验数据显示,使用 Computer 的工人完成任务速度快 87%,成本低 94%,且用户满意度更高。研究指向从聊天界面转向自主智能体的工作流变革。

Perplexity 和哈佛联合出的研究,数据扎实:自主 AI 智能体比纯搜索快 87%、省 94% 成本。做 AI 工作流编排和自动化管线的技术整合者值得细读,制片人也可以拿这个数据去算团队提效空间。

Openclaw 作者 Peter Steinberger 提出 Loop Engineering 概念,主张构建闭环系统替代手动写 Prompt 和盯 Agent 跑代码:系统自动 prompt agent、跑结果、判断对错、决定下一步。核心是从单次交互转向可自循环的任务设计。

做 AI 短剧批量生产或工具链整合的,可以看看 Loop Engineering 的思路——把 Agent 从单次对话变成自动闭环,省掉反复盯 Prompt 的人力。

创作者 @EHuanglu 发布 AI 短片,声称耗时 2 天制作,主题聚焦 AI 演员对真人演员的冲击。推文附有提示词和工作流链接(buzzy 平台)。

个人创作者 2 天出片,附了提示词和工作流链接,做 AI 短片的可以直接扒流程跑一遍,看 2 天能到什么质感。

个人开发者 Michael Anti 用 DeepSeek V4 Flash 自建 epub/pdf/OCRpdf 翻译程序,并发引擎加审查 fallback,称古文和汉语人名翻译效果远超 DeepL。

个人开发者用 DeepSeek V4 Flash 自建翻译管线,专治古文和汉语人名翻译痛点。搞 AI 后期字幕和本地化翻译的可以看看这个思路,自己搭一套也不难。

作品 / 案例

Works

北京必火制作出品的AI武侠短片《山海·剑歌》,设定为古代废土西北地区的打劫事件,全片仅用Seedance 2.0单工具链制作,耗时一两个月,创作者自述人物一致性有瑕疵、视听语言不完美,但核心思路是“先做出来再说”。

废土武侠AI短片,全片只用Seedance 2.0单工具链搓完,做短剧的可以拉片看单工具链下的角色一致性和镜头处理,预算有限时怎么取舍。