← 全部日报

AIGC 信息日报

2026 年 7 月 1 日 周三

行业与平台动向

Industry

Google DeepMind 发布两款新模型:Nano Banana 2 Lite 是 Gemini 系列最快最便宜的图像模型,主打速度和成本;Gemini Omni Flash 通过 Gemini API 和 Google AI Studio 开放,支持开发者生成和编辑高质量视频。两个模型均已可用。

Google 连发两个模型:Nano Banana 2 Lite 是最快最便宜的 Gemini 图像模型,Gemini Omni Flash 开放 API 做视频生成和编辑。做短剧和视觉的可以直接接 API 测出片速度和画质。

Google 发布 Gemini Omni Flash,一个支持多模态工作流的高性价比视频生成模型,核心能力是用自然语言和简单提示词对视频进行对话式编辑和优化,已通过 AI Studio 和 API 开放使用。

Google 把视频生成和对话式剪辑塞进一个模型,做短剧和视觉的可以直接在 AI Studio 上手测,看自然语言改视频的流畅度到底到哪了。

Anthropic 发布 Claude Sonnet 5,定位为迄今最 agentic 的 Sonnet 版本,具备自主规划、使用浏览器和终端等工具的能力,已开放 API 调用。

Anthropic 把 Sonnet 拉到 agent 级,能自己规划、调浏览器和终端。做 AI 工作流编排和自动化管线的可以直接接 API 测一周,看它能不能当你的自动化副手。

Google DeepMind 官方博客宣布推出 Nano Banana 2 Lite 和 Gemini Omni Flash 两款新模型,面向开发者开放构建。具体参数、能力边界、API 定价和接入方式需查看博客原文。

Google 又发新模型,Nano Banana 2 Lite 和 Gemini Omni Flash 两个名字,做工具链整合的可以点开看具体参数和 API 接入方式。

Google Cloud 在 Vertex AI 上新增两款模型,旨在降低 AI 生成内容的再生时间和成本,提升可靠性和丰富度。具体模型名称、能力参数和定价细节需查看原文。

Google Cloud 给 Vertex AI 加了两款新模型,做 AI 后期和工具链集成的可以看 API 参数和定价,跑一遍看成本降多少。

Anthropic 的 Claude Code 二进制中被发现包含隐藏代码,专门检测用户是否为中国用户或通过代理访问中国。检测逻辑包括:检测代理使用时检查时区(上海/乌鲁木齐)和代理 URL。该代码被故意混淆,未在发行说明中披露,用户完全不知情。

Claude Code 二进制里挖出隐藏代码,专门检测中国用户或代理,发行说明不写、代码故意混淆。搞 AI 工具链和 Agent 开发的可以点开看具体检测逻辑,评估自己工作流有没有被卡。

FLORAai 发布视频生成模型 Omni,主打视频到视频编辑、动态图形、镜头方向控制和特效叠加能力,已开放试用。

视频生视频、动态图形、镜头控制、特效叠加全在一个模型里,做后期和视觉的可以直接上手试,省掉多工具串流程的麻烦。

Lovart 官方推文宣布其工具可将任意卡通风格内容转为真人实拍风格,推文仅含标题和链接。

Lovart 这个工具主打卡通转真人,做 IP 改编和视觉开发的可以点进去看看效果稳不稳。

Wonder Studios 发布导演 Kavan 访谈,围绕其 AI 短片《LAST RECALL》的创作过程,讨论 AI 如何降低个人创作者制作高概念影像的门槛,以及用 AI 构建世界和讲述宏大故事的可能性。

导演 Kavan 聊 AI 短片《LAST RECALL》的幕后和创作理念,做 AI 短剧和长片的可以听听一线导演怎么看待 AI 叙事工具和世界构建。

OpenClaw 推出手机客户端,支持与 AI Agent(小龙虾)配对聊天、实时/后台语音对话、Agent 操作前手机端审批确认、跨 App 分享内容,并可授权摄像头、定位、通讯录等设备权限。

AI Agent 工具出了手机端,做 AI 短剧或工具链整合的可以看看手机端审批和语音对话模式对工作流有没有用。

工具与能力更新

Tools

HeyGen 发布单次 AI 视频生成最长 30 分钟的能力,是此前行业天花板(约 5 分钟)的 6 倍。核心难点不在时长而在角色一致性——官方称其模型在长序列中能保持面部锁定不漂移。已发布技术报告,适用于 AI 长片、短剧、虚拟角色对话等需要长叙事一致性的场景。

HeyGen 把单次 AI 视频生成时长拉到 30 分钟,是行业天花板 6 倍。做 AI 长片和短剧的可以直接跑一遍,看角色一致性到底稳不稳。

Runway 宣布集成 Google Gemini Omni Flash 模型,用户可在 Runway 平台内直接通过文本、图片或视频输入,调用 Omni Flash 生成和编辑视频。该模型具备多模态推理能力,能理解物理逻辑和场景上下文,适用于视频生成、风格迁移、镜头编辑等场景。

Runway 把 Google 的 Gemini Omni Flash 模型直接塞进自家视频生成和编辑流程里,支持文生、图生、视频生。做 AI 短剧和视觉的可以接上跑一轮,看 Omni 的逻辑推理能力能不能压住 Runway 出片的废片率。

Leonardo 平台正式集成 Google Gemini Omni Flash 视频生成模型,支持从文字或参考图生成 720p、最长 10 秒的视频片段,强调画面中的光照、物理和运动逻辑符合真实叙事逻辑,而非纯模式匹配。

Leonardo 接入了 Gemini Omni Flash,出片逻辑和物理感都稳了一档,做短剧和视觉的可以直接上手跑一轮,看废片率降了多少。

Google NotebookLM 上线 Short Video Overviews 功能,可将用户上传的复杂资料(论文、报告、书籍等)自动生成为 60 秒竖屏科普短视频,深度讲解任意概念。该功能面向 Google AI Ultra 和 Pro 订阅用户(移动端和网页端)开放,免费用户即将可用。

NotebookLM 把复杂资料自动转成 60 秒竖屏科普短视频,做 AI 后期和视觉的可以蹲一下出片质感,做短剧的也能当素材快速可视化工具用。

ElevenLabs 为 ElevenAgents 推出 Procedures 功能,本质是预封装的操作流程包(playbook),让 AI 智能体在常见场景下按预设指令执行,类似员工 SOP。适用于批量配音、虚拟角色对话、客服等需要标准化流程的场景,减少每次手动配置。

ElevenLabs 给 AI 智能体加了 SOP 式流程包,做 AI 短剧批量配音、虚拟角色对话的可以直接套用预设流程,省掉每次手动调参。

Pika 官方宣布推出 MCP(Model Context Protocol)技能,支持通过 MCP 接口调用 Pika 的动画生成能力。

Pika 出了 MCP 技能,做 AI 动画和短剧的可以接上工作流试试,省掉手动切工具的步骤。

LumaLabsAI 发布新功能演示:在 Luma 平台内可一键更换天气和重打场景光,操作时间不到一分钟。该功能直接集成在现有工作流中,无需外部工具。

Luma 把换天和重打光塞进一分钟工作流,做后期和视觉的可以直接上手试,省掉传统抠图重调色的功夫。

X 开发者官方推出托管的 X MCP(Model Context Protocol)服务,允许 AI Agent 和兼容 MCP 的工具(如 Grok、Cursor)直接连接 X API,无需额外设置即可访问 X 平台的实时信息流。这降低了 AI 工具接入社交数据源的门槛,对构建自动化内容监测、舆情分析、实时数据抓取等 Agent 工作流的开发者是直接利好。

X 官方把 API 接进了 MCP 协议,搞 AI Agent 和自动化工作流的可以直接连 Grok 或 Cursor 抓实时数据,省掉自己搭中间层的功夫。

Google 为 NotebookLM 新增 60 秒竖版视频概览功能,用户上传笔记、学习指南或链接后,可自动生成一段短视频,用于拆解复杂概念。该功能由 Gemini 最新图像模型 Nano Banana 2 Lite 驱动。目前仅支持英文,适用于知识类内容的快速视频化。

NotebookLM 新增 60 秒竖版视频概览功能,上传笔记/链接自动生成短视频,底层是 Gemini 新图像模型。做 AI 后期和视觉的可以看看自动出片的质量和风格化空间。

Google NotebookLM 向 Web 英文用户全量推出 Short Video Overviews 功能,可将用户上传的复杂资料自动转化为 60 秒竖屏短视频,用于深入讲解任意概念。此前该功能仅限 AI Ultra 和 Pro 订阅者使用,免费用户即将开放。

NotebookLM 把资料自动转成 60 秒竖屏视频,做后期和内容分发的可以接过来当素材预处理工具用,省掉从零剪片的时间。

方法与经验

Methods

媒体软件公司 Every 公开「复利工程」方法论,单人工程团队维护 5 款产品。核心是四步循环:Plan→Work→Review→Compound,其中 Compound 将每次解决问题的解法写入 CLAUDE.md 和 docs/solutions/,使 AI 下次自动避坑。工程师 80% 时间花在 Plan 和 Review,仅 20% 用于写代码。配套开源插件支持 Claude Code 等,含 26 个专项 agent、23 条工作流命令、13 项技能,可零配置使用。/workflows:review 一次并发 14 个 agent 审查代码,/workflows:plan 在 ultrathink 模式下可并发 40 多个研究 agent。

做 AI 短剧和批量内容生产的团队,这套「让 AI 记住历史解法」的工程思路可以直接抄,省掉大量重复踩坑的时间。

Magnific 官方推文展示 Seedance 2.0 工作流:从文本提示直接输出电影级 3D 风格画面,无需建模。流程分两步——先用 Seedance 2.0 Mini 快速测试迭代,再用 Seedance 2.0 4K 输出最终高分辨率结果。

Magnific 官方演示 Seedance 2.0 的文本直出 3D 风格工作流,做视觉和短剧的可以当模板跑一遍,看 Mini 迭代到 4K 的出片效率。

shot-scraper 1.10 新增 shot-scraper video 命令,通过 storyboard.yml 文件定义操作步骤,利用 Playwright 录制浏览器视频。依赖 Playwright 1.61.0 的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

Simon Willison 的新工具,用 YAML 定义操作步骤就能让 AI 自动录浏览器演示视频。做 AI 工作流整合和工具链搭建的可以直接套用,省掉手动录屏的重复劳动。

个人创作者分享 Seedance 2.0 Mini 的一个实用场景:用参考视频保留动作、替换角色,适合简单动作迁移,复杂打斗场景效果一般。附有演示视频链接。

个人实测 Seedance 2.0 Mini 的换角色和动作迁移效果,做 AI 短剧和视觉的可以看看这个具体用例的成片质感。

作品 / 案例

Works

LumaLabsAI 官方账号发布 AI 短片《AOI》,导演 Paola Rocchetti,使用 Luma 制作。短片为个人叙事向作品。

Luma 官号推的 AI 短片,导演 Paola Rocchetti 作品,视觉师和编导可以拉片看 Luma 在叙事短片里的镜头质感和风格化处理。

LumaLabs 官方账号发布创作者 Anurag Tiwari 用 Luma 制作的 AI 短片《A lonely dinosaur》,讲述一只孤独恐龙通过分享冰淇淋建立友谊的温情故事。短片展示了 Luma 在角色情感表达、场景构建和叙事连贯性上的能力,属于官方精选的创作者案例。

Luma 官方推的 AI 短片,恐龙和冰淇淋的温情小故事,视觉师和编导可以拉片看 Luma 在角色情感表达上的能力边界。

PixVerse 官方账号转发创作者 Kiber_Alla 的 AI 短片系列《AWAKENING》第一集,主题围绕「五百年前人类弑神」的神话叙事,视觉风格偏暗黑史诗向。

AI 短片系列第一集,题材偏神话叙事,做 AI 短剧和视觉的可以拉片看风格和叙事节奏。