1106-AI日报|AI视频翻译炸场 | Comfy Cloud公测 | Gemini 3 Pro现身 | 具身智能迎“缩放定律”

聚焦AI音视频、云端创作、大模型进展及智能硬件的最新动态。


🔥 Big News

  1. HeyGen发布炸场级AI视频翻译,唇形同步精准到毫秒 HeyGen发布了新一代视频翻译引擎。该技术能让视频中的外国人轻松说出地道的中文,不仅翻译准确,唇形同步也极其精准,误差仅在毫秒级,堪称革命性突破。 链接:https://www.heygen.com/translate
  2. 谷歌Gemini 3 Pro预览版现身,支持百万级上下文窗口 最新的Gemini-3-Pro预览版模型已在谷歌Vertex AI平台被发现。它支持高达100万token的超长上下文窗口,预计将在多模态推理和智能体能力上超越GPT-4o。
  3. Comfy Cloud公测,浏览器里秒开Stable Diffusion AI绘画神器ComfyUI的云端版本Comfy Cloud正式开启公测。用户无需复杂的本地部署和高端显卡,就能在浏览器里直接使用专业级的AI图像生成工作流,真正实现零门槛创作。 链接:https://cloud.comfy.org/ 640
  4. Anthropic展示构建高效AI智能体新方法,token消耗降低98% AI公司Anthropic介绍了通过代码执行和多步推理链(MCP)构建高效AI智能体的方法。这种方法可以将完成任务所需的token消耗从15万锐减至2千,大幅提升了智能体的运行效率。

🤖 智能体与机器人

  1. 具身智能首次踏入“缩放定律”时代 初创公司Generalist AI发布了名为GEN-0的具身智能基础模型。该模型基于27万小时的真实世界数据训练,参数超过100亿,首次揭示了机器人技术也遵循“模型越大,能力越强”的缩放定律(Scaling Law)。 链接:https://generalistai.com/blog/nov-04-2025-GEN-0
  2. 10分钟教会机器人工作?上海AgiBot重写制造业规则 上海的AgiBot公司开发出一种新技术。通过人机远程操作和强化学习,他们的人形机器人能在10分钟内学会并执行复杂的制造任务,目前已在工厂投入使用。
  3. 小鹏发布新一代人形机器人IRON,可定制性别 小鹏汽车在技术日上发布了其新一代人形机器人IRON。这款机器人不仅在运动能力上有所提升,还可以根据需求定制性别。
  4. 谷歌AI Mode新增Agentic能力,可自动执行任务 谷歌的AI Mode(AI模式)增加了新的Agentic智能体化)能力。现在,AI不仅能理解你的需求,还能自动为你执行任务,甚至提供直接的购买链接。
  5. 微软开源AI智能体训练加速器agent-lightning** 微软开源了一个名为agent-lightning的项目。它是一个智能体训练加速器,可以在不改动任何代码的情况下,让AI Agent实现自我学习和持续优化,变得越来越聪明。

🚀 大模型与技术

  1. 科大讯飞发布全国产算力大模型星火X1.5 科大讯飞发布了基于全国产算力平台训练的星火X1.5大模型。该模型性能达到国际主流水平,支持超过130种语言,为国内AI行业提供了有力的“第二选择”。
  2. 字节跳动开源BindWeave视频模型,支持多人物参考 字节跳动开源了一款名为BindWeave的AI视频模型。该模型能够基于多个参考图像,生成主体一致、细节丰富的高质量视频,尤其擅长处理多人物场景。
  3. 微信AI提出CALM模型,重塑大模型效率边界 微信AI与清华大学合作,提出了一种“连续自回归语言模型”(CALM)。这种新的模型架构旨在重塑大模型的效率边界,让模型运行得更快、更省资源。
  4. ChatGPT新增实用小功能:随时更新上下文 ChatGPT上线了一个小而实用的功能。现在,当AI在执行长任务时,你可以随时暂停它,补充或修改你的提示词,然后再让它继续执行,避免了因信息遗漏而导致的重新开始。

🎨 AIGC应用

  1. QQ浏览器推出“AI+”小窗,浏览时随时唤起 QQ浏览器电脑版推出了“AI+”悬浮小窗功能。它可以根据你正在浏览的网页内容,智能推荐AI工具,如视频总结、网页摘要等,让你即用即走。
  2. 谷歌Gemini推出“深度研究”功能,整合邮件文件生成报告 谷歌Gemini AI新增了一项名为“深度研究”的功能。它可以自动从你的Gmail、谷歌云端硬盘等应用中提取信息,为你生成智能研究报告,堪称打工利器。
  3. 兔展&北大Uniworld V2模型发布,中文处理能力超越NanoBanana 由兔展和北京大学联合推出的Uniworld V2模型正式发布。该模型在中文理解和细节控制方面表现出色,据称已超越谷歌的NanoBanana。

🌐 行业资讯

  1. 传闻:苹果明年或将使用谷歌Gemini驱动新款Siri 据彭博社报道,苹果计划在明年的新款Siri中使用谷歌定制的Gemini大模型。为此,苹果可能每年需向谷歌支付高达10亿美元的费用。 来源:https://www.bloomberg.com/news/articles/2025-11-05/apple-plans-to-use-1-2-trillion-parameter-google-gemini-model-to-power-new-siri
  2. 谷歌的“太空算力”狂想:要把AI数据中心搬上天 谷歌公布了一项大胆的计划:探索将AI数据中心部署到太空的可能性。此举旨在利用太空环境解决散热等问题,并为全球提供无处不在的AI算力。 链接:https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
  3. 亚马逊就数据抓取问题向AI搜索公司Perplexity发出法律威胁 据报道,由于AI搜索公司Perplexity在抓取网页内容时绕过了亚马逊的保护机制,亚马逊已向其发出法律威胁。
  4. 英国法官裁定:AI图像生成器Stable Diffusion并非“侵权复制品” 在一项备受关注的案件中,英国法官做出裁决,认定AI图像生成器Stable Diffusion本身并不构成对版权作品的“侵权复制”,这对AI生成内容的法律界定具有重要意义。
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容