1030-AI日报｜Cursor 2.0携自研模型登场 | OpenAI开源安全卫士 | 谷歌AI工具三连发 | 实时语音合成新突破

关注AI智能体工具和资讯，跟踪大模型和AI智能体产品发展。 🪐温馨提示：不是所有的都要看，挑感兴趣用得上的看，每个人的口味和需求不一样。

聚焦AI编码、安全、应用与多模态技术的最新动态。

🔥 Big News

Cursor发布2.0重大更新，推出自研代码模型Composer Cursor 2.0版本正式发布，核心升级是推出了自研的代码模型Composer。同时，它还带来了全新的多智能体并行操作界面，开发者效率迎来飞跃。链接：https://cursor.com/cn/blog/2-0
OpenAI发布开源安全模型，可自定义审查策略 OpenAI推出了gpt-oss-safeguard，这是一个开源的安全模型。开发者可以根据自己的需求设定策略，用它来审核内容，但计算成本相对较高。链接：https://huggingface.co/collections/openai/gpt-oss-safeguard
谷歌AI营销工具Pomelli上线，输入网址即生成宣传图文 谷歌发布了一款名为Pomelli的AI营销工具。你只需要输入公司网址，它就能自动分析品牌风格，并生成配套的宣传图和文案，目前在美国、加拿大、澳大利亚和新西兰可用。
英伟达发布Vera Rubin平台，黄仁勋称算力永无止境 在GTC华盛顿大会上，英伟达CEO黄仁勋重磅介绍了新一代平台Vera Rubin。它的发布预示着AI算力将继续高速发展，再次点燃了市场热情。

🚀 AI产品与工具

ChatGPT Pulse预览版推出，主动推送个性化更新 ChatGPT Pulse功能已开放预览。它可以主动从你的聊天记录、日历等应用中获取信息，每天为你推送个性化的摘要和提醒，像个贴心秘书。
谷歌AI应用构建器上线，打字就能创建App 谷歌在其AI Studio中推出了新功能。现在，用户只需要用文字描述想要的应用，AI就能帮助你创建出来，大大降低了开发门槛。
谷歌发布AI街景导航StreetReaderAI，为视障人士引路 谷歌推出了一款小而美的AI产品StreetReaderAI。它能实时描述街景，并与你对话，还能语音播报方向和距离，对盲人等视障群体非常友好。链接：https://research.google/blog/streetreaderai-towards-making-street-view-accessible-via-context-aware-multimodal-ai/
Google Vids新功能，让PPT一键变视频 Google Vids现在可以将PPT内容转换成视频。它会自动生成一个口型同步的虚拟人来讲解PPT，合成一个完整的演示视频。链接：https://support.google.com/docs/answer/15577408
蚂蚁数科Agentar入选国际标准，打造“金融AI大脑” 蚂蚁数科的Agentar知识工程平台，通过构建智能决策系统，解决了金融机构的数据孤岛问题。该案例已成功入选国际标准金融应用卓越案例。
YouMind 0.5发布，一站式AI内容创作工作室 YouMind发布了0.5版本，定位为一站式的AI内容创作工作室，旨在帮助用户更高效地完成各种内容的创作。

🎨 AI绘画视频音乐

Cartesia发布Sonic 3模型，挑战ElevenLabs地位 Cartesia公司发布了Sonic 3文本转语音（TTS）模型，它能生成富有感情的音频，支持42种语言，速度极快。这被视为对行业领导者ElevenLabs的直接挑战，同时公司宣布融资1亿美元。
MiniMax Speech 2.6震撼登场，延迟低至250毫秒 国产大模型公司MiniMax发布了其语音合成模型2.6版。它实现了超低延迟，接近人类对话的反应速度，并且仅需30秒音频就能克隆任何音色。
Sora APP更新，支持创建虚拟角色 备受关注的Sora App迎来更新。现在，用户可以创建虚拟角色，并在不同视频中保持角色形象一致。不过，目前还不支持生成真人角色。
xAI的Grok Imagine迎来更新，新增视频生成功能 xAI宣布其iOS版的Grok Imagine工具将支持视频生成。用户可以通过文字或图片提示来创作高清视频，进一步降低了AI视频创作的门槛。
TikTok推出AI剪辑工具“Smart Split” TikTok发布了新的AI剪辑工具“Smart Split”。它可以自动将长视频剪辑成适合平台的短视频，并配上字幕，帮助创作者提高效率。
ElevenLabs推出Music工具，为视频添加AI配乐 音频AI公司ElevenLabs发布了一款新工具“ElevenLabs Music”。用户可以用它来为自己的视频快速生成原创的背景音乐。

🔬 技术重点研究

微软开源Agent Lightning项目，轻松优化AI智能体 微软技术团队开源了一个名为“Agent Lightning”的项目。它是一个AI框架，可以帮助开发者轻松地为AI Agent加上自我优化的能力，且无需重构现有系统。链接：https://arxiv.org/abs/2508.03680v1
通用游戏AI智能体Game-TARS发布，多款游戏表现超越GPT-4.5 一个新的通用游戏AI智能体Game-TARS问世。它通过模拟人类使用键盘和鼠标来玩游戏，在多款游戏中的表现甚至超过了GPT-4.5。
智源发布Emu3.5大模型，重构多模态智能 北京智源人工智能研究院发布了Emu3.5大模型。它采用创新的“下一状态预测”框架，在需要动手操作的具身智能任务上表现惊艳。
AI能察觉自身“想法”吗？研究发现Claude模型具备初步内省能力 Anthropic公司的研究发现，像Claude这样的大模型似乎能意识到自己的“内在想法”。虽然这种能力尚不可靠，但这标志着我们对AI心智理解的重要一步。链接：https://www.anthropic.com/research/introspection
IBM发布Granite 4.0 Nano系列小模型，主打印指令遵循和工具调用 IBM发布了四款小巧的开源模型Granite 4.0 Nano。这些模型参数量小，专注于在手机等终端设备上高效运行，特别擅长理解指令和调用工具。

🌐 行业资讯

奥特曼：OpenAI上市势在必得，并承认GPT-4o发布搞砸了 OpenAI CEO山姆·奥特曼在一次谈话中明确表示，公司上市是必然选择。他还坦诚，关于GPT-4o的发布，他们“搞砸了”，并透露了公司到2028年的未来路线图。
GitHub报告：AI助力下，TypeScript成为最受欢迎编程语言 GitHub的年度报告显示，每秒钟都有一位新开发者加入该平台。在AI的推动下，TypeScript已超越其他语言，成为开发者中最受欢迎的编程语言。
美国AI公司开始青睐“中国制造”的大模型 行业出现一个新趋势：一些美国的AI公司开始在其产品和服务中，采用由中国公司开发的大模型。
具身智能测评基准EmbodiedCLUE启动 首个针对“视频语言智能体”（VLA）的专项基准方案EmbodiedCLUE已发布并启动测评，旨在为具身智能机器人的发展提供标准。
宇树科技预告新产品，引发市场期待 知名的机器人公司宇树（Unitree）发布预告，暗示即将推出新产品，引发了科技爱好者和市场的广泛关注。