1116-AI日报 | GPT-5.1与文心5.0齐发 | 李飞飞推“造梦神器” | AI版权引争议

关注AI智能体工具和资讯,跟踪大模型和AI智能体产品发展。

聚焦全球AI技术、产品与市场最新动态。


重磅新闻

  1. 李飞飞团队发布“造梦神器”Marble 斯坦福大学李飞飞团队推出名为Marble的工具,仅需一句话或一张图,就能快速生成高保真、可交互的3D虚拟世界。fdf1f470d6fbccabfcb4f5083d35ca7a
  2. OpenAI发布GPT-5.1系列模型 OpenAI对GPT-5进行了重要升级,推出GPT-5.1系列。新模型旨在提升智能水平,并使AI对话交互更自然、更富人性化。
  3. 文心5.0正式发布,主打“原生全模态” 百度推出文心大模型5.0版本,其核心亮点是“原生全模态”能力,实现了对语言、图像、视频、音频等多种信息形式的统一理解与生成。
  4. Anthropic豪掷500亿自建数据中心 为应对日益增长的算力需求,AI公司Anthropic计划投入500亿美元自建数据中心,标志着全球AI领域的军备竞赛再度升级。
  5. 《纽约时报》与OpenAI对峙升级 《纽约时报》要求OpenAI交出2000万条用户与ChatGPT的私人对话记录,以调查其内容是否被用于绕过付费墙。OpenAI以严重侵犯用户隐私为由拒绝了该请求。
  6. Meta AI领军人物Yann LeCun计划离职创业 图灵奖得主、Meta AI的首席科学家Yann LeCun被传计划离职,并准备开启自己的AI创业项目,引发行业高度关注。

AI智能体与大模型

  1. 百度推出自进化AI代理Famou 百度发布了一款全新的自进化人工智能代理(AI Agent)——Famou,它能够通过自主学习不断提升任务处理能力。
  2. 专为长周期任务设计的多模态智能体发布 一款名为Jan-v2-VL的新模型面世,它是一款专为处理长时间、复杂任务而设计的多模态智能体
  3. Comet平台更新链接打开方式 智能体开发平台Comet对其功能进行了更新,优化了用户与外部链接的交互方式。
  4. 通用语音模型Kalpa即将问世 Kalpa Labs正在训练一个可适用于所有语音任务的通用模型。开发者可以通过类似LLM的系统提示词来引导它,利用其原生的上下文感知能力执行复杂任务。

AI多媒体

  1. 谷歌相册推出语音编辑功能 Google Photos引入了一项名为Nano Banana的新功能,允许用户直接通过语音指令来编辑图片。
  2. Gemini语音能力大幅提升 谷歌Gemini模型的实时语音对话能力得到显著增强,现已支持调整语速、多语言交流以及模仿特定角色的声音。
  3. ElevenLabs与名人合作打造AI音频 音频AI公司ElevenLabs宣布已与多位名人达成协议,共同创建和授权他们的AI声音模型。用户可以在其新平台Iconic Marketplace上获取这些传奇人物的授权声音。
  4. ElevenLabs发布实时语音转录模型 ElevenLabs推出了最新的实时语音转文本模型Scribe v2 Realtime,该模型能以低于150毫秒的延迟转录超过90种语言。
  5. 第一视角的工厂操作视频数据集发布 Egocentric-10K数据集正式公开,它包含了大量以第一人称视角拍摄的工厂操作视频,为训练工业领域的AI模型提供了宝贵素材。
  6. 国产AI绘画工具FLUX 2即将发布 国内知名AI艺术社区“黑森林工作室”的CEO预告,其备受期待的新一代AI图像生成工具FLUX 2即将发布图像模式。

行业资讯

  1. 李飞飞荣获“工程界诺贝尔奖” 因其在AI领域的卓越贡献,华人科学家李飞飞荣获2024年伊丽莎白女王工程奖,该奖项被誉为“工程界的诺贝尔奖”。
  2. 德国法院裁决加深AI与版权分歧 德国一家法院的最新裁决进一步加剧了关于AI生成内容版权归属的争议,显示出全球在AI相关法律问题上的立场分歧。
  3. 利用AI简化儿童言语服务 新的AI应用正在被开发,用于简化儿童的言语和语言服务流程,帮助治疗师更高效地进行评估和干预。
  4. 银行业AI应用超越试点阶段 报告指出,银行业的人工智能应用已普遍超越初期的试点阶段,开始在风险控制、客户服务和运营效率等核心业务中大规模部署。
  5. Gamma公司获6800万美元融资,专攻PPT制作 专注于解决“制作PPT”这一难题的AI公司Gamma宣布获得6800万美元融资,其产品旨在帮助用户通过AI快速生成精美的演示文稿。
  6. 谷歌在德投资55亿欧元建数据中心 为支持其在欧洲的AI和云服务发展,谷歌宣布将在德国投资55亿欧元,用于新建数据中心和办公设施。

技术洞察

  1. Nature公开谷歌IMO金牌模型技术细节 《Nature》杂志公开了谷歌AlphaGeometry模型的技术细节,该模型曾在国际数学奥林匹克竞赛(IMO)中达到金牌水平。其核心团队仅10人,用一年时间为AI编写了8000万道数学题进行训练。
  2. 谷歌新研究:教AI像人类一样看世界 谷歌DeepMind在《Nature》上发布最新研究,探索如何让AI模型获得更接近人类的视觉感知和理解能力。
  3. Claude实用技能合集在GitHub开源 GitHub上出现了一个名为Awesome Claude Skills的开源项目,该项目精心整理了一系列可以直接导入使用的Claude模型实用技能和提示词。

工具与资源

  1. 响应最快的编码代理TRAE SOLO GA AI编码工具TRAE宣布推出其迄今为止响应速度最快的编码代理TRAE SOLO GA,并在全球范围内提供限时免费使用。

智能硬件

  1. 纽约大学开源平价机械手RUKA 纽约大学的研究团队开源了一款名为RUKA的灵巧机械手,并推出了平价套件,起售价仅为549美元,旨在降低机器人研究的硬件门槛。
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容