Perplexity 宣布升级其 Deep Research 工具,目前运行在 Anthropic 的 Claude Opus 4.5 模型上。此次更新将模型的高级推理与 Perplexity 专有的搜索引擎和沙箱基础设施结合起来。 Max 订阅者可以立即访问它,并在未来几天内向 Pro 用户推出。

该公司还发布了 DRACO,一个用于评估深度研究代理的开源基准。 DRACO 代表深度研究准确性、完整性和客观性基准,涵盖 10 个领域的 100 项任务:学术、金融、法律、医学、技术、常识、用户体验设计、个人助理、购物和大海捞针。任务根据四个领域的大约 40 项专家定义的标准进行评分:事实准确性、分析的广度和深度、演示质量和引文质量。

Perplexity 的 Deep Research 在 DRACO 上标准化得分为 67.15%,领先于 Google Gemini Deep Research 的 58.97% 和使用 o3 模型的 OpenAI Deep Research 的 52.06%。法官模型 GPT-5.2 和 Sonnet-4.5 的结果保持一致。与第二好的系统相比,在医学、常识和技术方面,困惑度领先 9-12 个百分点。它在法律方面得分最高,为 86.0%,在学术方面得分最高,为 80.2%。

DRACO 借鉴了匿名的 Perplexity Deep Research 请求,并增强为反映真实研究需求的复杂、开放式任务。该基准评估效率和质量。 Perplexity Deep Research 的平均延迟最低为 459.6 秒,同时实现了最高的准确度。

此次升级以 Deep Research 于 2025 年 2 月发布的版本为基础,增加了多遍查询和跨源验证。据报道,2025 年 1 月,Perplexity 与微软签署了价值 7.5 亿美元的云协议。首席执行官阿拉文德·斯里尼瓦斯 (Aravind Srinivas) 表示,“特别是对于金融业来说,数据准确性是必须的,而且风险很高。”该公司将 Deep Research 定位为针对谷歌和 OpenAI 等竞争对手提供研究级分析。

<小时/>

特色图片来源

  CrowdStrike 和 Meta 推出 Cyber​​SOCEval 基准