weekly/2025-3.md at 12dc306d18164d7e0ea38d8c2a18fccdc5f94b8d

mei/weekly

Fork 0

mei 12dc306d18 test: new

2025-01-28 19:09:47 +08:00

5.3 KiB

Raw Blame History

title

封面图

正文

1 “人类终极考试”基准测试发布：顶级AI系统表现惨淡，准确率均未超10%

非营利组织“人工智能安全中心”（CAIS）与Scale AI联合推出名为“人类终极考试”的新型基准测试，旨在评估前沿AI系统的综合能力。该测试由来自50个国家500多个机构的近1000名学科专家出题，涵盖数学、人文学科和自然科学等领域，题目形式多样，包括结合图表和图像的复杂题型。
初步研究显示，所有公开可用的旗舰AI系统在该测试中的回答准确率均未超过10%，表明当前AI技术在应对复杂、综合性问题时仍存在明显短板。CAIS和Scale AI计划向研究社区开放该测试，以帮助评估新开发的AI模型。

消息来源: HLE | 科技圈🎗在花频道

2 RTX 5090D 性能分析功耗+30%，性能+30%

多个跑分软件如Time Spy ，Fire Strike Extreme等较4090提升约36%。Port Royal光追性能测试较上代提升44%。跑分时功耗较上代提升约35%左右，峰值功耗约577W。
游戏光追方面，在DLSS 4加持下游戏帧数暴涨约2倍，开启DLSS 4画质并无明显变化，延迟略微增加。关闭DLSS部分游戏（2077，黑神话·悟空）性能较上代提升约40%，其余游戏提升约20%-30%。 AI大模型方面，通义千问2.5模型下 3B 7B 14B均较上代提升约40%。
多媒体软件如达芬奇等导出时间略微快于苹果M2 Ultra。

消息来源: 笔吧评测室 | 影视飓风 | | 科技圈🎗在花频道

3 DeepSeekV3训练成本不及Meta高管薪资，DeepSeek使行业质疑千亿美元支出效用

1月24号，一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称，现在Meta内部因为DeepSeek的模型，已经进入恐慌模式。
这位Meta员工写道：“一切源于DeepSeek-V3的出现，它在基准测试中已经让Llama 4相形见绌。更让人难堪的是，一家‘仅用550万美元训练预算的中国公司’就做到了这一点。工程师们正在争分夺秒地分析DeepSeek，试图复制其中的一切可能技术。这绝非夸张。管理层正为GenAI研发部门的巨额投入而发愁。当部门里数10位高管其中之一的薪资就超过训练整个DeepSeek V3的成本。

消息来源: 新浪科技 | 华尔街日报 | 宝玉 | 科技圈🎗在花频道

4 中国人工智能实验室 DeepSeek 拥有 50000 个 H100 GPU

Scale AI 创始人兼首席执行官 Alexandr Wang 分享了该公司名为“人类的最后考试”的最新 AI 测试的细节，该测试使用“数学、物理、生物、化学教授”提供的与最新研究相关的“最难的问题”。中国人工智能实验室 DeepSeek 的模型 R1 在 Scale AI 公司最具挑战性的人工智能测试中达到或击败了所有表现最佳的模型，或大致与美国最好的模型 o1 相当。
Alexandr 表示，对于中国是否能获得先进 GPU 这个问题，“现实情况是既可以又不能。中国实验室拥有的 H100 数量比人们想象的要多。”他补充说，据他了解，“DeepSeek 拥有大约 50,000 个 H100。”他补充道，“他们显然不能谈论这个问题，因为这违反了美国实施的出口管制。”然而，该公司可能会发现很难采购更多芯片，“从长远来看，他们将受到芯片管制和出口管制的限制。”

消息来源: wccftech | 科技圈🎗在花频道

5 Meta Llama框架漏洞致AI系统面临远程代码执行风险

Meta Llama大型语言模型框架存在高危漏洞（CVE-2024-50050），攻击者可通过反序列化恶意数据远程执行代码，影响使用ZeroMQ网络接口的推理服务器。
Meta于2024年10月发布0.0.41版本修复该问题，将序列化格式从pickle切换为JSON，消除潜在风险。同期OpenAI ChatGPT爬虫也被曝出可被滥用于发起DDoS攻击的漏洞。
研究显示，AI框架安全威胁持续升级，此前TensorFlow Keras因marshal模块漏洞暴露类似风险，LLM技术正被用于增强网络攻击全生命周期。

消息来源: The Hacker News | 科技圈🎗在花频道

5.3 KiB Raw Blame History Unescape Escape

封面图

正文