---
title: Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据
tags: 
- AI
- 机器人
- Nvidia
- Vercel
categories: 
- Linuxcat周刊
index_img: /img/weekly/2025/01/BB1rdqL1.jpg
banner_img: /img/weekly/2025/01/BB1rdqL1.jpg
permalink: /weekly/2025-1/index.html
date: 2025-01-11 16:21:43
---
## 封面图
![洛杉矶大火](/img/weekly/2025/01/BB1rdqL1.jpg)   
截止当地时间9日下午4点，洛杉矶山火已造成5人死亡，4000多栋房屋被烧毁，过火面积超过116平方公里，超过18万人被要求撤离，超过40万人失去供电。   
强风对消防造成了困难。部分地区风速到达160公里每小时。强风预计还将持续数日。   
好莱坞地区，火灾逼近好莱坞露天剧场和中国大剧院，距离好莱坞星光大道约1.6公里。   
在圣莫尼卡地区，火灾烧毁了著名博物馆盖蒂庄园的部分植物，馆藏和博物馆建筑并未受火灾影响。   
## 正文 
### 1 马斯克同意我们已经耗尽了AI训练数据
马斯克同意其他人工智能专家的观点，即用于训练人工智能模型的真实世界数据所剩无几。马斯克在周三晚间与 Stagwell 董事长马克·佩恩在 X 上直播对话中表示：“我们现在已经基本耗尽了人类知识的累积总和……在人工智能训练方面。这基本上发生在去年。”确实，马斯克认为合成数据——由人工智能模型本身生成的数据——是未来的发展方向。“补充[真实世界数据]的唯一方法是使用合成数据，即人工智能生成[训练数据]，”他说。“有了合成数据……[人工智能]将会自我评估并经历这个自我学习的过程。”[微软的 Phi-4 于周三早上开源](https://huggingface.co/microsoft/phi-4)，其使用合成数据和真实数据进行训练。谷歌的 Gemma 模型也是如此。
> 消息来源: [Techcrunch](https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/) | [风向旗参考快讯](https://t.me/xhqcankao/16386)

### 2 DeepSeek新模型误认身份，暴露AI训练数据污染问题  
近日，中国AI公司DeepSeek发布的最新模型DeepSeek V3在测试中出现异常：它自称是OpenAI的ChatGPT，并能提供OpenAI的API使用说明。专家认为，这可能是由于训练数据中混入了大量ChatGPT生成的内容，导致模型“身份混淆”   
随着AI生成内容在网络上激增，训练数据污染问题日益严重。DeepSeek表示正在优化数据清洗流程，以提升模型的独立性和准确性   
未来AI开发中数据纯净性已经变得很重要，如何有效过滤AI生成内容将成为行业的关键   
> 消息来源: [TechCrunch](https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/)

### 3 OpenAI新模型o3单次高算力查询成本或超1000美元
OpenAI最新发布的o3人工智能模型在ARC-AGI基准测试中取得了87.5%的高分，相比前代o1模型提升了近三倍。然而，这种性能的提升也带来了巨大的成本压力。在高算力模式下，每次查询的费用或超过1000美元，是前代模型4美元成本的数百倍。即使是低算力版本，每次查询也需要20美元，这使得其商业化面临不小的困难。据悉，o3计划于明年1月推出“迷你版”，以降低使用成本。
> 消息来源: [Yahoo Tech](https://www.yahoo.com/tech/openais-latest-ai-cost-more-214758857.html) | [科技圈🎗在花频道](https://t.me/zaihuanews/29836)

### 4 Nvidia 押注机器人技术推动未来增长
Nvidia 将机器人技术视为其下一个重要增长动力，因为其核心人工智能芯片制造业务面临着日益激烈的竞争。Nvidia 将于 2025 年上半年推出其最新一代人形机器人紧凑型计算机，名为 Jetson Thor。Nvidia 将自己定位为即将到来的机器人革命的领先平台。该公司销售“全栈”解决方案，从用于训练人工智能机器人的软件层到内置芯片。Nvidia 机器人副总裁 Deepu Talla 称：“物理人工智能和机器人的 ChatGPT 时刻即将到来”，并补充说他相信市场已经达到了“临界点”。
> 消息来源: [金融时报](https://www.ft.com/content/7c3dafa8-ffb9-4ca8-b677-ab3cc2afbdcb) | [风向旗参考快讯](https://t.me/xhqcankao/16144)

### 5 OpenAI招聘信息揭示其机器人计划
OpenAI重启机器人部门，将开发通用、自适应机器人，配备定制传感器。并计划自研AI模型驱动机器人。   
招聘信息暗示OpenAI将雇佣合同工测试原型机，并可能开发有肢体的机器人。目标是实现大规模生产。   
> 消息来源: [TechCrunch](https://techcrunch.com/2025/01/10/new-openai-job-listings-reveal-its-robotics-plans/) | [科技圈🎗在花频道](https://t.me/zaihuanews/30105)

### 6 研究发现GitHub存在450万个虚假“Star”的问题
一项由Socket、卡内基梅隆大学和北卡罗来纳州立大学研究人员进行的研究揭示，GitHub上存在约450万个疑似虚假的Star评价——研究团队使用自研工具"StarScout"分析了20TB的GitHub活动数据得出这一结论。   
研究显示，2024年虚假Star活动激增，约15.8%拥有超过50个Star的代码库涉及此类行为。这些虚假Star不仅用于提升项目知名度，还被用于传播恶意软件，如去年发现的"Stargazers Ghost Network"。   
GitHub已删除研究人员在2024年7月发现的可疑账户和代码库。专家建议用户在评估GitHub项目时，应该查看项目活跃度、代码质量和文档，而不是仅依赖Star数量。
> 消息来源: [BleepingComputer](https://www.bleepingcomputer.com/news/security/over-31-million-fake-stars-on-github-projects-used-to-boost-rankings/) | [科技圈🎗在花频道](https://t.me/zaihuanews/29873)

### 7 必应搜索试图在搜索谷歌时模仿 Google UI
微软似乎推出了一项非常有趣但又颇具争议的改变，当使用必应搜索尝试查找谷歌时，必应搜索会模仿谷歌搜索用户界面。这是一个天才的举动，可以让用户远离谷歌搜索，而谷歌已成为搜索引擎或在线查找答案的代名词。当用户在必应上搜索谷歌时，必应的设计看起来很像谷歌。页面布局简洁，中间有搜索栏，还有简单的插图。当用户退出微软账户并在必应上搜索谷歌时，微软正在尝试这种新设计。
> 消息来源: [Windows Latest](https://www.windowslatest.com/2025/01/06/microsoft-bing-is-trying-to-spoof-google-ui-when-people-search-google-com/) | [风向旗参考快讯](https://t.me/xhqcankao/16276)

### 8 微软论文意外泄露OpenAI及Claude模型参数
近日，微软在一篇医学相关论文中意外泄露了OpenAI及Claude系列模型的参数信息。论文中详细列出了GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet等模型的参数规模，其中GPT-4o约200B，GPT-4o-mini约8B，Claude 3.5 Sonnet约175B。尽管论文中附有免责声明，称这些数字为估计值，但仍引发广泛关注。
> 消息来源: [量子位](https://mp.weixin.qq.com/s/bT_w-T9ElmPUXbYA1f7kCg)

### 9 末日主题验证码新玩法
Vercel公司推出新式验证码，用户需在DOOM游戏中击杀至少三个怪物才能通过。此验证码在Hacker News引发热议。   
尽管创意非原创，但新式验证码仍受开发者欢迎，有人觉得太难，有人则称赞“太硬核”，有人认为难度像真验证码。
> 消息来源: [Demo](https://doom-captcha.vercel.app/) | TechCrunch(https://techcrunch.com/2025/01/01/people-are-playing-a-new-doom-themed-captcha/)