--- title: Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据 tags: - AI - 机器人 - Nvidia - Vercel categories: - Linuxcat周刊 index_img: /img/weekly/2025/01/BB1rdqL1.jpg banner_img: /img/weekly/2025/01/BB1rdqL1.jpg permalink: /weekly/2025-1/index.html date: 2025-01-11 16:21:43 --- ## 封面图 ![洛杉矶大火](/img/weekly/2025/01/BB1rdqL1.jpg) 截止当地时间9日下午4点,洛杉矶山火已造成5人死亡,4000多栋房屋被烧毁,过火面积超过116平方公里,超过18万人被要求撤离,超过40万人失去供电。 强风对消防造成了困难。部分地区风速到达160公里每小时。强风预计还将持续数日。 好莱坞地区,火灾逼近好莱坞露天剧场和中国大剧院,距离好莱坞星光大道约1.6公里。 在圣莫尼卡地区,火灾烧毁了著名博物馆盖蒂庄园的部分植物,馆藏和博物馆建筑并未受火灾影响。 ## 正文 ### 1 马斯克同意我们已经耗尽了AI训练数据 马斯克同意其他人工智能专家的观点,即用于训练人工智能模型的真实世界数据所剩无几。马斯克在周三晚间与 Stagwell 董事长马克·佩恩在 X 上直播对话中表示:“我们现在已经基本耗尽了人类知识的累积总和……在人工智能训练方面。这基本上发生在去年。”确实,马斯克认为合成数据——由人工智能模型本身生成的数据——是未来的发展方向。“补充[真实世界数据]的唯一方法是使用合成数据,即人工智能生成[训练数据],”他说。“有了合成数据……[人工智能]将会自我评估并经历这个自我学习的过程。”[微软的 Phi-4 于周三早上开源](https://huggingface.co/microsoft/phi-4),其使用合成数据和真实数据进行训练。谷歌的 Gemma 模型也是如此。 > 消息来源: [Techcrunch](https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/) | [风向旗参考快讯](https://t.me/xhqcankao/16386) ### 2 DeepSeek新模型误认身份,暴露AI训练数据污染问题 近日,中国AI公司DeepSeek发布的最新模型DeepSeek V3在测试中出现异常:它自称是OpenAI的ChatGPT,并能提供OpenAI的API使用说明。专家认为,这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆” 随着AI生成内容在网络上激增,训练数据污染问题日益严重。DeepSeek表示正在优化数据清洗流程,以提升模型的独立性和准确性 未来AI开发中数据纯净性已经变得很重要,如何有效过滤AI生成内容将成为行业的关键 > 消息来源: [TechCrunch](https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/) ### 3 OpenAI新模型o3单次高算力查询成本或超1000美元 OpenAI最新发布的o3人工智能模型在ARC-AGI基准测试中取得了87.5%的高分,相比前代o1模型提升了近三倍。然而,这种性能的提升也带来了巨大的成本压力。在高算力模式下,每次查询的费用或超过1000美元,是前代模型4美元成本的数百倍。即使是低算力版本,每次查询也需要20美元,这使得其商业化面临不小的困难。据悉,o3计划于明年1月推出“迷你版”,以降低使用成本。 > 消息来源: [Yahoo Tech](https://www.yahoo.com/tech/openais-latest-ai-cost-more-214758857.html) | [科技圈🎗在花频道](https://t.me/zaihuanews/29836) ### 4 Nvidia 押注机器人技术推动未来增长 Nvidia 将机器人技术视为其下一个重要增长动力,因为其核心人工智能芯片制造业务面临着日益激烈的竞争。Nvidia 将于 2025 年上半年推出其最新一代人形机器人紧凑型计算机,名为 Jetson Thor。Nvidia 将自己定位为即将到来的机器人革命的领先平台。该公司销售“全栈”解决方案,从用于训练人工智能机器人的软件层到内置芯片。Nvidia 机器人副总裁 Deepu Talla 称:“物理人工智能和机器人的 ChatGPT 时刻即将到来”,并补充说他相信市场已经达到了“临界点”。 > 消息来源: [金融时报](https://www.ft.com/content/7c3dafa8-ffb9-4ca8-b677-ab3cc2afbdcb) | [风向旗参考快讯](https://t.me/xhqcankao/16144) ### 5 OpenAI招聘信息揭示其机器人计划 OpenAI重启机器人部门,将开发通用、自适应机器人,配备定制传感器。并计划自研AI模型驱动机器人。 招聘信息暗示OpenAI将雇佣合同工测试原型机,并可能开发有肢体的机器人。目标是实现大规模生产。 > 消息来源: [TechCrunch](https://techcrunch.com/2025/01/10/new-openai-job-listings-reveal-its-robotics-plans/) | [科技圈🎗在花频道](https://t.me/zaihuanews/30105) ### 6 研究发现GitHub存在450万个虚假“Star”的问题 一项由Socket、卡内基梅隆大学和北卡罗来纳州立大学研究人员进行的研究揭示,GitHub上存在约450万个疑似虚假的Star评价——研究团队使用自研工具"StarScout"分析了20TB的GitHub活动数据得出这一结论。 研究显示,2024年虚假Star活动激增,约15.8%拥有超过50个Star的代码库涉及此类行为。这些虚假Star不仅用于提升项目知名度,还被用于传播恶意软件,如去年发现的"Stargazers Ghost Network"。 GitHub已删除研究人员在2024年7月发现的可疑账户和代码库。专家建议用户在评估GitHub项目时,应该查看项目活跃度、代码质量和文档,而不是仅依赖Star数量。 > 消息来源: [BleepingComputer](https://www.bleepingcomputer.com/news/security/over-31-million-fake-stars-on-github-projects-used-to-boost-rankings/) | [科技圈🎗在花频道](https://t.me/zaihuanews/29873) ### 7 必应搜索试图在搜索谷歌时模仿 Google UI 微软似乎推出了一项非常有趣但又颇具争议的改变,当使用必应搜索尝试查找谷歌时,必应搜索会模仿谷歌搜索用户界面。这是一个天才的举动,可以让用户远离谷歌搜索,而谷歌已成为搜索引擎或在线查找答案的代名词。当用户在必应上搜索谷歌时,必应的设计看起来很像谷歌。页面布局简洁,中间有搜索栏,还有简单的插图。当用户退出微软账户并在必应上搜索谷歌时,微软正在尝试这种新设计。 > 消息来源: [Windows Latest](https://www.windowslatest.com/2025/01/06/microsoft-bing-is-trying-to-spoof-google-ui-when-people-search-google-com/) | [风向旗参考快讯](https://t.me/xhqcankao/16276) ### 8 微软论文意外泄露OpenAI及Claude模型参数 近日,微软在一篇医学相关论文中意外泄露了OpenAI及Claude系列模型的参数信息。论文中详细列出了GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet等模型的参数规模,其中GPT-4o约200B,GPT-4o-mini约8B,Claude 3.5 Sonnet约175B。尽管论文中附有免责声明,称这些数字为估计值,但仍引发广泛关注。 > 消息来源: [量子位](https://mp.weixin.qq.com/s/bT_w-T9ElmPUXbYA1f7kCg) ### 9 末日主题验证码新玩法 Vercel公司推出新式验证码,用户需在DOOM游戏中击杀至少三个怪物才能通过。此验证码在Hacker News引发热议。 尽管创意非原创,但新式验证码仍受开发者欢迎,有人觉得太难,有人则称赞“太硬核”,有人认为难度像真验证码。 > 消息来源: [Demo](https://doom-captcha.vercel.app/) | TechCrunch(https://techcrunch.com/2025/01/01/people-are-playing-a-new-doom-themed-captcha/)