blog/source/_posts/weekly/2025/2025-1.md
2025-01-11 16:18:39 +08:00

68 lines
7.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据
tags:
- AI
- 机器人
- Nvidia
- Vercel
categories:
- Linuxcat周刊
index_img: /img/weekly/2025/01/BB1rdqL1.jpg
banner_img: /img/weekly/2025/01/BB1rdqL1.jpg
permalink: /weekly/2025-1/index.html
date: 2025-01-11 16:21:43
---
{% note success %}
👏我们的软件推荐站已经完成了升级,欢迎查看: [Github](https://github.com/ssdomei232/nav-next)
可以向 [i@mei.lv](mailto:i@mei.lv) 发送邮件或通过 issue 投稿
现在可以通过 [nav.linuxcat.top](https://nav.linuxcat.top/) 来访问
{% endnote %}
## 封面图
![洛杉矶大火](/img/weekly/2025/01/BB1rdqL1.jpg)
截止当地时间9日下午4点洛杉矶山火已造成5人死亡4000多栋房屋被烧毁过火面积超过116平方公里超过18万人被要求撤离超过40万人失去供电。
强风对消防造成了困难。部分地区风速到达160公里每小时。强风预计还将持续数日。
好莱坞地区火灾逼近好莱坞露天剧场和中国大剧院距离好莱坞星光大道约1.6公里。
在圣莫尼卡地区,火灾烧毁了著名博物馆盖蒂庄园的部分植物,馆藏和博物馆建筑并未受火灾影响。
## 正文
### 1 马斯克同意我们已经耗尽了AI训练数据
马斯克同意其他人工智能专家的观点,即用于训练人工智能模型的真实世界数据所剩无几。马斯克在周三晚间与 Stagwell 董事长马克·佩恩在 X 上直播对话中表示:“我们现在已经基本耗尽了人类知识的累积总和……在人工智能训练方面。这基本上发生在去年。”确实,马斯克认为合成数据——由人工智能模型本身生成的数据——是未来的发展方向。“补充[真实世界数据]的唯一方法是使用合成数据,即人工智能生成[训练数据],”他说。“有了合成数据……[人工智能]将会自我评估并经历这个自我学习的过程。”微软的 Phi-4 于周三早上开源 (https://huggingface.co/microsoft/phi-4),其使用合成数据和真实数据进行训练。谷歌的 Gemma 模型也是如此。
> 消息来源: [Techcrunch](https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/) | [风向旗参考快讯](https://t.me/xhqcankao/16386)
### 2 DeepSeek新模型误认身份暴露AI训练数据污染问题
近日中国AI公司DeepSeek发布的最新模型DeepSeek V3在测试中出现异常它自称是OpenAI的ChatGPT并能提供OpenAI的API使用说明。专家认为这可能是由于训练数据中混入了大量ChatGPT生成的内容导致模型“身份混淆”
随着AI生成内容在网络上激增训练数据污染问题日益严重。DeepSeek表示正在优化数据清洗流程以提升模型的独立性和准确性
未来AI开发中数据纯净性已经变得很重要如何有效过滤AI生成内容将成为行业的关键
> 消息来源: [TechCrunch](https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/)
### 3 OpenAI新模型o3单次高算力查询成本或超1000美元
OpenAI最新发布的o3人工智能模型在ARC-AGI基准测试中取得了87.5%的高分相比前代o1模型提升了近三倍。然而这种性能的提升也带来了巨大的成本压力。在高算力模式下每次查询的费用或超过1000美元是前代模型4美元成本的数百倍。即使是低算力版本每次查询也需要20美元这使得其商业化面临不小的困难。据悉o3计划于明年1月推出“迷你版”以降低使用成本。
> 消息来源: [Yahoo Tech](https://www.yahoo.com/tech/openais-latest-ai-cost-more-214758857.html) | [科技圈🎗在花频道](https://t.me/zaihuanews/29836)
### 4 Nvidia 押注机器人技术推动未来增长
Nvidia 将机器人技术视为其下一个重要增长动力因为其核心人工智能芯片制造业务面临着日益激烈的竞争。Nvidia 将于 2025 年上半年推出其最新一代人形机器人紧凑型计算机,名为 Jetson Thor。Nvidia 将自己定位为即将到来的机器人革命的领先平台。该公司销售“全栈”解决方案从用于训练人工智能机器人的软件层到内置芯片。Nvidia 机器人副总裁 Deepu Talla 称:“物理人工智能和机器人的 ChatGPT 时刻即将到来”,并补充说他相信市场已经达到了“临界点”。
> 消息来源: [金融时报](https://www.ft.com/content/7c3dafa8-ffb9-4ca8-b677-ab3cc2afbdcb) | [风向旗参考快讯](https://t.me/xhqcankao/16144)
### 5 OpenAI招聘信息揭示其机器人计划
OpenAI重启机器人部门将开发通用、自适应机器人配备定制传感器。并计划自研AI模型驱动机器人。
招聘信息暗示OpenAI将雇佣合同工测试原型机并可能开发有肢体的机器人。目标是实现大规模生产。
> 消息来源: [TechCrunch](https://techcrunch.com/2025/01/10/new-openai-job-listings-reveal-its-robotics-plans/) | [科技圈🎗在花频道](https://t.me/zaihuanews/30105)
### 6 研究发现GitHub存在450万个虚假“Star”的问题
一项由Socket、卡内基梅隆大学和北卡罗来纳州立大学研究人员进行的研究揭示GitHub上存在约450万个疑似虚假的Star评价——研究团队使用自研工具"StarScout"分析了20TB的GitHub活动数据得出这一结论。
研究显示2024年虚假Star活动激增约15.8%拥有超过50个Star的代码库涉及此类行为。这些虚假Star不仅用于提升项目知名度还被用于传播恶意软件如去年发现的"Stargazers Ghost Network"。
GitHub已删除研究人员在2024年7月发现的可疑账户和代码库。专家建议用户在评估GitHub项目时应该查看项目活跃度、代码质量和文档而不是仅依赖Star数量。
> 消息来源: [BleepingComputer](https://www.bleepingcomputer.com/news/security/over-31-million-fake-stars-on-github-projects-used-to-boost-rankings/) | [科技圈🎗在花频道](https://t.me/zaihuanews/29873)
### 7 必应搜索试图在搜索谷歌时模仿 Google UI
微软似乎推出了一项非常有趣但又颇具争议的改变,当使用必应搜索尝试查找谷歌时,必应搜索会模仿谷歌搜索用户界面。这是一个天才的举动,可以让用户远离谷歌搜索,而谷歌已成为搜索引擎或在线查找答案的代名词。当用户在必应上搜索谷歌时,必应的设计看起来很像谷歌。页面布局简洁,中间有搜索栏,还有简单的插图。当用户退出微软账户并在必应上搜索谷歌时,微软正在尝试这种新设计。
> 消息来源: [Windows Latest](https://www.windowslatest.com/2025/01/06/microsoft-bing-is-trying-to-spoof-google-ui-when-people-search-google-com/) | [风向旗参考快讯](https://t.me/xhqcankao/16276)
### 8 微软论文意外泄露OpenAI及Claude模型参数
近日微软在一篇医学相关论文中意外泄露了OpenAI及Claude系列模型的参数信息。论文中详细列出了GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet等模型的参数规模其中GPT-4o约200BGPT-4o-mini约8BClaude 3.5 Sonnet约175B。尽管论文中附有免责声明称这些数字为估计值但仍引发广泛关注。
> 消息来源: 量子位 (https://mp.weixin.qq.com/s/bT_w-T9ElmPUXbYA1f7kCg)
### 9 末日主题验证码新玩法
Vercel公司推出新式验证码用户需在DOOM游戏中击杀至少三个怪物才能通过。此验证码在Hacker News引发热议。
尽管创意非原创,但新式验证码仍受开发者欢迎,有人觉得太难,有人则称赞“太硬核”,有人认为难度像真验证码。
> 消息来源: [Demo](https://doom-captcha.vercel.app/) | TechCrunch (https://techcrunch.com/2025/01/01/people-are-playing-a-new-doom-themed-captcha/)