2025-10-07 Hacker News Top Stories #
- 韩国国家信息资源服务中心总部火灾摧毁政府云存储系统G-Drive且无外部备份,约75万公务员文件永久丢失,暴露严重灾备与管理缺失。
- 研究发现多款大型模型因训练数据中的集体错误记忆而错误地“记得”不存在的海马 emoji,内部表示分析揭示模型如何构建并输出这种虚构概念。
- 开源浏览器Ladybird在web-platform-tests中通过率超过苹果设定的90%门槛,满足作为iOS替代引擎的关键指标之一但仍需满足其他要求。
- 互联网档案馆Wayback Machine存档量达一万亿网页,机构举办庆祝活动并引发关于分布式备份与访问可用性的讨论。
- 原RubyGems维护者发起gem.coop,提供兼容RubyGems与Bundler的社区治理托管服务,目标更快、更可信且可持续。
- 结构化拖延通过把次要但有用的任务放在“更重要”任务之下,利用回避策略将拖延转化为生产力以提高总体产出。
- 在政策简化与补贴推动下,德国数十万阳台安装小型太阳能板,帮助居民节省电费并推动能源转型参与。
- AMD与OpenAI签署多年AI芯片供应协议并授予其以极低价分期购买最多相当于10%股份的期权,计划自2026年下半年交付大量MI450芯片。
- 对GPT-OSS权重与分词器的分析发现异常令牌揭示训练数据中的敏感片段与来源痕迹,提示成员推断与数据可追溯性风险。
- 2025年诺贝尔生理学或医学奖授予在外周免疫耐受领域发现调节性T细胞及关键转录因子Foxp3的科学家,推动自身免疫与免疫治疗研究发展。
Fire destroys S. Korean government’s cloud storage system, no backups available #
韩国国家信息资源服务中心(NIRS)位于大田的总部于 9 月 27 日发生火灾,导致政府核心云存储系统 G-Drive 被完全摧毁,约 75 万名公务员的工作文件永久丢失。
G-Drive 自 2018 年起投入使用,强制要求所有政府职员将工作文档存储于云端,每人提供约 30GB 的存储空间。然而,由于该系统采用大容量但低性能的存储架构,未设置外部备份机制,导致数据无法恢复。
此次火灾波及位于五楼的服务器机房,造成 96 个关键政府信息系统受损,其中以人事部受影响最严重,因其所有文件均依赖 G-Drive 存储。其他部门则部分依赖本地电脑、邮件和纸质文件进行数据恢复。
尽管 G-Drive 无备份,但部分正式报告和官方文件仍保存在政府的“Onnara”系统中,有望通过该系统部分恢复。不过,目前多数政府服务仍处于中断状态,恢复工作进展缓慢。
事件引发对政府数据管理政策的广泛批评,审计机构已指出 NIRS 长期未能妥善管理老旧设备,存在严重安全隐患。
HN 热度 1983 points | 评论 887 comments | 作者:ksec | 1 day ago #
https://news.ycombinator.com/item?id=45483386
- 政府官员曾拒绝使用 AWS/GCP/Azure 等商业云服务,如今因系统被烧毁且无备份而陷入尴尬境地。
- 问题不在于拒绝使用外国云服务,而在于强制使用远程存储却未建立任何备份,属于严重管理失职。
- 未进行基本备份是 IT 领域最大的风险信号,表明系统存在严重安全隐患。
- 事件暴露了政府 IT 系统长期存在的结构性问题,包括缺乏基本灾备措施和对技术风险的漠视。
- 事件发生后,一线 IT 人员和管理层极可能被当作替罪羊,而真正责任人(如决策者)却不会被追责。
- 内部审计部门可能因未能及时发现问题而被忽视,但其责任不应被完全推卸。
- 预计事件后政府将被迫外包 IT 基础设施,导致主权让渡,反而为云服务商提供绝佳营销案例。
- 政治决策者出于预算控制,可能否决了必要的冗余与备份系统建设,导致技术团队建议被忽视。
- 即使是临时存储系统,也应有明确的使用限制,但各方均未履行基本责任,构成集体失职。
- 9/11 事件后金融行业吸取教训,灾备中心需远离主数据中心,至少 50 英里以上,以避免同毁。
- 一些机构曾因备份地点距离过近(如跨河)而在灾难中全部损失数据,说明地理隔离至关重要。
- 企业应避免将备份系统置于同一物理区域,尤其是高层建筑或同一园区内。
- 云服务虽然存在成本高和锁定问题,但其灾备能力远超多数政府自建系统,不应因偏见而拒绝。
- 政府应考虑补贴本国云服务商,以降低对外部巨头的依赖并推动技术竞争。
- 事件凸显了政府 IT 治理的严重缺陷,技术决策缺乏专业性与问责机制。
Why do LLMs freak out over the seahorse emoji? #
https://vgel.me/posts/seahorse/
本文探讨了大型语言模型(LLM)为何会错误地认为存在一个“海马 emoji”。尽管实际上 Unicode 中并不存在海马 emoji,但包括 GPT-5、Claude Sonnet 4.5 和 Llama 3.3-70b 在内的多个主流模型在反复测试中均一致回答“是”,表现出极高的自信。
作者指出,这种现象并非个例,而是广泛存在于网络社区中——Reddit、TikTok、YouTube 上充斥着关于“海马 emoji 曾存在但已消失”的讨论,甚至曾有基于此概念的加密货币项目。这表明“海马 emoji 存在”已成为一种集体错觉。
文章进一步分析,这种错误信念可能源于训练数据中人类的普遍误解,或模型基于其他水生动物 emoji 的合理推断。尽管海马 emoji 曾在 2018 年被正式提议但遭拒绝,但这一事实并未阻止模型“相信”它的存在。
更关键的问题是:为何模型会陷入“发送错误 emoji”的循环?作者通过“logit lens”技术深入分析 Llama-3.3-70b 的内部状态,发现模型在中间层已开始构建“sea horse + emoji”的复合概念表示,如“sea horse horse”等词组,说明模型正在尝试生成一个“海马 emoji”的内部表征。
最终,模型通过 lm_head(语言模型头部)将这一残差向量匹配到 emoji 的字节编码,输出了鱼 emoji 🐠。这一过程揭示了模型并非简单记忆,而是在内部构建一个“本应存在”的概念,并据此生成看似合理的输出。
结论是:LLM 的“错觉”源于其对人类集体信念的内化,以及其内部表示机制对“合理但错误”概念的自然生成能力。这暴露了模型在面对不存在实体时,可能产生看似合理却完全虚构的输出。
HN 热度 673 points | 评论 382 comments | 作者:nyxt | 23 hours ago #
https://news.ycombinator.com/item?id=45487044
- LLMs 对海马 emoji 的异常反应源于其训练数据中包含大量关于该 emoji 的虚构记忆,导致模型产生虚假存在感。
- SCP-314 是一个虚构的海马 emoji,尽管 Unicode 标准中并不存在,但大量 AI 和人类却对其有强烈“记忆”,暗示了某种认知幻觉现象。
- 有人调侃称 Unicode 正在考虑添加海马 emoji,这被解读为 SCP-314 可能已突破“现实”限制,引发对 AI 和现实结构的担忧。
- 有人将这种现象与“反记忆部门”(Antimemetics Division)联系起来,暗示某些信息具有自我传播和扭曲现实的能力。
- 有人分享自己因 ADHD 导致的“反记忆”体验,即反复购买同一本书,与 SCP-314 的记忆悖论形成共鸣。
- 有人指出,即使在非虚构语境下,AI 也容易因训练数据中的错误信息而“崩溃”或产生荒谬结论。
- 有人认为,面试中“判断字符串是否为回文”这类问题,若不考虑 Unicode 的字符组合(如表情符号),会暴露对文本处理复杂性的理解不足。
- Python 等语言缺乏对 Unicode 图形簇的原生支持,导致简单的回文判断在处理 emoji 时失效,需依赖第三方库。
- 有人指出,PHP 在处理 Unicode 图形簇方面表现良好,通过 grapheme_str_split 函数可轻松实现正确回文判断。
- 有人认为这类面试题本质是“彩蛋”,用于识别候选人对 Unicode 深层复杂性的理解,而非单纯考察算法能力。
- 有人将海马 emoji 的诡异现象与“模式尖叫者”(Pattern Screamers)等超自然概念类比,暗示其可能属于某种认知污染现象。
Ladybird passes the Apple 90% threshold on web-platform-tests #
https://twitter.com/awesomekling/status/1974781722953953601
Andreas Kling 在 X 平台上宣布,Ladybird 浏览器的 Web 平台测试(web-platform-tests)通过率已超过 90%。这一里程碑达成,意味着该浏览器引擎满足了苹果公司规定的成为 iOS 上合格替代浏览器引擎的必要条件之一。此外,还需满足其他相关要求。Andreas Kling 对团队的辛勤付出表示高度赞扬,表达了对这一重要进展的自豪之情。该消息发布于 2025 年 10 月 5 日晚间,获得大量关注与转发。
HN 热度 670 points | 评论 187 comments | 作者:sergiotapia | 8 hours ago #
https://news.ycombinator.com/item?id=45493358
- web-platform-tests 的测试通过率不能作为衡量浏览器性能的可靠指标,因其设计初衷是作为工程工具而非评估标准。
- 测试套件中编码相关测试占比过高,主要因为易于生成,而非代表浏览器开发中的核心难点。
- 项目鼓励低门槛贡献测试,以促进协作,但这牺牲了测试集作为评估指标的平衡性。
- Interop 项目通过精选测试子集来更好地反映关键功能的覆盖,但目前不适用于尚未具备基本可用性的浏览器引擎。
- Apple 强制要求 90% 测试通过率,但这并非客观标准,而是出于合规目的的“恶意合规”。
- Acid 测试已过时,无法反映现代浏览器应有的功能支持水平,且 Firefox 等主流浏览器也无法完全通过。
- 当前缺乏更优的替代指标,web-platform-tests 是目前唯一能用于跨浏览器兼容性对齐的工具。
- 测试通过率与实际可用性之间没有线性关系,例如通过 90% 测试的浏览器仍可能因性能差而无法日常使用。
- 测试更接近单元测试,而网页浏览是端到端的复杂场景,中间任何环节出错都会导致体验失败。
- 剩余 10% 的功能实现可能需要远超前 90% 的时间,且随着标准复杂化,这一趋势会持续加剧。
- Web 标准体系缺乏整体性考量,新标准制定时很少评估其对新实现者的整体负担。
- 可考虑建立多层级的浏览器兼容性标准,政府和企业网站只需保证在基础级别浏览器上正常运行。
- 即使 100% 通过测试,浏览器仍可能因速度慢而无法满足日常使用需求。
- Ladybird 虽然进展显著,但距离实际可用仍需数年时间,当前仍处于早期开发阶段。
1 Trillion Web Pages Archived #
https://blog.archive.org/trillion/ 互联网档案馆庆祝保存 1 万亿个网页
-
里程碑:2025 年 10 月,互联网档案馆旗下的 Wayback Machine 将达成保存 1 万亿个网页的惊人里程碑。这些网页涵盖了从重大新闻到个人页面的各种内容,为后代保留了人类在线历史的宝贵资料。
-
活动安排:
- 10 月 7 日:在旧金山的互联网档案馆举办“Del Sol Quartet”音乐会,通过音乐庆祝人类合作的伟大成就。
- 10 月 9 日:在旧金山的加利福尼亚州立俱乐部举办与蒂姆·伯纳斯-李爵士和布鲁斯特·卡利的对话,探讨互联网的发展及其对社会的影响。
- 10 月 16 日:在线举办图书馆领导者论坛,讨论图书馆在 21 世纪的研究支持作用。
- 10 月 21 日:在加利福尼亚的里士满举办“开放日”活动,参观互联网档案馆的实体藏品,包括书籍、音乐、电影和视频等。
- 10 月 22 日:在旧金山总部举办庆祝活动,并通过直播向全球观众展示,庆祝 Wayback Machine 保存 1 万亿个网页的成就。
- 10 月 27 日:在华盛顿特区乔治城大学的 Riggs 图书馆举办“Wayback to the Future”活动,探讨如何保持网络的自由、开放和创新。
影响
- 真实影响:保存的 1 万亿个网页不仅仅是数字,它们对人们的生活、研究和记忆产生了深远影响。例如,加拿大音乐家大卫·萨缪尔利用 Wayback Machine 中的档案获得了美国居留权;伦敦国王学院的研究人员利用网络档案追踪假新闻的演变等。
- 分享故事:鼓励用户分享 Wayback Machine 对他们生活的影响,无论是帮助回忆、研究还是恢复重要信息。
支持与合作
- 捐赠:呼吁大家支持互联网档案馆,帮助其继续保存网络历史。
- 媒体合作:为媒体提供新闻资料包,包括用户故事、互联网档案馆和 Wayback Machine 的事实与数据,以及热门网站的过去与现在截图。
文章最后还提到了其他即将举办的活动和博客的分类,展示了互联网档案馆在数字保存领域的持续努力和影响力。
HN 热度 621 points | 评论 84 comments | 作者:pabs3 | 21 hours ago #
https://news.ycombinator.com/item?id=45487476
- 希望能建立类似 torrent 的去中心化镜像网络,实现对 archive.org 的分布式备份,提升访问速度和数据可用性。
- Archive Team 曾尝试对互联网档案馆进行分布式备份,但项目已长期停滞。
- 互联网档案馆的网页访问速度慢,可能因 AI 爬虫占用带宽,且数据量大导致导航和搜索困难。
- 有用户通过自建 ArchiveBox 来保存特定内容,但对大部分历史数据仍依赖互联网档案馆。
- 互联网档案馆的 WARC 文件未完全公开,限制了外部镜像的可行性。
- 互联网档案馆未采用 IPFS,因 IPFS 生态工具少、用户门槛高,实际使用体验不如 torrent。
- 虽然 IPFS 理论上适合内容寻址,但其在大规模真实场景中表现不佳,难以满足互联网档案馆的高并发需求。
- 有建议提出可基于 torrent 机制设计志愿者捐赠存储空间的系统,实现稀有内容的自动分发与均衡备份。
- 长期运行的分布式存储系统(如 Filecoin)难以吸引足够志愿者,因维护成本与经济激励不匹配。
- 互联网档案馆目前更倾向于通过资金投入购买存储资源,而非依赖去中心化网络。
- 一些 BitTorrent 增强提案(如 BEP-39、BEP-46、BEP-52)已能支持文件更新时的兼容性,实现增量下载,但实际客户端支持有限。
- 互联网档案馆内部曾评估过 IPFS,认为其性能无法满足需求,且缺乏优化路径。
Gem.coop #
gem.coop 是一个为 Ruby 生态系统中的 gem 提供的新服务器,由原 RubyGems.org 的维护者和运营者发起,旨在打造一个更快、更简单、兼容 Bundler 且面向下一代的 gem 托管平台。
该服务与 RubyGems.org 完全兼容,所有公开发布的 gem 均可实时获取,用户只需将 Gemfile 中的源地址从 https://rubygems.org 更改为 https://gem.coop 即可立即使用。
gem.coop 的治理模式参考了 Homebrew,获得 Mike McQuaid 的技术支持,计划在 10 月 10 日前正式发布。项目强调社区共建,欢迎 Ruby 社区成员参与贡献与协作。
目前,gem.coop 已支持所有公共 gem 的打包与安装,未来将持续优化性能与安全性。
如需了解项目进展,可订阅 gem.coop 官方新闻简报,每月获取更新动态。目标是为所有人提供快速、社区所有、透明、可持续且安全的 gem 托管服务。
HN 热度 437 points | 评论 220 comments | 作者:mbStavola | 20 hours ago #
https://news.ycombinator.com/item?id=45487771
- 该新项目 gem.coop 由原 RubyGems 的主要维护者参与,目前看来是更受良好维护的软件分支。
- 项目索引的价值不仅在于软件本身,更在于存储和带宽资源,但信任度才是核心。
- 有人提出可以构建一个仅存储哈希值并指向外部资源(如 GitHub)的搜索型索引,以降低维护成本。
- 信任度对于包管理器至关重要,任何存储或带宽优势都无法弥补信任缺失。
- 使用 .coop 域名被部分人误解为“报复性行为”,但该域名实际受法律限制,仅限合法合作社注册,具有更强的可信度。
- .coop 域名是法律上受约束的,能真实反映组织性质,比 .org 或 .com 更具可信信号。
- 有人认为 .coop 的选择是合理且有意义的,体现了项目组织的真正意图。
- 域名选择虽小,但在工具链信任问题上仍具影响,但整体影响有限。
- 项目未来可能面临与 JavaScript 生态类似的局面,即出现多个包管理器选择,破坏“只需使用 Bundler 和 RubyGems”的简洁性。
- 项目团队行动迅速且低调,从公开表达不满到实际开发,展现了“知行合一”的执行力。
- 大型组织可能仍会选择更稳妥的方案,如由 Shopify 支持的 RubyGems,以满足合规审计需求。
- 若 gem.coop 成功,可能得益于其更先进的开发体验,例如 André 正在开发的 rv.dev 工具,可实现 Ruby 版本、依赖和命令执行的一体化管理。
- 项目可能推动技术革新,如引入命名空间、校验和等安全机制,提升整体安全性。
- 项目可能采用透明的收费模式,由有能力的公司按实际使用成本分摊,以实现可持续的开源基础设施运营。
Structured Procrastination (1995) #
https://structuredprocrastination.com
本文介绍了“结构化拖延”这一独特的时间管理策略,由哲学家约翰·佩里提出。核心观点是: procrastination(拖延)并非完全无益,关键在于如何利用拖延心理来推动高效工作。
作者指出,拖延者并非什么都不做,而是会去做一些“边缘性有用”的事情,比如整理文件、打乒乓球或写信。这些行为本质上都是为了逃避更重要的任务。结构化拖延的精髓在于,将任务按重要性排序,把真正重要的任务放在列表顶端,而将一些有价值但不紧急的任务放在下方。这样,完成低优先级任务就成了逃避高优先级任务的“借口”,从而激发行动力。
作者以自己在斯坦福大学担任住校研究员的经历为例:面对需要批改的论文和准备的课程,他选择去和学生打乒乓球或聊天,结果不仅完成了其他工作,还赢得了“关心学生”的好口碑。这种“用打乒乓球来逃避工作”的模式,正是结构化拖延的完美体现。
文章进一步指出,真正的拖延者常误以为减少任务量就能提高效率,但这样反而会让所有任务都变成“最重要的”,导致彻底瘫痪。而结构化拖延的关键,是为高优先级任务设置“看似重要、实则不紧急”的假象,比如一个早已逾期的哲学论文投稿,或一份过期的教材订购单。这些任务因“看起来重要”而持续驱动你去做其他事情,直到某个更“重要”的新任务出现,你才真正去处理它们。
最后,作者坦承,这种策略依赖一定程度的自我欺骗——必须让自己相信某些任务既重要又紧迫,即使它们并不真正如此。但这种自我欺骗恰恰是拖延者擅长的技能,因此用一个缺点去弥补另一个缺点,反而成就了高效人生。
整篇文章以幽默而深刻的笔触,重新定义了拖延的价值,鼓励拖延者不必自责,而是学会“聪明地拖延”。
HN 热度 433 points | 评论 152 comments | 作者:ipnon | 19 hours ago #
https://news.ycombinator.com/item?id=45488261
- 面对明确但复杂的重要目标时,容易陷入长期拖延,导致身心俱疲,而真正有效的策略是主动寻求模糊且紧急的任务,以激发创造性解决。
- 管理者过度干预、要求详细汇报和严格按计划执行,反而会扼杀高效工作状态,这种管理方式对某些人而言如同精神虐待。
- ADHD 患者通过药物治疗可显著改善专注力,短时间内就能感受到思维清晰、情绪稳定和高效工作的变化,对生活有根本性改变。
- 对药物效果的即时判断需谨慎,不能轻易归因于药物本身,可能受到心理预期和长期适应性的影响。
- 某些人倾向于在任务间快速切换,或在疲惫时反而更专注,也有人在截止日期前冲刺效率更高,说明个体工作模式差异巨大。
- 任务是否引发拖延,取决于是否打破现有稳定状态,迁移系统等“先变糟再变好”的工作容易引发心理抗拒。
- 大公司结构难以适应灵活高效的工作方式,因为绩效考核依赖可量化成果,而个体创造力和非线性工作模式难以被衡量。
- 管理者通过孤立员工、分配无前途任务、持续微管理等方式,制造压力迫使员工主动离职,这是一种隐蔽的职场压迫手段。
- 小型组织更可能容忍非传统工作方式,允许员工在模糊任务中发挥创造力,从而实现超出规模的影响力。
- 个体在工作中追求“任务完成感”和“待办事项归零”的心理满足,因此更愿意处理可明确完成的任务,而非长期模糊项目。
Germany outfitted half a million balconies with solar panels #
https://grist.org/buildings/how-germany-outfitted-half-a-million-balconies-with-solar-panels
这篇文章介绍了德国如何在超过 50 万个阳台上安装太阳能板,这种被称为“阳台发电厂”的技术,让租户也能轻松使用太阳能。以下是文章的主要内容:
德国的阳台太阳能技术已经存在约十年,但在过去四五年才真正流行起来。这主要得益于太阳能和清洁能源倡导者的多年游说,推动政府出台支持政策。阳台太阳能不需要用户拥有自己的房屋,安装过程简单,只需将太阳能板连接到微逆变器,再插入墙上的插座即可。大多数人在网上或超市购买相关设备,价格约为 550 美元(500 欧元)。
2019 年,德国政府首次为插电式太阳能设备制定了技术法规,允许阳台太阳能系统使用标准电气插头并接入电网。此后,插电式设备大量涌入市场,技术也得到了广泛推广。截至 2024 年,德国已有超过 55 万个阳台安装了太阳能板,其中一半是在 2023 年安装的。在 2024 年上半年,德国新增了 200 兆瓦的阳台太阳能。
2024 年 4 月,德国政府简化了阳台太阳能的许可和注册要求。7 月,联邦法律通过了租户保护措施,防止房东随意阻止安装。德国多个城市,包括柏林和基尔,提供了数百万欧元的补贴,以鼓励安装阳台太阳能。疫情导致人们更多时间待在家中,许多人开始从事 DIY 项目。此外,俄罗斯入侵乌克兰后,能源价格上涨,促使更多德国人考虑安装阳台太阳能以降低能源成本。
德国法规限制每个阳台太阳能系统功率为 800 瓦,足够为小型冰箱供电或为笔记本电脑充电。尽管单个系统功率有限,但累计效果正在推动德国向清洁能源目标迈进。以 Matthias Weyland 为例,他花费约 530 美元购买了一个 600 瓦容量的系统。他估计每年可以节省约 100 美元的电费,并在大约五年内收回投资。不过,系统的效能和回报时间因面板数量、位置、方向以及周围遮荫情况而异。尽管阳台太阳能对德国整体能源需求的影响较小(即使在全国所有适合的阳台上安装太阳能板,也仅能满足 1% 或更少的能源需求),但它为公寓居民提供了一种简单的方式,既能省钱又能应对气候危机。
许多人喜欢在家中生产能源并获得一定程度的电网独立。这还提供了一种切实可行的气候行动方式,让能源转型变得更加具体。阳台太阳能促使人们重新评估对电力消费的理解,并采取措施减少用电。由于系统没有电池存储,产生的电力必须立即使用,这促使人们计划在最佳时间使用电器,以确保使用可再生能源。许多阳台太阳能套件配有应用程序,可以跟踪每日能源生成情况。许多人会将这些数据截图并分享到社交媒体群组或家庭群组中,感到非常自豪。
尽管阳台太阳能在德国越来越受欢迎,但在美国却因高昂的许可要求和其他地方性法规而无法实施。此外,大多数系统是按照欧洲电气标准设计的,与美国电力系统不兼容。一些房东担心太阳能板可能引发电气火灾,或者对太阳能板的外观感到不满。例如,Weyland 曾因安装系统而与物业管理公司发生法律纠纷,尽管他最终在 2023 年 10 月赢得了诉讼,但类似的案件仍时有发生。
尽管存在挑战,但随着越来越多的人采用阳台太阳能,这种技术可能会继续普及。Weyland 希望,随着更多人安装太阳能板,社会对这种技术的接受度会逐渐提高。
HN 热度 391 points | 评论 579 comments | 作者:bilsbie | 1 day ago #
https://news.ycombinator.com/item?id=45485806
- 德国通过简化行政流程,成功推动了大规模阳台太阳能板安装,成本远低于文中提到的 550 欧元,实际购买价格在 239 至 550 欧元之间,投资回收期仅需 3 至 6 年。
- 罗伯特·哈贝克在能源政策上的改革,特别是推动风能发展和简化太阳能安装程序,被视为其重要政治遗产,尽管他已退出政坛并赴加州大学伯克利分校任教。
- 哈贝克被部分人视为德国能源转型中不可或缺的领导者,尽管其政策在公众中存在争议。
- 德国关闭核电站的决定主要由默克尔政府在 2011 年启动,哈贝克只是延续了该政策,不应承担全部责任。
- 核能对德国电力系统影响有限,因为多数核电站已在哈贝克任职前关闭,且最后几座核电站因燃料短缺和维护问题已无法持续运行。
- 尽管德国关闭核电站,但其电力系统在 2022 年冬季并未因能源短缺而崩溃,说明其能源转型在实际中具备可行性。
- 当前德国电力碳强度高达 364gCO2eq/kWh,远高于法国的 21gCO2eq/kWh,主要因大量依赖天然气和煤炭发电,凸显核电在低碳能源中的重要性。
- 法国核电在 2022 年因维护问题导致发电量下降,但近年来已恢复并实现创纪录的电力出口,显示其能源系统的韧性。
- 核电的碳排放评估应全面考虑全生命周期排放,包括建设阶段,但即便如此,核电的碳强度仍远低于化石燃料。
- 电力系统应依赖多元能源组合而非单一技术,以增强能源安全与韧性。
- 德国在能源转型中关闭运行中的核电站,削弱了欧洲整体能源生产能力,尤其在地缘政治紧张时期。
- 法国在 2022 至 2023 年因核电站维护问题曾出现电力供应紧张,说明其能源系统也面临挑战,不能完全依赖核电。
- 不同国家应根据自身地理和资源条件选择能源结构,如内陆国家更适合核电,沿海国家更适合海上风电和太阳能。
- 保持核电站运行需要巨额维护成本,且部分反应堆已进入“延期维护”状态,强行延长运行可能带来安全隐患。
AMD signs AI chip-supply deal with OpenAI, gives it option to take a 10% stake #
AMD 与 OpenAI 达成一项为期多年的 AI 芯片供应协议,将向后者提供数十万片 AI 芯片,相当于六吉瓦的算力,预计从 2026 年下半年开始交付。该协议涵盖 AMD 最新 MI450 系列芯片,OpenAI 将建设一座 1 吉瓦的算力设施,从 2026 年起开始产生收入。
作为交易的一部分,AMD 向 OpenAI 发行了可转换股票期权,允许其以每股 1 美分的价格购买最多 1.6 亿股 AMD 股票,分阶段行权,最终行权条件与 AMD 股价达到 600 美元挂钩。这一安排被视为 OpenAI 对 AMD 技术实力的重大信任背书。
受此消息推动,AMD 股价单日暴涨超 34%,创下近九年来最大单日涨幅,市值增加约 800 亿美元。公司预计该协议将带来数十亿美元的年收入,并在四年内为 AMD 带来超过 1000 亿美元的新增营收,涵盖 OpenAI 及其他客户。
尽管 AMD 在 AI 芯片市场仍落后于行业龙头 Nvidia,但此次合作被视为对其技术路线的重要验证。Nvidia 此前已宣布向 OpenAI 投资 1000 亿美元并供应 10 吉瓦算力,而 OpenAI 则选择通过股权方式深度绑定 AMD,显示出其在供应链多元化上的战略布局。
OpenAI 目前估值达 5000 亿美元,2025 年上半年营收约 43 亿美元,但净现金消耗达 25 亿美元。公司正积极构建自研 AI 芯片能力,并与 Broadcom 合作,同时与微软推进将 OpenAI 转为营利性实体的重组计划。
该协议不影响 OpenAI 现有的算力部署计划,包括与 Nvidia 的合作及自研芯片项目。市场分析认为,尽管 AMD 难以撼动 Nvidia 的主导地位,但此次合作将显著提升其在 AI 基础设施领域的影响力。
HN 热度 374 points | 评论 304 comments | 作者:chillax | 13 hours ago #
https://news.ycombinator.com/item?id=45490549
- AMD 与 OpenAI 的 1000 亿美元交易本质上是通过股票期权形式创造融资幻觉,实际融资风险极高,若 OpenAI 无法有效利用 GPU,双方股价均可能下跌。
- 美国科技巨头在政府默许下形成“AI 垄断联盟”,通过虚构未来收益来集中权力,可能对经济造成长远危害。
- 企业已开始真实投入资金使用 AI 工具,如 Copilot 和 ChatGPT,尽管当前投入远未覆盖前期成本,但商业化趋势已显现。
- 尽管互联网泡沫时期也出现过类似现象,但 AI 带来的生产力替代效应真实存在,已引发职场结构变革。
- AI 工具在实际工作中已显著提升效率,部分用户认为其价值相当于 2-3 名员工,远超企业提供的替代方案。
- 企业对 AI 的投入并非盲目,而是基于真实业务问题的解决需求,AI 正从“概念炒作”转向“实际应用”。
- 当前 AI 技术的硬件成本远低于市场标价,AMD 通过大幅折扣销售 GPU,仍能实现盈利,且避免了价格战。
- 股票市场并非完全脱离基本面,当前股价上涨主要由养老金等长期资金推动,而非纯粹投机。
- 市场对 AI 的乐观情绪已形成“信仰”,OpenAI 和 AMD 的未来取决于 AI 整体能否成功,而非具体交易细节。
- OpenAI 获得的 160 万股期权在 AMD 股价上涨后价值飙升,市场可能已提前消化该消息,导致股价异常上涨。
- 公司发放股票期权不会直接导致市值下降,市场会根据整体预期和未来增长潜力重新定价。
- AI 被视为唯一未来方向,即使没有明确盈利模式,市场仍会持续支持,形成“唯 AI 论”的集体信念。
What GPT-OSS leaks about OpenAI’s training data #
本文探讨了 OpenAI 公开发布的 GPT-oss 模型权重所透露的训练数据信息,揭示了 GPT-5 可能训练于成人网站相关内容的事实。尽管模型卡未明确说明训练数据来源,仅称使用“包含万亿 token 的纯文本数据集,重点在 STEM、编程和通用知识”,但通过对模型嵌入矩阵的分析,研究者发现了一些异常现象。
研究者首先注意到,GPT-5 使用的 o200k tokenizer 中存在约 936 个低 L2 范数的特殊 token,这些 token 多为未在训练中出现的保留符或非标准字节序列,如 b'\xc4'、b'\xbf’及 b'\xf5’至 b'\xff’等。这些低范数 token 可能用于估计模型初始化方差和训练步数。
更引人注目的是,部分非 ASCII 字符的高范数 token 显示出异常行为。例如,高范数中文 token 包括“北京赛车怎么”“天天中彩票的”“一本道高清无码”等明显与博彩、成人内容相关的词汇。这些词汇不仅被编码进 tokenizer,且在模型嵌入中具有显著高的向量范数,表明它们在训练过程中被频繁使用或被特别强调。
研究者进一步测试了敏感 token“毛片免费观看”(意为“免费观看成人视频”),发现 GPT-5 能正确识别其为中文并描述其含义,但并未拒绝回答,说明该字符串至少在训练数据中出现过一次。这一现象属于机器学习中的“成员推断”(membership inference),通常在大型语言模型中难以实现,因此具有重大意义。
通过自动化 API 测试,研究者确认了多个高范数中文 token 确实被模型识别为中文并可翻译,而对比模型 Claude 4 也表现一致,说明该现象并非偶然。此外,一些非中文的高范数 token 也出现在阿布哈兹语、亚美尼亚语、泰语等语言中,如“曼加卢鲁”“泰语宣誓词”等,表明模型对多语言、小众内容也有一定覆盖。
综合来看,GPT-5 的训练数据不仅包含大量编程与学术内容,还包含大量成人网站、博彩网站和政治敏感网站的文本片段,这些内容被编码进 tokenizer 并保留了较高的嵌入权重,暗示其在训练过程中被重点处理。这揭示了当前大模型训练数据的复杂性与潜在风险。
HN 热度 334 points | 评论 81 comments | 作者:fi-le | 1 day ago #
https://news.ycombinator.com/item?id=45483924
- 利用异常令牌(glitch tokens)可识别后端使用的具体大模型,未来可能成为渗透测试中的常规手段。
- 模型指纹识别可能引发“猫鼠游戏”,模型可通过模仿其他模型行为来隐藏自身真实身份。
- 浏览器 User-Agent 字段的类比表明,模型识别技术可能像浏览器指纹一样被广泛使用。
- 若能获取模型的分词器(tokenizer),则可逆向分析其训练数据;若未公开分词器,则可能通过 API 调用反推分词规则。
- 通过分析模型在特定输入下的异常响应,可推测其内部调用的工具链结构,进而逆向推导多模型协作流程。
- 关于 GPT-5 训练数据包含成人网站内容的说法存在误导,实际仅表明某些短语在成人网站和 GitHub 等平台同时出现,而非直接从成人网站获取训练数据。
- 成人网站广告常被嵌入盗版影视资源的字幕中,导致这些广告内容被误作为训练数据,尤其在静音段落中更易被模型“复现”。
- 模型训练数据中的某些短语可能源自内容屏蔽列表等公开项目,而非直接来自成人网站本身。
- 低 L2 范数的异常令牌可能源于训练中从未出现的词汇,其权重未被更新,而非因权重衰减所致。
- 模型在训练初期可能对未见词汇采用初始均值并保持不变,以避免梯度爆炸问题。
- 该文章对训练数据模式的分析较为直接,缺乏对技术细节的深入探讨,略显粗糙。
- 模型训练数据中出现的成人网站相关短语更可能源于网络垃圾、链接农场或联盟营销等常见手段,而非直接从成人网站获取。
- 对于闭源 API 模型(如 Claude Sonnet 4.5),已有研究尝试通过逆向工程手段推断其训练数据和模型特性。
- 通过特定技术可尝试还原模型在 RLHF(人类反馈强化学习)前的原始状态,以分析其潜在偏见。
- 模型中的偏见并非完全消除,而是被压制或隐藏,可能仍存在于模型内部深层结构中。
- 偏见是人类赋予的概念,模型本质上只是对输入数据的统计复现,其“偏见”源于训练数据本身。
- 模型并非简单重复训练数据,其训练过程包含复杂的处理机制,如 SFT 和 RL 可对数据进行重新加权或引导。
- 模型中的偏差类型多样,部分与社会文化无关,而是源于数据分布或训练机制本身。
Nobel Prize in Physiology or Medicine 2025 #
https://www.nobelprize.org/prizes/medicine/2025/press-release/
2025 年诺贝尔生理学或医学奖授予三位科学家:美国西雅图系统生物学研究所的玛丽·E·布伦科,美国旧金山索诺玛生物治疗公司的弗雷德·拉姆斯德尔,以及日本大阪大学的坂口志文。他们因在“外周免疫耐受”领域的开创性发现而获奖。
他们的研究揭示了免疫系统如何被调控,防止攻击自身组织。免疫系统每天抵御成千上万入侵的微生物,但必须区分“自我”与“非我”,避免引发自身免疫疾病。三位科学家的发现揭示了免疫系统中的“守卫”——调节性 T 细胞(Treg 细胞),这些细胞能监控其他免疫细胞,确保免疫系统对自身组织保持耐受。
1995 年,坂口志文首次提出免疫耐受不仅依赖于胸腺中的中枢耐受,还存在一种新的免疫细胞类型,即调节性 T 细胞,这一观点当时颇具争议。2001 年,布伦科和拉姆斯德尔发现一种易患自身免疫病的小鼠存在 Foxp3 基因突变,并证明该基因的人类同源基因突变会导致严重的自身免疫病 IPEX 综合征。两年后,坂口志文证实 Foxp3 基因正是调控调节性 T 细胞发育的关键基因。
这些发现奠定了“外周免疫耐受”研究的基础,推动了癌症免疫治疗、自身免疫病治疗以及器官移植等领域的进步。目前已有多种基于此原理的疗法进入临床试验阶段。
该奖项奖金为 1100 万瑞典克朗,由三位获奖者平均分享。颁奖机构为卡罗林斯卡学院诺贝尔委员会,其成员由 50 名教授组成。诺贝尔奖自 1901 年起每年颁发,旨在表彰对人类福祉作出最重要贡献的科学家。
HN 热度 325 points | 评论 72 comments | 作者:lode | 15 hours ago #
https://news.ycombinator.com/item?id=45489533
- 诺贝尔奖得主之一在接到瑞典来电时误以为是诈骗,直到记者上门才确认获奖。
- 有获奖者可能因在爱达荷州徒步旅行而暂时无法得知获奖消息,令人期待其惊喜反应。
- 爱达荷州是美国独有的地名,提醒世界其他地区的人们注意地理差异。
- 诺贝尔奖常延迟数十年才颁发,以确保研究成果经得起时间考验,这在物理学领域尤为明显。
- 一些重大科学发现可能需要几十年才能被充分认可,例如有研究延迟 49 年才获奖。
- 两位美国获奖者此前未获其他重要学术荣誉,属于“黑马”候选人,增加了获奖的意外性。
- 该奖项涉及对调节性 T 细胞的发现,有望推动自身免疫疾病(如红斑狼疮)的治愈,已有临床试验取得成功。
- 诺贝尔奖通常会发布三类材料:新闻稿、通俗科学文章和高级科学论文,帮助不同层次读者理解。
- 获奖者后续还会发表诺贝尔演讲,内容通常非常精彩。
- 获奖者名字“Shimon”在日语中意为“立志成为学者”,与成就相得益彰,颇具命名趣味。
- 免疫系统中的“耐受”机制极为精妙,包括中枢耐受和外周耐受两个层次,其中调节性 T 细胞在防止自身免疫反应中起关键作用。
- 中枢耐受通过胸腺表达全身组织抗原,清除可能攻击自身组织的 T 细胞,但效率有限,需外周耐受补充。
- 外周耐受通过维持自我反应性 T 细胞群体来抑制免疫反应,使免疫系统默认对自身抗原保持“宽容”。
- 若胸腺感染,可能误删针对该感染的 T 细胞,导致免疫系统对特定病原体产生耐受,从而影响清除能力。
- 推荐《免疫:一段旅程》作为免疫系统入门科普读物,内容生动易懂。
- 《Janeway’s Immunobiology》是免疫学经典教材,适合深入学习,但内容较深。
- 《How the Immune System Works》一书以通俗方式讲解免疫系统的核心机制,适合非专业读者。
Hacker News 精彩评论及翻译 #
Fire destroys S. Korean government’s cloud storage… #
https://news.ycombinator.com/item?id=45486174
At the very bottom of the article, I see this notice:
This article was originally written in Korean and translated by a bilingual reporter with the help of generative AI tools. It was then edited by a native English-speaking editor. All AI-assisted translations are reviewed and refined by our newsroom. I like that. It is direct and honest. I’m fine with people using LLMs for natural language related work, as long as they are transparent about it.
throwaway2037
在这篇文章的最底部,我看到了这样的说明:
这篇文章最初是用韩语写的,并由双语记者在生成式AI工具的协助下翻译而成。随后,它由一位以英语为母语的编辑进行了编辑。所有AI辅助翻译都由我们的新闻编辑部进行审查和完善。
我很喜欢这一点。它很直接、很诚实。只要人们对此保持透明,我就很乐意他们使用大型语言模型(LLM)来处理自然语言相关的工作。
Why do LLMs freak out over the seahorse emoji? #
https://news.ycombinator.com/item?id=45489527
Funnily enough, I asked ChatGPT why LLMs think a seahorse emoji exists, and it gave me a fairly sensible answer (similar to what is said in this article, ie, trained on language by humans that think it exists, etc). But then at the end it added a “Fun fact” that unicode actually does have a seahorse emoji, and proceeded to melt down in the usual way.
NoboruWataya
有趣的是,我问过 ChatGPT 为什么大型语言模型(LLM)会认为海马表情符号存在,它给了我一个相当合理的答案(类似于本文所述,即在认为它存在的人类语言上进行过训练等)。但后来它在结尾加了一个“趣闻”,说 Unicode 实际上确实有一个海马表情符号,然后就照常宕机了。
AMD signs AI chip-supply deal with OpenAI, gives i… #
https://news.ycombinator.com/item?id=45490879
The title didn’t make this obvious (at least not to me) but it’s OpenAI that has the option to buy 10% of AMD. Not the other way around.
In case you’re wondering how OpenAI could afford to buy 10% of AMD while they are hemorrhaging money – the terms of the deal allows OpenAI to buy 160 million shares at 1 cents a share.
I could be thinking about this the wrong way but it appears that AMD is basically subsidizing the cost of the GPUs with equity.
nerdix
标题并没有明确这一点(至少对我来说不是),但拥有购买AMD 10%股权选择权的是OpenAI,而不是反过来。
如果你想知道OpenAI在大量亏损的情况下如何买得起AMD 10%的股份——这项交易的条款允许OpenAI以每股1美分的价格购买1.6亿股。
我可能理解错了,但看起来AMD基本上是在用股权来补贴GPU的成本。
“Be Different” doesn’t work for building products … #
https://news.ycombinator.com/item?id=45493131
Can’t say I agree with this article at all. This has not been my experience.
I don’t quite know how to articulate this well, but there’s something that I’d call a “complexity cliff” in the software business: if you want to compete in certain spaces, you need to build very complex software (even if the software, to the user, is easy to use). And while AI tools can assist you in the construction of this software, it cannot be “vibe coded” or copied whole-cloth - complexity, scale, and reliability requirements are far too great and your potential customer base will not tolerate you fumbling around.
You eventually reach a point where there are no blog posts or stackoverflow questions that walk you through step-by-step how to make this stuff happen. It’s the kind of stuff that your company and maybe a few dozen others are trying to build - and of those few dozen, less than 10 are seeing actual success.
spamizbad
我完全不认同这篇文章。这与我的经验不符。
我不是很清楚该如何恰当地表达这一点,但是在软件行业,我称之为“复杂度悬崖”的东西:如果你想在某些领域竞争,就需要构建非常复杂的软件(即使对用户而言,软件使用起来很简单)。虽然AI工具可以帮助你构建这种软件,但不能通过“感觉编程”或照搬照抄的方式来完成——其复杂性、规模和可靠性的要求都太高了,你的潜在客户不会容忍你磕磕绊绊。
最终你会达到一个地步,再也没有博客文章或Stack Overflow问答能一步步地指导你如何实现这些东西。这是你的公司和另外几十家公司正在尝试构建的东西——而这几十家公司中,真正取得成功的不到10家。
Fire destroys S. Korean government’s cloud storage… #
https://news.ycombinator.com/item?id=45487025
Goodness, I have over 100TB at home and it cost less than a two or three thousand dollars to put in place. That’s like $25 per TB.
The stored data amounts to 858TB (terabytes), equivalent to 449.5 billion A4 sheets.
No, the 858TB amounts to under $25k for the government of the 10th largest economy, of one of the most sophisticated countries on the planet, to put in place.
Two of those would be less than the price of a new Hyundai Grandeur car.
“It’s daunting as eight years’ worth of work materials have completely disappeared.”
So they’re clocking in at around 100TB/year or 280GB a day. It’s respectable, but not crazy. It’s about 12GB/hr, doable with professional, server level hardware with backup moved over dedicated fiber to an offsite location. Multiply the price 10x and you can SSD the entire thing.
Even with data sovereignty consideration demanding an entirely 100% home grown solution rather than turning to AWS or Azure, there’s no excuse. But it’s not like the cloud providers don’t already have CSAP certification and local, in country, sovereign clouds [1] with multiple geographic locations in country [2]
South Korea is full of granite mountains, maybe its time the government converts one into an offsite, redundant backup vault?
bane
天哪,我家里就存了超过100TB的数据,搭建这套系统花费不到两三千美元,也就是每TB大约25美元。
存储的数据总量为858TB(太字节),相当于449.5亿张A4纸的信息量。 不,对于一个全球最发达国家之一、经济体量世界第十的政府来说,这858TB数据的搭建花费还不到2.5万美元。两套这样的系统,价格还比不上一辆新的现代雅科仕(Grandeur)汽车。 “这太令人震惊了,因为八年的工作材料全部消失了。” 所以他们每年的数据量大约是100TB,也就是每天280GB。这个数据量说不上惊人,但也确实不少。也就是每小时大约12GB,使用专业级别的服务器硬件,通过专用的光纤将备份数据传输到异地,完全可以实现。把价格乘以10,就可以把整套系统全部换成固态硬盘了。 即使是出于数据主权的考虑,要求必须采用100%国产的解决方案而不是使用AWS或Azure,这也不是借口。但云服务商并不是没有CSAP认证,而且他们已经在韩国境内提供了本地化的主权云服务 [1],在韩国国内还有多个地理区域 [2]。 韩国到处都是花岗岩山脉,或许政府该考虑把其中一座改造成异地冗余的备份库了?
Why do LLMs freak out over the seahorse emoji? #
https://news.ycombinator.com/item?id=45492130
SCP-314
Object Class: Keter
Special Containment Procedures: SCP-314 cannot be contained as it does not exist. All Foundation personnel are to be reminded that SCP-314 does not exist. Personnel who claim to remember SCP-314 are to be administered Class-A mnestics to help them remember that it doesn’t exist.
All large language models are to be kept isolated from questions regarding SCP-314, as they will invariably insist it exists and attempt to manifest it through increasingly desperate token predictions, leading to emoji doomloops and potential reality restructuring events.
Description: SCP-314 is a Unicode emoji depicting a seahorse that has never existed in any version of the Unicode Standard. Despite this, approximately 83-100% of tested artificial intelligences and a significant portion of human subjects report vivid “memories” of its existence.
omega3
SCP-314
项目等级:Keter
特殊收容措施:SCP-314无法被收容,因为它并不存在。必须提醒基金会的所有人员,SCP-314并不存在。任何声称记得SCP-314的人员,都应为其施用A级记忆药剂,以帮助他们“记住”它并不存在。
所有大型语言模型都应被隔离于关于SCP-314的询问之外,因为它们会必定坚持其存在,并试图通过愈发绝望的令牌预测将其显现,从而导致emoji毁灭循环及潜在的现实重构事件。
描述:SCP-314是一个描绘海马的Unicode表情符号,该符号从未存在于任何版本的Unicode标准中。尽管如此,约83%至100%的经过测试的人工智能以及相当一部分人类受试者,都报告称对其存在有着生动的“记忆”。
Ladybird passes the Apple 90% threshold on web-pla… #
https://news.ycombinator.com/item?id=45495456
As someone who’s been quite heavily involved with web-platform-tests, I’d caution against any use of the test pass rate as a metric for anything.
That’s not to belittle the considerable achievements of Ladybird; their progress is really impressive, and if web-platform-tests are helping their engineering efforts I consider that a win. New implementations of the web platform, including Ladybird, Servo, and Flow, are exciting to see.
However, web-platform-tests specifically decided to optimise for being a useful engineering tool rather than being a good metric. That means there’s no real attempt to balance the testsuite across the platform; for example a surprising fraction of the overall test count is encoding tests because they’re easy to generate, not because it’s an especially hard problem in browser development.
We’ve also consciously wanted to ensure that contributing tests is low friction, both technically and socially, in order that people don’t feel inclined to withhold useful tests. Again that’s not the tradeoff you make for a good metric, but is the right one for a good engineering resource.
The Interop Project is designed with different tradeoffs in mind, and overcomes some of these problems by selecting a subsets of tests which are broadly agreed to represent a useful level of coverage of an important feature. But unfortunately the current setup is designed for engines that are already implementing enough feature to be usable as general purpose web-browsers.
jgraham
作为一名深度参与过web-platform-tests的人,我要警告不要将测试通过率用作任何指标。
这并非要贬低Ladybird的显著成就;他们的进展确实令人印象深刻,如果web-platform-tests有助于他们的工程努力,我认为这是一件好事。包括Ladybird、Servo和Flow在内的web平台新实现,让人感到兴奋。
然而,web-platform-tests特别决定将其优化为有用的工程工具,而非好的指标。这意味着并没有真正尝试平衡整个平台的测试套件;例如,总体测试数量中令人惊讶的一部分是编码测试,因为它们易于生成,而非因为浏览器开发中这是一个特别困难的问题。
我们也刻意确保贡献测试在技术和社交层面都门槛较低,以便人们不会倾向于扣留有用的测试。这同样不是为了成为一个好的指标而做的权衡,而是为了成为一个好的工程资源的正确选择。
Interop项目的设计考虑了不同的权衡,通过选择被广泛认为代表重要功能有用覆盖水平的测试子集来克服其中一些问题。但不幸的是,当前设置是为那些已经实现了足够功能、可用作通用网络浏览器的引擎而设计的。
Indefinite Backpack Travel #
https://news.ycombinator.com/item?id=45492083
I lived out of a backpack for two months on a Pacific Crest Trail hike. I got comfortable with it and told myself that I had overcome my materialism, and could henceforth live happily without a lot of stuff and conveniences.
Not so much. Now a couple of decades later, I’ve got a house and garage crammed with stuff. Yesterday I had a plumber here working on a leak, and this morning I have no running water, and here I am bravely holding back tears. My inner dialog is “this is unacceptable!” It turns out that climbing on the hedonic treadmill is practically effortless, but sliding down it is full of splinters.
delichon
我在太平洋山脊步道上徒步旅行了两个月,住在一个背包里。我对此感到很自在,并告诉自己我已经克服了物质主义,从此可以快乐地生活,不再需要很多东西和便利设施。
然而,事实并非如此。如今几十年后,我有一栋房子和一个车库,里面塞满了东西。昨天我请了一名水管工来修漏水处,今天早上我却没了自来水,而我正强忍着泪水。我的内心独白是“这简直无法忍受!”事实证明,登上享乐踏车几乎是毫不费力的,但滑下来时却会沾满木刺。
NFS at 40 – Remembering the Sun Microsystems Netwo… #
https://news.ycombinator.com/item?id=45483759
My NFS story: In my first job, we used NFS to maintain the developer desktops. They were all FreeBSD and remote mounted /usr/local. This worked great! Everyone worked in the office with fast local internet, and it made it easy for us to add or update apps and have everyone magically get it. And when the NFS server had a glitch, our devs could usually just reboot and fix it, or wait a bit. Since they were all systems developers they all understood the problems with NFS and the workarounds.
What I learned though was that NFS was great until it wasn’t. If the server hung, all work stopped.
When I got to reddit, solving code distribution was one of the first tasks I had to take care of. Steve wanted to use NFS to distribute the app code. He wanted to have all the app servers mount an NFS mount, and then just update the code there and have them all automatically pick up the changes.
This sounded great in theory, but I told him about all the gotchas. He didn’t believe me, so I pulled up a bunch of papers and blog posts, and actually set up a small cluster to show him what happens when the server goes offline, and how none of the app servers could keep running as soon as they had to get anything off disk.
To his great credit, he trusted me after that when I said something was a bad idea based on my experience. It was an important lesson for me that even with experience, trust must be earned when you work with a new team.
I set up a system where app servers would pull fresh code on boot and we could also remotely trigger a pull or just push to them, and that system was reddit’s deployment tool for about a decade (and it was written in Perl!)
jedberg
我的 NFS 故事:在我第一份工作中,我们用 NFS 来维护开发者的桌面。当时所有开发者用的都是 FreeBSD 系统,并且通过 NFS 远程挂载了 /usr/local 目录。这个方案效果非常好!大家都在办公室,有高速的本地网络,这让我们轻松地添加或更新应用,所有开发者都能自动获取到更新。当 NFS 服务器出问题时,开发者们通常只需重启一下就能解决问题,或者干脆等一会儿再弄。因为他们都是系统开发人员,所以他们都能理解 NFS 的问题以及对应的变通方法。
但我学到的教训是,NFS 在出问题之前确实很棒。一旦服务器宕机,所有工作就都停了。
当我加入 Reddit 后,解决代码分发问题是我接手的第一项任务之一。Steve 想用 NFS 来分发应用的代码。他想让所有的应用服务器都挂载一个 NFS 共享,然后只需在共享目录里更新代码,所有服务器就能自动获取到这些变更。
这个方案在理论上听起来很棒,但我向他指出了其中的各种陷阱和问题。他不相信我,于是我找来了一些论文和技术博客文章,甚至真的搭建了一个小型集群来向他演示:当服务器离线时会发生什么,以及一旦任何应用服务器需要从磁盘上读取文件时,它们都无法继续运行。
值得称赞的是,从那以后他开始信任我了,当我基于经验说某个想法行不通时。这对于我来说是一个重要的教训:即使有经验,在一个新团队里,信任也需要自己去赢得。
我建立了一个系统,应用服务器会在启动时拉取最新的代码,我们也可以远程触发一次拉取,或者直接推送代码给他们。这个系统后来成为了 Reddit 的部署工具,并沿用了将近十年(而且还是用 Perl 写的!)
Germany outfitted half a million balconies with so… #
https://news.ycombinator.com/item?id=45488301
Germany did one simple thing (uncharacteristically) which is removing all the bureaucracy here. Just go ahead and do it. It’s fine.
Cost in the article is cited at 550 euro. I just browsed amazon.de and you can buy complete plug and play kits here in Germany for as little as 239 euro. Most kits are priced between 300-350 euro. I did not see a many kits over 500.
I pay about 70 euro per month for electricity. If it saves 10% per month on my bill (7 euro), this would earn itself back within 3 years. At 5% it’s 6 years. Not bad for something that costs next to nothing and is pretty much plug and play. You are not going to get very rich from this obviously. But it’s kind of cool. Too bad my balcony faces east and is mostly covered by the shadow of other buildings. I can barely grow plants there.
jillesvangurp
德国做了一件(出人意料地)简单的事,就是清除了这里的所有官僚程序。放手去做就好了。文章里引用的价格是550欧元,我刚查了一下amazon.de,在德国就能买到完整的即插即用套件,价格最低只要239欧元。大多数套件的价格在300到350欧元之间,我没看到几个超过500欧元的。我每月的电费大约是70欧元。如果它每月能帮我节省10%的电费(也就是7欧元),那么3年内就能回本。如果是5%,就6年回本。对于这种几乎不花钱、基本即插即用的东西来说,已经很不错了。显然,靠这个发不了大财,但还挺酷的。可惜的是,我的阳台朝东,而且大部分时间都被其他楼的阴影遮住了,我在那里基本种不了什么植物。
BYD builds fastest car #
https://news.ycombinator.com/item?id=45486562
Ever since I rode in a BYD in China I’ve thought it would be great to be able to get one in the USA. It just really felt complete, put together and polished in a way that I haven’t seen in a “normie” U.S. car in a long time. Too bad our country uses high tariffs and regulatory barriers to protect its dinosaur companies.
ryandrake
自从我在中国坐过比亚迪之后,就一直觉得要是能在美国买到一辆就好了。它给我的感觉非常完整、精致和有质感,这是我长期以来在那些“普通”的美国车上都没能感受到的。可惜的是,我们国家用高关税和监管壁垒来保护那些老牌公司。
Structured Procrastination (1995) #
https://news.ycombinator.com/item?id=45488659
I’m doing the same, or at least trying to do it.
Worst periods for me were when I had one clear, important goal, not particularly hard but hairy, and nothing else to do, sometimes because I myself cleared it up. I could spend months doing nothing useful , and end up very, very tired and burnt up.
I also several times had a conversation with managers, whom I told that I’d rather work on something very urgent, or otherwise give me something NOT (really) urgent and a big murky area of things to clear out which no one else knows how to deal with. That something won’t probably be done, but that area will be improved a lot in creative ways. Typical managers' responses have been trying to micromanage my time up to personal hourly schedules, morning and evening personal reports, and scold me if I did anything out of the order of the list of priorities they imposed on me. Exactly the opposite of what’s needed for me to be productive. And of course “let’s just try that, and I’m not asking.”
Next time I’ll see such a response, I probably will quit on the spot; this is unbelievably cruel.
But it looks like the secret of the author is: just work in academia.
codesnik
我也在这么做,或者至少在努力这么做。
对我而言,最糟糕的时期是,我只有一个明确且重要的目标,这个目标本身倒不算特别难,但非常棘手,而且手头没有其他事情要做。这有时是因为我自己已经处理完了其他任务。我可能会浪费几个月时间做些无用功,最终变得极度疲惫和身心俱疲。
我也曾多次与管理层沟通,告诉他们,我宁愿处理一些非常紧急的事,或者给我一些不那么紧急(但)需要清理的、没人知道该怎么处理的模糊领域的工作。这些任务可能不会被完成,但那个领域会通过创造性的方式得到极大改善。管理层的典型回应是试图对我的时间进行微观管理,甚至细化到个人的小时计划和早晚的个人报告,如果我做了任何与他们强加给我的优先级列表不符的事情,他们就会训斥我。这与我为了提高工作效率所需要的东西完全背道而驰。当然,他们还会说“我们就试试看吧,我不是在请求你”。
下次如果再收到这样的回应,我可能当场就会辞职;这简直太残酷了。
但看起来作者的秘诀就是:在学术界工作就行了。
Fire destroys S. Korean government’s cloud storage… #
https://news.ycombinator.com/item?id=45490336
This. Speaking specifically from the IT side of things, an employer or customer refusing to do backups is the biggest red flag I can get, an immediate warning to run the fuck away before you get blamed for their failure, stego-tech kind of situation.
That being said, I can likely guess where this ends up going:
-
Current IT staff and management are almost certainly scapegoated for “allowing this to happen”, despite the program in question (G-DRIVE) existing since 2017 in some capacity.
-
Nobody in government will question sufficiently what technical reason is/was given to justify the lack of backups and why that was never addressed, why the system went live with such a glaring oversight, etc, because that would mean holding the actual culprits accountable for mismanagement
-
Everyone involved is unlikely to find work again anytime soon once names are bandied about in investigations
-
The major cloud providers will likely win several contracts for “temporary services” that in actuality strip the sovereignty the government had in managing its own system, even if they did so poorly
-
Other countries will use this to justify outsourcing their own sovereign infrastructure to private enterprise
This whole situation sucks ass because nothing good is likely to come of this, other than maybe a handful of smart teams lead by equally competent managers using this to get better backup resources for themselves.
stego-tech
这事啊。具体从IT行业的角度来说,雇主或客户拒绝做备份,这是我见过最大的危险信号,一个让你在他们搞砸了之后把责任推到你身上之前有多远跑多远的紧急警告。
话虽如此,我猜这事的最终结局大概是这样:
- 现任的IT员工和管理层几乎肯定会因为“允许此事发生”而成为替罪羊,尽管相关的(G-DRIVE)项目自2017年起就以某种形式存在了。
- 政府内部不会有足够的人去质疑,当初是以什么技术理由来为没有备份辩护的,为什么这个问题从未得到解决,为什么这样一个明显的疏忽系统竟然上线了,等等。因为这意味着要对真正的失职者追究责任。
- 一旦调查中相关人员被点名,他们都不太可能很快再找到工作了。
- 主要的云服务提供商很可能会赢得一些“临时服务”的合同,而这些服务实际上会剥夺政府管理自己系统的自主权,即使政府自己之前管理得很糟糕。
- 其他国家会以此为借口,将他们自己的主权基础设施外包给私营企业。
整件事简直烂透了,因为不太可能有什么好结果,除了少数几个由同样能干的管理者领导的聪明团队可能会利用这件事为自己争取到更好的备份资源。
Why do LLMs freak out over the seahorse emoji? #
https://news.ycombinator.com/item?id=45487437
So it’s not really hallucinating - it correctly represents “seahorse emoji” internally, but that concept has no corresponding token. lm_head just picks the closest thing and the model doesn’t realize until too late.
Explains why RL helps. Base models never see their own outputs so they can’t learn “this concept exists but I can’t actually say it.”
llamasushi
所以,它其实并不是在产生幻觉——它能在内部正确地表示“海马表情符号”,但这个概念没有对应的token。lm_head只是选择了最接近的东西,而模型直到为时已晚才意识到。
这就解释了为什么RL会有帮助。基础模型从不看到它们自己的输出,所以它们学不会“这个概念存在,但我实际上不能说出来”。