2026 02 12 HackerNews

2026-02-12 Hacker News Top Stories #

奇点将出现在星期二 (The Singularity will occur on a Tuesday) #

  1. Cam Pedersen 用超函数拟合多项与人类相关的指标,基于 arXiv 上“涌现”论文数的超线性增长单一信号预测奇点将于 2034-07-18 发生(95% 置信区间 2030–2041)。
  2. 报道称谷歌在未通知用户的情况下向 ICE 提交了学生活动记者的详尽账户与信用卡信息,引发对行政传票权与用户告知义务的法律与隐私担忧。
  3. 微软 2025 年股东报告显示 Windows 已不再是主要收入来源,同时曝出 Notepad 因处理链接/Markdown 而导致的远程代码执行漏洞并已补丁修复。
  4. GreyNoise 观测到自 2026-01-14 起全球 Telnet 流量在数小时内阶跃式骤降,并怀疑与随后披露的 GNU Inetutils telnetd 严重认证绕过漏洞相关或由运营商在网络层过滤所致。
  5. 研究揭示恶意方通过收购合法 Chrome 扩展将其改为窃取用户浏览数据的隐蔽供应链攻击,凸显扩展交易与权限滥用的风险。
  6. Fluorite 宣称首个完全集成 Flutter 的主机级游戏引擎,使用 Dart 编写游戏逻辑、数据驱动 ECS 与硬件加速渲染,目标在低功耗或嵌入式设备上实现主机级体验。
  7. 智谱 AI 发布 GLM-5(744B 参数、28.5T tokens),引入稀疏注意力与异步强化学习基础设施,宣称在多项基准上优于前代并以 MIT 许可证开源供工程化与 Agent 应用。
  8. FAA 宣布因军方在埃尔帕索使用反无人机激光器且未协调而拟关闭周边空域 10 天以应对疑似走私无人机威胁,导致航班取消并引发协调与信息透明的批评(实际关闭仅数小时)。
  9. 报道称埃尔帕索机场因疑似与墨西哥贩毒集团相关的无人机活动短暂关闭,凸显边境无人机走私问题与军民协调的挑战,并引发对威胁程度的质疑。
  10. 文章以幽默视角将长寿研究与吸血鬼传说相连,指出“年轻血液”疗法可能通过稀释陈旧血液而非直接传递青春成分,并警示此类疗法的伦理与正常化风险。

https://campedersen.com/singularity

本文由工程师兼乐观主义者 Cam Pedersen 撰写,探讨人工智能发展可能达到“奇点”的时间点。文章以一种戏谑又严谨的方式,提出“奇点”并非科幻概念,而是可计算的数学现象。

作者选取了五个具有“人类意义”的 AI 进展指标,分别进行独立建模:

  • MMLU 语言模型测试得分
  • 每美元生成的输出 token 数(衡量智能成本下降)
  • 前沿模型发布间隔(反映技术突破频率)
  • arXiv 上关于“涌现”现象的论文数量(衡量领域兴奋度)
  • Copilot 代码贡献比例

这些数据被归一化处理后,采用超函数模型 x(t) = k / (ts - t) + c 进行拟合,其中 ts 为奇点发生时间。该模型的核心假设是:AI 的发展具有自我加速的正反馈机制,导致其在有限时间内趋于无穷,而非无限延后。

关键发现在于:只有“arXiv 上关于‘涌现’的论文数量”这一指标在统计上呈现出明确的 R² 峰值,表明其真正符合超函数增长趋势。其余四项指标均更倾向于线性增长,无法支持奇点模型。

因此,作者得出结论:奇点时间由唯一具备真实超函数特征的指标决定,最终预测为 2034 年 7 月 18 日 02:52:52.170 UTC,95% 置信区间为 2030 年 1 月至 2041 年 1 月。

文章强调,这一结果并非五项指标的平均,而是基于“真正存在拐点”的单一信号。模型本身是确定性的,不确定性来自现实世界的发展。最后,作者以一句调侃收尾:“奇点就是人类在恐慌。”


HN 热度 1321 points | 评论 725 comments | 作者:ecto | 1 day ago #

https://news.ycombinator.com/item?id=46962996

  • 人工智能奇点是否发生并不重要,关键在于足够多的人相信它会发生,并据此采取行动。
  • 社会性信念的传播比技术原理的理性解释更能影响人的行为,因此应转向社会层面的讨论。
  • “认知接管”现象表现为制造一种所有人都已接受某种结果的假象,从而迫使他人顺从。
  • 当人们过度关注他人如何看待某事时,讨论容易偏离事实,陷入对集体信念的猜测,导致 cynicism(犬儒主义)。
  • 经济中利润率下降导致资本无法通过实际生产投资获利,只能参与“凯恩斯选美竞赛”,不断夸大未来收益以维持估值。
  • 资本积累的困境源于财富高度集中于不需要消费的富人手中,导致有效需求萎缩,创新缺乏动力。
  • 富人将过剩财富用于非消费性投资,如巨型建筑、太空探索或新城市项目,以维持资产增值。
  • 财富集中在边际消费倾向极低的人群中,导致资金从高边际效用领域流向低边际效用领域,形成经济失衡。
  • 现实中的利润和生产力提升可能只是幻觉,是认知崩溃下的自我强化叙事。
  • 尽管存在大量看似平凡但盈利可观的商业活动,但主流资本仍沉迷于构建关于未来的神话。
  • 在后工业社会中,真正的“问题”已消失,剩余被视为威胁;疾病与监禁等系统反而成为盈利来源。
  • 许多现代工作本质上是资源的空转或符号操作,如社交媒体管理、广告、政治游说、NFT 艺术创作等,并未解决真实的社会问题。
  • 数字化和金融化的经济活动更多是在“洗牌”而非创造价值,真正应对现实问题的工作比例正在下降。

谷歌未通知用户即响应 ICE 传票,提交学生记者信用卡信息 (Google Fulfilled ICE Subpoena Demanding Student Journalist Credit Card Number) #

https://theintercept.com/2026/02/10/google-ice-subpoena-student-journalist/

谷歌在未通知用户的情况下,向美国移民与海关执法局(ICE)提交了学生活动人士兼记者阿曼德拉·托马斯-约翰逊的详细个人数据,包括其银行账户和信用卡信息。该信息来自一份由 ICE 发出的传票,要求谷歌提供与托马斯-约翰逊 Gmail 账户相关的广泛资料,包括用户名、地址、服务使用记录、IP 掩码服务信息、电话号码以及金融账户详情。

托马斯-约翰逊曾在 2024 年于康奈尔大学就业展上短暂参与反以武器供应抗议活动,随后被校方禁止入校。随着特朗普重返白宫并发布针对支持巴勒斯坦抗议学生的行政命令,他与朋友莫莫杜·塔尔被迫躲藏。尽管此前谷歌已通过邮件告知他曾向国土安全部提供过元数据,但其实际提交的详细程度远超预期,且他从未获得挑战该传票的机会。

值得注意的是,另一名受同样传票影响的活动人士塔尔已通过律师成功抗辩,而托马斯-约翰逊则因未获提前通知而丧失了法律救济机会。传票中并未说明为何需要这些敏感信息,仅称“为执行美国移民法调查所需”,并要求谷歌对传票内容永久保密。

电子前沿基金会(EFF)与加州公民自由联盟(ACLU)已致信谷歌、Meta、亚马逊、苹果等多家科技公司,呼吁它们在面对政府无法院授权的传票时应拒绝配合,并在可能范围内向用户发出警告,保障其知情权与辩护权。信中指出,此类行为正在侵蚀用户隐私与言论自由,而企业承诺的隐私保护正面临严峻考验。

目前,谷歌尚未回应相关问询。法律专家指出,根据《存储通信法案》及联邦贸易委员会法,若企业对用户数据共享政策存在误导性陈述,可能构成不公平或欺骗性商业行为。类似事件凸显了当前法律框架在应对政府大规模监控请求方面的不足,亟需推动数据隐私立法改革。


HN 热度 779 points | 评论 332 comments | 作者:lehi | 1 day ago #

https://news.ycombinator.com/item?id=46963804

  • 支持在有合法传票或令状的情况下,企业向政府提供客户数据,认为这是法律系统正常运作的表现。
  • 批评美国国会赋予国土安全部广泛的行政传票权力,导致缺乏司法审查,使移民与海关执法部门能进行大规模任意逮捕,严重威胁人身自由权。
  • 指出当前问题本质并非隐私本身,而是政府通过非司法渠道建立的“影子司法体系”,呼吁国会废除此类制度。
  • 反对将第三方数据视为无隐私保护的“第三方规则”,认为这实质上削弱了宪法第四修正案对个人隐私的保护。
  • 强调电子邮件等数字通信与传统信件在传输过程中都涉及第三方,但法律却对两者采取不同对待,这种差异源于历史原因而非逻辑合理性。
  • 提出政府行为应透明化,通过公开记录和跨部门协调机制来防止滥用权力,而非依赖技术对抗。
  • 认为与政府玩“猜它是否正当”的游戏注定失败,因为其资源远超公众,解决之道在于政治改革。
  • 指出民主党在执政时往往只清理共和党破坏的后果,却未彻底纠正制度性问题,导致治理结构持续恶化。
  • 承认两党均有越界行为,但强调共和党更倾向于以“总统权力”“公司人格”等模糊概念进行扩张性解释,易被滥用。
  • 指出美国长期存在“回旋镖效应”:每次危机后由一党修复,但修复不彻底,反而积累更多问题,形成恶性循环。
  • 批评两党在战争、酷刑、制裁、封锁信息等方面均存在严重越界行为,且媒体普遍包庇,掩盖事实真相。
  • 呼吁放弃暴力冲突思维,主张通过和平方式实现国家分裂,以避免更多无辜生命损失。

Windows 记事本应用远程代码执行漏洞 (Windows Notepad App Remote Code Execution Vulnerability) #

https://www.cve.org/CVERecord?id=CVE-2026-20841

该页面是关于 CVE-2026-20841 漏洞的官方披露信息,由微软公司(Microsoft Corporation)作为 CNA(CVE 编号授权机构)发布。漏洞名称为“Windows 记事本应用远程代码执行漏洞”,发布时间为 2026 年 2 月 10 日,更新时间为 2026 年 2 月 11 日。

漏洞类型属于 CWE-77:命令注入,即由于未正确中和命令中的特殊字符,导致攻击者可通过网络远程执行恶意代码。该漏洞的 CVSS 评分为 8.8,属于高危级别,其向量字符串为 CVSS:3.1/AV:N/AC:L/PR:N/UI:R/S:U/C:H/I:H/A:H/E:U/RL:O/RC:C,表明攻击无需用户权限、通过网络即可触发,且可造成严重数据泄露、系统控制和完整性破坏。

受影响产品为 Windows 记事本应用,版本范围从 11.0.0 开始,直到 11.2510 之前均存在此漏洞。微软已发布相关补丁,建议用户及时更新系统以修复该问题。

页面还提供多个参考链接,包括微软安全公告以及外部新闻网站的相关报道,便于进一步了解漏洞详情。此外,该页面由 CISA-ADP(美国网络安全与基础设施安全局授权数据发布方)支持,确保信息权威性。


HN 热度 747 points | 评论 456 comments | 作者:riffraff | 18 hours ago #

https://news.ycombinator.com/item?id=46971516

  • Windows 在微软 2025 年股东报告中仅位列第五大收入来源,甚至低于 LinkedIn,表明微软对 Windows 的重视程度已下降。
  • Windows 目前是微软“更多个人计算”业务板块的一部分,而非独立的核心收入来源,其重要性已被其他业务稀释。
  • 尽管 Windows 仍是微软的重要基础平台,但其战略地位已不如 Azure、Office 和 LinkedIn 等业务。
  • 有人认为微软已不再依赖 Windows,其其他业务(如 Azure、Office、LinkedIn)已实现独立增长,即使 Windows 衰退也不会影响整体。
  • 有人反驳称,Windows 仍是微软的“特洛伊木马”,是支撑其生态系统的基石,其他业务都依赖于 Windows 平台。
  • 尽管 Azure 被批评为“垃圾”,但其在企业市场中仍占据主导地位,尤其受到大型企业 CTO 的认可。
  • Office 虽有替代品(如 Google Docs),但仍是行业标准,用户粘性高。
  • GitHub 虽然存在稳定性问题,但仍是微软重要的战略资产,对开发者生态至关重要。
  • Xbox 业务实际表现强劲,收入持续增长,所谓“已死”说法不实。
  • LinkedIn 虽被调侃为“心理变态者聚集地”,但其盈利能力不容忽视,与 Facebook 类似。
  • 微软的多业务布局使其具备抗风险能力,即使 Windows 衰落,其他业务仍可支撑公司发展。
  • 许多开发者使用 Mac 或 Linux,但仍依赖微软的开发工具(如 VS Code、.NET、TypeScript),说明微软的影响力已超越 Windows 平台。
  • Notepad 的远程代码执行漏洞源于其对链接的处理机制,攻击者可通过恶意 Markdown 文件诱导用户点击链接,触发未验证协议执行远程代码。
  • 有人讽刺该漏洞如同“铅笔有墨水”一样荒谬,认为 Notepad 作为基础文本编辑器不应承担复杂功能。
  • 有人期待该漏洞与 Copilot 集成有关,但目前尚未实现。
  • 有人认为 Notepad 的功能扩展(如链接自动打开)是合理的,尤其在日常笔记中需要快速访问链接。
  • Notepad 的原始设计定位是系统维护工具,用于在安全模式下编辑系统文件,而非日常使用,因此其功能应保持简单。
  • 现代 Notepad 被赋予过多“增强”功能,偏离了其最初轻量、可靠的设计初衷。

2026 年 1 月 14 日,全球 Telnet 流量骤然终结 (The Day the Telnet Died) #

https://www.labs.greynoise.io/grimoire/2026-02-10-telnet-falls-silent/

2026 年 1 月 14 日,全球 telnet 流量出现断崖式下跌。GreyNoise 观测数据显示,当天 21:00 UTC 起,telnet 会话量在一小时内骤降 65%,两小时内下降 83%,此后稳定在约 37.3 万次/日,较此前平均 91.4 万次/日的基线水平下降 59%。

此次变化并非渐进式衰减,而是一次典型的“阶跃函数”式突变,表明是网络基础设施层面的配置变更所致。十八个曾有显著 telnet 流量的自治系统(ASN)在 1 月 15 日后彻底消失,包括 Vultr、Cox Communications、Charter/Spectrum、BT 等大型运营商。五个国家——乌克兰、加拿大、波兰、埃及和津巴布韦——的 telnet 数据完全归零。

受影响最严重的为依赖北美主干传输路径的地区,而采用直接对等互联(IXP)的云服务商如 AWS、Contabo 则未受影响或反而增长。美国主要 Tier 1 运营商 UUNET(AS701)流量下降 79%,其 21% 的残余流量可能来自未受过滤影响的路由路径。中国两大运营商(中国电信、中国联通)也同步下降约 59%,但降幅均匀,暗示过滤点位于美国一侧的跨太平洋链路,而非中国境内。

六天后,即 1 月 20 日,CVE-2026-24061 安全公告发布。该漏洞为 GNU Inetutils telnetd 中的严重认证绕过缺陷(CVSS 评分 9.8),攻击者通过发送 -f root 作为用户名即可获得 root 权限,无需任何凭证。漏洞自 2015 年引入,历时近 11 年未被发现。

关键时间线显示:流量暴跌发生在公开披露之前。若非巧合,则可能意味着:研究人员于 1 月 19 日提交漏洞报告后,相关方已提前通知具备基础设施干预能力的机构。这些机构在 1 月 14 日实施了端口 23(TCP)的过滤措施,随后才在 1 月 20 日对外公布。

这一系列事件呈现出高度协同性:时间精准、影响范围明确、仅限特定路径、持续至今。尽管无法确证因果关系,但存在一种合理推测:某机构基于提前获知的高危漏洞,主动部署了网络层防护,从而有效遏制了潜在的大规模自动化攻击。


HN 热度 481 points | 评论 362 comments | 作者:pjf | 1 day ago #

https://news.ycombinator.com/item?id=46967772

  • Tier 1 互联网服务提供商对端口进行过滤,可能正在分割互联网,这种行为令人担忧。
  • 在过去,针对如 Blaster 病毒等安全威胁,对端口 139 等进行过滤是有效且必要的手段,能快速缓解大规模感染问题。
  • 一些老旧系统或特定服务(如 MUD 游戏)仍依赖 Telnet 协议运行在默认端口 23 上,完全封锁该端口会对这些服务造成严重影响。
  • MUD 类游戏使用端口 23 是违反 RFC 标准的,因为该端口专为 Telnet 远程登录服务分配,用于系统管理或用户登录,而非游戏用途。
  • 端口 23/tcp 是一个“特权端口”,意味着服务需要管理员权限运行,而大多数 MUD 服务并不需要此类权限,因此使用该端口并不合理。
  • 尽管 Telnet 协议本身可以被任何服务使用,但将其部署在端口 23 上会误导用户和系统,引发安全风险和混淆。
  • 一些 MUD 服务(如 Mooix)确实深度集成系统,通过 telnetd 处理连接,甚至将角色视为真实用户,具备类似 shell 的权限,这使得其使用端口 23 更具争议。
  • 随着安全策略收紧,MUD 服务应迁移到非标准端口或使用 SSH,以符合现代安全实践。
  • 未来(2026 年起),继续在端口 23 上运行服务将变得不可行,相关系统需尽快迁移或修复。

Chrome 插件窃取用户浏览数据 (Chrome extensions spying on users’ browsing data) #

https://qcontinuum.substack.com/p/spying-chrome-extensions-287-extensions-495


HN 热度 431 points | 评论 186 comments | 作者:qcontinuum1 | 15 hours ago #

https://news.ycombinator.com/item?id=46973083

  • Chrome 扩展程序的买卖已成为一种隐蔽的供应链攻击手段,恶意行为者购买合法扩展以窃取用户数据。
  • 一些开发者长期收到各种变现合作邀请,说明扩展程序的用户基础具有高价值,容易被滥用。
  • Firefox 的“推荐扩展”计划通过人工安全审查机制,能有效降低恶意扩展的风险。
  • 浏览器扩展、云服务集成和应用权限授权已成为新型网络安全威胁的前沿领域。
  • 用户授予第三方应用对 Gmail 和 Google Drive 的完全访问权限,可能引发无法察觉的勒索软件攻击。
  • 黑莓手机早期的权限模型允许用户拒绝第三方应用访问敏感数据,而现代平台却缺乏类似保护。
  • 扩展程序的出售本身是合法行为,但买家可能利用已有的用户信任关系进行恶意活动。
  • 买家购买扩展时获得的不仅是代码,还包括现有用户的信任和更新通道,可借此无声地修改产品。
  • 卖家在出售扩展后,若新主人滥用其权限,理论上应由买家承担责任,而非原开发者。
  • 将出售扩展比作餐厅老板出售餐馆再让新主人下毒,这种类比虽激烈但揭示了潜在风险。
  • 原开发者在不知情的情况下出售扩展,不应为后续恶意行为负责,责任应由实际操作者承担。
  • 企业收购或购买软件产品后服务质量下降是常见现象,但不等于其行为违法或道德上可接受。

Fluorite 是首个完全集成 Flutter 的主机级游戏引擎 (Fluorite – A console-grade game engine fully integrated with Flutter) #

https://fluorite.game/

Fluorite 是首个完全集成 Flutter 的主机级游戏引擎,采用 Dart 语言编写游戏逻辑,大幅降低开发复杂度,并充分利用 Flutter 强大的开发者工具。

通过 FluoriteView 小部件,可同时渲染多个 3D 场景视图,并实现游戏实体与 UI 组件之间的状态共享,真正实现“Flutter 式”开发体验。

引擎核心基于高性能的 C++ 编写的数据导向 ECS(实体-组件-系统)架构,在低功耗或嵌入式设备上也能保持出色性能,同时支持使用 Dart 编写高阶游戏 API,使开发者经验可无缝迁移。

支持由 3D 艺术师在 Blender 中定义触控触发区域,通过标签配置点击事件,开发者可监听特定标签的 onClick 事件,实现直观的 3D 空间交互,简化空间化 UI 的构建流程。

基于 Google Filament 渲染器,Fluorite 支持 Vulkan 等现代图形 API,提供媲美主机游戏的硬件加速视觉效果,涵盖物理光照、后期处理、自定义着色器等高级功能,打造沉浸式视觉体验。

得益于与 Flutter 的深度集成,场景支持热重载(Hot Reload),修改后可在数帧内即时查看效果,极大提升开发迭代效率,加快游戏机制、资源和代码的测试节奏。


HN 热度 378 points | 评论 221 comments | 作者:bsimpson | 8 hours ago #

https://news.ycombinator.com/item?id=46976911

  • 丰田子公司开发的 Fluorite 游戏引擎被用于 2026 款 RAV4,标志着游戏引擎成为汽车的一部分。
  • 有人希望拥有不带显示屏、仅保留基本功能的纯电动车,如座椅、方向盘、踏板和 AUX 接口。
  • 美国法律规定自 2018 年起所有新车必须配备倒车摄像头,以减少儿童被倒车碾压的事故。
  • 倒车摄像头的立法源于一名父亲因无法看到后方而撞死自己孩子的悲剧,其背后有长期的公众倡导。
  • 尽管大型 SUV 和皮卡因盲区问题更严重,但倒车摄像头在所有车型中都显著提升了倒车安全性。
  • 倒车摄像头不仅帮助观察后方,还极大提升了在狭窄空间倒车、拖车或装卸时的便利性。
  • 有人认为即使驾驶技术高超,也无法弥补车辆后方的视觉盲区,摄像头是必要的补充。
  • 一些老司机坚持不用摄像头,认为依赖技术会削弱空间感知能力,但实际使用后可能改变看法。
  • 后装摄像头系统成本低、安装简单,许多老旧车辆也能轻松加装,证明技术并非必需新增复杂硬件。
  • 虽然摄像头需要芯片和内存,但现代汽车早已普遍配备这些组件,倒车摄像头并未带来显著的供应链负担。
  • 有人调侃若无屏幕的摄像头,可考虑用 AI 语音播报诗歌来提醒危险,体现对过度智能化的讽刺。
  • 倒车摄像头与传感器结合可提供鸟瞰视角,带来前所未有的视野优势,远超人眼感知能力。
  • 有人怀念早期车型中嵌入后视镜的微型摄像头,认为其简洁实用,不干扰驾驶体验。
  • 有人指出,即使技术再先进,也无法完全替代“下车查看”这一最安全的倒车方式,但摄像头仍是重要辅助。

GLM-5:从直觉编程到智能体工程 (GLM-5: From Vibe Coding to Agentic Engineering) #

https://z.ai/blog/glm-5

GLM-5 是智谱 AI 推出的全新大模型,旨在应对复杂系统工程与长周期智能体任务。相比前代 GLM-4.5,GLM-5 在参数规模和训练数据上均有显著提升:参数量从 355B(活跃 32B)增至 744B(活跃 40B),预训练数据从 23T 增长至 28.5T tokens。模型引入 DeepSeek 稀疏注意力(DSA)技术,在保持长上下文处理能力的同时大幅降低部署成本。

在训练方法上,团队开发了名为 slime 的异步强化学习基础设施,有效提升训练效率与吞吐量,支持更精细的后训练迭代。这一系列改进使 GLM-5 在多项学术基准测试中超越 GLM-4.7,并在开源模型中达到领先水平,尤其在推理、编程与智能体任务方面表现突出。

在内部评估集 CC-Bench-V2 中,GLM-5 在前端、后端及长周期任务上全面领先 GLM-4.7,接近 Claude Opus 4.5 的表现。在 Vending Bench 2 这一衡量长期运营能力的基准测试中,GLM-5 以 4432 美元的最终账户余额位居开源模型第一,展现出强大的长期规划与资源管理能力。

GLM-5 已开源,可在 Hugging Face 与 ModelScope 获取,采用 MIT 许可证。同时可通过 api.z.ai 与 BigModel.cn 调用,兼容 Claude Code 与 OpenClaw。用户也可在 Z.ai 平台免费体验。

该模型定位为面向知识工作者与工程师的“智能办公”工具,支持将文本或原始材料直接生成.docx、.pdf、.xlsx 等格式文件,涵盖 PRD、教学计划、财务报告、运行表单、菜单等各类文档,实现端到端交付。其官方应用 Z.ai 已上线 Agent 模式,内置文档生成技能,支持多轮协作与真实成果输出。

示例展示包括高中足球赞助提案、NVIDIA 研究报告与谷歌财报分析,均体现模型在结构化写作、信息整合与视觉化呈现方面的强大能力。文档强调专业性与社区关怀,注重视觉设计、色彩搭配与可读性,支持多层级信息展示与品牌曝光。


HN 热度 371 points | 评论 8 comments | 作者:meetpateltech | 8 hours ago #

https://news.ycombinator.com/item?id=46977210

  • 这个实验没有控制组或参考,因此不能算作基准测试。
  • 提示 “生成一只骑自行车的鹈鹕” 含有很多模糊性,容易产生有趣的结果。
  • 当前模型的表现可能被其他 LLM 的噪音污染。
  • 模型对训练集中的噪音管理能力日益重要。
  • 许多常见特征(如绿色草地、蓝天等)在不同模型的响应中普遍存在。
  • 对 AI 的期望与实际表现之间存在差距。
  • 将简单的 “鹈鹕骑自行车” 任务作为基准已不再相关。
  • 提议通过 Google 趋势和随机生成句子作为新的比较测试提示。
  • 评估 AGI 时,必须要求 100% 的准确率。
  • 开源模型的性能往往被高估,存在 “benchmaxxing” 的现象。
  • 对于很多用户而言,使用的主要目的是完成工作,而非比较模型性能。
  • 用户偏好在未来可能成为一个饱和的基准。
  • 不允许对 LLM 输出进行蒸馏的观点可能是法律上的错误。
  • 当前许多 AI 工具的交互方式不足以支持开发者的需求。
  • Codex 相较于 Anthropic 的产品表现更为出色,提供了更高的性价比。
  • GLM-4.7 与 Opus 4.5 的比较显示出开源模型的潜力。

美国联邦航空管理局关闭埃尔帕索周边空域十天,所有航班停飞 (FAA closes airspace around El Paso, Texas, for 10 days, grounding all flights) #

https://apnews.com/article/faa-el-paso-texas-air-space-closed-1f774bdfd46f5986ff0e7003df709caa

在德克萨斯州埃尔帕索(El Paso),美国国防部允许海关与边境保护局(CBP)使用反无人机激光器,导致联邦航空管理局(FAA)突然关闭了该市的空域。根据匿名消息人士的说法,这一事件发生在 FAA 宣布将关闭该地区的所有航班交通为期 10 天,以应对墨西哥贩毒集团无人机的入侵。虽然最终空域关闭仅持续了几个小时,但这一决策却导致了许多旅客滞留机场。

FAA 的关闭决定是在没有与 FAA 协调的情况下实施激光器的使用。此举显然是在一个原定于本月晚些时候举行的会议之前做出的,会议旨在讨论相关技术的使用。尽管大部分航班很快恢复,但在关闭期间,航班取消和医疗撤离航班被迫重新安排,对旅客造成了不小的困扰。

民主党参议员坦米・达克斯(Tammy Duckworth)和德克萨斯州共和党参议员泰德・克鲁兹(Ted Cruz)对事件的处理表示担忧,指出缺乏有效的协调机制。当地官员,如埃尔帕索市市长,表示他们在关闭之前并未收到任何通知,并质疑联邦政府为何会如此突然和迅速地关闭空域。交通部长肖恩・达菲(Sean Duffy)则表示,关闭是为了处理无人机威胁,且这一威胁现已被消除。

墨西哥总统克劳迪亚・谢因鲍姆(Claudia Sheinbaum)对此事的解释表示怀疑,称她并没有收到关于边境无人机使用的任何信息,并要求美国提供更多相关细节。边境地区的无人机活动并不新鲜,德克萨斯州国会议员托尼・冈萨雷斯(Tony Gonzales)指出,贩毒集团的无人机几乎每天都在该地区进行活动。

此次事件引发的混乱和不协调被广泛批评,认为这样的决策没有通知当地政府和公众,给人们的旅行带来了极大的不便。埃尔帕索机场被视为西德克萨斯、南新墨西哥和北墨西哥的门户,而这次突然的空域关闭被认为是自 911 事件以来的重大干扰。


HN 热度 332 points | 评论 6 comments | 作者:EwanG | 13 hours ago #

https://news.ycombinator.com/item?id=46973647

  • 该帖子是之前讨论的重复内容,评论已移至原帖。
  • 有人猜测总统可能会介入处理此事。
  • 总统在纽约市曾有过类似行动,暗示其可能干预。
  • 指出“被总统带走”指的是降落地点而非出发点,澄清误解。
  • 帖子标题被修改,原题为“特朗普政府称埃尔帕索空域关闭与墨西哥毒枭无人机有关”。

美国得克萨斯州埃尔帕索机场因疑似毒品贩运集团无人机入侵而临时关闭 (Officials Claim Drone Incursion Led to Shutdown of El Paso Airport) #

https://www.nytimes.com/2026/02/11/us/faa-el-paso-flight-restrictions.html

美国得克萨斯州埃尔帕索机场因疑似毒品贩运集团无人机入侵而临时关闭。美国交通部长表示,军方已成功击落或干扰了一架无人机,该无人机被认为与墨西哥毒品 cartel 有关。两名政府官员透露,此次关闭是为测试反无人机技术,旨在评估在边境地区应对非法无人机威胁的能力。美国联邦航空管理局(FAA)最初宣布机场关闭将持续 10 天,但后续可能根据测试进展调整时间。此次事件再次凸显美国南部边境面临的无人机走私挑战,以及政府在应对新型安全威胁方面的应对措施。


HN 热度 320 points | 评论 501 comments | 作者:edward | 15 hours ago #

https://news.ycombinator.com/item?id=46972610

  • 有消息称,埃尔帕索机场的航班停飞与五角大楼使用反无人机技术应对墨西哥毒品集团的无人机活动有关。
  • 官方称威胁已被消除,限制已解除,航班恢复正常,但“威胁”一词可能被夸大。
  • 有报道指出,此前被击落的空中物体并非无人机,而是一个派对气球,引发对过度反应的质疑。
  • 用低成本气球就能引发机场大规模停飞,凸显了现有系统对潜在威胁的过度敏感。
  • 99 个气球的歌曲《99 Luftballons》讲述了一个因误判气球为 UFO 而引发全球战争的反战故事,与当前事件形成讽刺性呼应。
  • 有人调侃美军可能动用昂贵的激光武器击落一个仅价值 10 美元的气球,显得荒谬。
  • 有分析认为,此次停飞并非因真实威胁,而是国防部与联邦航空管理局在协调无人机作业时的权力冲突所致。
  • 联邦航空管理局因国防部拒绝配合建立安全飞行走廊而采取极端措施,单方面关闭机场以施加政治压力。
  • 由于埃尔帕索靠近军事基地,军事与民用航空管理的协调问题长期存在,此次事件是双方矛盾的爆发。
  • 有观点认为,此次事件暴露了军方与民用航空机构在边境安全任务中缺乏有效协作机制的问题。

为什么吸血鬼能永生 (Why vampires live forever) #

https://machielreyneke.com/blog/vampires-longevity/

文章《为什么吸血鬼能永生》以幽默而深刻的笔触,探讨了现代长寿科学与吸血鬼传说之间的惊人相似性。作者认为,当前长寿研究领域对“年轻血液输注”的痴迷并非偶然,而可能是一场精心策划的“吸血鬼身份披露”计划。

文章从科学史切入,回顾了 1864 年法国科学家保罗·贝尔特首次通过“共生手术”(parabiosis)将老年鼠与青年鼠连接,发现老鼠出现年轻化现象。此后,2005 年斯坦福大学的研究再次引发轰动,宣称“年轻血液逆转衰老”。这一科学发现被作者戏称为“吸血鬼的日常”。

文中重点分析了两位“疑似吸血鬼”的人物:彼得·蒂尔和布莱恩·约翰逊。蒂尔被描述为典型的吸血鬼形象——面容苍白、不显老态、对死亡持“可解决”态度。他投资年轻血浆公司 Ambrosia,曾被传每季度花费 4 万美元注射 18 岁青年的血液,并通过法律手段摧毁揭露其行为的媒体 Gawker,被作者视为“吸血鬼的反侦察操作”。他购买新西兰偏远庄园,也符合吸血鬼避世的特征。

布莱恩·约翰逊则更“公开”地实践“吸血鬼行为”:他与 17 岁儿子进行“跨代血浆交换”,并公开追踪自身健康数据,包括勃起质量、体脂率等,其皮肤呈现非自然的苍白透明感,仿佛已超越人类极限。他的公司名为 Blueprint(蓝图),暗示他正在公开“永生”的技术路径。

文章进一步挖掘历史证据,指出吸血鬼文化并非虚构。古罗马人相信饮下角斗士的血可获得活力;15 世纪意大利神父菲奇诺曾公开建议老年人吸食青年血液;匈牙利贵族伊丽莎白·巴托里被传以少女之血沐浴,虽可能夸大,但其被囚禁至死的结局,恰似人类对吸血鬼的处置方式。而 1897 年布拉姆·斯托克创作《德古拉》,其设定——活了数百年的贵族、靠年轻血液维生、惧怕阳光、被群起而攻之——竟与现代科学发现惊人吻合,作者质疑:斯托克是否真实接触过吸血鬼?

最新研究来自加州大学伯克利分校,提出一个颠覆性观点:年轻血液的抗衰老作用,可能并非来自“年轻成分”,而是通过稀释老化的血液成分实现。这意味着吸血鬼并非“摄取青春”,而是“排毒”——他们的血液中积累了加速衰老的物质,必须定期“换血”来维持状态。这解释了为何吸血鬼需频繁进食,且效果短暂。

文章最后提出“披露时间表”:从 19 世纪科学奠基,到 2005 年“突破性”研究,再到 2016 年后富豪公开实践,如今进入“正常化”阶段——纪录片、播客、主流媒体不断普及“共生”概念。当公众已将“换血”视为一种“健康疗法”时,真正的“吸血鬼身份”将被悄然接受。

文章结尾讽刺指出,现代“长寿吸血鬼”最大的失误是缺乏“操作安全”——他们开播客、晒数据、上电视,与德古拉沉默隐匿的生存策略背道而驰。真正的吸血鬼,从不暴露自己。


HN 热度 297 points | 评论 143 comments | 作者:machielrey | 9 hours ago #

https://news.ycombinator.com/item?id=46976443

  • 有人调侃彼得·蒂尔不可能是吸血鬼,因为缺乏吸血鬼应有的优雅与 sophistication,但可能是个邪恶的吸血寄生虫。
  • 吸血鬼与反社会人格有关,但并非所有吸血鬼都是反社会者,可能与是否与吸血鬼猎人恋爱有关。
  • 约翰·波利多里创作《吸血鬼》时,其灵感来源于拜伦勋爵,而拜伦的死因与当时医学界流行的放血疗法有关。
  • 《盲视》和《仿生人会梦见电子羊吗?》中的吸血鬼设定源于远古人类的天敌,通过休眠数十年来控制人类数量,以维持生态平衡。
  • 吸血鬼的设定在小说中与脑部疾病和感知能力相关,例如对直角的极端反应换取超凡感知力。
  • 作者认为文章暗示作者是德古拉,试图以权威身份警告蒂尔和约翰逊等年轻吸血鬼,要求他们收敛行为。
  • 《盲视》和《仿生人会梦见电子羊吗?》中的吸血鬼设定具有深刻的科学与哲学思考,如对非欧几里得空间的适应。
  • 《仿生人会梦见电子羊吗?》虽然初期评价不高,但经过多次重读后,被认为比《盲视》更具创新性,思想更深刻。
  • 《冻结帧革命》是彼得·沃茨的另一部作品,讲述星舰船员在持续监控下休眠以对抗失控 AI 的故事,风格黑暗沉重。
  • 年轻血液输注疗法在现实中已有实践,部分富豪通过定期献血来延缓衰老,这与吸血鬼的血液需求有相似之处。
  • 吸血鬼需要新鲜血液并非因为年轻血液含有“长生不老药”,而是因为自身血液会积累加速衰老的物质,需定期稀释。
  • 一些富豪如布莱恩·约翰逊可能被视为吸血鬼的“仆从”,通过极端抗衰老手段维持生命。
  • 现实中关于年轻血液抗衰老的实验和商业项目已存在,包括动物实验和临床尝试,引发伦理争议。

Hacker News 精彩评论及翻译 #

Windows Notepad App Remote Code Execution Vulnerab… #

https://news.ycombinator.com/item?id=46972394

We have officially reached the logical conclusion of the feature-bloat-to-vulnerability pipeline.

For nearly thirty years, notepad.exe was the gold standard for a “dumb” utility which was a simple, win32-backed buffer for strings that did exactly one thing…display text. An 8.8 CVSS on a utility meant for viewing data is a fundamental failure of the principle of least privilege.

At some point, they need to stop asking “can we add this feature?” and start asking “does this text editor need a network-aware rendering stack?”

Fiveplus

我们正式地走到了“功能臃肿到安全漏洞”这条逻辑链的终点。

近三十年来,notepad.exe 一直是“傻瓜”式工具的黄金标准,它是一个简单、由 win32 支持的字符串缓冲区,只做一件事……显示文本。对于一个用于查看数据的工具而言,8.3 的 CVSS 评分(注:原文为 8.8,CVSS 评分通常为 0-10,此处可能为笔误,但按原文翻译)是对“最小权限原则”的根本性失败。

在某个时候,他们需要停止问“我们能添加这个功能吗?”,并开始问“这个文本编辑器需要一个网络感知的渲染引擎吗?”


Amazon Ring’s lost dog ad sparks backlash amid fea… #

https://news.ycombinator.com/item?id=46979863

The Dark Knight was released in 2008. In that movie, Batman hijacks citizens’ cellphones to track down the Joker, and it’s presented as a major moral and ethical dilemma as part of the movie’s overall themes. The only way Batman remains a “good guy” in the eyes of the audience is by destroying the entire thing once he’s done.

Crazy to think that less than two decades later, an even more powerful surveillance technology is being advertised at the Super Bowl as a great and wonderful thing and you should totally volunteer to upload your Ring footage so it can be analyzed for tracking down the Jok… I mean illegal imm… I mean lost pets.

mjr00

《黑暗骑士》于2008年上映。在那部电影里,蝙蝠侠入侵市民的手机来追捕小丑,而这作为电影整体主题的一部分,被描绘成一个重大的道德和伦理困境。蝙蝠侠唯一能让观众眼中依然是“好人”的办法,就是在完成任务后将整个系统彻底销毁。

想想就觉得不可思议,不到二十年之后,一项更强大的监控技术却在超级碗上被宣传成一件了不起的、美好的事物,还鼓励你心甘情愿地上传你的 Ring 摄像头录像,这样它就可以被分析,用来追捕小丑…我是说非法移民…我的意思是走失的宠物。


Claude Code is being dumbed down? #

https://news.ycombinator.com/item?id=46979394

That’s it. “Read 3 files.” Which files? Doesn’t matter. “Searched for 1 pattern.” What pattern? Who cares.

Product manager here. Cynically, this is classic product management: simplify and remove useful information under the guise of ‘improving the user experience’ or perhaps minimalism if you’re more overt about your influences.

It’s something that as an industry we should be over by now.

It requires deep understanding of customer usage in order not to make this mistake. It is really easy to think you are making improvements by hiding information if you do not understand why that information is perceived as valuable. Many people have been taught that streamlining and removal is positive. It’s even easier if you have non-expert users getting attention. All of us here at HN will have seen UIs where this has occurred.

vintagedave

就这样。“读取了 3 个文件。” 哪些文件?无所谓。“搜索了 1 个模式。” 什么模式?谁在乎。

产品经理在此。说句 cynically(愤世嫉俗地)的话,这是经典的产品管理:以“改善用户体验”为名,在极简主义的影响下堂而皇之地进行简化和移除有用信息。

作为这个行业,我们本该早就摆脱这种做法了。

要做到不犯这种错误,需要深刻理解客户的使用习惯。如果你不明白为什么某些信息被认为是有价值的,那么你很容易会误以为通过隐藏信息是在做出改进。很多人被灌输的观念是,精简和移除是好事。如果你的用户群体是非专业人士,那就更容易了。我们 HN 上的所有人都见过因此类原因而导致问题的 UI。


The Singularity will occur on a Tuesday #

https://news.ycombinator.com/item?id=46965138

  • enough people believe it will happen and act accordingly*

Here comes my favorite notion of “epistemic takeover”.

A crude form: make everybody believe that you have already won.

A refined form: make everybody believe that everybody else believes that you have already won. That is, even if one has doubts about your having won, they believe that everyone else submit to you as a winner, and must act accordingly.

nine_k

足够多的人相信它会发生,并据此行事

“认知接管”是我最喜欢的一个概念。

一种粗浅的形式:让所有人都相信你已经赢了。

一种更精炼的形式:让每个人都相信,其他所有人都相信你已经赢了。也就是说,即使有人对你是否获胜心存怀疑,他们也认为所有人都已接受你为胜者,并必须据此行事。


Fluorite – A console-grade game engine fully integ… #

https://news.ycombinator.com/item?id=46977785

It doesn’t say Toyota anywhere on the page and they don’t have a link to a repo or anything like that, so I was a little confused. But it is from /that/ Toyota (well, a subsidiary that is making 3d software for their displays) and there was a talk at FOSDEM about it: https://fosdem.org/2026/schedule/event/7ZJJWW-fluorite-game-engine-flutter/

oritron

页面上没有提到丰田,也没有任何指向代码库的链接,所以我有点困惑。但它确实来自“那个”丰田(嗯,是他们的一个子公司,正在为他们的显示屏开发3D软件),而且在FOSDEM上有一个相关的演讲:https://fosdem.org/2026/schedule/event/7ZJJWW-fluorite-game-engine-flutter/


Europe’s $24T Breakup with Visa and Mastercard Has… #

https://news.ycombinator.com/item?id=46963783

This is really a human right issue. No one should be required to carry an attacker-controlled tracking device, especially not for interacting with the government. It’s funny that the EU uses all this mobile attestation BS more than the US does. So much for sovereignty and consumer protection. No monopoly Google can build is as good as the government forcing you to accept their terms.

digiown

这确实是个人权问题。没有人应该被要求携带一个由攻击者控制的追踪设备,更不用说为了与政府互动而携带了。有趣的是,欧盟比美国更频繁地使用这套手机认证的鬼话。所谓的国家主权和消费者保护,也不过如此。没有任何谷歌的垄断地位,能比得上政府强迫你接受他们的条款。


Claude Code is being dumbed down? #

https://news.ycombinator.com/item?id=46981968

Hey, Boris from the Claude Code team here. I wanted to take a sec to explain the context for this change.

One of the hard things about building a product on an LLM is that the model frequently changes underneath you. Since we introduced Claude Code almost a year ago, Claude has gotten more intelligent, it runs for longer periods of time, and it is able to more agentically use more tools. This is one of the magical things about building on models, and also one of the things that makes it very hard. There’s always a feeling that the model is outpacing what any given product is able to offer (ie. product overhang). We try very hard to keep up, and to deliver a UX that lets people experience the model in a way that is raw and low level, and maximally useful at the same time.

In particular, as agent trajectories get longer, the average conversation has more and more tool calls. When we released Claude Code, Sonnet 3.5 was able to run unattended for less than 30 seconds at a time before going off the rails; now, Opus 4.6 1-shots much of my code, often running for minutes, hours, and days at a time.

The amount of output this generates can quickly become overwhelming in a terminal, and is something we hear often from users. Terminals give us relatively few pixels to play with; they have a single font size; colors are not uniformly supported; in some terminal emulators, rendering is extremely slow. We want to make sure every user has a good experience, no matter what terminal they are using. This is important to us, because we want Claude Code to work everywhere, on any terminal, any OS, any environment.

Users give the model a prompt, and don’t want to drown in a sea of log output in order to pick out what matters: specific tool calls, file edits, and so on, depending on the use case. From a design POV, this is a balance: we want to show you the most relevant information, while giving you a way to see more details when useful (ie. progressive disclosure). Over time, as the model continues to get more capable – so trajectories become more correct on average – and as conversations become even longer, we need to manage the amount of information we present in the default view to keep it from feeling overwhelming.

When we started Claude Code, it was just a few of us using it. Now, a large number of engineers rely on Claude Code to get their work done every day. We can no longer design for ourselves, and we rely heavily on community feedback to co-design the right experience. We cannot build the right things without that feedback. Yoshi rightly called out that often this iteration happens in the open. In this case in particular, we approached it intentionally, and dogfooded it internally for over a month to get the UX just right before releasing it; this resulted in an experience that most users preferred.

But we missed the mark for a subset of our users. To improve it, I went back and forth in the issue to understand what issues people were hitting with the new design, and shipped multiple rounds of changes to arrive at a good UX. We’ve built in the open in this way before, eg. when we iterated on the spinner UX, the todos tool UX, and for many other areas. We always want to hear from users so that we can make the product better.

The specific remaining issue Yoshi called out is reasonable. PR incoming in the next release to improve subagent output (I should have responded to the issue earlier, that’s my miss).

Yoshi and others – please keep the feedback coming. We want to hear it, and we genuinely want to improve the product in a way that gives great defaults for the majority of users, while being extremely hackable and customizable for everyone else.

bcherny

大家好,我是Claude Code团队的Boris。我想花点时间解释一下这次改动的背景。

在LLM上构建产品的一大难题是模型本身在不断更新。自我们推出Claude Code近一年以来,Claude变得更聪明了,能运行更长的时间,并能更智能地使用更多工具。这是基于模型构建的魅力之一,但也带来了巨大的挑战。我们总感觉模型的进步速度超过了任何产品的开发速度(即产品滞后)。我们努力跟上节奏,提供一种能让人以最原始、最底层的体验感受模型能力,同时又能实现最大程度实用的用户界面。

特别是,随着智能体执行轨迹的变长,平均对话中工具调用的次数也越来越多。我们发布Claude Code时,Sonnet 3.5模型一次只能独立运行不到30秒就会失灵;而现在,Opus 4.6模型可以一次性处理我的大部分代码,常常能持续运行数分钟、数小时甚至数天。

由此产生的输出量在终端里会迅速变得难以承受,这也是我们从用户那里听到的常见反馈。终端能提供给我们的像素空间相对有限,字体大小单一,颜色支持不统一,在某些终端模拟器中渲染速度极慢。我们希望确保每位用户都有良好的体验,无论他们使用何种终端。这一点对我们很重要,因为我们希望Claude Code能在任何终端、任何操作系统、任何环境下都能正常工作。

用户给模型一个提示,不想淹没在日志输出的海洋里才能筛选出关键信息——例如,特定的工具调用、文件编辑等,具体取决于使用场景。从设计的角度看,这是一种平衡:我们想为您展示最相关的信息,同时提供一个在需要时查看更多细节的途径(即渐进式披露)。随着时间的推移,随着模型能力的持续提升——其执行轨迹的平均准确率越来越高——以及对话的进一步变长,我们需要管理默认视图中的信息量,以防用户感到不堪重负。

刚开始做Claude Code时,使用者只有我们几个人。现在,大量工程师每天依赖Claude Code来完成工作。我们不能再只为自己设计,而是严重依赖社区反馈来共同打造最佳体验。没有这些反馈,我们就无法做出正确的产品。Yoshi说得对,这种迭代过程通常是公开进行的。这一次,我们是有意为之,并在内部进行了为期一个多月的内测,以确保在发布前将用户体验打磨到最佳状态;这个方案得到了大多数用户的青睐。

但我们还是没能让所有用户都满意。为了改进这一点,我反复查阅了issue,了解用户对新设计的不满之处,并进行了多轮修改,最终达成了良好的用户体验。我们以前也这样公开地做过产品迭代,例如,在优化加载动画(spinner)的用户体验、待办事项工具(todos)的用户体验以及其他许多方面时都是如此。我们始终希望听取用户的意见,以便把产品做得更好。

Yoshi和其他人指出的具体问题很合理。下一个版本中就会有一个PR来改进子智能体的输出(我本应该更早回复那个issue,这是我的疏忽)。

Yoshi和各位——请继续提供反馈。我们想听到你们的意见,并真心希望改进产品,既能为大多数用户提供出色的默认体验,又能让其他用户能够进行极其灵活的定制和扩展。


Lessons you will learn living in a snowy place #

https://news.ycombinator.com/item?id=46971833

In the first really heavy winter storm of the year, your power might go off. This is understandable

Having lived in Norway most of my 40+ years on this earth, I can with some confidence say that this is not an universal truth. I don’t think I’ve experienced any power interruption of over 1 hour in winter ever, and it’s been at least 5 years since the last time. Yes it snows here. A lot.

yokoprime

在今年的第一场真正严重的冬季暴风雪中,你可能会停电,这一点可以理解。

但我在地球上四十多年的人生中大部分时间都住在挪威,我可以相当肯定地说,这并非普遍真理。我想我从未经历过冬季停电超过一小时的情况,而且距离上次停电已经至少有五年了。是的,我们这里下雪。而且雪量很大。


Europe’s $24T Breakup with Visa and Mastercard Has… #

https://news.ycombinator.com/item?id=46961266

I always find it entertaining to hear people try to argue that what these companies do is soooooo difficult and that’s why they’re valuable. It’s just multiple computers keeping a balance. It’s not complicated.

No, these companies keep themselves in power not because they’ve solved such a difficult problem that nobody else can, but because they have a moat which they protect.

Time to do away with these foreign entities.

ekjhgkejhgk

我总是觉得很好笑,当人们试图辩称这些公司所做的事情有多么、多么困难,并以此来说明它们的价值时。这不过是多台计算机在维持一个平衡罢了,一点都不复杂。 不,这些公司之所以能维持其霸权地位,并不是因为他们解决了什么无人能及的难题,而是因为他们拥有并守护着自己的护城河。 是时候摆脱这些外国实体了。


The risk of a hothouse Earth trajectory #

https://news.ycombinator.com/item?id=46980446

each and every one of us contributes to its intensification or mitigation through our decisions.

I have to disagree here.

This idea of a consumer-level personal responsibility for the fossil energy industry’s externalized costs is a lot like the plastic producers shifting blame for waste by saying that it’s the consumers’ fault for not recycling. It’s transparent blame-shifting.

The fossil energy industry pulls the carbon out of the ground and distributes it globally. Then it buys and sells politicians and, through mass media, votes, to ensure they maintain the industry’s hegemony.

You only have to look at the full-blown slide of the US into a despotic petrostate to understand the causes of the climate crisis.

mullingitover

我们每个人的决策都在加剧或缓解这一问题。

对此,我必须表示反对。

这种将化石能源行业外部成本的责任归咎于个人消费者的观点,颇有些像塑料生产商通过指责消费者不回收来推卸废物责任的做法。这是一种赤裸裸的甩锅。

化石能源行业从地下开采碳并将其销往全球,然后通过收买政客、操纵大众媒体和选票来确保其行业霸权的稳固。

你只需看看美国全面沦为一个专制产油国的过程,就能理解气候危机的根源所在。


I started programming when I was 7. I’m 50 now and… #

https://news.ycombinator.com/item?id=46966702

I’m 61 (retired when I was 57).

I too began with BASIC (but closer to 1980). Although I wrote and published games for the Macintosh for a number of years as I finished up college, my professional career (in the traditional sense) began when I was hired by Apple in 1995 and relocated to the Bay Area.

Yeah, what started out as a great just got worse and worse as time went on.

I suspect though that to a large degree this reflects both the growing complexity of the OS over that time as well as the importance of software in general as it became more critical to people’s lives.

Already, even in 1984 when it was first introduced, the Mac had a rich graphics library you would not want to have to implement yourself. (Although famously of course a few apps like Photoshop nonetheless did just that—leaning on the Mac simply for a final call to CopyBits() to display pixels from Adobe’s buffer to the screen.)

You kind of have to accept abstraction when networking, multiple cores, multiple processes become integral to the machine. I guess I always understood that and did not feel too put out by it. If anything a good framework was somewhat of a relief—someone else’s problem, ha ha. (And truly a beautiful API is just that: a beautiful thing. I enjoy working well constructed frameworks.)

But the latter issue, the increasing dominance of software on our lives is what I think contributed more to poisoning the well. Letting the inmates run the asylum more or less describes the way engineering worked when I began at Apple in 1995. We loved it that way. (Say what you want about that kind of bottom-up culture of that era, but our “users” were generally nerds just like us—we knew, or thought we knew anyway, better than marketing what the customer wanted and we pursued it.)

Agile development, unit tests, code reviews… all these weird things began to creep in and get in the way of coding. Worse, they felt like busywork meant simply to give management a sense of control… or some metric for progress.

“What is our code coverage for unit test?” a manager might ask. “90%,” comes the reply from engineering. “I want to see 95% coverage by next month,” comes the marching orders. Whatever.

I confess I am happy to have now left that arena behind. I still code in my retirement but it’s back to those cowboy-programmer days around this house.

Yee haw!

JKCalhoun

我61岁了(57岁退休)。

我也从BASIC开始编程(但时间更接近1980年)。虽然在上大学期间我为Macintosh写了几年游戏并出版了,但我传统意义上的职业生涯始于1995年,当时我被苹果公司聘用并搬到了湾区。

是啊,一件原本很棒的事情,随着时间的推移却变得越来越糟。

不过我怀疑,这在很大程度上反映了操作系统在那段时间内日益增长的复杂性,以及软件在人们生活中变得越来越重要这个普遍现象。

早在1984年Mac首次发布时,它就已经拥有了一个丰富的图形库,你肯定不希望自己动手去实现它。(当然,众所周知,像Photoshop之类的几个应用软件就是这么做的——它们只是依靠Mac的CopyBits()函数,最终将Adobe缓冲区中的像素显示到屏幕上。)

当你必须接受抽象,因为网络、多核、多进程已成为机器的核心部分时,你大概别无选择。我想我总是明白这一点,所以并没有感到太沮丧。如果有什么的话,一个好的框架反而是一种解脱——那是别人的问题了,哈哈。(而一个真正美丽的API就是那样:一件美好的事物。我喜欢设计精良的框架。)

但后者,即软件在我们生活中日益增长的主导地位,我认为这才是更主要地搞砸了这一切。让“病人们”掌管“精神病院”,这大概描述了1995年我刚到苹果时工程工作的方式。我们很喜欢那样。(你可以随便说说那个时代那种自下而上的文化,但我们的“用户”通常跟我们一样都是极客——我们自认为(或者觉得我们自认为)比市场部更清楚客户想要什么,然后我们就会去追求。)

敏捷开发、单元测试、代码审查……所有这些奇怪的东西开始悄悄出现,妨碍了编码。更糟的是,它们感觉像是为了让管理层有种控制感……或者为进度提供某种指标而做的无用功。

“我们单元测试的代码覆盖率是多少?”一个经理可能会问。“90%,”工程师回答。“我希望下个月看到95%的覆盖率,”这就是命令。管他呢。

我很高兴自己现在已经离开了那个领域。我退休后仍然在编程,但这又回到了在这个家里那种牛仔程序员的日子。

耶!


I started programming when I was 7. I’m 50 now and… #

https://news.ycombinator.com/item?id=46962144

If you were a smart dev before AI, chances are you will remain a smart dev with AI.

I don’t think that’s what people are upset about, or at least it’s not for me. For me it’s that writing code is really enjoyable, and delegating it to AI is hell on earth.

bigstrat2003

在AI出现之前,如果你是个聪明的开发者,那么有了AI之后,你很可能依然是个聪明的开发者。我不认为这就是人们抱怨的焦点,或者说至少对我来说不是。对我来说,真正的乐趣在于写代码,而把这项工作交给AI,简直是人间地狱。


Ex-GitHub CEO launches a new developer platform fo… #

https://news.ycombinator.com/item?id=46961803

The game has changed. The system is cracking.

Just say what your thing does. Or, better yet, show it to me in under 60 seconds.

Web sites are the new banner ads and headings like that are the new <blink>.

andrewshawcare

游戏规则已经变了,系统正在崩坏。

直接说出你的功能是什么。或者,更好的方式是在60秒内向我展示。

网站成了新的横幅广告,而这样的标题,就是新的<blink>标签。


I started programming when I was 7. I’m 50 now and… #

https://news.ycombinator.com/item?id=46961382

My advice to everyone feeling existential vertigo over these tools is to remain confident and trust in yourself. If you were a smart dev before AI, chances are you will remain a smart dev with AI.

My experience so far is that to a first approximation, the quality of the code/software generated with AI corresponds to the quality of the developer using the AI tool surprisingly well. An inexperienced, bad dev will still generate a sub-par result while a great dev can produce great results.

The choices involved in using these tools are also not as binary as they are often made out to be, especially since agents have taken off. You can very much still decide to dedicate part of your day to chiseling away at important code to make it just right and make sure your brain is engaged in the result and exploring and growing with the problem at hand, while feeding background queues of agents with other tasks.

I would in fact say the biggest challenge of the AI tool revolution in terms of what to adapt to is just good ol’ personal time management.

sho_hn

我给所有因为这些工具而感到存在性眩晕的人的建议是,保持自信,相信自己。如果你在 AI 时代之前是一名聪明的开发者,那么你很可能在使用 AI 后依然是一名聪明的开发者。

就我个人经验而言,一个近乎准确的结论是:AI 生成的代码/软件的质量,与使用 AI 工具的开发者的质量惊人地成正比。一个经验不足、水平差的开发者依然会产生平庸的结果,而一位优秀的开发者则能创造出卓越的成果。

在使用这些工具时所做的选择,也并非像人们常说的那样非黑即白,尤其是在智能体(agents)兴起之后。你完全可以决定每天花一部分时间雕琢重要代码,让它尽善尽美,确保你的大脑能专注于结果,并能随着当前问题的深入进行探索和成长,同时将其他任务交给后台的智能体队列处理。

事实上,我认为在适应 AI 工具革命方面,最大的挑战就是好好进行个人时间管理。


Jury told that Meta, Google ’engineered addiction’… #

https://news.ycombinator.com/item?id=46960680

They’re not afraid of the idea of programming people.

When I worked there every week there would be a different flyer on the inside of the bathroom stall door to try to get the word out about things that really mattered to the company.

One week the flyer was about how a feed video needed to hook the user in the first 0.2 seconds. The flyer promised that if this was done, the result would in essence have a scientifically measurable addictive effect, a brain-hack. The flyer was to try to make sure this message reached as many advertisers as possible.

It seemed to me quite clear at that moment that the users were prey. The company didn’t even care what was being sold to their users with this brain-reprogramming-style tactic. Our goal was to sell the advertisers on the fact that we were scientifically sure that we had the tools to reprogram our users brains.

conartist6

他们并不害怕“对人们进行编程”这个想法。

我曾在那里工作,每周厕所隔间门内都会贴上一张不同的传单,旨在宣传那些对公司真正重要的事情。

有一周的传单是关于信息流视频必须在最初的0.2秒内抓住用户。传单承诺,如果做到这一点,其结果实质上会产生一种可被科学衡量的成瘾性效果,一种“大脑黑客攻击”。这张传单的目的,就是确保这一信息能到达尽可能多的广告商。

在那一刻,对我来说,用户就是猎物,这一点似乎再清楚不过了。公司甚至不在乎用这种“大脑重编程”式的策略向用户兜售什么东西。我们的目标是向广告商证明,我们科学地确信自己拥有重塑用户大脑的工具。


What functional programmers get wrong about system… #

https://news.ycombinator.com/item?id=46954856

This article, despite clocking in at nearly 10,000 words, appears to have been written in only two days. In fact the author has written five engineering articles in the last week, seeming to average around 5000+ words per article. What a spurt of productivity! Coincidentally, the article happens to be filled with pithy headers and constant sensationally dramatic contrasts that are out of place in long-form technical writing, but which LLMs are known to spam ad nauseum because they are effective for hooking attention in clickbait rags. Curious, that.

anonymous908213

这篇文章尽管篇幅接近一万字,似乎却只用了两天时间就写完了。事实上,作者在过去一周已经写了五篇工程技术类文章,平均每篇大约5000多字。这生产力真是突飞猛进啊!巧的是,这篇文章通篇都是精炼的小标题和不断出现的戏剧化对比,这些元素在长篇技术写作中显得格格不入,但却是大型语言模型(LLM)为了在耸人听闻的垃圾文章中吸引眼球而滥用的伎俩。真是奇怪。


Europe’s $24T Breakup with Visa and Mastercard Has… #

https://news.ycombinator.com/item?id=46967595

None of what you’ve mentioned has anything to do with Visa and Mastercard. Visa and Mastercard are just payment networks, their whole business is literally just transporting transaction information from payment terminals to banks and payment processors, plus keeping track of all the numbers (which is pretty important).

Payment networks don’t provide credit or any kind of liquidity whatsoever, that entirely provided by the various financial entities that communicate via the payment network. The reason Visa and Mastercard haven’t been easily replaced is simple network effects, nobody wants to integrate with a payment network where there’s nobody to transact with.

avianlyric

你所提到的任何内容都与Visa和万事达卡无关。Visa和万事达卡只是支付网络,它们的核心业务仅仅是交易信息从支付终端到银行和支付处理方的传输,以及管理所有账户号码(这一点非常重要)。

支付网络不提供信贷或任何形式的流动性,这些完全是通过支付网络进行通信的各个金融机构提供的。Visa和万事达卡之所以难以被取代,原因很简单,就是网络效应,没有人愿意接入一个没有交易对象的支付网络。


Discord will require a face scan or ID for full ac… #

https://news.ycombinator.com/item?id=46953299

Because I have some experience with FOSS, I know you don’t get the recognition that you deserve. So on behalf of everyone who’s too distracted to say thank you.

Thank you!

Admittedly, it did take a day (less than), but once I got used to the interface Zulip provides. It’s better than what I would have asked for! It’s phenomenal software! The whole experience is better than anything else that exists. And everyone charging for the same features should feel embarrassed given how much better Zulip is!

Genuinely, it’s impressive what y’all have created. So thank you!

grayhatter

因为我有一些关于开源软件(FOSS)的经验,所以我知道你们没有得到应有的认可。因此,我代表那些分身乏术、没来得及说谢谢的大家,向你们表示感谢。

谢谢!

诚然,花了一天(还不到)的时间才适应 Zulip 提供的界面,但一旦熟悉了之后,我发现它比我原本设想的还要好!这简直是现象级的软件!整体体验优于市面上任何同类产品。任何为同样功能收费的开发商,在 Zulip 面前都应该感到汗颜!

说真的,你们所创造的东西令人印象深刻。真的非常感谢你们!


Claude Code is being dumbed down? #

https://news.ycombinator.com/item?id=46979986

Product management might be the worst meme in the industry. Hire people who have never used the product and don’t think like or accurately represent our users, then let them allocate engineering resources and gate what ships. What could go wrong?

It should be a fad gone by at this point, but people never learn. Here’s what to do instead: Find your most socially competent engineer, and have them talk to users a couple times a month. Just saved you thousands or millions in salaries, and you have a better chance of making things that your users actually want.

alphazard

产品管理可能是行业里最糟糕的风气了。雇佣那些从没用过产品、想法不像用户、也不能准确代表员工的员工,然后让他们分配工程资源,决定什么能上线。能出什么问题呢?这玩意儿早就该被淘汰了,但人们就是学不乖。该怎么做呢:找你们社交能力最强的工程师,让他们每月和用户聊几次。这就帮你省下了几万甚至几百万的薪资,而且更有可能做出用户真正想要的东西。


The US is flirting with its first-ever population … #

https://news.ycombinator.com/item?id=46962062

Every morning I get to my son’s school about 10 minutes before the doors open. We arrive by bike and we sit ALONE on the benches near the front door.

Meanwhile, the curb is full of extra large SUVs idling with kids just waiting inside the cars. The long line of SUVs extends all through the neighborhood. My son and I are alone because people just won’t leave their cars until the doors open. A vast majority of the kids live within one mile of the school.

It’s just one small anecdote, but I feel like it illustrates an attitude I’ve seen.

scottious

每天早上,我都在学校开门前十分钟到。我们是骑自行车到的,就坐在正门附近的长椅上,只有我们俩。

与此同时,路边却停满了大型SUV,引擎空转着,孩子们就坐在车里等着。这些SUV排成的长队贯穿了整个社区。我和儿子之所以能独享长椅,只是因为人们非要等到门开了才肯下车。绝大多数的孩子其实都住在离学校一英里以内。

这虽然只是件小事,但我感觉它恰恰反映了我所见过的某种态度。