2025 07 21 HackerNews

2025-07-21 Hacker News Top Stories #

XMLUI 项目旨在通过 XML 标记结合 React 和 CSS 组件，将 Visual Basic 模型带到现代 Web 和 React 生态系统，简化开发流程。
2025 年夏天大型语言模型（LLMs）在编程中的应用得到更新，能够帮助开发者消除代码中的 bug、快速探索想法并加速工作。
当前 AI 代理的热潮面临生产环境中的实际挑战，成功的代理系统应具备有限上下文、可验证操作和人为决策的能力。
现代社会中产品质量下降的现象与资本主义效率文化、消费者偏好变化以及计划性淘汰有关，消费者更关注便利性和新奇性。
Ring 公司引入新功能允许警方实时访问用户摄像头，引发隐私和监控争议，被批评为技术专制主义。
大型语言模型（LLMs）的架构在位置嵌入、多头注意力机制和激活函数方面不断进化，但在生成事实信息方面仍存在局限性。
制定备份策略时需要考虑风险承受能力、数据保护范围、停机时间容忍度和存储空间，快照在实现一致性备份中起关键作用。
Rust 的 borrowchecker 是内存安全的核心，但在实践中存在人体工程学问题，过分限制了合理代码的编写。
通过展示 Python 的一些看似违反直觉的代码片段，可以更深入地理解其内部工作原理和一些不为人知的特性。
台积电计划年底前开始建造四座新工厂，目标在 2028 年底前投产 2 纳米晶圆，采用 1.4 纳米技术以提升性能和降低功耗。

XMLUI #

https://blog.jonudell.net/2025/07/18/introducing-xmlui/

这篇文章由 Jon Udell 撰写，主题是介绍 XMLUI，一个旨在将 Visual Basic 模型带到现代 Web 和基于 React 的组件生态系统的项目。

文章首先回顾了 1990 年代中期，当时即使不是顶尖程序员，也能通过 Visual Basic 和丰富的组件生态系统创建有用的软件。这些组件可以被组合起来创建应用程序，使得非专业开发者也能站在专业开发者的肩膀上进行开发。然而，这种模式并没有延续到 Web 开发中，因为 Web 组件并没有以相同的方式工作。XMLUI 项目正是为了解决这个问题，它通过 XML 标记来组合 React 和 CSS 组件，使得开发者无需深入了解 React 或 CSS 就能创建现代、响应式的应用程序。

文章通过一个检查伦敦地铁线路状态的小应用程序示例，展示了 XMLUI 的简洁性和强大功能。这个应用程序仅用十几行 XML 代码就完成了定义选择框、填充数据、动态生成数据源 URL、绑定结果到表格等操作。这种代码易于阅读和维护，即使不是开发者本人编写的，也能被理解和维护。

文章接着讨论了组件的概念，提到了作者在 1994 年发表的一篇关于组件软件的文章。当时，人们普遍认为软件重用的引擎将是低级对象库，但最终获得关注的是由专业开发者构建并由业务开发者使用的组件。Visual Basic 组件包括了图表、网络通信、数据访问、音视频播放和图像扫描/编辑等功能，UI 控件则包括按钮、对话框、滑块、网格等。这些控件被用来构建各种业务系统。

文章指出，尽管作者本人是 XMLUI 项目的顾问，但他仍然认为 XMLUI 是一个能够替代 JavaScript 工业综合体的有力选择，它满足了所有正确的条件。XMLUI 提供了丰富的组件目录，包括所有预期的交互式组件以及像 DataSource、APICall 和 Queue 这样的后台组件。用户可以轻松定义自己的组件，这些组件可以与原生组件以及彼此之间进行互操作。

文章还提到了用户定义组件的概念，并展示了一个名为 TubeStops 的组件的标记。这个组件可以被重复使用，并且可以轻松地在并排布局中使用。文章强调，XMLUI 标记的短代码片段易于阅读和维护，但如果代码行数增加到数百行，情况就不同了。作者提到，当组件变得太大时，他会进行重构，这在任何编程环境中都涉及到开销，比如创建和命名文件、确定属性传递等。但随着 LLM（大型语言模型）的兴起，作者可以将自己的 AI 助手团队委托进行重构，使其变得流畅和持续。LLMs 并不是一开始就了解 XMLUI，但它们了解 XML，并且在 MCP（可能是指某种工具或框架）的帮助下，它们可以特别了解 XMLUI。

文章最后讨论了响应性的概念，指出对于非 React 程序员来说，XMLUI 风格的响应性最大的挑战不是需要学习什么，而是需要忘记什么。文章通过一个应用程序示例，展示了如何通过声明属性和嵌入引用来实现响应性。作者提到，这种模式被称为反应式数据绑定，类似于电子表格中一个单元格的变化会传播到引用它的其他单元格。React 是一个复杂的框架，只有专家程序员才能驾驭，但幸运的是，构建 XMLUI 的专家程序员已经为你完成了这项工作。作为 XMLUI 开发者，可能需要放弃命令式习惯，以适应声明式流程。作者还提到了一些使用 XMLUI 时可能发现的惊喜，比如在 XMLUI Invoice 演示应用程序中的搜索功能，它展示了不需要搜索按钮，DataSource URL 可以直接响应文本框中的键入，而表格则可以在 DataSource 刷新时作出反应。

HN 热度 419 points | 评论 214 comments | 作者：mpweiher | 10 hours ago #

https://news.ycombinator.com/item?id=44625292

Jon Udell 的文章提到，React 主导了 Web 组件，但并不是所有开发者都能使用，尤其是那些曾经能够使用 Visual Basic 组件的开发者。
有人支持 XMLUI，认为它可能帮助那些曾经使用 Visual Basic 组件的开发者。
有人提到代码目前只能在支持 JavaScript 的现代浏览器上运行，类似于 VB 只能在 Windows 上运行。
有人认为 Windows 平台比现代 JavaScript 浏览器更狭窄，且 Windows 平台的重要性正在下降。
有人提到尝试过 Polymer 和 Adobe Flex 等类似技术，但发现标记抽象不如代码优先的解决方案，如 JSX。
有人对 Jon Udell 提到的 Walt Whitman 的概念表示赞赏。
有人将 XMLUI 与 Qt 的.ui 文件相比较，认为 XML 用于 UI 定义是有意义的。
有人提到 Qt 在非 Linux 世界中的表现，特别是在 macOS 上。
有人提到 Blizzard 游戏启动器使用 Qt，并询问是否有其他出色的 Qt 项目。
有人提到 JUCE 是最佳的 GUI 方法，因为它将每个 UI 元素作为一个 C++ 类。
有人怀念 Qt 中一切都是 C++ 类的日子，认为模板语言不如 C++ 类直观。
有人提到 JUCE 与 XMLUI 的比较，认为它们分别代表了命令式和声明式 UI 方法。
有人提到 JUCE 提供了完全的控制和明确的实现，而声明式方法总是需要逃逸舱口。
有人提到转向 JUCE 作为跨平台 GUI/高性能通用应用开发环境，并认为它不需要太多 CMake 配置。

Coding with LLMs in the summer of 2025 – an update #

https://antirez.com/news/154

这篇文章由作者 antirez 撰写，主题是关于在 2025 年夏天使用前沿的大型语言模型（LLMs）进行编程的更新。文章讨论了如何利用 LLMs 来扩展和增强程序员的能力，并分享了一些具体的应用实例和建议。

消除代码中的 bug：作者通过使用 Gemini 2.5 PRO 和 Claude 等 LLMs 进行代码审查，能够在代码影响到用户之前消除 bug。以 Redis 的 Vector Sets 实现为例，许多 bug 都是通过 LLMs 立即被移除的。
快速探索想法：LLMs 可以帮助快速测试一个想法是否可行，通过编写临时代码来查看解决方案是否性能更好、是否足够好等。
协作设计：LLMs 可以与人类的直觉、经验和设计品味相结合，提出一些愚蠢的路径或非常聪明的想法。人类的作用是避免陷入局部最小值和错误，并利用 LLMs 的知识。
加速工作：通过在清晰的规格说明下编写部分代码，LLMs 可以加速工作进程。
技术扩展：即使在人类不熟悉的技术领域，LLMs 也可以作为知识的扩展，帮助完成编码任务。

文章还提到，一年半前作者写过一篇关于 2024 年初 LLMs 和编程的博客，当时认为 LLMs 已经非常有用，但在过去 1.5 年里，LLMs 的进步完全改变了游戏规则。然而，要充分利用 LLMs 的能力，与 LLMs 互动的人类必须具备某些特质并遵循某些实践。

拒绝大多数时候的氛围编码 #

LLMs 是好的放大器，但不是好的独奏者。虽然 LLMs 可以成功地编写部分代码基础（在严格的监督下），并显著加快开发速度，但当面对非平凡的目标时，它们倾向于产生脆弱、复杂、充满局部最小值选择的代码基础。此外，当任务复杂度超过一定水平时，它们会完全失败。作者强调，目前通过人类 +LLMs 的组合可以达到最高的工作质量，但这需要人类具备高效的沟通能力和 LLMs 的经验。

提供大量上下文 #

当目标是与 LLMs 讨论实现或修复代码时，需要向 LLMs 提供大量信息，包括论文、目标代码库的大部分（如果可能的话，是整个代码库），以及对所需操作的所有理解。这包括可能看起来不错但实际上是次优的解决方案的提示，以及即使人类没有完全阐述的潜在解决方案的提示。LLMs 有时可以利用这些来找到正确的路径。

使用正确的 LLMs #

作者建议主要使用 Gemini 2.5 PRO 和 Claude Opus 4 进行编码活动。Gemini 2.5 PRO 在语义上更强大，能够发现更复杂的错误并推理更复杂的问题。Claude Opus 在编写新代码方面有时可能更好（有时不是），用户界面更愉快，通常至少需要两个 LLMs 来回处理复杂问题，以扩大人类对设计空间的理解。

结论 #

尽管人们对能够独立编码的代理感兴趣，但目前通过明确使用 LLMs 并保持在循环中，可以最大化软件开发人员的影响力。随着 AI 的改进，许多编码任务最终将由 AI 单独更好地服务，人类将决定做什么和怎么做，这仍然是至关重要的。但在目前，控制权可以让你使用 LLMs 产生最尖锐的代码：在需要时最小化，必要时使用复杂的想法。你将能够做一些事情，这些事情在你的知识/专长边界之外，同时在这个过程中学到很多（是的，你可以从 LLMs 中学到东西，就像你可以从书籍或同事那里学到东西一样：这是可能的教育形式之一，是新的）。然而，所有产生的东西都将遵循你对代码和产品的理念，并且将是高质量和不会因 LLMs 引入的错误和缺陷而随机失败的。你还将保留对所有编写的代码及其设计的强烈理解。时不时地，测试代理能做什么是明智的。但每次你觉得它们做得不如你好时，就回到你的终端，用 AI 的帮助编码（当你觉得它可以提高你的输出时；有时候你独自更好）。当代理能够出色地工作时，作者将是第一个切换的人，并且只会为了激情而自己编码。但现在，让我们跳过炒作，使用 AI 的最佳方式，即：保持控制。然而，还有另一种风险：由于意识形态或心理上的拒绝而避免 LLMs，积累劣势（并且未能发展出一套难以描述的与 LLMs 合作所需的技能）。也许这真的是“中庸之道”的案例。

HN 热度 386 points | 评论 266 comments | 作者：antirez | 13 hours ago #

https://news.ycombinator.com/item?id=44623953

程序员不应该依赖第三方付费 LLM 模型进行编程，因为这会增加对第三方的强依赖。
更换 LLM 模型很简单，用户可以根据需要轻松切换不同的 LLM。
当地运行的模型不如云端模型好，且运行成本更高。
一旦能够经济地在本地运行类似 Claude 4 的模型，会有更多人选择这样做。
Framework Desktop 可能不是运行 LLM 的最佳选择，因为它的内存带宽很低。
聊天用途可能适合使用本地 LLM，但编程需要更快的速度和更先进的模型智能。
对于 LLM，订阅付费模型相对于工作时间来说成本很低。
即使不本地运行 LLM，也可以通过云服务提供商来避免锁定。
付费 LLM 在某些任务上表现更好，尤其是当用户希望提供最少的提示时。
有些人认为，使用租用的 GPU 容量来运行免费的 LLM 可能是一个好方法。
摩尔定律已死，我们可能再次面临扩展的物理限制，本地运行类似 Claude 4 的模型对于普通消费者来说短期内不太可能。

The current hype around autonomous agents, and what actually works in production #

https://utkarshkanwat.com/writing/betting-against-agents/

这篇文章是 Utkarsh Kanwat 在 2025 年 7 月 19 日发表的，题为《为什么我在 2025 年对 AI 代理下注反对（尽管我正在构建它们）》。作者在文章中分享了他对于当前 AI 代理热潮的看法，尽管他自己在过去一年中构建了超过 12 个在生产环境中实际工作的代理系统。

文章开头，作者提到了关于 2025 年 AI 代理将改变工作的预测和炒作，但他通过自己的实践经验，认为这些预测忽略了一些关键现实。作者不是从旁观者的角度来质疑 AI，而是通过构建多个生产代理系统的经验来提出他的观点。

文章的核心观点可以总结为三个关于 AI 代理的硬道理：

在多步骤工作流程中，错误率呈指数级累积。即使每一步的可靠性达到 95%，20 步后的整体成功率也只有 36%，而生产环境需要 99.9% 以上的可靠性。
上下文窗口导致令牌成本呈二次方增长。随着对话长度的增加，对话代理的成本变得难以承受。
真正的挑战不是 AI 的能力，而是设计代理能够有效使用的工具和反馈系统。

作者详细解释了错误累积在 AI 代理工作流程中的数学现实，指出即使每一步的可靠性达到 99%，20 步后的整体成功率也只有 82%。他强调这不是一个提示工程问题，也不是模型能力问题，而是数学现实。

在讨论令牌经济问题时，作者指出，构建“对话式”代理时，每次新的交互都需要处理所有之前的上下文，令牌成本随着对话长度的增加而呈二次方增长，导致经济上不可行。

文章还提到了工具工程的现实问题，即使解决了数学问题，构建生产级工具也是一个被大多数团队低估的完全不同的工程学科。作者强调，工具设计需要精心制作，以便在不超出上下文窗口的情况下提供正确的反馈。

最后，作者讨论了与现实世界的集成问题，指出企业系统并不是等待 AI 代理编排的干净 API，而是具有怪癖、部分失败模式、认证流程变化、不同时间段的速率限制和合规要求的遗留系统。

文章总结部分，作者提出了他认为实际有效的方法，即构建有限上下文、可验证操作和在关键点有时需要人为决策的代理系统。他强调，成功的代理系统不是对话式的，而是智能的、有限的工具，它们能够高效地完成一项任务并退出。作者认为，AI 代理在生产环境中的实际工作只占 30%，其余 70% 是工具工程，包括设计反馈接口、有效管理上下文、处理部分失败和构建 AI 能够理解和使用的恢复机制。

HN 热度 366 points | 评论 212 comments | 作者：Dachande663 | 15 hours ago #

https://news.ycombinator.com/item?id=44623207

亚马逊 AI 工程师表示，没有公司完全依赖生成性 AI 进行客户聊天，因为其可靠性不足。
一些技术公司已经开始使用生成性 AI 进行实时聊天支持，如 Sonder 和 Wealthsimple。
有案例显示，Air Canada 的 AI 聊天机器人给出了错误的索赔流程，导致客户起诉并败诉。
人们可能会尝试破解 AI 聊天机器人以获取奇怪回应，然后发布在网上损害公司形象。
有人提出，将大型语言模型（LLM）转变为 FAQ 转发机器人是一种技术手段，但失去了使用 LLM 的意义。
人类在解决专业问题时拥有较大的上下文窗口，而模型可以通过更大更多样化的训练集来克服上下文限制。
人类没有固定的“上下文”和“权重”分割，我们所见所做都会修改我们的“权重”。
人类在自然语言使用上每天都在变化，而 LLMs 则无法做到这一点。
LLMs 在特定任务上可能不如直接编程来得高效。
人类对“上下文”和“权重”的分割不如 LLMs 那样明显，长期记忆更接近于上下文。
人们在解决复杂问题时经常会达到自己的“上下文窗口”限制。
人类的个性是多年经验的产物，这可以看作是人类在社交方面拥有的大上下文窗口。
AI 工具在工作中的使用经验总体上是积极的，但成本累积迅速。
有人认为 LLMs 的自我修正和大上下文窗口与按令牌收费的商业模式相契合。
有人提出通过 AI 生成多个草稿，然后手动和自动化过滤以进行细化的想法。

The bewildering phenomenon of declining quality #

https://english.elpais.com/culture/2025-07-20/the-bewildering-phenomenon-of-declining-quality.html

这篇文章探讨了现代社会中产品质量下降的现象。文章开头描述了一种普遍的感受，即从飞机座椅、衣物到食品和电子产品，质量都在下降，似乎不再有人关心产品的耐用性和工艺。研究者 E. Scott Maynes 在 1976 年的研究中提出，质量是一个主观概念，取决于消费者的偏好。因此，不能绝对地说 iPhone 15 就比 2003 年的诺基亚手机质量更好。对于某些消费者来说，诺基亚的耐用性可能比 iPhone 的技术革新更有价值。

文章接着引用了未来政策实验室副主任哈维尔·卡博内尔的观点，他认为普遍的悲观情绪使得人们觉得一切都不如过去。这种情绪影响了我们对政策和消费品的判断。卡博内尔指出，资本主义的主要承诺——如果你工作，你可以过上体面的生活——已经不再被兑现，社会阶梯已经断裂。社交媒体的影响也加剧了这种情绪，它展示了大多数人无法实现的生活。

文章提到，大萧条后出现的“紧缩文化”已被“效率文化”所取代，这种文化以埃隆·马斯克为代表，他倡导最小化成本的模式。这种模式首先在 X（前 Twitter）公司实施，后来在美国政府中也有所体现。马克·扎克伯格也将 2023 年称为“效率年”，并在 Meta 公司进行了大规模裁员。亚马逊等公司也在逐步用机器人和自动化系统取代人工，以至于在一些仓库中甚至不需要开灯。

在公共服务方面，情况有所不同。文章指出，2017 年至 2022 年间，拥有私人保险的人数每年增长 4%。根据 2024 年发布的《医疗保健系统：当前状况和未来展望》报告，西班牙人转向私人医疗保健系统的主要原因是公共医疗保健系统的无尽等待名单。

文章还讨论了人们对质量感知的变化，特别是在老年人中更为明显。耐用性等属性已经不再是人们评价产品质量的主要因素。心理学家阿尔伯特·维尼尔斯提到，过去汽车广告首先强调的是其耐用性，但现在我们甚至不再考虑这一点。纺织业完美地展示了消费模式的转变。在过去 20 年中，纺织品生产翻了一番。在西班牙，据估计每个公民每年丢弃约 21 公斤的衣物。消费者对新奇性而非耐用性的偏好导致了对质量理解的代沟。

文章最后提到了“计划性淘汰”和“感知性淘汰”的概念。一些公司设计的产品在一定时间后会停止工作，这不是阴谋论，而是事实。但另一种更有效的方法说服消费者，即使产品仍在工作，也会因为审美或象征性原因而过时。例如，年轻人可能会因为家具过时而拒绝租房，尽管这些家具的材料比他们最终购买的宜家家具更耐用和坚固。广告和潜意识信息已经将人类变成了没有其他目标的消费僵尸。维尼尔斯质疑，我们为什么选择在 24 小时超市购买无味的西红柿，而不是去市场或水果摊。我们为什么愿意花 3 美元买一盒果汁，而不是自己榨橙汁，尽管我们知道工业化版本是由浓缩果汁制成的。“购买便利性的最佳例子是为胶囊咖啡支付每公斤约 75 欧元。”

HN 热度 363 points | 评论 679 comments | 作者：geox | 16 hours ago #

https://news.ycombinator.com/item?id=44622953

产品质量下降是因为市场饱和后，为了追求利润增长而不断削减成本。
在没有市场份额增长或成本降低创新的情况下，唯一的利润最大化策略是提供质量越来越低的产品，同时价格越来越高。
技术进步和创新可以提高产品质量，但当创新达到极限时，产品质量就会下降。
增长作为主要目标确实可以促进创新，直到创新带来的回报减少，然后就会制造出越来越差的产品。
美国资本主义以增长为主要目标，这在某些领域仍在创新，但在其他领域则制造出越来越多的劣质产品。
资本主义的不同实现方式和没有普遍适用的系统，需要根据情况而定。
人们往往因为过去的成功而坚持使用某种方法，即使它开始造成伤害，就像酗酒者依赖酒精一样。
人们声称他们想要优质产品，但他们实际上购买的是最便宜的产品。
市场上往往没有真正高质量的产品，许多人愿意为真正耐用和可修复的产品支付更高的价格。

Ring introducing new feature to allow police to live-stream access to cameras #

https://www.eff.org/deeplinks/2025/07/amazon-ring-cashes-techno-authoritarianism-and-mass-surveillance

这篇文章讨论了亚马逊旗下的 Ring 公司在技术专制主义和大规模监控方面的争议行为。文章由 Matthew Guariglia 于 2025 年 7 月 18 日撰写，发表在电子前沿基金会（EFF）的深度链接博客上。

文章首先指出，Ring 的创始人 Jamie Siminoff 重新掌管了这家监控门铃公司，并且带回了一种以监控为先、隐私为后的公司文化，这使得 Ring 成为了最受争议的技术设备之一。Ring 公司不仅重新推出了允许警察直接从 Ring 用户那里请求视频片段的旧功能，还引入了一项新功能，允许警察请求实时访问人们的家庭安全设备。

文章认为，这是对 Ring 和更广泛公众的一个糟糕步骤。Ring 正在撤销过去几年所做的许多改革，通过简化警察获取数百万美国家庭视频片段的途径，这对美国的公民自由构成了严重威胁。警察已经使用 Ring 的视频监控抗议者，并在没有搜查令或用户同意的情况下获取视频。可以想象，执法官员将利用他们对 Ring 信息的新访问权限，寻找进行过堕胎的人或追踪移民。

Siminoff 在一份备忘录中宣布，公司将被重新构想为“以 AI 为先”，尽管这对于一个允许你看到谁按你门铃的家庭安全摄像头来说意味着什么还不清楚。EFF 担心这可能预示着视频分析或面部识别技术的引入，这将进一步加剧 Ring 已经存在的问题。

文章还提到，Ring 的员工必须证明他们使用 AI 才能获得晋升。Ring 计划推出新的不良功能，同时撤销一些必要的改革，例如与 Axon 合作构建一个新工具，允许警察直接从用户那里请求 Ring 视频片段，并允许用户同意让警察直接从他们的设备进行直播。

在作为警察的眼睛和耳朵服务多年后，Ring 公司在公众压力下做出了一些必要的改变。他们引入了端到端加密，结束了与警察的正式合作，并结束了促进警察直接向客户请求视频片段的工具。现在，他们正在转向成为大规模监控的工具。

文章质疑为什么现在会发生这种转变，指出美国暴力犯罪率接近历史最低水平，因此不太可能是为了“安全”。更可能的是，Ring 公司正在利用技术专制主义的兴起，即通过监控技术辅助的专制主义，来获得利润。许多科技公司想要从我们日益缩小的自由中获利。谷歌最近也结束了一项旧的道德承诺，即不从监控和战争中获利。这些公司通过向国防部门或警察出售产品，锁定了数十亿美元的合同。

文章最后对 Ring 公司的行为表示谴责。

HN 热度 358 points | 评论 182 comments | 作者：xoa | 1 day ago #

https://news.ycombinator.com/item?id=44620002

用户对 Ring 摄像头的隐私问题表示担忧，认为其数据可能被第三方获取，甚至在未经用户同意的情况下被警方访问。
有人赞赏那些拒绝安装 Ring 摄像头的人，认为他们的行为值得尊敬，并认为这种隐私侵犯行为是不道德的。
有观点认为“选择加入”功能可能默认开启且难以找到，或者与服务费用挂钩，以此强迫用户同意。
有人提出，如果警方需要实时监控公共空间，那么他们应该通过合法途径获得授权，而不是随意访问。
一些用户对 Ring 应用的设置界面混乱和难以寻找表示不满，呼吁需要一个更智能的搜索框来帮助用户快速找到相关设置。
存在市场空白，需要为用户提供一个简化的接口，以便更容易地管理和调整隐私/安全相关的设置。
有人提到浏览器插件可以自动处理 cookie 横幅，选择最不侵犯隐私的选项，简化了用户的操作过程。
如果每个人都使用这样的插件，可能会导致网站更加肆无忌惮地设计复杂的 cookie 菜单，因为它们不需要用户亲自处理。
有人询问能够自动处理 cookie 横幅的浏览器插件名称。
讨论了 Comcast 的定价策略，指出其通过提供无限数据服务来提高价格，但用户可以通过同意某些条件来保持旧价格。

LLM architecture comparison #

https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

这篇文章是关于大型语言模型（LLM）架构的比较分析，由 Sebastian Raschka 博士撰写，发表于 2023 年 7 月 19 日。文章回顾了自原始 GPT 架构开发以来的七年发展历程，并探讨了从 GPT-2（2019 年）到 DeepSeek-V3 和 Llama 4（2024-2025 年）这些模型在结构上的相似性。尽管在位置嵌入、多头注意力机制以及激活函数等方面有所进化，但文章质疑这些模型是否真的在架构上取得了突破性进展，还是仅仅在原有基础上进行了优化。

文章指出，比较 LLMs 的性能是一个挑战，因为数据集、训练技术和超参数的差异很大，且往往记录不详。尽管如此，作者认为分析架构本身的结构变化对于理解 2025 年 LLM 开发者的工作仍然具有价值。

文章重点介绍了 DeepSeek V3/R1 架构的两个关键技术：多头潜在注意力（MLA）和专家混合（MoE）。MLA 是一种减少 KV 缓存内存使用的技术，同时在模型性能上甚至略优于多头注意力（MHA）。MLA 通过将键和值张量压缩到低维空间后再存储到 KV 缓存中，推理时再将其投影回原始大小。而 MoE 则是通过将每个前馈模块替换为多个专家层，每个专家层也是一个前馈模块，从而实现的。这意味着我们用多个前馈模块替换了单个前馈模块，从而大大增加了模型的总参数数量。但是，关键的技巧是我们并不对每个 token 使用（“激活”）所有专家，而是由路由器选择一个小的子集。

文章还提到了 DeepSeek R1，这是一个基于 DeepSeek V3 架构的推理模型，于 2025 年 1 月发布，并在当时产生了重大影响。作者还提到了一篇早期的文章，用于帮助理解推理 LLMs。

总的来说，这篇文章深入探讨了现代 LLM 架构的设计，特别是 DeepSeek V3/R1 的架构特点，以及它们如何通过 MLA 和 MoE 技术提高计算效率和模型性能。

HN 热度 355 points | 评论 23 comments | 作者：mdp2021 | 17 hours ago #

https://news.ycombinator.com/item?id=44622608

这篇文章对于理解 LLM 架构非常有帮助，提供了一个抽象层次，让人能够学习到具体细节而不会感到解析原始论文的困难。
文章中的图表对于新手和专家来说都非常棒，能够看到所有新模型并列在一起。
通过这篇文章，可以了解到 DeepSeek 等模型在 V3 版本中引入的关键架构技术，这些技术在提高计算效率和区分其他 LLM 方面具有变革性。
尽管所有这些架构都具有创新性，提高了准确性或速度，但在生成事实信息方面仍然存在根本问题。
通过改进注意力机制和针对减少幻觉的训练目标，一些新架构如 DeepSeek-V2 和 Llama 3.1 在事实性方面取得了显著改进。
模型无法判断何时不应进行外推，需要更多信息，以及哪些规则可以泛化，哪些不能。
语言中名词的形成规则可能在某些情况下会中断，这可能是机器视角下不必要的复杂性，LLM 的幻觉可能部分由我们通过训练数据强加给模型架构的基于例外的社会建模引起。
RAG（检索增强生成）在概念上简单且易于实现，但基础模型为何没有将其纳入基础功能令人费解。
RAG 作为一种提示技术，可以在模型推理时通过注入相关上下文来增强模型，但其检索功能始终是模型外部的。
通过 RL（强化学习）训练的模型，如使用和标记的模型，与 GSM8k 等模型不同，它们更注重在开始时有一个大的思考过程，并使用比 REINFORCE 更复杂的 RL。

Make Your Own Backup System – Part 1: Strategy Before Scripts #

https://it-notes.dragas.net/2025/07/18/make-your-own-backup-system-part-1-strategy-before-scripts/

这篇文章由 Stefano Marinelli 撰写，标题为“Make Your Own Backup System – Part 1: Strategy Before Scripts”，发表于 2025 年 7 月 18 日。文章主要讨论了备份策略的重要性，并提供了关于如何制定有效备份计划的指导。

备份：超越简单的复制

作者指出，备份常常被低估，许多人对备份的概念和操作存在误解，例如认为 RAID 就是备份。现代备份常常被忽视，许多人完全依赖于“云”，而没有考虑数据是否真的得到了保护。作者强调，数据必须以开放格式保存，以便能够快速恢复，并且始终可以访问。

作者分享了多种数据丢失的场景，包括数据中心火灾、洪水、地震、勒索软件攻击、故意破坏以及管理员错误等。这些风险使得互联网连接的服务器，如电子商务和电子邮件服务器，不仅数据完整性至关重要，而且服务的不间断运行也同样重要。

备份计划：提出正确的问题

在开始备份之前，作者建议首先要有一个计划，并提出正确的问题，例如：“我愿意承担多大的风险？我需要保护哪些数据？在数据丢失的情况下我能容忍多少停机时间？我有多少存储空间可用？”这些问题有助于平衡安全性和成本，制定出适合特定需求的备份策略。

核心决策：全盘备份与单个文件备份

备份策略的一个关键决策是选择备份整个磁盘还是仅备份单个文件。全盘备份的优点包括能够完整恢复系统，包括引导加载程序，以及在虚拟化系统中的集成。缺点包括对物理机器的停机时间、大空间需求、潜在的减速和兼容性问题。而单个文件备份虽然看起来更简单，但可能会变得复杂，其优点包括基本的实用性、细粒度备份、增量复制、便携性和部分恢复能力，以及压缩和去重功能。缺点包括存储空间需求、需要文件系统快照以及可能的隐藏陷阱。

一致性的关键：快照的力量

文章强调了快照在备份中的重要性，它能够提供一致性和效率。快照可以帮助在备份过程中避免数据不一致的问题，尤其是在备份数据库或文件系统时。作者提到，快照是实现一致性备份的关键，无论是全盘备份还是单个文件备份。

文章最后，作者提出了一些指导原则，用于构建一个好的备份系统，并预告了下一篇文章的内容，即“接下来是什么”。

HN 热度 338 points | 评论 106 comments | 作者：Bogdanp | 1 day ago #

https://news.ycombinator.com/item?id=44618687

备份服务器应维护自己的文件系统快照，以防勒索软件攻击
客户端只负责写入新备份，删除操作由备份服务器单独处理
使用容器或特定备份用户可以提高安全性，如使用 systemd-nspawn 创建轻量级 chroot“监狱”
备份源推送到中间位置，主备份从中间位置拉取，增加安全性
备份服务器只能通过控制台直接访问，增加了安全性但有时不方便
使用“拉取”备份方案比“推送”更简单且可能更安全
对于大型公司来说，外部的故障点可能是一个特点而非缺陷
许多公司实际上对 RTO/RPO 的要求并不像他们宣称的那么高
人们对于备份过程和要求的过度思考令人惊讶
备份问题可能因法律目的而被保留，如诉讼保留要求
大型公司因法律要求而保留数据 5-7 年
一些公司的灾难恢复政策实际上难以在合理时间内恢复工作状态

The borrowchecker is what I like the least about Rust #

https://viralinstruction.com/posts/borrowchecker/

这篇文章讨论了 Rust 编程语言中的 borrowchecker，即编译器中负责强制执行所有权规则的部分，它使得 Rust 能够在不增加运行时成本的情况下实现内存安全。文章作者认为，尽管 Rust 因其安全性而受到广泛赞誉，但 borrowchecker 的存在给 Rust 带来了严重的人体工程学问题，并且其在 Rust 安全性中的作用被过分夸大。

文章首先指出，borrowchecker 的问题在于它使得引用变得难以处理。这是因为 borrowchecker 需要在编译时就知道所有引用的生命周期，而这在实践中往往是不现实的，因为生命周期通常是运行时属性。在算法层面，borrowchecker 强制执行所有权的特定模型或规则集，但这个模型过于严格，通过拒绝太多表现良好的程序来降低 Rust 的人体工程学。在实现层面，borrowchecker 的当前实例是不完整的，经常拒绝遵循所有权模型的程序，即使这个模型本身过于严格。

作者通过几个例子来说明 borrowchecker 如何拒绝完全合理的代码。例如，一个简单的 Point 结构体，包含两个方法 x_mut 和 y_mut，分别返回对 x 和 y 字段的可变引用。在 main 函数中，创建了一个 Point 实例，并尝试通过这两个方法修改 x 和 y 的值，但这段代码无法编译，因为 borrowchecker 不允许同时存在两个可变引用，即使它们指向的是结构体的不同字段。

另一个例子是 Collection 结构体，包含一个计数器和一个物品列表。Collection 的 count_items 方法在遍历物品列表时尝试增加计数器，但 borrowchecker 无法跨函数推理，因此错误地拒绝了这个函数。

文章还提到了 borrowchecker 在处理控制流时的问题，例如一个尝试从 HashMap 中获取或插入默认值的函数，尽管逻辑上保证了第二个可变引用只在第一个引用不再存在时创建，但 borrowchecker 仍然拒绝了这段代码。

作者认为，尽管 Rust 社区希望未来的改进能够解决这些问题，如 2022 年采用的非词法生命周期和正在开发的 Polonius 新 borrowchecker 公式，但他对此持怀疑态度。Polonius 已经开发了七年，似乎还没有接近完成。更重要的是，borrowchecker 永远不可能“完整”，因为它的工作是推理代码，而程序无法在足够深入的层面上做到这一点。

最后，文章指出，即使在抽象所有权模型的实现中存在限制，有时模型本身也不适合你的程序。例如，对临时值的引用被禁止，即使人类可以明显看出解决方案是将值的生命周期扩展到闭包之外的使用。还有混合所有权的 struct，你不能有一个包含 Vec<Thing> 的字段，同时也在另一个字段中存储相同事物的组，在 Vec<Vec<&Thing>> 中。这些例子表明，所有权规则并不总是能够满足程序的需求，而 borrowchecker 作为一个程序，很难与之协商，使其不要过于严格地执行一套僵化但有时毫无意义的规则。

HN 热度 243 points | 评论 405 comments | 作者：jakobnissen | 1 day ago #

https://news.ycombinator.com/item?id=44618535

借阅检查器是 Rust 语言成功的关键因素，它提供了其他语言无法实现的功能
Golang 被认为比 Rust 更简单，但实际上它缺乏抽象和异常处理，迫使开发者编写更简单的代码
Golang 的学习曲线平缓，拥有丰富的标准库，编译和运行速度快，生成单一的独立可执行文件
Golang 更像是一个更好的 Modula-2，拥有类型参数后语言变得更好，但 GC 使得编写代码更简单
有人认为 Golang 有许多奇怪的、无意义的怪癖，无论是在基础语言还是标准库中
有人认为 Golang 的并发模型和接口类型可以为空等特点是其语言设计的一部分，不应被视为怪癖
有人认为 Golang 的简单性并不意味着复杂性消失，而是转移到了使用该语言编写的程序中
有人认为 Rust 和 OCaml/ReasonML 等语言相比 Golang 更优雅，从头开始设计
Rust 被认为是主流语言，而 Golang 在主流语言中怪癖相对较少

What the Fuck Python #

https://colab.research.google.com/github/satwikkansal/wtfpython/blob/master/irrelevant/wtf.ipynb

这个网页是一个关于 Python 编程语言的探索性项目，旨在解释一些看似违反直觉的 Python 代码片段和不太为人所知的特性。项目通过展示和解释这些代码片段，帮助读者更深入地理解 Python 的内部工作原理。

网页首先介绍了 Python 作为一种高级、解释型的编程语言，为程序员提供了许多便利的特性。但有时，Python 代码片段的结果可能并不那么显而易见。这个项目就是为了解释这些看似奇怪但实际上揭示了 Python 有趣部分的代码片段。

网页的结构是这样的：每个例子都有一个吸引人的标题，然后是代码的设置部分，接着是输出结果，最后是解释部分。输出结果展示了代码执行后的实际输出，而解释部分则简明扼要地说明了为什么会发生这样的输出。

例如，网页中提到了字符串在 Python 中的一些有趣行为。在第一个例子中，通过比较两个字符串的内存地址，展示了 Python 如何优化字符串存储，即通过字符串驻留（string interning）来节省内存。在某些情况下，多个变量可能会引用内存中的同一个字符串对象。网页解释了字符串驻留的规则，包括所有长度为 0 和 1 的字符串都会被驻留，以及在编译时驻留的字符串等。

第二个例子探讨了字符串相等性的比较，展示了在不同情况下，即使两个字符串的内容相同，它们是否相等的结果也可能不同。这涉及到 Python 在内存中如何管理和比较字符串对象。

第三个例子讨论了字符串乘法的行为，特别是当字符串长度小于 21 时，Python 会进行一种称为常量折叠（Constant folding）的优化，这会影响字符串乘法的结果。

总的来说，这个网页是一个教育性质的项目，通过具体的代码示例和解释，帮助读者更好地理解和学习 Python 编程语言。每个例子都旨在揭示 Python 的一些内部机制，让有经验的 Python 程序员也能从中学到新知识，同时也为初学者提供了一个有趣的学习资源。

HN 热度 196 points | 评论 176 comments | 作者：sundarurfriend | 1 day ago #

https://news.ycombinator.com/item?id=44618335

这个笔记本立刻明确指出这是对 Python 一些有趣行为的趣味观察，并没有暗示存在 bug，除了提到 CPython 的一个实际 bug。
理解代码行的概念和实际执行之间的区别是有趣的，有时也很重要。
有些评论认为展示字符串常量未被优化并不是一个好的开始，讨论函数参数中的引用陷阱可能是更好的例子。
将这类内容称为"What The Fuck Python"比"Some Interesting Bits About Python Internals You Probably Don’t Need To Know"更能吸引注意。
好 Python 代码依赖于约定，不应该在生产代码中看到 id()函数和"is"用于字符串比较。
这些例子展示了如何以非预期的方式使用 Python，而不是它应该如何被使用。
“What the Fuck"页面主要是用来讨论语言/解释器等的内部工作，不应被视为对语言的批评。
每种编程语言的目标都应该是遵循尽可能逻辑和一致的规范，以减少 bug。
对于广泛使用的编程语言，我们应该像 QA 测试人员一样测试它，因为所有的不一致性加起来会导致很多 bug。
一些例子可能不是真正的 bug，但它们揭示了 Python 的一些可能不为人知的有趣部分。
我们不应该因为列举 bug 而感到被冒犯，了解它们是有用的。
应该将这些 bug 放入 bug 跟踪系统，并根据它们的发生频率和影响进行优先级排序。

TSMC to start building four new plants with 1.4nm technology #

https://www.taipeitimes.com/News/front/archives/2025/07/20/2003840583

台湾半导体制造公司（TSMC，台积电）计划于今年晚些时候开始建设四座新工厂，目标是在 2028 年底前正式投产 2 纳米半导体晶圆。这一消息由中台湾科学园区局长许茂新在庆祝中台湾科学园区成立 22 周年的活动上宣布。园区的第二阶段扩建将从建设水塘和其他土壤和水资源保护结构开始。许茂新表示，TSMC 已正式租下土地，中台湾科学园区已于上个月移交了地块。他乐观地认为，园区的年营业额将超过 1.2 万亿新台币（约合 408.1 亿美元），创下新的历史记录。

在 4 月 25 日加州举行的北美技术研讨会上，TSMC 透露了 2028 年推出 A14 制造工艺的计划。根据 TSMC 的路线图，位于中台湾科学园区、被指定为 Fab 25 的四座工厂将包含四座 1.4 纳米晶圆制造设施。根据公司的路线图，第一座工厂预计将在 2027 年完成晶圆生产的风险评估，并在 2028 年底开始大规模生产，目标月产量为 5 万片晶圆。

在周四的 TSMC 第二季度财报电话会议上，TSMC 董事长魏哲家表示，在公司完成在美国的 1650 亿美元投资后，“我们约 30% 的 2 纳米及更先进产能将位于亚利桑那州，在美国创建一个独立的领先半导体制造集群。”亚利桑那州的投资包括六个先进的晶圆制造工厂、两个先进的封装工厂和一个主要的研发中心。魏哲家还表示，TSMC 计划“在未来几年内建造 11 个晶圆制造工厂和四个先进的封装设施”。公司“正在为新竹和高雄科学园区的多个 2 纳米工厂阶段做准备，以支持我们客户的强大结构性需求”。

HN 热度 193 points | 评论 144 comments | 作者：giuliomagnifico | 1 day ago #

https://news.ycombinator.com/item?id=44618762

TSMC 的 1.4 纳米技术（A14）基于第二代 GAAFET 纳米片晶体管和新的标准单元架构，预计相比 N2 技术能提供 10% 到 15% 的性能提升、25% 到 30% 的功耗降低以及 20% 到 23% 的晶体管密度提高。
1.4 纳米技术可能需要新的 IP、优化和 EDA 软件，与 N2P 和 A16 技术不同。
随着晶体管尺寸缩小，整个芯片可能最终变成 SRAM。
可能会减少每个核心的 SRAM，转向 eDRAM 作为最后一级缓存。
美国半导体制造业的衰退令人遗憾。
美国试图将芯片制造从台湾转移出去。