2025 07 16 HackerNews

2025-07-16 Hacker News Top Stories #

LLM 必然主义者认为未来不可避免，讨论应聚焦于适应而非质疑，但其思维方式可能限制真正的讨论。

苹果的 MLX 添加 CUDA 支持，使开发者能在苹果设备上开发并部署到 NVIDIA 硬件上，促进跨平台生态。

Cognition 收购 Windsurf，整合其 IDE 能力，推动软件工程的未来发展。

LIGO 探测到迄今最大规模的黑洞合并，挑战了标准的恒星演化模型。

Blender Studio 推出休闲互动游戏《Dog Walk》，展示了其艺术风格和开源开发能力。

Shoggoth Mini 机器人结合 GPT-4o 和强化学习，探讨了机器人表达性与人类交互的关系。

Calvin French-Owen 对 OpenAI 的文化、目标和内部努力进行了反思，强调其通用人工智能的使命。

Blender 4.5 LTS 发布，作为开源 3D 创作工具，继续推动艺术和技术的结合。

PHP 许可证更新提案旨在简化许可证问题，采用修改后的 BSD 许可证以提升兼容性和用户权利。

研究表明，LLMs 在处理长输入时性能下降，需通过上下文工程和 RAG 方法优化。

LLM Inevitabilism #

https://tomrenner.com/posts/llm-inevitabilism/

这篇文章由 Tom Renner 撰写，探讨了 “必然主义”（Inevitabilism）这一概念，尤其是在技术进步，特别是人工智能（AI）领域的应用中。作者首先分享了与善于辩论的人争论的经历，指出在这样的辩论中，往往会因为对方意外的观点而感到不知所措，最终失去信心和论据的主旨。

文章提到，Shoshana Zuboff 的书《监视资本主义的时代》对作者产生了深刻影响，特别是介绍了 “必然主义” 这一术语。必然主义者认为，他们所看到的未来是不可避免的，因此唯一合理的回应方式就是为那个未来做好准备。这种观点为讨论提供了一种特定的框架，使得不同意的人被视为 “忽视现实”，而真正有意义的讨论仅限于那些已经接受这一前提的人。

作者引用了一些科技界名人的言论，如马克・扎克伯格、安德鲁・吴和吉尼・罗梅提，展示了他们如何将话题引向 “如何适应不可避免的未来” 而非 “你希望的未来是什么”。这种引导也带有威胁性，暗示如果不顺应这种趋势，就会面临无法理解的巨大力量。

尽管作者并不确定大型语言模型（LLMs）是未来的方向，更不确定这是他所希望的未来，但他坚信我们对未来有选择权，应该积极思考并争取我们想要的未来。作者呼吁读者不要让必然主义框定讨论，应该关注自己希望的未来，并为之奋斗。

HN 热度 1477 points | 评论 1386 comments | 作者：SwoopsFromAbove | 19 hours ago #

https://news.ycombinator.com/item?id=44567857

LLMs 作为新技术难以被遏制，但目前尚未找到合理的商业模式，消费者使用大多在免费层级，行业投资开始收缩，模型能力趋于平稳，输出内容质量一般。
许多看似不可避免的技术因缺乏相应的商业回报而撤退，LLMs 可能最终只是特定用例，不如现在普遍不受欢迎的尝试那样引人注目。
超音速客机的例子表明，即使技术看似不可避免，也可能因无法解决的问题和缺乏盈利模式而衰退。
计算机和互联网可能也遵循类似的轨迹，可能已经达到顶峰，剩下的只是成本、效率、分发或便利性的优化。
即使在 70 年代，人们也认识到超音速旅行存在具体问题且无解决方案，而 LLMs 今天并不存在这样的共识。
摩天大楼的例子表明，即使没有共识性问题，技术增长也可能停止。
LLMs 可能无法进步，但不是因为今天存在的共识性原因，它们可能服务于构建更革命性的东西。
人们对 AI 的反对似乎很奇怪，尽管潜在的反乌托邦未来是人们不希望看到的，但日常的烦恼似乎令人费解。
超音速旅行的问题在于降低可接受的错误范围，这对工程师来说是令人担忧且不可接受的。
工程师设计时会考虑到各种可能性，即使是非常坚固的桥梁也不会设计成能承受所有可能的情况。
LLMs 的主要问题在于无法验证输出，因此没有产生持久价值，更像是一个稍微好一点的搜索引擎。
LLMs 教会计算机即使错误只要令人信服也可以，这对宣传或商业的不良方面很有用，但对实际沟通用处不大。
没有人能弄清楚如何销售 LLMs，因为很少有人购买。
OpenAI 拥有 2000 万付费 ChatGPT 用户，收入预计超过 120 亿美元，表明销售并非不可能。
20 百万付费用户相对于声称的 8 亿或 10 亿月活跃用户来说转化率极低，尤其是考虑到行业和媒体对这项技术的极高评价。
许多功能可以免费获得，其他提供商也提供免费替代品，LLM 服务的免费/付费比例与 YouTube 相似。
如果所有 LLM 服务都不再免费提供，付费用户数量会是多少？

Apple’s MLX adding CUDA support #

https://github.com/ml-explore/mlx/pull/1983

这个网页是一个 GitHub 项目的页面，主要讨论了关于 MLX 项目添加 CUDA 后端的工作进展。以下是网页内容的详细中文摘要：

项目成员 zcbenz 发起了一个名为“[WIP] CUDA backend”的拉取请求（PR），旨在为 MLX 项目添加 CUDA 后端支持。目前这项工作仍在进行中，只有很少的功能已经实现，但用户已经可以运行教程示例。zcbenz 提供了构建和测试 CUDA 后端的指令，包括使用 cmake 进行构建，以及如何运行示例程序。他还提到，这个 PR 主要在 Ubuntu 22.04 系统上，配合 CUDA 11.6 进行测试，理论上其他环境也应该可以工作，但尚未进行测试。

zcbenz 解释了添加 CUDA 后端的两个主要原因：一是 CUDA 支持统一内存，包括一些设备上的硬件支持和没有硬件统一内存的设备的软件支持；二是 NVIDIA 硬件在学术和大规模计算中被广泛使用，能够在 Mac 上本地编写/测试代码，然后部署到超级计算机上，这将提供良好的开发体验。他还提到，这项工作是由苹果公司赞助的。

网页上还记录了 zcbenz 对 CUDA 分支进行了强制推送（force-push）的操作，以及 radudiaconu0 询问是否可以基于 zcbenz 的 CUDA 拉取请求添加 ROCm 支持，zcbenz 对此表示同意，并建议在开始之前决定 ROCm 后端如何与 CUDA 后端共存。

awni 对 zcbenz 的工作表示赞赏，并提出了两种将 CUDA 支持整合到 MLX 项目中的方案：一种是在 CUDA 功能准备好后，将其作为一个单独的分支加入 MLX，然后向该分支发送 PR；另一种是先合并支持 CUDA 的基础架构，然后逐步发送更多的增量 PR。awni 表示他更倾向于后者，但也对其他建议持开放态度。

最后，angeloskath 也对进展表示赞赏，并提出了自己的看法，他认为频繁合并（基本上是第二种方案）是更好的方式。他还建议在持续集成（CI）中运行 CUDA 测试，这样即使不使用 CUDA，也能知道何时出现问题。否则，CUDA 分支将不得不不断地在主分支上进行重新基线操作，这可能会很烦人。

HN 热度 528 points | 评论 183 comments | 作者：nsagent | 1 day ago #

https://news.ycombinator.com/item?id=44565668

Apple 的 MLX 添加 CUDA 支持意味着开发者可以在苹果设备上开发，部署到 NVIDIA 的高性能系统上
苹果不能因为版权问题自己实现 CUDA，所以退而求其次，让开发者为 MLX 开发，同时获得 NVIDIA 硬件支持
有观点认为，美国最高法院在 Google v. Oracle 案中的判决为重新实现 CUDA API 提供了案例先例
AMD 也实现了 ROCM/HIP，作为 CUDA 的重新实现，用于他们的 GPU
如果足够多的开发者采用 MLX，苹果未来可能会发布支持 MLX 的数据中心 GPU
苹果发布数据中心 GPU 可能会促使开发者采用 MLX
苹果多次表现出对开发者的不关心，所以开发者是否采用 MLX 取决于他们自己
与原生 CUDA 程序相比，MLX 的性能损失如何
有人认为 NVIDIA 的硬件是目前市面上最快的
相对于苹果硬件，NVIDIA 硬件被认为是高性能的
有人指出，CUDA 不是 API，也不是库，而是 NVIDIA 提供的编程语言、库和开发工具的生态系统
核心编译器是人们关心的，而不是开发工具
重新实现 CUDA 的挑战在于跟上不断演进的 API 和封闭源代码实现，需要大量努力
人们希望使用更高层次的 API，这些 API 有 CUDA 后端等多种后端，但直接使用 CUDA 是为了从硬件中挤出最后一点性能
整个生态系统不成熟，许多厂商都在做自己的技术演示，希望复制 NVIDIA 的成功或至少占据市场的一部分，而不是共同构建一个健壮的开放 CL+SPIRV 堆栈
许多厂商的硬件存在问题，如错误处理不当，硬件锁定，需要重新启动，这在开发过程中会消耗工程师的时间而没有成果
即使硬件运行，也需要花费数周时间在反馈循环中尝试找出为什么 GPU 利用率报告只有 50%（如果幸运的话）

Cognition (Devin AI) to Acquire Windsurf #

https://cognition.ai/blog/windsurf

Cognition 公司收购 Windsurf 的消息令人振奋。Cognition 已经签署了一项最终协议，收购了 Windsurf，这是一个代理性的集成开发环境（IDE）。这项收购包括了 Windsurf 的知识产权、产品、商标和品牌，以及强大的业务。最重要的是，它还包括了 Windsurf 世界级的人才，这些是我们行业中最优秀的人才，我们很荣幸能将他们纳入我们的团队。

在短期内，Windsurf 团队将继续按照他们一直以来的方式运作，我们将继续专注于通过 Devin 加速您的工程工作。在未来几个月里，我们将大力投资，将 Windsurf 的能力和独特的知识产权整合到 Cognition 的产品中。通过这笔交易，我们更加坚定了我们构建软件工程未来的使命。

以下是 Scott Wu 发给 Cognition 团队的信件摘要：

团队，正如我们在全员大会上讨论的，我们正在收购 Windsurf。现在我们已经签署了最终协议，我们非常兴奋。以下是交易的回顾，再次强调，这些信息在上午 11 点 PT 之前是高度机密的，之后 Windsurf 的全员大会结束后，这些信息将对外公布。Windsurf 团队应该由 Jeff 和我以正确的方式告知这个消息，所以在此期间请保持一切安静，以尊重我们的新同事。

那么，这笔交易究竟是什么？通过这次收购，Cognition 将拥有 Windsurf 深受喜爱的产品和强大的业务：

Windsurf IDE，现在可以完全访问最新的 Claude 模型。
Windsurf 的知识产权，包括他们的商标和他们建立的强大品牌。
8200 万美元的年度经常性收入（ARR）和快速增长的业务，企业 ARR 每个季度都在翻倍。
用户基础包括 350 多个企业客户和数十万的日活跃用户。

最重要的是，我们正在欢迎我们行业中一些最令人印象深刻的人，包括世界级的 GTM、工程和产品团队。

我们一直钦佩 Windsurf 团队以及他们所建立的一切。在构建这笔交易时，我的首要任务之一就是尊重他们的才能、辛勤工作和成就，使 Windsurf 成为今天这样一个伟大的业务。为此，Jeff 和我共同努力，确保每位员工在这笔交易中都得到尊重和妥善照顾。具体来说：

Windsurf 的所有员工都将在这笔交易中获得财务参与。
Windsurf 的所有员工都将放弃他们迄今为止工作的归属期。
Windsurf 的所有员工都将获得他们迄今为止工作的完全加速归属。

每位新加入 Cognition 的员工都将像现有员工一样得到同样的待遇：透明度、公平性和对他们的能力和价值的深深尊重。从今天开始，我们的努力将作为一个团结和一致的团队。我们只有一条船，我们都在这条船上。

这对 Cognition 意味着，我们将能够更快地推进我们构建软件工程未来的使命。正如你们所知，在过去的几个月里，我们已经有了强劲的势头和采纳。对于许多企业工程团队来说，Devin 已经是顶级的贡献者。随着我们的客户基础继续增长，很明显，将 Devin 作为领先的完全自主代理的快速采纳与 Windsurf 的 IDE 产品和规模化的 GTM 机器结合起来，将是一个巨大的解锁。

从来没有一个更令人兴奋的时间去构建。在我们的有生之年，工程师将从砌砖工转变为建筑师，专注于设计系统的创造力，而不是将它们组装在一起的手工劳动。

能够处于这个位置是一种特权，是你们的努力让我们来到这里。前面还有很多工作要做，工作不会容易，但今天是我们所有人在这个正和游戏中的巨大胜利。感谢你们一起踏上这段旅程。现在让我们准备热烈欢迎我们的新同事。Scott。

HN 热度 489 points | 评论 410 comments | 作者：alazsengul | 1 day ago #

https://news.ycombinator.com/item?id=44563324

这些交易周围的动荡让人们更加相信我们可能正处于一个与基本面脱节的巨大泡沫中，泡沫迟早会破裂。
Anthropic 的 ARR 从 1B 增长到 4B，表明确实存在某种价值。
“泡沫迟早会破裂”和“确实存在某种价值”并不矛盾，它们经常一起出现。
现在的形势与.com 泡沫/破裂时期相似，那时的技术极大地改变了全球社会，但也带来了像 Pets.com 和 Webvan 这样的失败案例。
Webvan 的理念提前了大约 15 年，现在有了 InstaCart 和 DoorDash 等成功的服务。
Pets.com 本质上就是 Chewy，一个成功的宠物在线零售商。
Amazon 在 1999 年的市值比 2009 年还要高。
Anthropic 是一个值得关注的案例，因为它证明了成功不仅仅与规模有关。
“规模假设”是目前最容易、最快的融资故事，所以会被利用，直到被下一个进步打破。
Cursor 本身似乎没有带来太多价值，它就像是一个 API 的包装器。
许多“人工智能”产品和服务的价值尚未得到解答，尤其是当它们不拥有底层的 LLM 时。
Cursor 提供了比 Copilot 更好的开发环境，尽管它经常出 bug。
Amazon 的 Kiro 在规划、绘图和分解任务方面表现出色，甚至在没有编写任何工作代码的情况下也创造了对我有用的东西。
基于底层 AI 公司构建的产品理论上可以获得更高的利润率，因此风险投资纷纷涌入，试图找出哪家公司能够成功地攀升价值链。

LIGO detects most massive black hole merger to date #

https://www.caltech.edu/about/news/ligo-detects-most-massive-black-hole-merger-to-date

LIGO 探测到迄今为止最大规模的黑洞合并

LIGO-Virgo-KAGRA（LVK）合作组织使用美国国家科学基金会资助的 LIGO 天文台，探测到了迄今为止通过引力波观测到的最大规模黑洞合并。这次强大的合并产生了一个最终黑洞，大约是太阳质量的 225 倍。信号被指定为 GW231123，在 2023 年 11 月 23 日 LVK 网络的第四次观测中被探测到。LIGO，即激光干涉引力波天文台，在 2015 年首次直接探测到引力波，这是空间时间的涟漪。在那个案例中，波纹来自一个黑洞合并，最终形成了一个黑洞，其质量是太阳的 62 倍。信号由位于路易斯安那州利文斯顿和华盛顿州汉福德的两个 LIGO 探测器共同探测到。

从那时起，LIGO 团队与意大利的 Virgo 探测器和日本的 KAGRA（神冈引力波探测器）合作，形成了 LVK 合作组织。这些探测器在第四次运行中共同观测到了 200 多次黑洞合并，自 2015 年第一次运行开始以来总共观测到了大约 300 次。

在此之前，最大规模的黑洞合并——由 2021 年发生的事件 GW190521 产生——总质量是太阳的 140 倍。在最近的 GW231123 事件中，由两个黑洞合并而成的 225 太阳质量黑洞，每个黑洞的质量分别约为太阳的 100 倍和 140 倍。

除了它们的高质量，这些黑洞还快速旋转。“这是我们通过引力波观测到的最大规模的黑洞双星系统，它对我们对黑洞形成的理解提出了真正的挑战，”卡迪夫大学的 Mark Hannam 说，他也是 LVK 合作组织的成员。“按照标准的恒星演化模型，这种质量的黑洞是不允许存在的。一种可能性是，这个双星系统中的两个黑洞是通过早期较小黑洞的合并形成的。”

加州理工学院 LIGO 的执行主任 Dave Reitze 说：“这次观测再次证明，引力波是如何独特地揭示了宇宙中黑洞的基本和奇异性质。”

创纪录的系统

GW231123 中的黑洞具有高质量和极高的旋转速度，这超出了引力波探测技术和当前理论模型的极限。从信号中提取准确信息需要使用考虑高速旋转黑洞复杂动态的模型。

“这些黑洞似乎旋转得非常快——接近爱因斯坦广义相对论允许的极限，”朴茨茅斯大学的 Charlie Hoy 解释说，他也是 LVK 的成员。“这使得信号难以建模和解释。这是推动我们理论工具发展的一个极好案例研究。”

研究人员正在继续完善他们的分析，并改进用于解释这类极端事件的模型。“社区需要数年时间才能完全解开这个复杂的信号模式及其所有含义，”伯明翰大学的 Gregorio Carullo 说，他也是 LVK 的成员。“尽管最可能的解释仍然是黑洞合并，但更复杂的情况可能是解开其意外特征的关键。未来令人兴奋！”

HN 热度 351 points | 评论 188 comments | 作者：Eduard | 1 day ago #

https://news.ycombinator.com/item?id=44564656

这个事件释放的能量相当于 10^31 个沙皇炸弹的能量，或者相当于 45,000 个太阳在其整个生命周期内释放的能量。
为了匹配这个事件的能量，需要从宇宙大爆炸开始每秒引爆 10^13 个沙皇炸弹。
合并的黑洞在瞬间释放的能量比宇宙中所有恒星在同一瞬间释放的能量还要多。
超新星释放的能量比太阳在其整个生命周期内释放的能量还要多。
太阳的能量释放率与哺乳动物的新陈代谢率大致相同。
这次黑洞合并事件释放了相当于 15 个太阳质量的能量。
可见宇宙中的所有恒星燃烧产生的能量与宇宙 2.73°K 背景温度相比只是微不足道的一部分。
超新星爆炸释放的能量是难以想象的，即使是在 1 秒差距的距离上观看，也可能会造成严重的伤害。

Dog Walk: Blender Studio’s official game project #

https://blenderstudio.itch.io/dogwalk

Blender Studio 的官方游戏项目《DOGWALK》是一款短小的休闲互动故事游戏，适用于 Windows、macOS 和 Linux 平台。玩家将扮演一只大型可爱的狗，穿越冬日的森林，帮助一个小孩用隐藏在环境中的彩色物品装饰雪人。游戏允许玩家在一个微型开放世界中自由漫游，包括露营地、森林小径、田园小溪和冰冻的池塘。玩家可以引导或拖动跟随的小孩，互相帮助，成为恶作剧者或好孩子。游戏会根据玩家的游戏风格和选择做出反应，没有失败状态，只有由玩家驱动的时刻。

游戏环境由真实纸张制作的模型构成，这些模型被扫描并重新创建，以便玩家可以与之互动。Blender Studio 将这个项目作为新的免费和创意共享的“开放项目”推出，使用 Blender 和 Godot 游戏引擎制作，并提供这些软件的免费和开源版本。该项目旨在测试和改进 Blender 和 Godot 游戏引擎。

玩家可以通过 Blender Studio 网站支持他们的工作，游戏的源代码和生产仓库可以在网站上访问。《DOGWALK》游戏源代码包在 CC BY 4.0 下可用，源代码（脚本）在 MIT 许可下可用。

游戏自发布以来，收到了积极的反馈，评分为 4.8 星（共 19 个评分）。玩家评论中提到游戏给他们留下了深刻的印象，认为这是一个非常酷的体验，并且对游戏的艺术性、游戏性、故事和声音都表示赞赏。有玩家建议将游戏制作成 HTML 版本，以便直接在浏览器中测试。还有玩家对游戏的许可证表示疑问，但官方已经澄清，游戏的许可证现在是 MIT，并且有链接从官方博客帖子指向这个页面。游戏的平均游戏时长约为半小时，支持英语，输入方式包括键盘、鼠标和游戏手柄。游戏的下载链接包括 Windows、Linux 和 macOS 版本，文件大小分别为 747MB、740MB 和 785MB。

HN 热度 317 points | 评论 54 comments | 作者：doener | 1 day ago #

https://news.ycombinator.com/item?id=44565603

游戏的 3D 资产是通过将真实的纸质物品经过摄影测量管线处理得到的，但具体细节不明。
游戏的纸艺物品被展开、扫描/摄影、导入 Blender 并映射到 3D 模型上，没有使用摄影测量技术。
游戏开发过程中，Blender Studio 从 Blender 游戏引擎转向了 Godot，因为 Godot 更有前景。
游戏《Apricot》在 2008 年时由于技术限制，未能完全在 Blender 游戏引擎中实现，因此制作了两个版本。
有用户认为《Apricot》感觉未完成，只能探索森林和互动，但不清楚游戏目标。
游戏《Apricot》更像是技术演示，运行效果不佳。
有用户对旧版 Blender 的 UI 有好感，认为它比新版 UI 更简洁易用。
游戏《Go Frankie》如果当时有 Godot 引擎可能会有不同的表现。
游戏在 macOS 上启动慢，可能是代码签名和公证问题。
有用户认为 Godot 应该关注 macOS 的性能问题，以实现多平台支持。
游戏在 macOS 上的性能问题可能与 Gatekeeper 验证公证有关。
有用户认为 Godot 不需要解决 macOS 的性能问题，因为大型游戏公司和苹果自身对此不感兴趣。
有用户对 Godot 引擎用户群体和大型游戏公司的兴趣表示怀疑。
有用户认为使用 Godot 制作的游戏看起来非常舒适，有温馨的感觉。
有用户回忆起小时候玩过的类似游戏《Sleepwalker》。
游戏《Dog Walk》是“免费啤酒”（free as in beer），但源代码需要付费获取。
游戏的源代码采用 GPLv3 许可，应该免费分发，但目前似乎并未这样做。

Show HN: Shoggoth Mini – A soft tentacle robot powered by GPT-4o and RL #

https://www.matthieulc.com/posts/shoggoth-mini

这篇文章讨论了机器人技术在表达性方面的进展，以及如何通过表达性来改善人机交互的自然感。作者 Matthieu Le Cauchois 通过自己的项目 Shoggoth Mini，探索了机器人的表达性如何影响其与人类的互动。

文章首先提到，尽管当前的机器人技术如 Pi 的 π0.5 和特斯拉的 Optimus 在功能上令人印象深刻，但它们似乎仍停留在实用主义的机器人家电思维中。为了让未来的机器人能够与人类共存，它们必须具备表达性，以传达意图、注意力和信心等内部状态。作者强调，表达性不仅是沟通的渠道，还能使互动感觉更自然，缺乏表达性会导致所谓的“恐怖谷效应”。

作者提到了苹果公司的 ELEGNT 论文，该论文通过类似皮克斯的灯来展示仅通过姿势和时机就能传达意图。同时，他也发现了 SpiRobs，一个简单的软触手机器人，仅通过简单的动作就给人一种生动的感觉。这些发现激发了作者构建 Shoggoth Mini 的兴趣，以更直接地探索这一概念。

在硬件方面，作者从简单的测试平台开始，逐步改进设计，包括添加立体摄像头以跟踪触手，以及解决电缆缠绕问题。他还提到了如何通过添加校准脚本和预卷额外的电线长度来加快迭代速度，并调整脊柱的厚度以防止触手下垂。

在手动控制方面，作者简化了触手的控制，将其三个肌腱长度简化为两个直观的维度，可以通过触摸板操作。这种 2D 到 3D 的映射直观且易于操作，后来成为整个系统的核心。

系统设计方面，作者介绍了两个控制层：低级控制使用开环和闭环 RL 策略，而高级控制则利用 GPT-4o 的实时 API，通过音频和文本流进行交互。作者提到了如何通过提示工程来优化 GPT-4o 的行为，并添加了一个“呼吸”空闲模式，使触手即使在不活跃时也显得有生气。

在感知方面，作者提到了手部跟踪和触手尖端跟踪的需求。他使用了 MediaPipe 进行手部跟踪，并为触手收集了数据集，使用 k-means 聚类和 Roboflow 的自动标注功能来加速标注过程。通过这些方法，作者训练了一个 YOLO 模型来跟踪触手尖端。

总的来说，这篇文章详细描述了作者在构建 Shoggoth Mini 过程中的挑战、意外发现以及从中学到的关于构建机器人的知识。通过探索机器人的表达性，作者希望能够创造出更自然、更具互动性的机器人，以改善人机关系。

HN 热度 313 points | 评论 65 comments | 作者：cataPhil | 8 hours ago #

https://news.ycombinator.com/item?id=44572377

Shoggoth Mini 机器人的表达性随着人们对其工作原理的了解而减少，导致其看起来不再那么有生命力。
人类倾向于将事物赋予生命和智能，从古代的自然现象到现代的机器。
人类大脑的复杂性使得我们无法完全理解彼此，这与机器人的简单行为形成对比。
一旦理解了游戏背后的系统，游戏的趣味性就会减少。
发现游戏中的最优策略后，游戏从探索世界变成了追求效率。
在 Minecraft 和 Crusader Kings III 等游戏中，玩家可以选择追求自然进步或角色扮演，而不是追求速度通关。
设计不佳的游戏会让规则应用变得无聊，而有趣的游戏则让规则应用变得有趣。
Into The Breach 是一个信息量高、策略性强的回合制游戏，每个回合都像是一个需要解决的谜题。
巴巴是你（Baba Is You）也是一个需要解决谜题的游戏，给人带来胜利感。
语音助手和构造语言可以通过不同的方式提高可信度，例如使用非本地口音或虚构语言。
英国人认为大多数文本转语音的英国口音听起来像是美国人模仿特定地区口音的尝试。
GPT 处理响应的延迟让人感到不安，可能需要某种指示活动的方式，如 LED 灯。
较小的语言模型可能适合用于 Shoggoth Mini，因为它的任务听起来并不复杂。
可能可以在本地模型上进行一些额外训练，以提高性能。
Qwen 0.6B 这样的小型模型可能适合 Shoggoth Mini，并且可以适应较小的 VRAM。

Reflections on OpenAI #

https://calv.info/openai-reflections

这篇文章是作者 Calvin French-Owen 在离开 OpenAI 三周后，对在该公司工作期间的反思和总结。文章发表于 2025 年 7 月 15 日，作者于 2024 年 5 月加入 OpenAI。

文化和组织结构： 作者首先提到了 OpenAI 的快速增长，从他加入时的 1000 多人增长到 3000 多人，他本人在公司中的资历属于前 30%。随着规模的扩大，公司的沟通方式、报告结构、产品发布、人员管理和组织、招聘流程等都面临挑战。不同团队的文化差异显著，有的团队全力以赴冲刺，有的团队则在维护大型运行项目，还有一些团队以更稳定的步伐前进。由于这种多样性，没有统一的 OpenAI 体验。

沟通和决策： OpenAI 的沟通几乎完全依赖于 Slack，没有电子邮件。这种沟通方式对于组织性不强的人来说可能会分散注意力，但如果能够管理好频道和通知，也可以变得相当可行。公司非常注重自下而上的文化，特别是在研究领域，好的想法可以来自任何地方，而且往往不清楚哪些想法会最成功。公司的进步是迭代的，随着新研究的成果而逐渐显现。

领导和行动： OpenAI 非常重视行动，通常不需要等待许可就可以开始新的项目。公司倾向于让研究人员像“迷你执行官”一样工作，自己决定研究方向。如果一个问题被认为是无聊或已解决的，那么它可能不会被研究。优秀的研究经理和产品经理对于连接不同的研究工作和整合更大的模型训练至关重要。

变化和保密： OpenAI 能够迅速改变方向，这在大型公司中是难得的。公司对外界的审查非常严格，作者经常看到新闻报道在内部宣布之前就已经被媒体曝光。因此，OpenAI 是一个非常保密的地方，员工不能详细谈论他们正在从事的工作。公司的财务和消耗数据也受到严格保护。

严肃性和目标： 尽管外界对 OpenAI 有很多批评，但作者遇到的每个人都在努力做正确的事情。公司的目标是构建通用人工智能（AGI），这意味着需要做很多事情。同时，公司还在努力构建一个产品，这个产品将被数亿用户用于从医疗建议到治疗等各个方面。此外，公司还在全球最大的竞技场中竞争，密切关注 Meta、Google 和 Anthropic 等公司的动态。

组织多样性和福利： 作者认为 OpenAI 不应该被视为一个单一的整体。公司最初像洛斯阿拉莫斯一样，是一群科学家和修补匠探索科学的前沿。这个团队偶然产生了历史上最病毒式的消费者应用，并逐渐发展出向政府和企业销售的雄心。不同资历和组织部分的人有不同的目标和观点。在公司待得越久，人们可能越倾向于从“研究实验室”或“为公益的非营利组织”的角度来看待事物。

AI 的普及和安全： 作者最欣赏的是公司在分配 AI 福利方面的实际行动。尖端模型并不仅限于某些企业级层级，任何人都可以登录 ChatGPT 并获得答案，即使他们没有登录。还有一个 API 可以注册使用，大多数模型（即使是最先进的或专有的）也倾向于迅速进入 API，供初创公司使用。作者认为 OpenAI 在这方面值得大量赞誉，这仍然是公司的核心 DNA。安全问题比人们从 Zvi 或 Lesswrong 读到的要多。

HN 热度 296 points | 评论 167 comments | 作者：calvinfo | 7 hours ago #

https://news.ycombinator.com/item?id=44573195

大多数“我为什么离开”的帖子都是在试图通过将责任完全归咎于组织来证明一个人不适合某个组织。
有些人因为缺乏明确的路线图或归属感而感到迷茫。
快速行动和频繁改变方向可能导致混乱和缺乏一致的愿景。
尽管 OpenAI 在媒体中经常被批评，但那里的每个人都在努力做正确的事情。
作者不会公开批评任何雇主，因为这可能只会损害自己的职业生涯。
考虑到 Altman 可能的报复行为，对于 OpenAI 来说尤其如此。
这篇帖子可能是作者试图以最好的光线展示他短暂 14 个月的工作经历，以帮助他自己的人际网络。
尽管作者已经非常富有，但他仍然可能受到激励的影响。
有人怀疑作者的行为动机，认为他可能在掩饰自己的倦怠，或者为了未来的资金和联系保持开放的选择。
加州的“不再沉默法案”限制了雇主的非诽谤条款和报复行为。
即使非法，与 OpenAI 对抗可能需要在法庭上进行斗争，而 OpenAI 可能会惩罚这种行为。
OpenAI 的员工可能因为相信他们将从股权中获得巨额回报而表现出类似邪教的行为。
员工可能认为，如果他们公开批评 OpenAI，他们的股权将变得一文不值或无法出售。
有人不相信人工通用智能（AGI）是真实存在的，因为没有物理限制阻止 AGI 的发展。

Blender 4.5 LTS #

https://www.blender.org/download/releases/4-5/

Blender 是一个开源的 3D 创作套件，支持从建模、渲染、动画制作到模拟、渲染、合成和运动跟踪的全流程。它是一个功能强大的工具，适用于游戏制作、视觉效果、艺术、3D 打印等多个领域。

主要特点：

开源和免费： Blender 完全免费，不受任何限制，您可以自由使用它进行商业项目。
跨平台： 支持 Windows、Linux 和 macOS 操作系统。
全流程 3D 创作： 从建模到渲染，Blender 提供了一站式的 3D 创作解决方案。
社区支持： 拥有活跃的社区，用户可以分享作品、获取帮助和学习新技能。

下载 Blender： 您可以从官网下载最新版本的 Blender，支持多种语言界面，包括中文。

支持和参与：

获取支持： 如果您在使用 Blender 时遇到问题，可以通过论坛、文档和社区获得帮助。
参与贡献： Blender 是一个开源项目，欢迎开发者和艺术家参与代码开发、文档编写、翻译和社区建设。

最新动态：

项目更新： 官网会定期发布 Blender 的最新更新和改进，包括新功能和性能优化。
社区活动： 社区会组织各种活动，如在线研讨会、工作坊和比赛，以促进交流和学习。

关于 Blender： Blender 由 Blender 基金会维护，该基金会致力于推动开源 3D 软件的发展，并支持 Blender 社区的成长。

工作机会： Blender 基金会和社区成员会发布与 Blender 相关的工作机会，包括软件开发、教育和艺术创作等职位。

商店和捐赠：

商店： 您可以在 Blender 商店购买与 Blender 相关的商品，如 T 恤、帽子和模型。
捐赠： 您可以通过捐赠支持 Blender 基金会，帮助其继续开发和维护 Blender。

HN 热度 269 points | 评论 78 comments | 作者：obdev | 8 hours ago #

https://news.ycombinator.com/item?id=44571917

Blender 是一个值得支持的开源项目，即使是每月一杯咖啡的费用也能带来巨大帮助。
通过订阅 Blender Studio 可以获得培训、资产、源代码和生产日志，同时支持 Blender。
支持开源项目可以为付费替代品创造竞争，迫使它们提供更好的产品或更好的交易。
即使不使用 Blender，也应该支持它，因为成功的创意项目本身就是一种乐趣。
Blender 是开源软件中的佼佼者，非常精良。
有人表示，尽管 Blender 对他的工作至关重要，但他强烈反对 Blender 是一个精良的开源项目。
Blender 和其他开源项目一样，一直在处理由于 AI 公司反复爬取而产生的大额带宽费用。
Blender 去年甚至被 DDoS 攻击，攻击者似乎对 Blender 有敌意。
有人表示，他们的意见并不重要，重要的是捐赠，而不是发表尖刻的评论。
有人对 CAPTCHA 感到疲劳，尤其是使用非主流操作系统和浏览器时，他们会选择退出。
有人反对为 AI 公司提供免费训练数据。
有人喜欢在自己的计算机上运行免费模型，这些模型是在自由获取的数据上训练的。
有人担心，尽管大家都想要免费的东西，但总得有人为此付费。
Blender 的新功能，如自定义网格法线和通过 OSL 定义自定义相机，对于 3D 内容创作来说非常重要。
有人认为 Blender 正在“吞噬”3D 内容创作世界，尽管 Maya 和 Houdini 在某些方面仍然领先。
有人担心 AI 技术的发展可能会颠覆 3D 内容创作领域。
有人相信 AI 技术短期内会颠覆，但长期来看对创意专业人士是积极的，可以提高效率和生产力。
有人提出，AI 技术可能会使小型团队的工作效率提高，从而减少组织层级。
有人担心，如果工作单位的人数保持不变，而每个人都变得更有效率，那么世界会变得更好，但组织结构可能会变得更小。

RFC: PHP license update #

https://wiki.php.net/rfc/php_license_update

PHP 许可证更新提案

日期：2025-07-10 作者：Ben Ramsey, ramsey@php.netmailto:ramsey@php.net 提议版本：PHP 9.0 状态：讨论中首次发布： http://wiki.php.net/rfc/php_license_update

引言： PHP 长久以来因其自定义开源许可证以及 Zend Engine 许可证（覆盖 Zend/目录下的源代码）而存在混淆、担忧和争议。Zend Engine 许可证并非开源倡议（Open Source Initiative, OSI）批准的许可证，这增加了复杂性。本 RFC 提出了一个简化 PHP 许可证的实用方案，旨在消除混淆，保留所有 PHP 贡献者的版权，并赋予用户与原始许可证相同的权利。提议采用的许可证是修改后的 BSD 许可证，通常称为 3 条款 BSD 许可证。

提案：本提案旨在解决开源社区长期存在的问题，通过发布 PHP 许可证和 Zend Engine 许可证的新版本。将采用修改后的 BSD 许可证作为 PHP 许可证第 4 版和 Zend Engine 许可证第 3 版。修改后的 BSD 许可证有时被称为“新”、“修订”或“3 条款”BSD 许可证，其 SPDX 标识符为 BSD-3-Clause。它被开源倡议（OSI）和自由软件基金会（FSF）认定为自由软件许可证。FSF 已将其指定为与 GNU 通用公共许可证（GPL）兼容，并是 OSI 批准的许可证。

通过采用修改后的 BSD 许可证：

贡献者授予的权利不会改变。
用户被授予的权利不会改变。
我们将与 PHP Group 和 Perforce Software 合作，移除特定于他们的条款。
PHP 软件和 Zend Engine 将根据 OSI 批准且与 GPL 兼容的条款进行许可。

提议的 PHP 项目将：

与 PHP Group 合作，采用修改后的 BSD 许可证作为 PHP 许可证第 4 版。
与 Perforce Software 合作，采用修改后的 BSD 许可证作为 Zend Engine 许可证第 3 版。
弃用 PHP 许可证和 Zend Engine 许可证。强烈不鼓励在 PHP 项目内外的新项目中使用这些许可证。
从 PHP 软件中删除 LICENSE 文件内容，并用“新 LICENSE 文件”部分下的内容替换。
从 Zend Engine 中移除 Zend/LICENSE 文件。
用“新 PHP 源文件头”部分下的内容替换 PHP 软件中所有 PHP 源文件的文件头。
用“新 Zend Engine 源文件头”部分下的内容替换所有 Zend Engine 源文件的文件头。
更新其他适用的文档和网页，以反映这些变化，例如 https://www.php.net/license/。

背景、变更授权和附加上下文部分提供了进一步的上下文和法律理由。

修改后的 BSD 许可证全文：允许在源代码和二进制形式下进行复制和使用，无论是否修改，只要满足以下条件：

源代码的再分发必须保留上述版权声明、此条件列表和以下免责声明。
二进制形式的再分发必须在随分发提供的文档和/或其他材料中复制上述版权声明、此条件列表和以下免责声明。
未经特定事先书面许可，不得使用版权持有者或其贡献者的名字来支持或推广衍生自本软件的产品。
本软件由版权持有者和贡献者“按原样”提供，任何明示或暗示的保证，包括但不限于对适销性和特定用途适用性的暗示保证，均被排除。在任何情况下，即使被告知可能发生此类损害的可能性，版权持有者或贡献者也不对任何直接的、间接的、偶然的、特殊的、惩罚性的或间接损害（包括但不限于替代商品或服务的采购、使用、数据或利润的损失，或业务中断）负责，无论是基于合同责任、严格责任还是侵权行为（包括疏忽或其他原因）引起的，因使用本软件以任何方式产生的任何方式。

源代码的再分发必须保留上述版权声明、此条件列表和以下免责声明。
二进制形式的再分发必须在随分发提供的文档和/或其他材料中复制上述版权声明、此条件列表和以下免责声明。
未经特定事先书面许可，不得使用版权持有者或其贡献者的名字来支持或推广衍生自本软件的产品。本软件由版权持有者和贡献者“按原样”提供，任何明示或暗示的保证，包括但不限于对适销性和特定用途适用性的暗示保证，均被排除。在任何情况下，即使被告知可能发生此类损害的可能性，版权持有者或贡献者也不对任何直接的、间接的、偶然的、特殊的、惩罚性的或间接损害（包括但不限于替代商品或服务的采购、使用、数据或利润的损失，或业务中断）负责，无论是基于合同责任、严格责任还是侵权行为（包括疏忽或其他原因）引起的，因使用本软件以任何方式产生的任何方式。

HN 热度 268 points | 评论 76 comments | 作者：josephwegner | 1 day ago #

https://news.ycombinator.com/item?id=44565647

Meta 使用的是 Hack 而非 PHP，Hack 的打包、文档和可用性因为缺乏性能审查而不佳
许多大型企业明确禁止使用 AGPL 软件，因为无法证明可以防止被“远程网络交互”条款触发
选择 AGPL 可以阻止企业使用你的代码，但也有企业如 Grafana、Mastodon 和 Mattermost 运行 AGPL 软件
开发者应关注用户自由而非企业对客户自由的限制
AGPL 允许用户选择支付其他企业来托管服务
AGPL 针对的是使用软件提供专有网络服务的企业，非技术企业不受这些问题影响
AGPL 语言的模糊性和未经测试导致许多地方，包括非技术领域，对成为测试案例感到担忧
一些项目因哲学、道德原因或竞争恐惧选择 AGPL，但 AGPL 的“放射性”足以吓跑潜在用户
开源创业公司若想避免被 AWS 式利用，可以选择 AGPL 与商业许可的双重许可模式
Grafana 实质上采取了这种做法，作为公司和产品系列都做得很好
用户无法在其他地方重用 Grafana 的图表组件，因此出现了 Perses.dev
许多大型企业会使用 AGPL 软件，因为可以双许可，AGPL 允许声称“开源”的同时通过商业许可选项普遍收费
Meta 确实有一些 PHP 应用，他们有一系列运行 WordPress 的网站
PHP 许可证和其历史在一个地方清晰展现，没有市场营销或 AI 生成的废话
AI 生成的废话并不增加新内容，事实上废话一直存在
25 年前研究 PHP Zend 引擎源代码时，首次看到三重指针，之后多年使用 PHP，包括在高中编程竞赛中使用 PHP
用 Perl 完成高中项目，用 Catalyst 编写 Web 应用程序和 J2ME 编写手机客户端
用不常见的语言编写项目是避免愚蠢教授/考官询问你代码库愚蠢问题的最佳方式
无法想象三重“裸”指针的合理案例，这种隐式间接级别无法推理
页面表本质上是表的表的表，三重指针直到找到这种用例才理解
三级表不具有 void***，而是 PageTableLevel2*，携带信息的指针到下一级
担心没有从所有贡献者那里获得许可，恶意贡献者可能会使生活变得困难
在美国等系统里，任何人都可以因任何原因起诉任何人，每个人都预期承担自己的费用，这就是为什么每个人都如此偏执，并用三辆坦克的金属保护自己的原因

Context Rot: How increasing input tokens impacts LLM performance #

https://research.trychroma.com/context-rot

这篇网页是一篇技术报告，标题为《Context Rot: How Increasing Input Tokens Impacts LLM Performance》，由 Chroma 的研究员 Kelly Hong、顾问 Anton Troynikov 和首席执行官 Jeff Huber 撰写，发布日期为 2025 年 7 月 14 日。报告探讨了大型语言模型（LLMs）在处理不同长度输入时的性能变化，特别是当输入长度增加时，模型性能如何受到影响。

报告首先指出，人们通常认为 LLMs 能够均匀地处理上下文，但实际上这种假设并不成立。研究者们观察到，模型性能随着输入长度的变化而显著变化，即使是在简单的任务上也是如此。报告评估了 18 个 LLMs，包括最先进的 GPT-4.1、Claude 4、Gemini 2.5 和 Qwen3 模型。结果显示，这些模型并没有均匀地使用它们的上下文；相反，随着输入长度的增加，它们的性能变得越来越不可靠。

报告中提到，LLMs 的最新发展趋向于更长的上下文窗口，输入的标记数量达到了百万级别。这些模型在广泛采用的基准测试如“Needle in a Haystack (NIAH)”上取得了接近完美的分数，因此人们通常认为它们在长上下文任务中的表现是均匀的。然而，NIAH 本质上是一个简单的检索任务，可能并不代表灵活的、面向语义的任务。

为了进一步研究模型在未充分探索的设置中的行为，报告扩展了标准的 NIAH 任务，考察了语义匹配而非直接词汇匹配的针（needle）的影响，以及引入干草堆（haystack）内容变化的影响。此外，还包括了使用 LongMemEval 进行的对话式问答评估，以及一个模型复制一系列重复单词的合成任务。每个任务都故意保持简单，并有意识地控制，以隔离上下文长度单独的影响。

报告展示了即使在这些最小条件下，随着输入长度的增加，模型性能也会下降，而且下降的方式常常是令人惊讶和不均匀的。现实世界的应用通常涉及更大的复杂性，这意味着输入长度的影响在实践中可能更加显著。

报告还讨论了现代 LLMs 通常具有数百万标记的输入上下文长度。例如，Gemini 1.5 Pro 在 2024 年初首次引入了它们的 1M 上下文窗口，随后 GPT-4.1 和 Llama 4 分别引入了 1M 和 10M 的上下文窗口。长上下文的使用案例很有说服力：更长的上下文意味着 LLM 可以在每次调用中处理更多信息，并生成更明智的输出。

报告最后提到，设计现实的长上下文基准测试是具有挑战性的。随着输入长度的增加，任务的复杂性往往会增加，这使得很难隔离性能下降是由于更长的输入还是本质上更难的问题。为了解决这个问题，实验保持任务复杂性恒定，只改变输入长度，从而直接测量输入长度本身的影响。

报告还提到了一些相关工作，包括 NIAH 基准测试，这是一个广泛使用的评估模型长上下文能力的测试，但它只测量了一个狭窄的能力：词汇检索。模型通常在 NIAH 上表现良好，这导致了长上下文问题基本解决的感知。然而，NIAH 低估了大多数长上下文任务在实践中所需的能力。NIAH 的变体，如 NoLiMa，包括非词汇匹配的针-问题对，揭示了显著的性能下降。其他看似难度相似的任务，如测试模型识别给定文本片段缺失的 AbsenceBench，也显示出随着输入长度增长的性能退化。

报告还提到了更复杂的基准测试，如多轮共指消解（MRCR）、Graphwalks 和 Latent List，这些测试进一步突出了长输入的性能退化。MRCR 将各种子任务合并为一个：识别相关部分、在干扰物中消歧、推理针的顺序和复制文本。为了将报告的模型失败归因于增加的输入长度，必须假设模型在每个子任务上都同样胜任。然而，这个假设尚未经过充分测试；可能是模型在某个特定子任务上失败，或者随着输入长度的增加，在几个独特的组合上失败。这些任务的复合性质使得系统评估模型在长上下文中失败的确切位置和方式变得困难。

报告最后提到了对经典 NIAH 任务的扩展，该任务涉及将一个随机事实（针）放置在一个长上下文窗口（干草堆）的中间，然后询问模型关于该事实的问题。原始的 NIAH 任务实现使用了具有词汇匹配的针-问题对。然而，长上下文的实际使用通常需要对模糊任务的语义理解。NoLiMa 展示了非词汇匹配对模型来说是一个挑战，因为上下文长度增加。这个任务使用需要模型推断潜在关联的针-问题对，例如：问题是“哪个角色去过赫尔辛基？”针是“实际上，Yuki 住在 Kiasma 博物馆旁边。”

HN 热度 242 points | 评论 58 comments | 作者：kellyhongsn | 1 day ago #

https://news.ycombinator.com/item?id=44564248

长文本输入会导致 LLM 性能下降，需要进行上下文工程
Gemini Pro 在长文本输入时性能下降，先总结文档再提供全文可改善性能
Claude Code 在多次压缩后性能变差，可能是由于上下文窗口中不相关信息增多
RAG 风格或简单的代理循环可以避免上下文污染
Gemini 在上下文变长时会失去连贯性和推理能力
通过/clear 命令而非退出可以清除上下文，改善性能
Appmap 的 AI 代理在上下文管理方面做得很好
NotebookLM 应用可以在后台进行文档的分块和总结，并通过 RAG 与全文聊天
明确、具体的指令和计划可以改善长上下文中的代码变更或功能输出
创建明确的计划或“规格”可以提高 LLM 应用的效率
长上下文会导致 LLM 性能退化，尤其是在需要逻辑跳跃的任务中
Claude Code 在会话变长时开始循环或忽略问题，可能是由于上下文管理不当
LLM 性能下降可能是由于用户提示和上下文管理不当导致
需要一种容易修剪上下文的方法以提高模型性能