2025 07 19 HackerNews

2025-07-19 Hacker News Top Stories #

  1. ChatGPT代理功能通过整合Operator、深度研究和智能对话能力,能够主动执行复杂任务,帮助用户完成从日历安排到数据分析等工作。
  2. 全同态加密(FHE)在实现私密互联网方面展现潜力,允许在加密数据上直接计算,推动加密云计算和保密区块链智能合约的发展。
  3. 人工智能公司Anthropic未通知用户就限制了Claude Code的使用,引发用户不满,部分用户认为他们的订阅被降级或使用跟踪出现错误。
  4. 作者分享了使用Claude Code的两周体验,介绍了其工作流程和优缺点分析,强调其高性价比的API信用额度。
  5. lsr是一款使用io_uring实现的ls命令替代品,通过减少系统调用提升性能,适用于处理大量文件的场景。
  6. 这篇文章探讨了人工智能模型的普适性问题,认为随着模型变大,它们可能收敛到一个共享的表示空间,并提出了“柏拉图式表示假说”。
  7. 软件开发中依赖管理的成本与风险可能高于直接开发,尤其是底层依赖对系统的影响更大,作者以Tigerbeetle为例说明完全避免外部依赖的合理性。
  8. 纽约警察局通过纽约市消防局使用面部识别软件Clearview AI,绕过了对警察使用该技术的限制政策,引发隐私和法律争议。
  9. 一项随机双盲试验显示,Psilocybin显著减轻患有生命威胁性癌症患者的抑郁和焦虑症状,且效果在6个月后仍然显著。
  10. 作者认为AI的最佳应用场景是编写日志,特别是PyCharm中的全行代码补全功能,大大提升了开发效率。

ChatGPT agent: bridging research and action #

https://openai.com/index/introducing-chatgpt-agent/

这个网页介绍了 ChatGPT 的新功能——ChatGPT 代理(agent),它能够结合研究和行动,主动选择一系列代理技能来为你完成任务。

ChatGPT 代理的介绍: ChatGPT 现在能够使用自己的计算机为你工作,处理从开始到结束的复杂任务。你可以让 ChatGPT 帮你查看日历并根据最近的新闻简报即将到来的客户会议,计划并购买制作四人份日式早餐的食材,以及分析三个竞争对手并创建一个幻灯片。

核心能力: 这个新功能的核心是一个统一的代理系统,它结合了之前突破的三个优势:Operator 能够与网站互动,深度研究能够综合信息,以及 ChatGPT 的智能和对话流畅性。ChatGPT 使用自己的虚拟计算机执行任务,流畅地在推理和行动之间切换,处理复杂的工作流程。

控制权: 在使用 ChatGPT 代理时,你始终拥有控制权。ChatGPT 在采取重要行动前会请求你的许可,你可以随时中断、接管浏览器或在任何时候停止任务。

使用方式: Pro、Plus 和 Team 用户可以直接通过工具下拉菜单激活 ChatGPT 的新代理能力,选择“代理模式”即可。

自然进化: 之前,Operator 和深度研究各自带来了独特的优势,但它们在不同情况下工作效果最佳。通过将这两种互补的优势整合到 ChatGPT 中,并引入额外的工具,我们解锁了全新的能力。现在,ChatGPT 可以主动与网站互动,点击、过滤并收集更精确、高效的结果。

代理工具: ChatGPT 代理配备了一系列工具:一个通过图形用户界面与网络互动的视觉浏览器,一个用于基于推理的简单网络查询的基于文本的浏览器,一个终端,以及直接 API 访问。代理还可以利用 ChatGPT 连接器,允许你连接像 Gmail 和 Github 这样的应用程序,以便 ChatGPT 可以找到与你提示相关的信息,并在其响应中使用它们。

实际应用: 这些统一的代理能力显著增强了 ChatGPT 在日常和专业环境中的实用性。在工作中,你可以自动化重复性任务,如将截图或仪表板转换为由可编辑矢量元素组成的演示文稿,重新安排会议,计划和预订场外会议,以及在保留相同格式的同时更新电子表格中的新财务数据。在个人生活中,你可以用它轻松规划和预订旅行行程,设计和预订整个晚宴,或寻找专家并安排预约。

性能评估: 模型在衡量网络浏览和现实世界任务完成能力的评估中表现出最先进的(SOTA)性能。在衡量 AI 在专家级问题上跨广泛主题表现的“Humanity’s Last Exam”评估中,ChatGPT 代理的模型得分为 41.6,创下了新的通过率 SOTA。通过简单的并行推出策略,模型的 HLE 得分可提高至 44.4。在最难的数学基准测试 FrontierMath 中,ChatGPT 代理使用工具(如终端代码执行)达到了 27.4% 的准确率。


HN 热度 661 points | 评论 467 comments | 作者:Topfi | 1 day ago #

https://news.ycombinator.com/item?id=44595492

  • AI 在处理复杂数据报告时可能存在 2% 的错误,这可能导致时间消耗在查找错误上
  • AI 应该被用作辅助工具,帮助收集和检查数据,而不是完全替代人工
  • AI 在编程中作为增强工具,需要人工审查每一步,以避免潜在问题
  • 将 AI 比作实习生,可以提高团队效率,但必须彻底审查其工作
  • 实习生的目标是帮助他们成长,而不仅仅是完成枯燥的工作
  • 实习生的工作需要监督,但也应该给予他们成长和学习的机会
  • 公司雇佣实习生的目的不仅仅是为了降低成本,也是为了长期扩大人才库,压制工资
  • 实习生对公司来说可能起初是负生产力,但长期来看有助于增加合格候选人数量,增强雇主议价能力
  • AI 与实习生的比较忽视了实习生的成长和教育价值,可能导致未来缺乏有经验的初级员工
  • AI 取代实习生可能导致未来对能够实际调试计算机的人才的需求增加,这些人才将获得更高的薪酬

Fully homomorphic encryption and the dawn of a private internet #

https://bozmen.io/fhe

这篇文章讨论了全同态加密(Fully Homomorphic Encryption, FHE)及其在实现真正私密互联网方面的潜力。

文章开头引用了 Gene Spafford 的话,强调了互联网上使用加密技术的重要性。作者介绍了全同态加密(FHE),这是一种允许在加密数据上进行任意计算的技术,而无需先解密。这意味着,即使数据被加密,也能进行计算,并且解密后的结果与在明文上进行计算的结果相同。

文章接着讨论了 FHE 的发展,称之为“FHE 的摩尔定律”,指出 FHE 算法每年速度提升 8 倍,从 2011 年每比特需要 30 分钟到现在只需毫秒。文章通过一个图表展示了 FHE 速度的显著提升,并预测如果这种改进持续下去,FHE 将很快足够快,可以用于加密云计算、加密大型语言模型(LLM)推理和保密区块链智能合约等。

文章强调了 FHE 的潜在影响,认为基于收集用户数据的商业模式可能会变得过时,因为如果另一项服务可以在密文上进行计算,那么发送明文就变得不必要了。作者认为,互联网的“默认间谍”模式可能会转变为“默认隐私”。

文章深入探讨了安全性的阿喀琉斯之踵,即数据在使用时(在内存中被处理)是解密的,这使得数据容易受到云服务提供商、内部人士、攻击者或被破坏的 CPU 的攻击。文章提到了 FHE 如何解决这个问题,使得数据在整个云生命周期中保持加密状态,作者称之为“全隐私计算”。

在定义全隐私计算时,文章描绘了一个数据始终被加密的互联网景象,包括数据在存储、传输和使用时都是加密的。这意味着用户的设备永远不会向任何服务器发送明文,服务器只处理加密数据,只有用户可以解密结果。

文章还深入技术细节,解释了 FHE 是如何工作的。FHE 利用基于格的密码学,这是一种在多维空间中无限延伸的点的网格。基于格的密码学的核心是一些被认为即使对于量子计算机也极难解决的问题,如最短向量问题(SVP)和最近向量问题(CVP)。这些特性使得 FHE 具有量子抗性,为可能的量子计算未来做好准备。

最后,文章介绍了学习误差(LWE)问题,这是基于格的 FHE 方案的基础。LWE 问题涉及到一个已知矩阵 A、一个秘密密钥 s 和随机小噪声 e,计算 b = As + e,即 b 是带有噪声的线性组合。生成的公钥是(A, b),而难题是给定公钥(A, b),找到秘密密钥 s。文章指出,As 是线性的,因此在视觉上形成了一个格点,而噪声 e 的添加使得结果 A*s + e = b 偏离了格点。


HN 热度 409 points | 评论 185 comments | 作者:barisozmen | 21 hours ago #

https://news.ycombinator.com/item?id=44601023

  • 同态加密(FHE)虽然速度在提升,但依赖于自举(bootstrapping)的 FHE 不太可能达到明文速度,因为自举的开销至少是 1000 倍。
  • 硬件加速被认为是提升 FHE 性能的途径,但在计算资源被大型语言模型(LLMs)占据的当下,推广硬件加速变得困难。
  • 私有 LLM 推理等应用中,可信硬件计算可能是唯一的可行选项,尽管存在信任硬件的问题。
  • 某些计算在加密数据上的渐进复杂度远高于明文数据,例如数据库搜索在加密数据上变为 O(n),而明文是 O(log n)。
  • 理论上存在将搜索问题优化到 O(log n)的突破,但实际应用中并不实用。
  • 私人信息检索(PIR)是一种受限的搜索形式,其查询复杂度为多项式对数(polylog(n)),需要超线性预处理和数据库大小的多项式增加。
  • 没有自举的 FHE 速度也永远无法与明文计算相比,因为密文比明文数据大约三个数量级,需要更多的内存带宽和计算能力。
  • 存在比率-1 的同态加密方案,其中“比率”指的是明文和密文之间的大小比,但并不实用。
  • 网页数据量大和计算量大不是同一概念,FHE 需要处理非常大的密文数据,而网页只需下载数据。
  • FHE 处理的数据量大约是明文的 1000 倍,处理时间也大约是 1000 倍。
  • 有人愿意为可证明的隐私服务支付更高的成本,即使成本高出 1000 倍。
  • FHE 解决的是计算服务提供商的隐私问题,并不会影响服务的其他隐私风险。
  • 如果 FHE 的延迟是 1000 倍,那么这将是一个很难销售的产品。
  • 尽管 Python 可能比 C++ 慢 400 倍,但人们仍然使用 Python,因为 Python 在某些情况下足够快。
  • FHE 的实用性取决于用例和输出的价值,以及谁在处理和解密最终输出。
  • 存在许多可行的方案,如代理重加密,它们在对称密钥上操作,而不是在大型加密数据块上。
  • 在金融应用中,操作的是小整数集,速度不是问题,输出的价值足够高,使得使用 FHE 变得值得。
  • 对于军事行动来说,可能值得等待长时间运行的过程来运行 FHE。

Anthropic tightens usage limits for Claude Code without telling users #

https://techcrunch.com/2025/07/17/anthropic-tightens-usage-limits-for-claude-code-without-telling-users/

这篇文章是关于人工智能公司 Anthropic 对其产品 Claude Code 的使用限制进行了调整,但未提前通知用户的情况。

自周一早晨起,Claude Code 的用户遭遇了意外的严格使用限制。这些问题主要出现在服务的重度用户中,许多人使用的是每月 200 美元的 Max 计划。用户仅被告知“Claude 使用限制已达到”,并给出了一个时间(通常在几小时内)限制将重置。但由于没有明确的公告说明限制的变化,许多用户认为他们的订阅被降级,或者他们的使用被错误地跟踪。

一位用户抱怨说:“你们的使用限制跟踪已经改变,不再准确。我在 30 分钟内的几个请求不可能达到 900 条消息。”当被联系评论时,Anthropic 的代表确认了这些问题,但拒绝进一步详细说明。代表表示:“我们知道一些 Claude Code 用户正在经历响应速度变慢的问题,我们正在努力解决这些问题。”

这些变化让用户感到担忧,因为他们没有提前收到任何变化的通知,也没有对未来的指导。一位不愿透露姓名的用户告诉 TechCrunch,自从使用限制生效以来,他的项目就无法推进。“它只是停止了进步的能力,”用户说。“我尝试了 Gemini 和 Kimi,但目前真的没有什么能与 Claude Code 的能力集竞争。”

这些问题的出现与 Anthropic 网络内的更广泛问题同时发生。许多 API 用户在同一时期报告了过载错误,公司的状态页面显示过去四天有六个单独的问题。值得注意的是,网络仍然显示本周的 100% 正常运行时间。

虽然加载错误很常见,但 Anthropic 对使用限制的新方法在用户中造成了显著的混乱,许多用户不知道他们受到使用限制。部分混乱来自于 Anthropic 的定价系统,该系统设置了分层限制,但从未保证一定水平的访问。最贵的 Max 计划,每月 200 美元,承诺的使用限制比 Pro 订阅高 20 倍。Pro 计划反过来,提供的限制是免费计划的五倍。但 Anthropic 表示,免费用户限制“将根据需求变化”,并不设定绝对值。结果导致用户无法围绕使用限制进行计划,因为他们不清楚何时服务会被限制。

文章还提到,200 美元的 Max 计划在服务的重度用户中特别受欢迎,有些人认为这个计划对 Anthropic 来说长期来看是不可持续的。我们采访的一位用户表示,该计划通常允许他在一天内进行超过 1000 美元的通话(以 API 定价计算)。因此,他并不惊讶使用限制变得更加严格——但他希望公司能更清晰地沟通这些变化。

“只要透明,”他说。“缺乏沟通只会让人们对他们失去信心。”

文章最后提到,Russell Brandom 是一位基于纽约的自由撰稿人,他撰写了这篇文章。


HN 热度 384 points | 评论 237 comments | 作者:mfiguiere | 1 day ago #

https://news.ycombinator.com/item?id=44598254

  • 一些用户对 Anthropic 突然限制 Claude 的使用而不通知用户感到不满。
  • 依赖第三方服务存在风险,可能导致项目无法继续。
  • 理解生成代码的开发者即使工具消失,也只是减缓进度,不会阻碍工作。
  • 有多个竞争工具和模型可供选择,如果一个工具无法使用,可以切换到另一个。
  • Claude 可以快速完成大量工作,比传统方法更高效。
  • AI 编程工具被视为编程领域的重大变革。
  • 即使 AI 工具在研究中减慢了个别任务的速度,也可能降低认知负荷和长期的职业倦怠。
  • 用户需要权衡使用 Claude 的成本和收益,即使有使用限制,也比完全不使用要好。
  • 付费编译器的问题在于长期支持和语言发展中的升级路径,而非编译器本身的永久性。
  • 付费编译器和需要授权 dongle 的软件仍然存在,尤其是在嵌入式开发领域。
  • 许多公司选择使用付费编译器和供应商工具链,因为它们提供了更好的硬件支持和调试功能。
  • 付费许可证和订阅不仅仅是服务,还包括与提供商的关系,这对公司来说很重要。
  • 对于个人来说,订阅服务可能并不理想,因为它们不需要与服务提供商建立额外的关系。

My experience with Claude Code after two weeks of adventures #

https://sankalp.bearblog.dev/my-claude-code-experience-after-2-weeks-of-usage/

Sankalp 的博客最新文章介绍了他使用 Claude Code(CC)的体验。文章从 7 月 17 日开始,讲述了 Sankalp 在两周内的冒险经历。

文章开头提到,Sankalp 之前使用的 Cursor 工具开始实施了请求限制,这让他不得不寻找替代方案。他提到,尽管之前几乎可以无限次使用 API 请求,但后来不得不接受限制。他承认自己之前可能过度使用了 Cursor,但对限制并不感到不满。他还提到,现在只有使用自动模型功能才能获得无限使用权,但他个人只信任 Sonnet 4 和 o3 模型,因为它们在代理搜索和代码生成方面表现出色。

Sankalp 还提到,他不太信任 Gemini Pro 2.5 和 GPT-4.1,尽管他偶尔会使用这两个模型。他特别提到 Opus 4 在解决 Sonnet 4 难以解决的问题上很有帮助。他曾经因为 Cursor 的 API 请求限制而转向 Claude Code,因为使用 Claude Code 可以以 20 美元的价格获得价值 100 美元的 API 信用额度。

文章中,Sankalp 描述了他是如何开始使用 Claude Code 的。他已经有了一个 20 美元的订阅,并通过订阅开始使用只提供 Sonnet 4 的 Claude Code。他将 CC 安装在 Cursor 中,因为 Cursor 的代码审查工作流程非常方便,他无法放弃。他还提到,有时候他需要使用 o3、Grok 4 或其他新模型,或者需要格式化代码,因为复制时保持正确格式仍然很困难。

Sankalp 分享了他的当前工作流程,最初他只是输入命令来做出改变,看着屏幕慢慢找到文件并执行编辑。他花了 2-3 天时间来信任这个模型,尽管它是 Sonnet 4。一旦建立了信任,他开始探索更多命令,并努力掌握基本命令。他建议使用 Shift+Tab 在计划模式和自动编辑模式之间切换,从 Opus 获取计划,然后用 Sonnet 4 完成 80-90% 的任务。

文章还讨论了基本的上下文管理,Sankalp 提到,当 Claude Code 显示 X% 直到压缩发生时,他就会开始一个新的聊天,并告诉 Claude 将重要点记录在文件中。他有时会进行压缩以保留一些上下文,但通常不会,因为压缩需要一些时间来完成。

Sankalp 还提到了为什么 Sonnet 在 Claude Code 中感觉比在 Cursor 中更好。他认为 Claude Code 可能是用它目前使用的工具进行后训练的,所以在当前的框架中更加舒适。他还提到,Claude Code 可能更好地管理上下文,而 Cursor 可能在压缩或优化上下文(推测)时,Claude 可以直接以原始方式读取行。他也感觉 CC 可能更有效地使用令牌。

最后,Sankalp 提到了 Claude 的子代理,当他看到可爱的待办事项列表时,就是 Claude 子代理在起作用。他不知道这些子代理是如何生成的,但这在一定程度上有助于更好的上下文管理。他还提到了搜索功能,Cursor 允许模型进行普通搜索和语义搜索,而代理搜索则是让模型自己探索代码库,并自由使用 grep、ripgrep 等工具。


HN 热度 373 points | 评论 352 comments | 作者:dejavucoder | 1 day ago #

https://news.ycombinator.com/item?id=44596472

  • 有人认为 Claude Code 的使用体验不如 Cursor,学习曲线陡峭,且效率低下。
  • 有人认为软件开发的难点在于将想法粘合在一起,而非编写代码。
  • 有人认为 AI 生成的代码虽然能工作,但缺乏持久性和适当的工程质量。
  • 有人认为使用 Claude Code 比 Cursor 更有效,因为它更少进行不必要的更改。
  • 有人喜欢 Claude Code 一次只展示一个文件/更改,便于审查。
  • 有人认为 Claude Code 的描述通常在更改后,而不是之前,这不利于决策。
  • 有人建议尝试 Amp,它是一个无需每次编辑都请求审查的代理,并且有 VS Code 扩展。
  • 有人认为 AI 可能会颠覆快速上市的阶段,但仍然需要适当的工程实践。
  • 有人表示 Claude Code 不会自动提交所有更改,这使得撤销更改变得容易。
  • 有人通过 TODO.md 文件与 Claude Code 协作,感觉像是在编程但不需要自己写代码或运行命令。

lsr: ls with io_uring #

https://rockorager.dev/log/lsr-ls-but-with-io-uring/

这篇文章介绍了一个名为 lsr 的新工具,它是作者通过使用 IO 库 ourio 实现的一个 ls 命令的替代品,旨在减少系统调用并提高性能。作者通过对比 lsr 与其他版本的 ls 命令以及替代品的性能,展示了 lsr 的优势。

基准测试: 文章首先通过基准测试来展示 lsr 的性能。测试使用了 hyperfine 工具,在不同数量的文件下,比较了 lsr 与其他命令的执行时间。结果显示,lsr 在所有测试中都比 ls、eza、lsd 和 uutils ls 更快。例如,在 10 个文件的目录中,lsr 的执行时间为 372.6 微秒,而 ls 的执行时间为 1.4 毫秒。随着文件数量的增加,lsr 的性能优势更加明显。

系统调用: 文章还通过 strace 工具统计了不同命令的系统调用次数。结果显示,lsr 的系统调用次数远低于其他命令,尤其是在文件数量较多时,lsr 的系统调用次数比其他命令少一个数量级。

lsr 的工作原理: 文章接着解释了 lsr 的工作原理,它分为三个阶段:解析参数、收集数据和打印数据。在收集数据阶段,lsr 尽可能使用 io_uring 来获取所需的数据,包括打开目标目录、读取本地时间、用户数据和组数据,以及执行 stat 调用。这使得 lsr 的系统调用次数大大减少,因为它可以批量执行 stat 系统调用。

内存分配: 作者还提到了 lsr 使用 zig 标准库中的 StackFallbackAllocator,这允许 lsr 预先分配内存,并在固定分配用尽时回退到不同的分配器。这种内存分配策略进一步减少了系统调用,因为它减少了 mmap 的使用。

与 libc 相关的问题: 由于直接使用 io_uring,lsr 避免了一些与 libc 相关的问题,例如动态链接的开销。尽管 lsr 是静态链接的,但它的体积仍然比 GNU ls 小。

异常和思考: 作者对 lsd 的行为表示不解,因为它在每个文件上调用 clock_gettime 大约 5 次,原因不明。作者猜测这可能是 lsd 在内部计时步骤。

排序的重要性: 文章指出排序是 ls 命令工作量的一个重要部分,作者怀疑这是 uutils ls 性能下降的原因。lsr 大约有 30% 的运行时间用于排序,其余时间用于 IO 循环。

项目体验: 作者认为这个项目很有趣,并且开发时间不长。他对 io_uring 能够减少系统调用的能力感到惊讶,并认为这在服务器等场景中可能会有更大的影响。

项目工具: 最后,作者提到他使用 tangled.sh 来管理这个项目,并邀请读者如果有 bug 或更改请求,可以访问项目的仓库。作者还提到,如果需要更多的图标,可以提出 issue 请求。

总的来说,这篇文章详细介绍了 lsr 的性能优势、工作原理、内存管理策略以及与 libc 相关的问题,并分享了作者在开发这个项目中的一些思考和体验。


HN 热度 296 points | 评论 152 comments | 作者:mpweiher | 12 hours ago #

https://news.ycombinator.com/item?id=44604050

  • io_uring 可以提高程序处理大量文件时的效率,减少延迟
  • 程序在多种环境下的兼容性与其速度成反比,UNIX 原始的 ls 命令因为没有复杂的字符处理和元数据,所以执行速度很快
  • io_uring 对于单线程应用也有益处,可以利用内核线程池并发执行任务
  • find 工具也可能从 io_uring 中受益
  • bfs 项目也使用了 io_uring,并考虑在单线程模式下使用它
  • grepripgrep 可能也会从 io_uring 中受益,但 ripgrep 目前没有使用 io_uring,主要是因为实现复杂且对性能提升有限
  • io_uring 目前不支持 getdents,这意味着只能异步执行 stat() 调用,而不能处理其他操作
  • 在极短的时间尺度上,使用 tim 而不是 hyperfine 可能更合适
  • 作者认为将 C/C++ 绑定到项目中作为迁移到 Zig 的路径是一个很好的主意
  • GNU ls 命令的速度提升部分原因是因为缺少本地化特性,本地化支持会增加排序的复杂性
  • 对于 NFS 服务器,io_uring 可能有助于缓解网络不稳定性带来的问题,但 NFS 的设计选择本身存在争议,因为它试图让分布式系统表现得像本地硬盘一样可靠
  • NFS 的设计没有考虑到服务器重启等分布式系统特有的问题,而现代的网络文件系统(如 HTTP/GRPC)允许客户端自行决定如何处理失败的请求和错误处理

All AI models might be the same #

https://blog.jxmo.io/p/there-is-only-one-model

这篇文章探讨了人工智能模型中的“普适性”问题,即不同 AI 模型是否能够学习到一种通用的语言。文章首先通过一个名为“墨索里尼或面包”的游戏引入了人类共享的语义理解概念,并提出了一个观点:我们的大脑构建了复杂的世界模型,这些模型在不同人之间非常相似,使得我们能够通过连续细化问题来缩小概念范围。

文章接着从压缩的角度解释了人工智能,认为我们正在学习如何压缩世界上的所有数据。语言模型的任务可以被视为压缩任务,因为预测下一个词可以看作是一种数据压缩。随着更大更好的语言模型提供了更准确的世界概率分布,我们发现能够更好地压缩真实数据的模型对世界有更多的了解,因此存在压缩和智能之间的二元性。

文章提出了“柏拉图式表示假说”(Platonic Representation Hypothesis),这是由一组麻省理工学院的研究人员在 2024 年提出的理论,它认为随着模型变大,它们正在学习越来越多的相同特征,并在视觉和语言领域提供了证据。这个假说表明,模型正在收敛到一个共享的表示空间,并且随着我们制造更大更智能的模型,这一点变得越来越真实。

最后,文章简要讨论了嵌入反转问题,即给定神经网络的表示向量,我们能否推断出输入到网络的文本是什么。文章通过一个网络的可视化例子,展示了即使只有 1000 个类别概率预测,也能惊人地重建图像,这表明了嵌入反转问题的复杂性和挑战性。


HN 热度 293 points | 评论 143 comments | 作者:jxmorris12 | 1 day ago #

https://news.ycombinator.com/item?id=44595811

  • 人类对基础概念如“狗”、“房子”、“人”、“船”等有共识,即使他们成长在不同地方,从未有过共同的观察经验。
  • 人类对于“好”或“公平”在特定情境下的概念存在巨大差异,例如对堕胎、安乐死、动物实验等道德问题的看法。
  • 人类对某些词汇如“自由”、“经济”、“政府”的理解存在根本差异,尽管使用相同的语法。
  • 人类共享的现实和物理法则限制了对某些事物的理解,但这并不意味着所有人都独立地达到了相同的柏拉图形式。
  • 人类对某些文化概念的理解存在差异,但这并不影响它们作为现实的一部分。
  • 如果要完全准确地模拟现实,就需要了解像肯塔基德比赛马这样的事物,即使它们是文化发明。
  • 模型可能正在接近柏拉图理想形式的表现,但是否正确以及模型是否能达到这种水平是另一个问题。
  • 人类可以共享对现实的统计模型,即使某些概念无法用特定语言或婴儿咿呀学语来表达。
  • 人工智能模型可能不会在其数据集中找到我们忽视的内在真理,也不会发现科学论文的可重复性问题。
  • 人工智能模型可能不会发现科学论文的问题,它们仍然是工具,遵循“垃圾进垃圾出”的原则。
  • 当前模型使用强化学习进行训练,这比人类污染的数据能更好地提高它们的推理和逻辑能力。
  • 人工智能模型可能正在接近它们训练数据的统计模型,而不是现实的统计模型。

NIH is cheaper than the wrong dependency #

https://lewiscampbell.tech/blog/250718.html

这篇文章讨论了编程中依赖关系的一些常见误区,并提出了一个评估依赖的框架。

文章首先指出,很多人认为依赖没有缺点,可以免费获得不需要自己编写的功能。但实际上,依赖是有成本的。依赖可能需要大量时间学习如何使用,有时自己编写功能比学习依赖更快。依赖的破坏性变更可能导致需要重写自己的代码以适应新的接口。还需要确保依赖最终出现在客户端机器上。

文章以 Tigerbeetle 为例,这是一个完全使用纯 Zig 语言编写的金融数据库,它除了 Zig 工具链外没有其他依赖。依赖通常会导致供应链攻击、安全和性能风险以及安装缓慢。对于基础架构来说,任何依赖的成本都会在整个栈中进一步放大。

文章提出,工具也有成本。一个小的标准化工具箱比一系列每个都有专用手册的专用工具更简单。文章的主要工具是 Zig,虽然它可能不是最好的,但对于大多数事情来说已经足够好了。作者投资于 Zig 工具,以确保能够快速解决新问题,同时在本地开发环境中尽量减少意外的复杂性。

接下来,文章介绍了一个评估依赖的框架,包括五个类别:普遍性、稳定性、深度、人体工程学和密封性。依赖商通常只谈论人体工程学,而忽略了其他标准。

文章评估了一些好的依赖,如 POSIX 系统调用、ECMA-48 终端控制代码和 Web 平台(Web API、HTML、JS、CSS 等),它们在普遍性、稳定性、深度、人体工程学和密封性方面都表现良好。

最后,文章将评估坏依赖作为读者的练习,提醒读者要批判性地思考,评估依赖的成本和收益,并明智地选择。


HN 热度 286 points | 评论 184 comments | 作者:todsacerdoti | 22 hours ago #

https://news.ycombinator.com/item?id=44600594

  • TigerBeetle 作为例子,对于需要高性能和安全性的系统,不依赖外部依赖是合理的。
  • 大部分开发者编写的业务系统质量并不高,依赖可能比他们自己编写的代码质量更好。
  • 公司的发展受限于他们能招聘和保留的人才水平,内部开发标准反映了员工的平均水准。
  • 依赖库不是大问题,如果出现问题可以重写代码,但依赖底层系统则难以改变。
  • 有些团队可能有能力复制和修复不良依赖的功能,但并非所有团队都具备这种能力。
  • 依赖选择不当可能会导致团队效率低下,即使是 CRUD 工作也会受到影响。
  • 软件开发中的“非我发明”(NIH)问题,因为软件没有明显的前期制造成本,但仍然存在。
  • 核心业务差异化是应该使用工程资源的地方,不应该轻易将通用依赖内部化。
  • 软件开发有其独特性,与电气工程等领域相比,软件的前期成本不明显,但仍然存在。
  • AI 可能会改变这种计算方式。
  • 许多专业开发者都是平均水平,技能遵循高斯曲线,HN 是一个泡沫,世界运行在“一般”水平上。
  • 平均并不意味着最低水平,许多“一般”的开发者也能完成 HN 声称只有顶尖开发者才能完成的任务。
  • 人们只关心是否有监管义务、个人兴趣或对特定库的依赖,而不是全面应用这些讨论。
  • TigerBeetle 完全应用这种理念,因为他们的目标不仅是更安全地交付软件,还要更快地交付,考虑总拥有成本。

NYPD bypassed facial recognition ban to ID pro-Palestinian student protester #

https://www.thecity.nyc/2025/07/18/nypd-fdny-clearview-ai-ban-columbia-palestinian-protest/

这篇文章是关于纽约警察局(NYPD)如何绕过面部识别禁令来识别一名支持巴勒斯坦的学生抗议者的报道。文章由 Samantha Maldonado 撰写,发表于 2025 年 7 月 18 日。

事件的起因是纽约市消防局(FDNY)的一名消防警官使用面部识别软件帮助 NYPD 侦探识别了一名在哥伦比亚大学支持巴勒斯坦的抗议者,这一行为绕过了对警察局使用该技术的限制政策。这一安排的细节在曼哈顿刑事法院法官的最近裁决和本月由法律援助协会提起的诉讼中曝光,法律援助协会代表了抗议者 Zuhdi Ahmed,他是一名 21 岁的预医学 CUNY 学生,即将进入大学的最后一年。

警方在寻找一名被指控在 2024 年 4 月哥伦比亚大学发生的冲突中向支持以色列的抗议者投掷石块的年轻人时,通过 FDNY 的帮助和 Clearview AI 软件的使用,成功识别了 Ahmed。FDNY 自 2022 年 12 月开始使用 Clearview AI,并与该公司签订了年度合同。

消防警官还访问了通常对警方不可用的机动车管理局的文件,这一点在法庭记录中有所显示。曼哈顿地区检察官 Alvin Bragg 以仇恨犯罪的三级攻击重罪起诉 Ahmed,后来减轻为二级严重骚扰的轻罪。6 月,一名刑事法院法官驳回了对 Ahmed 的案件,并在一项长篇裁决中对政府监控和违反执法政策的做法提出了警告。

Clearview AI 是一个由执法机构广泛使用的面部识别技术,包括司法部,它将上传到系统的照片与来自社交媒体和其他网站的数十亿图像数据库进行匹配。NYPD 过去使用过这项技术,但现在根据 2020 年的面部识别政策禁止使用,该政策限制图像搜索仅限于逮捕和假释照片。

随后的城市法律,称为 POST 法案,要求 NYPD 公开报告其使用和关于监控技术的政策。纽约市调查部门发现 NYPD 并未始终遵守。市议会成员表示,他们正在制定新立法以填补 POST 法案中的漏洞。

FDNY 用来识别 Ahmed 的社交媒体照片包括他在高中正式场合、学校剧和他的高中毕业典礼上的照片。Ahmed 是一名来自威彻斯特的巴勒斯坦人,从小就和家人一起参加抗议活动,他说自从被捕以来,他收到了充满仇恨的邮件和在线信息。他从未想过他青少年时期的照片会被以这种方式使用。

隐私倡导者对此表示同意。监控技术监督项目的执行主任 Albert Fox Cahn 说:“NYPD 继续使用这些令人不安的公司来监视纽约人,同时隐藏这种监视行为,违反了纽约市的法律。FDNY 显然是在帮助 NYPD 滥用职权。”

NYPD 将 THE CITY 的评论请求转给了 FDNY。FDNY 发言人在一份声明中表示,经过批准的消防警官可以访问 Clearview AI,并与 NYPD 密切合作调查犯罪。“我们这个小型的精英执法特工使用面部识别软件作为进行关键火灾调查的多种工具之一,我们始终遵循所有地方、州和联邦法律。”

法律援助的数字取证部门律师 Shane Ferro 曾代表 Ahmed,试图了解更多关于 FDNY 运营的面部识别技术的信息,但在纽约信息自由法(FOIL)下的要求没有得到回应。法律援助上周提起诉讼,试图获得这些信息。

目前尚不清楚 NYPD 是否仅在这一案例中依赖 FDNY 绕过警察局的 Clearview 禁令。


HN 热度 277 points | 评论 163 comments | 作者:dataflow | 11 hours ago #

https://news.ycombinator.com/item?id=44604328

  • 消防部门拥有面部识别技术是因为这样可以免费获得,并且绕过了对警察使用面部识别技术的限制。
  • 警察部门通过第三方(如消防部门)使用面部识别技术,这是一种常见的绕过面部识别禁令的方法。
  • 消防部门在调查可疑火灾时可能需要识别现场人员,因此拥有面部识别技术的访问权限。
  • 面部识别技术的使用应该仅限于执法部门,并且受到严格的指导方针限制。
  • 消防部门应该专注于灭火,而不是调查犯罪,犯罪调查应该由警察在严格的法律指导下进行。
  • 消防部门在火灾调查中的作用应该是确定火灾是否为犯罪行为,而警察则负责进一步的调查和抓捕嫌疑人。
  • 将火灾调查的责任分配给专家比让警察承担更有效,消防部门应该调查火灾,然后将信息传递给警察。
  • 面部识别技术的使用应该由训练有素的专家进行,而不是普通警察。
  • 面部识别技术在火灾调查中的应用不仅限于识别嫌疑人,还包括识别潜在的证人或受害者。

Psilocybin decreases depression and anxiety in cancer patients (2016) #

https://pmc.ncbi.nlm.nih.gov/articles/PMC5367557/

这篇文章是关于一项研究的报告,研究的主题是“Psilocybin(一种迷幻剂)在减轻患有生命威胁性癌症患者的抑郁症和焦虑症方面的效果”。

标题:Psilocybin 在患有生命威胁性癌症的患者中产生显著且持久的抑郁和焦虑减少:一项随机双盲试验

作者:Roland R Griffiths 等人

摘要: 癌症患者经常会出现慢性、临床上显著的抑郁症状和焦虑,这些症状会降低生活质量。以前的研究表明,Psilocybin 可能减少癌症患者的抑郁和焦虑。本研究对 51 名患有生命威胁性癌症诊断和抑郁/焦虑症状的患者进行了 Psilocybin 的效果研究。这是一项随机、双盲、交叉试验,研究了极低剂量(安慰剂样剂量,1 或 3 mg/70 kg)与高剂量(22 或 30 mg/70 kg)Psilocybin 的效果,两种剂量在 5 周的间隔内以相反的顺序给予,并进行了 6 个月的随访。对参与者和工作人员的指导最小化了期望效应。在整个研究过程中,参与者、工作人员和社区观察者对参与者的情绪、态度和行为进行了评分。高剂量 Psilocybin 在临床和自我评定的抑郁情绪和焦虑量表上产生了大幅度的减少,同时提高了生活质量、生活意义和乐观情绪,并减少了对死亡的焦虑。在 6 个月的随访中,这些变化得以维持,大约 80% 的参与者继续显示出临床上显著的抑郁情绪和焦虑减少。参与者将对生活/自我、情绪、人际关系和精神性态度的改善归因于高剂量体验,超过 80% 的人支持中度或更大的幸福感/生活满意度增加。社区观察者的评分显示了相应的变化。在会话日的神秘型 Psilocybin 体验中介了 Psilocybin 剂量对治疗效果的影响。

试验注册: ClinicalTrials.gov 标识符:NCT00465595

关键词:Psilocybin、致幻剂、癌症、焦虑、抑郁、症状缓解、神秘体验

引言: 癌症患者经常发展出一种以抑郁情绪、焦虑和降低生活质量为核心特征的慢性、临床上显著的心理社会痛苦综合症,高达 40% 的癌症患者符合情绪障碍的标准。在癌症患者中,抑郁和焦虑与治疗依从性降低、住院时间延长、生活质量降低和自杀风险增加有关。抑郁是癌症患者早死的独立风险因素。抗抑郁药和较少使用的苯二氮卓类药物被用来治疗癌症患者的抑郁情绪和焦虑,尽管证据显示效果有限且矛盾,苯二氮卓类药物通常只推荐短期使用,因为其副作用和戒断问题。尽管心理治疗方法在治疗情绪痛苦和生活质量方面只显示出小到中等的效果,并且在许多试验中报告质量低,但有一些有前途的干预措施利用存在主义导向的心理治疗。

经典的致幻剂,包括 Psilocybin(Psilocin)和(+)-麦角酸二乙胺(LSD),是一组结构多样的化合物,它们是 5-HT2A 受体激动剂,并产生一系列独特的思想、感知和情绪变化。20 世纪 60 年代和 70 年代的一些未盲研究暗示这些化合物可能对治疗癌症患者的心理痛苦有效,但这些研究没有包括现代精神药理学试验所期望的比较条件。


HN 热度 247 points | 评论 244 comments | 作者:Bluestein | 14 hours ago #

https://news.ycombinator.com/item?id=44603267

  • 2016 年以来,psilocybin(裸头草碱)被 FDA 认定为治疗抗药性抑郁症的突破性疗法,相关研究和医疗使用有所增加。
  • 裸头草碱帮助一些人和他们的朋友显著改善了抑郁症,但需要与专业治疗相结合。
  • Adderall(阿德拉)含有四倍的安非他命成分,可以快速上市,而裸头草碱尽管历史悠久,却仍未制成药丸。
  • 裸头草碱没有足够的利润空间,不像 ADHD 药物或抗生素那样被广泛长期使用。
  • 裸头草碱因其作为娱乐药物的历史而被埋没,这与大多数药物候选者不同。
  • Adderall(阿德拉)也是一种速度型药物,它在被用于 ADHD 之前几十年就被用作娱乐药物。
  • 裸头草碱很容易在家种植,这进一步降低了大型制药公司的利润潜力。
  • 现代药物法律出现在 1970 年代,当时是嬉皮士使用迷幻药试图推翻政府的高峰时期,当权者害怕失去权力,将这些药物视为威胁。
  • 尼克松的顾问曾表示,他们通过将嬉皮士与大麻、黑人与海洛因联系起来,并严厉刑事化,来破坏这些社区。
  • 药物大致可以分为两类:一类是创造同理心和治愈的“感性”药物,另一类是使人“冲动”的药物,如可卡因、酒精、咖啡因等。
  • 药物法律和它们的起源可以追溯到比 1970 年代更早的时期,而“毒品战争”并非故事的开始。
  • 药物法律的制定部分是出于保守政策,迷幻药在左翼圈子中更为常见,这导致法律被用作政治打击工具。
  • 随着时间的推移,右翼播客和亿万富翁 CEO 讨论 DMT(二甲基色胺),使得情况变得更加复杂,迷幻药的合法化步伐也更加谨慎。

My favorite use-case for AI is writing logs #

https://newsletter.vickiboykis.com/archive/my-favorite-use-case-for-ai-is-writing-logs/

这篇文章主要讨论了作者最喜欢的 AI 应用场景——编写日志。作者特别提到了 PyCharm 中的全行代码补全功能,这是自 2023 年底以来与 IDE 捆绑在一起的功能。这个功能设计得非常周到,不会干扰用户,并且使作者成为一个更有效的开发者,最重要的是,它仍然让作者大部分时间控制着自己的代码。作者还提到了在 GoLand 中使用这个功能,并表示自己一直是 JetBrains 的满意客户,因为他们提供了这样的功能。

文章中提到,作者经常处理涉及顺序数据处理、计算和跨多个服务的异步 API 调用的代码。此外,作者还处理许多精确的向量操作,这些操作在 PyTorch 中的形状后缀并不总是清晰。因此,打印语句调试和编写良好的日志一直是作者多年来工作流程中的关键部分。

作者引用了 Kerningan 和 Pike 在《编程实践》一书中的观点,他们倾向于使用打印语句而不是调试器,因为通过在关键位置添加输出语句和自检代码,比逐行点击代码更有效。作者认为,编写良好的日志很重要,但也打断了调试流程。

文章中还提到了使用 loguru 库的 logger 来编写日志,但作者发现如果需要反复编写 f-strings,尤其是当需要格式化值或访问数据框、列表和嵌套结构中的元素时,这会变得重复且繁琐。作者指出,全行代码补全功能可以帮助解决这个问题,因为 JetBrains 的模型可以从周围的文本中自动推断日志补全,限制在 384 个字符以内。这个功能通过输入文件扩展名、文件路径和输入光标上方的代码部分,将所有这些信息结合起来发送到模型中。

作者提到,这种受限的输出在大多数情况下足够好,可以大大加快工作流程。额外的好处是,它通常比作者这个懒惰的人类写得更清晰,因为它们非常简洁,作者在完成调试后通常不会删除它们,因为它们现在在生产环境中变得有价值。

文章还提供了两个实际项目中的例子,展示了自动补全如何推断作者想要检查 Redis URL 和数据框的形状。作者强调,这个功能的最酷部分是推理模型完全本地化,这意味着开发团队需要满足一些非常重要的要求,包括压缩和速度。

模型需要足够小,以便与 IDE 捆绑在一起,以适应桌面内存占用(MacOS 二进制文件已经大约 1GB),这排除了 99% 的当前大型语言模型(LLMs)。然而,模型需要足够智能,能够从小的上下文窗口中插值代码行。本地要求消除了任何模型推理引擎,如 vLLM、SGLM 或 Ray,它们实现了 KV 缓存优化,如 PagedAttention。它必须是一个足够快的模型,能够非常快速地产生第一个令牌(和所有后续令牌)。最后,它必须针对 Python 进行优化,因为此模型仅在 PyCharm 中可用。

文章最后提到,与当前关于如何构建和分发 LLMs 的假设截然不同,它们不需要非常大,也不需要是通用模型,通过专有 API 提供服务。作者只需要训练一个模型,用 384 个字符的上下文完成一行代码的补全,然后将该模型压缩到极致,以便它可以在设备上运行并进行推理。

文章还提到了 JetBrains 发表的一篇论文,详细介绍了模型训练和插件集成的过程。模型在 PyTorch 中训练,然后量化。他们首先训练了一个具有 1 亿参数的 GPT-2 风格的 Transformer 解码器模型,包括一个分词器。后来,他们将这个架构改为 Llama2,因为 llama.cpp 和 GGUF 社区的成功,以及新架构的更好性能。他们使用的原始数据集是 The Stack 的一个子集,这是一个跨 30 种编程语言的代码数据集,拥有 6TB 的代码。初始训练集“仅”为 45GB,在准备训练数据时,为了空间限制,他们特意从训练数据中删除了所有代码注释,专注于代码生成。他们使用了一个针对字符对而非字节的 BPE 风格的分词器,这个分词器对 Python 的缩进敏感,通过将空格和制表符转换为开始-结束 <SCOPE_IN><SCOPE_OUT> 令牌,以去除可能仅因不同的空白而不同的令牌。他们最终选择了一个词汇表大小为 16,384 的分词器。在训练中,他们还进行了一个非常酷的步骤,即删除导入,因为他们发现开发者通常在编写实际代码后才添加导入,这是模型需要预测的事实。然后他们将数据集分为训练/测试以进行评估,并在 8 个 NVidia A100 GPU 上训练了几天,使用交叉熵损失目标函数。

因为他们能够如此清晰地专注于领域和理解代码推理的工作原理,专注于具有其自身细微差别的单一编程语言,他们能够使训练数据集更小,输出更精确,并花费更少的时间和精力来训练模型。

文章最后提到,PyCharm 中包含的实际插件是用 Kotlin 实现的,但它使用了一个额外的本地运行的 C++ 实现的原生服务器来提供推理令牌。为了准备模型进行服务,他们将模型从 FP32 量化到 INT8,将模型从 400MB 压缩到 100MB,并将其作为服务的 ONNX RT 工件准备,这允许他们使用 CPU 推理,消除了 CUDA 开销税(后来,他们转而使用 llama.cpp 来为服务器提供 llama 模型架构)。最后,为了对一系列令牌进行推理,他们使用束搜索。通常,Transformer-解码器是训练在预测下一个 t…


HN 热度 243 points | 评论 173 comments | 作者:todsacerdoti | 1 day ago #

https://news.ycombinator.com/item?id=44599549

  • 有人觉得使用 AI 来简化编程是逃避编程的复杂性。
  • 有人热爱计算机科学,认为不同工具可以帮助人们实现复杂的想法。
  • 有人认为“知道想要什么”比“知道怎么做”更重要,AI 使得没有技术背景的人也能实验和实现想法。
  • 有人觉得多年的技术积累在 AI 面前变得无用,需要适应或落后。
  • 有人认为新手程序员不知道要什么,而经验丰富的程序员能凭直觉发现问题。
  • 有人通过 AI 尝试编写代码,但会遇到奇怪的错误,需要有经验的程序员来修正。
  • 有人觉得 AI 编程像是自我教育的新手程序员在药物作用下急于实现功能。
  • 有人通过 AI 成功实现了基本的扫描支付应用程序,包括支付集成,无需查阅任何文档。
  • 有人认为与 AI 合作需要设定明确的限制、接受标准和计划,然后迭代检查结果。
  • 有人指出 AI 不会告诉你某个想法是不好的,需要自己指出问题所在。
  • 有人以一个没有计算机科学经验的人成功创建订阅成人网站为例,说明 AI 的可能性。
  • 有人强调意外的复杂性与本质的复杂性,认为 AI 并没有完全消除意外的复杂性,也不能管理所有的本质复杂性。
  • 有人认为没有银弹,需要精确理解计算机和领域知识来构建有用的软件。