2025-07-20 Hacker News Top Stories #
- 海亚特酒店因算法误判导致客人被误收取吸烟费,引发对酒店管理和顾客权益的讨论。
- 作者分享了自托管设置的经验,强调隐私保护和数据控制的重要性,并讨论了实施过程中的挑战。
- 网站大小应控制在14kB以内,以优化加载速度,尤其在高延迟网络环境下。
- OpenAI的实验性推理大型语言模型在IMO 2025中取得了金牌级表现,但其技术细节引发争议。
- 一篇关于Python 3.13 f-strings的测试题网页提供了26个问题,供开发者测试对f-strings的理解。
- 人工智能资本支出对经济的影响显著,可能占美国GDP的2%,并对经济增长贡献约0.7%。
- Meta拒绝签署欧盟的人工智能实践准则,认为其过度干预,可能阻碍公司发展。
- 研究表明,癌症患者体内的肿瘤DNA可以在诊断前数年出现在血液中,为早期筛查提供新希望。
- 异步与并发的概念不同,异步指任务无序执行,而并发指系统能够同时推进多个任务。
- 作者提出“人工智能礼仪”的概念,认为在未经同意的情况下展示AI生成内容是不礼貌的。
Hyatt Hotels are using algorithmic Rest “smoking detectors” #
https://twitter.com/_ZachGriff/status/1945959030851035223
最近,Zach Griff 在社交媒体上分享了他在罗德岛纽波特的 Hyatt Pell 酒店入住后遭遇的投诉经历。他和家人及朋友在酒店度过了独立日假期,退房时发现账单上多出了 500 美元的吸烟费,尽管他从未吸烟。尽管他们向前台工作人员说明了情况,并表示自己使用了吹风机,但前台工作人员却态度敌对,并声称 “我们的烟雾探测器不会说谎”。
经过三天没有回应后,Zach 开始查找酒店的在线评价,发现有多名顾客报告了与他相同的情况:被错误收取 500 美元的吸烟费,并且在投诉时也遭遇了类似的对待。于是他决定录制视频并在 Instagram 和 TikTok 上发布,结果视频迅速走红。
不久后,酒店的总经理 Erik Berlied 联系了他,表示酒店老板对视频感到震惊,并询问他为什么要发布视频。Zach 要求通过电子邮件跟进以留存证据,酒店承诺会退款。然而,Zach 同时收到了许多粉丝的消息,他们也在同一酒店遭遇了 500 美元的吸烟费,但还在为退款而努力。
尽管 Erik 提出可以将一些费用减至 250 美元,但并没有提供退款的承诺。Hyatt 企业方面则表示酒店正在 “审查” 这一事件。这个事件引发了人们对酒店管理和顾客权益保护的更广泛讨论。
HN 热度 703 points | 评论 413 comments | 作者:RebeccaTheDev | 20 hours ago #
https://news.ycombinator.com/item?id=44612487
- 总是检查你的消费收据。
- 使用专门的旅行信用卡以减少对其他账户的影响。
- 如果酒店不接受取消收费,可以选择离开或支付后立即发出欺诈警报。
- 信用提供商在美国不会在交易不再是“待处理”状态之前处理争议。
- 利用 2-3 天的窗口期与酒店管理层沟通此问题。
- 如果酒店不让步,将收费标记为“欺诈”并上传收据照片给信用卡提供商。
- 如果没有隐私顾虑,可以在社交媒体上分享此事。
- 应该有一种方法来惩罚公司尝试这种行为。
- 存在权力不平衡问题,酒店通过预授权信用卡来控制客户。
- 有人提出通过会员联盟设置自动绑定仲裁协议来对抗服务提供商。
- 有人质疑政府是否真的代表人民,认为实际上是寡头政治。
- 有人反驳说美国是代议制民主或共和国,不是直接民主。
- 有人指出“共和国”和“民主”实际上意味着人民统治,是同一回事。
- 有人批评当前的选举制度,认为它更像是体育比赛而非真正的代表性制度。
- 有人提出,如果没有 D 或 R 党的支持,第三党候选人很难成功。
- 有人强调,尽管不完美,但美国仍然是民主国家。
My Self-Hosting Setup #
https://codecaptured.com/blog/my-ultimate-self-hosting-setup/
这篇文章是关于作者构建自己的终极自托管设置的经历。作者在尝试了多种自托管方法后,决定放弃追求“完美”,而是选择了“足够好”的方案,并制定了明确的目标和要求。
目标 作者自托管的主要目标是控制自己的数据和服务,以增强隐私保护,并减少依赖公司服务的风险。作者希望将这种控制权扩展到家人和朋友。
要求 为了实现目标,作者列出了以下要求,以平衡安全性、易用性和复杂性:
- 尽可能让服务不暴露在公共互联网上,以减少成为恶意攻击者目标的风险。
- 减少配置错误导致核心基础设施长时间宕机的可能性。
- 完全拥有核心组件,即使项目死亡或被收购,也能继续使用。
- 让家人和朋友易于使用,保持单一登录,并尽可能实现单点登录(SSO)。
- 配置尽可能声明式,便于版本控制和理解。
- 更新应简单安全,以便作者能够及时进行。
技术选择 作者选择了以下核心技术来构建自托管设置:
- NixOS:一个使用 Nix 语言和包管理器配置操作系统的 Linux 发行版,功能强大,可以轻松配置服务。
- ZFS:一个具有出色数据保护功能的文件系统,可以创建空间高效的驱动器快照。
- Tailscale:一个易于使用的 mesh VPN,允许设备之间相互连接,而不需要暴露在公共互联网上。
- Authelia & LLDAP:提供身份验证和目录服务。
布局设计 作者将所有配置放入一个 Git 仓库中,以获得版本控制的好处,并能够跨多台机器共享配置模块。作者还通过在 GitHub 上搜索 Nix 语言的配置,学习了其他人如何组织和利用 Nix 文件。
具体问题和解决方案 文章中,作者分享了在构建自托管设置过程中遇到的一些具体问题及其解决方案。
下一步计划 作者提出了未来的计划和可能的改进方向。
文章最后,作者提到了在构建自托管设置时参考的一些有用链接,并强调了开源软件的重要性,但也指出在某些情况下,如果有更好的非开源解决方案,也会考虑使用。作者希望通过分享自己的经验,帮助他人并继续开源社区的分享精神。
HN 热度 522 points | 评论 185 comments | 作者:mirdaki | 21 hours ago #
https://news.ycombinator.com/item?id=44612151
- 开源软件虽然无处不在,但作为客户端和终端用户来说,协调和集成多个系统仍然具有挑战性。
- 单点登录(SSO)对于家庭和朋友来说非常重要,因为它直接影响到人们是否会使用某个服务。
- 开源项目各自为政,缺乏统一方向,但这并不意味着我们不能获得良好的用户体验。
- 自托管领域在过去五年中变得更加易用,无论是从设置还是使用的角度来看。
- FOSS(自由及开源软件)对于非技术人员来说不够易访问,需要一个平台连接技术人员和非技术人员。
- 即使是非技术人员也能轻松理解 OIDC 和 OAuth2,难度并不大。
- OIDC 规范复杂,即使是安全领域的专家也难以完全理解。
- ID Token 的签名对于防止恶意篡改至关重要,确保了身份验证的安全性。
- OIDC 的实施可能并未遵循最新的规范更新,因为规范中的措辞是建议性的,没有强制性要求。
- 使用
.htaccess
和分发密码给朋友是一种可行的解决方案。 - 使用 SSO 兼容性作为服务选择的主要标准是可行的,并且不会太困难。
- YunoHost 是一个易于使用的发行版,可以设置 SSO。
- Cloudflare Zero Trust 用于 SSO 认证,Cloudflare Tunnels 用于在家中的服务。
- 使用 authentik 通过 Google、Discord 或 GitHub 实现 SSO 对所有人都足够好。
A 14kb page can load much faster than a 15kb page (2022) #
https://endtimes.dev/why-your-website-should-be-under-14kb-in-size/
网页主题是关于为什么网站大小应该保持在 14kB 以下。
拥有一个更小的网站可以使其加载速度更快,这一点并不令人惊讶。令人惊讶的是,一个 14kB 的页面比 15kB 的页面加载速度快得多,可能快 612 毫秒,而 15kB 和 16kB 页面之间的差异则微不足道。这主要是因为 TCP 慢启动算法。本文将介绍 TCP 慢启动算法是什么、它如何工作以及为什么你应该关心它。但首先,我们快速回顾一些基础知识。
什么是 TCP? 传输控制协议(TCP)是一种使用互联网协议(IP)可靠发送数据包的方式,有时被称为 TCP/IP。当浏览器请求你的网站(或图片或样式表)时,它使用 HTTP 进行请求。HTTP 建立在 TCP 之上,单个 HTTP 请求通常由许多 TCP 数据包组成。IP 本身只是从互联网上的一个位置发送数据包到另一个位置的系统。IP 没有检查数据包是否成功到达目的地的方法。对于网站来说,知道所有数据都已到达是很重要的,否则我们可能会遇到网页缺失的部分。对于不太重要的网络用途,如流式直播视频,这一点就不那么重要了。
什么是 TCP 慢启动? TCP 慢启动是服务器用来确定一次可以发送多少数据包的算法。当浏览器首次连接到你的服务器时,服务器无法知道它们之间的带宽量。带宽是每单位时间可以通过网络传输的数据量,通常以每秒比特(b/s)来衡量。一个常见的类比是将带宽想象成每秒可以从管道中流出多少水。你的服务器不知道连接可以处理多少数据,因此它首先发送一小而安全的数据量,通常是 10 个 TCP 数据包。如果这些数据包成功到达访问者的网站,他们的计算机会发送确认(ACK),表示数据包已收到。然后服务器会发送更多的数据,但这次数据包的数量翻倍。这个过程会一直重复,直到数据包丢失且服务器没有收到 ACK 为止(此时服务器会继续以更慢的速度发送数据包)。
14kB 的来源是什么? 大多数 Web 服务器的 TCP 慢启动算法从发送 10 个 TCP 数据包开始。TCP 数据包的最大大小是 1500 字节。这个最大值不是由 TCP 规范设定的,而是来自以太网标准。每个 TCP 数据包使用 40 字节的头部——16 字节用于 IP,另外 24 字节用于 TCP。这留下了每个 TCP 数据包 1460 字节。10 x 1460 = 14600 字节,或者大约 14kB。
一个往返行程有多糟糕? 人们非常不耐烦,一个往返行程可能会非常长。这取决于延迟……延迟是数据包从源头到目的地所需的时间。如果带宽是每秒可以通过管道的水流量,那么延迟就是一滴水进入管道然后从另一端退出所需的时间。这里有一个关于延迟有多糟糕的有趣例子:卫星互联网。
卫星互联网 卫星互联网由绕地球轨道运行的卫星提供。它被非常偏远地区的人们、石油钻井平台、游轮以及航空公司的机上 Wi-Fi 使用。为了说明这个延迟有多糟糕的例子,让我们想象一群石油钻井工人忘记带骰子,需要使用优秀的(小于 14kB 的)missingdice.com 来玩龙与地下城。首先,他们中的一个使用手机请求网页……手机将该请求发送到钻井平台的 Wi-Fi 路由器——该路由器将数据发送到平台上的卫星天线——假设这需要 1 毫秒。卫星天线然后必须将数据发送到地球轨道上的卫星。通常,这是通过在地球表面上方 35786 公里的地球静止轨道上的卫星实现的。光速以每秒 299792458 米的速度传播,所以从地球发送到卫星的消息需要 120 毫秒。然后卫星将消息发送回地面站,这又需要 120 毫秒。然后地面站必须将请求发送到地球上的服务器位置(光在光纤电缆中的速度减慢到每秒 200000000 米)。如果地面站和服务器之间的距离与纽约和伦敦之间的距离相同,大约需要 28 毫秒——但如果更像是纽约和悉尼之间的距离,需要 80 毫秒——所以我们称之为 60 毫秒(一个方便的数字)。然后服务器需要处理请求,可能需要 10 毫秒,然后服务器再次发送回去。回到地面站,进入太空,回到卫星天线,然后到 Wi-Fi 路由器,再回到石油工人的手机。
如果我们进行计算,那是 10 + (1 + 120 + 120 + 60) x 2 = 612 毫秒。每次往返行程额外增加 612 毫秒——也许这看起来不是很长时间,但你的网页可能需要多次往返行程才能获取其第一个资源。此外,HTTPS 在进行第一次往返行程之前需要额外的两次往返行程——这使我们的时间增加到 1836 毫秒!
对于生活在陆地上的人来说,延迟会有多大影响? 卫星互联网可能看起来是一个故意糟糕的例子——我选择它是因为它能说明问题,而且很奇怪——但对于生活在陆地上的人来说,由于很多原因,延迟可能会更糟:2G 移动通常有 300 毫秒到 1000 毫秒的延迟;3G 网络的延迟可能在 100 毫秒到 500 毫秒之间;嘈杂的移动网络——比如在一个异常拥挤的地方,如音乐节;处理大量流量的服务器;糟糕的事情;不稳定的连接也可能导致数据包丢失——导致需要额外的往返行程来获取丢失的数据包。
现在你知道了 14kB 规则,你能做什么? 当然,你应该尽可能地使你的网站变小——你爱你的访问者,你希望他们快乐。目标是每个页面都能适应 14kB 以下,这是一个好目标。那 14kB 包括压缩——所以实际上可能更像是大约 50kB 的未压缩数据——这是慷慨的。考虑到阿波罗 11 号制导计算机只有 72kB 的内存。一旦你去掉自动播放的视频、弹出窗口、Cookie、Cookie 同意横幅、社交网络按钮、跟踪脚本、JavaScript 和 CSS 框架以及所有其他没人喜欢的东西——你可能就达到了。但是,假设你已经尽了最大努力将所有内容都压缩到 14kB,但仍然无法做到——14kB 规则仍然有用。如果你确保发送给访问者的前 14kB 数据可以用来渲染一些有用的东西——例如一些关键的 CSS、JS 和解释如何使用你的应用的前几段文本。注意——14kB 规则包括 HTTP 头——它们是未压缩的(即使在 HTTP/2 上的第一个响应上)——它也包括图像,所以只加载页面上方的内容,并且保持它们非常小,或者使用占位符,这样你的访问者就知道他们在等待一些好东西。
HN 热度 421 points | 评论 275 comments | 作者:truxs | 16 hours ago #
https://news.ycombinator.com/item?id=44613625
- 开发者应该更加关注媒体层,因为 3G/5G 的可靠性和延迟问题,HTTP 请求需要按顺序到达
- 单个 REST 请求只有在请求和响应都小于 1400 字节时才是单个数据包,否则会变成多个请求和响应,可能需要重试
- 通过 Chrome DevTools 在 3G 模式下进行实验,即使是“小”优化也能显著提高 UI 响应性
- 尽可能使 API 和 UI 尽可能小,这是减少加载时间的一个有力理由
- 作者的个人网站压缩后传输大小为 7.0 kB,使用 Common Lisp 编写的静态站点生成器
- 在数学文章中使用 KaTeX 进行客户端渲染,增加了 347.5 kB 的额外负载
- 考虑将来可能使用服务器端渲染 KaTeX
- 作者倾向于保守地包含页面内容,以保持页面大小
- 有人建议将 KaTeX 替换为 MathML
- LaTeX 比 MathML 更容易使用,但 MathML 在浏览器中的渲染质量参差不齐
- 有人提出使用 KaTeX 或 MathJax 在服务器端生成 HTML 和 CSS,然后发送给客户端
- 数学表达式对于某些人来说就像正则表达式,他们使用 LLM 编码助手来编写,效果很好
- KaTeX 可以渲染为 MathML,无论是服务器端还是客户端
- 服务器端渲染可以减少 277kb 的库文件
- 客户端发送的额外 MathML 可能只是一小部分
- 提供了一个工具,用于比较网站示例在 KaTeX 和浏览器 MathML 渲染之间的区别
- 有人询问如何调整 MathML 渲染中括号周围的空间,以匹配标准 LaTeX 数学的精确度
- 有人提出使用无头 Chrome 或其他工具来渲染数学表达式,并在服务不可用时回退到客户端渲染
- 作者将个人网站视为爱好项目,使用 Common Lisp 构建,享受构建过程
- 有人询问是否可以说网站是作者的爱好项目
- 引入 Node、Babel 等工具需要额外的工作和学习时间
- 有人提到 MathML 在 Chrome 中的支持直到最近才有所改善
- 有人建议在页面加载完毕后加载重的库,或者创建 SVG 公式并在视口中加载它们
OpenAI claims gold-medal performance at IMO 2025 #
https://twitter.com/alexwei_/status/1946477742855532918
最新动态:OpenAI 实验性推理大型语言模型在国际数学奥林匹克竞赛中取得金牌级表现
在社交媒体平台 X 上,用户 Alexander Wei (@alexwei_1) 发布了一条令人兴奋的消息。他宣布,OpenAI 最新的实验性推理大型语言模型(LLM)在人工智能领域取得了一个重大突破:该模型在世界上最负盛名的数学竞赛——国际数学奥林匹克(IMO)中达到了金牌级别的表现。这条消息发布于 2025 年 7 月 19 日下午 3 点 50 分,迅速吸引了 3.1 百万的浏览量,以及 3121.6 千的点赞和 5.8 千的分享。
HN 热度 376 points | 评论 598 comments | 作者:Davidzheng | 15 hours ago #
https://news.ycombinator.com/item?id=44613840
- OpenAI 在 IMO 2025 上取得了金牌表现,使用了最近开发的技术,连 OpenAI 的许多研究人员都感到惊讶
- 这项成果是小团队努力的结果,由 @alexwei_领导,他坚持了一个很少有人相信的研究想法,并取得了意想不到的成果
- 这项成果也离不开 @OpenAI 和更广泛的 AI 社区多年的研究和工程努力
- 有人讽刺说,所谓的新技术就是“在测试数据上训练”
- 证明似乎使用了有限的词汇,有人认为这样可以减少噪音,更专注
- 有人认为限制自己使用语义丰富的标记可以创造出更长的语义连贯的思维
- 有人认为从可扩展性的角度来看,最小化标记可以非常有意义
- 有人猜测可能有一些符号 AI 技巧/工具(和/或现代 AI 训练模仿符号 AI)在背后
- 有人指出 Alex Wei 本人是 IOI 金牌得主,而不是 IMO
- 有人提到顶尖的大型语言模型(LLM)今年会获得金牌,这是在最近的播客中提到的
- 有人认为通过减少文本中的填充词,可以获得巨大的加速
- 有人认为生成更多的标记实际上扩展了计算能力,这就是为什么思维链(chain of thought)起作用的原因
- 有人认为生成更多的标记意味着使用更多的计算能力,并且有些证据表明这些填充词并没有被浪费
- 有人认为模型试图最大化每次计算的有用结果,你会希望有一个没有废话的简洁的上下文窗口
- 有人鼓励那些认为这些是简单的高中问题的人去尝试解决一些,它们让人头晕目眩
- 有人提到这些视频可以给人一种人们如何实际思考和解决这类问题的感觉
- 有人认为这些视频展示了解决这些问题的思考过程,它们看起来很简单,但解释却非常巧妙
- 有人提到现在有了 IMO 问题的本地化版本,有大约 50 种语言,这可能是必要的,以消除竞争者的语言障碍
- 有人认为拥有这么多语言版本可能会使保持问题的安全性变得更加困难
- 有人认为这些问题是由所有国家的代表选择的,所以每个国家都有人知道完整的考试内容,安全主要依赖于荣誉体系
- 有人认为如果没有练习去年的问题,这对那些人来说是很难的,如果 LLM 是用过去 30 年的 IMO 竞赛训练的,那么对它来说预测下一个标记的模式是非常容易的
- 有人认为所有过去的 IMO 问题都是公开的,参赛者都会在它们上面练习,如果解决 IMO 问题只是“查看所有过去的问题并应用相同的模式”那么简单,你会期望人类参赛者做得更好
- 有人认为你还没有经历过 AMC8、AMC10、AIME 竞赛,如果你这么自信,试试给出一个未解决的数学问题,超出高中数学竞赛的范围
Fstrings.wtf #
这个网页是一个关于 Python 3.13 版本中 f-strings 行为的测试题网页。它提供了一个在线的测试,让使用者可以检验自己对 Python f-strings 的了解程度。网页由 Armin Ronacher 创建,受到了 Lukasz Langa 和 Yury Selivanov 的鼓励。这个测试题的灵感来自于 jsdate.wtf,并且它的源代码可以在 GitHub 上找到。
- 测试题介绍:这是一个关于 Python 3.13 中 f-strings 行为的测试题,用户可以通过完成 26 个问题来测试自己的知识水平。
- 测试题界面:用户可以看到当前的得分和问题的编号,可以选择“Next Question”来继续测试,或者“Finish Quiz”来完成测试。如果用户想要重新开始,可以选择“Restart Quiz”。
- 结果分享:测试完成后,用户可以看到自己的最终得分,并有机会分享到不同的社交平台。
- 帮助和反馈:如果用户在测试过程中遇到问题,可以打开一个工单来反馈。同时,用户也可以选择使用快捷键 1/2/3/4 来快速选择答案,或者使用箭头键和空格/回车键来选择答案。
- 创作者和源代码:网页底部提到了这个测试题是由 @mitsuhiko 和 Claude 共同创建的,并且如果想要查看源代码,可以在 GitHub 上找到。
- 继续测试:如果用户之前有未完成的测试,网页会提示用户是否继续之前的测试。
HN 热度 364 points | 评论 109 comments | 作者:darkamaul | 13 hours ago #
https://news.ycombinator.com/item?id=44614370
- 字符串插值功能一旦使用过,没有它会很不方便,但过度使用会导致代码难以理解。
- Python 和 C#允许在字符串插值中使用复杂的表达式,但这可能会导致代码难以维护。
- 标准 C++ 23 不提供字符串插值,需要通过参数传递来格式化字符串。
- Rust 的字符串插值限制较多,只能插值标识符,这可能不够用,但也避免了过度复杂。
- Java 的字符串模板功能因为不可行而被放弃,即使有需求。
- 每种编程语言在纯度和实用性之间找到不同的平衡点,没有统一的正确平衡。
- 字符串插值功能在某些情况下可能会导致代码难以控制。
- C#的字符串格式化迷你语言难以记忆,需要频繁查阅文档。
- 有些人认为嵌套 f-strings 没有用例,而有些人则认为 Python 的 fstrings 使用起来很方便。
- Rust 的字符串插值功能被批评为不实用,因为它在很多情况下都不能使用。
- Python 的字符串格式化方法多样,但记忆它们之间的细微差别令人头疼。
- Python 3.12 版本中清理了一些 f-strings 的限制,如引号和换行符。
- 日志调用中使用 f-strings 可能会失去延迟插值的优势。
- 有些人仍然使用旧版本的 Python,因此代码需要兼容旧版本的 f-strings 格式。
AI capex is so big that it’s affecting economic statistics #
https://paulkedrosky.com/honey-ai-capex-ate-the-economy/
这篇文章由 Paul Kedrosky 撰写,标题为“Honey, AI Capex is Eating the Economy”,发表于 2025 年 7 月 18 日。文章讨论了人工智能(AI)资本支出(capex)对经济的影响,特别是它如何影响经济统计数据、促进经济增长,并开始接近铁路繁荣时期的水平。
文章首先提到作者之前写过关于美联储主席在建筑翻新方面的危险性,尤其是在一个寻找理由解雇他的政府下。作者通过华尔街日报的解释性报道,提到了特朗普对美联储主席鲍威尔的批评,以及鲍威尔的货币政策和建筑翻新的关系。
在“Rough Notes”部分,作者深入探讨了 AI 数据中心支出的极端情况。中国有超过 250 个数据中心正在建设中。然而,美国在资本支出方面领先。根据 Nvidia 的最新数据中心销售数据,一位分析师推测,到 2025 年,AI 资本支出可能占美国 GDP 的约 2%,这意味着 AI 对 GDP 增长的贡献为 0.7%。
文章接着讨论了这种影响的估计可能是下限,资本支出的重新分配来自其他地方,以及这种支出有助于解释一个谜团。作者提供了一些基本数据,包括美国 2025 年 GDP 预计为 25 万亿美元,Nvidia 数据中心销售额为 39.1 亿美元(年化为 156.4 亿美元),其中约 99% 与 AI 相关。Nvidia 在数据中心资本支出中的份额为 25-35%,经济乘数为 1.5x-2.0x。据此推算,总的数据中心资本支出约为 520 亿美元。
文章指出,这些数字非常庞大,因为 2022 年之前,AI 资本支出可能不到 GDP 的 0.1%。在三年内,它至少增长了 10 倍,甚至更多。与之前的资本支出热潮如铁路或电信相比,AI 数据中心的资本支出可能占 GDP 的 20%,与 19 世纪铁路支出高峰时的比例相当,并且仍在迅速上升。
文章的第二部分讨论了资金来源,包括内部现金流、债务发行、股权和后续发行、风险投资/私募股权、特殊目的实体(SPVs)、租赁和资产支持工具,以及云消费承诺。作者指出,这些资金不是凭空产生的,而是从其他地方转移过来的,比如非生命科学的风险投资现在主要投资于 AI,其他需要资金的项目可能会遇到困难。
第三部分解决了一个经济谜题,即为什么尽管存在关税、政治不确定性和美联储主席可能被解雇的传闻,经济并没有像预期的那样担忧。文章提出,美国正在进行一个大规模的私营部门刺激计划,即 AI 数据中心支出计划,这个计划正在重新分配大量支出,并注入更多资金。这个“刺激”计划在第一季度可能已经避免了 GDP 的更大幅度收缩,帮助掩盖了潜在的经济弱点。
文章最后得出结论,我们正处于一个历史上异常的时刻。不管人们对 AI 或数据中心扩张的看法如何,资本部署到一个快速折旧技术的规模和速度都是惊人的。这些不是铁路——我们不是在建设百年基础设施。AI 数据中心是短命的、资产密集型的设施,它们依赖于成本下降的技术曲线,需要频繁更换硬件以保持利润率。这种激增带来了意想不到的后果,资本正在从风险投资到内部预算中积极重新分配,牺牲其他部门的利益。整个类别的投资正在被剥夺,大规模裁员已经在发生。讽刺的是,AI 在广泛部署之前就已经导致了大规模的失业。
HN 热度 346 points | 评论 336 comments | 作者:throw0101c | 1 day ago #
https://news.ycombinator.com/item?id=44609130
- 1.2% 的 GDP 占比并不极端,与其他变革性技术或项目相比并不算高
- 金融服务业占 GDP 的 9% 是一个更令人担忧的数据点
- 近 20% 的 GDP 用于医疗保健,考虑到美国在医疗保健上的投入与收获不成正比
- 与其他国家相比,美国在医疗保健上的支出是其他国家的两倍,但回报却少得多
- 如果美国采用澳大利亚的全民医保系统,公民可以享受几乎免费的医疗保健,政府支出与现在相似
- 一些国家拥有全民医疗系统,支出比美国少,但预期寿命却更高
- 美国的医疗保健系统为其他国家提供补贴,推动了医疗保健公司的创新和市场主导地位
- 转向全民医疗保健可能会破坏美国市场,影响全球医疗保健成本
- 金融服务业占 GDP 的 9% 并不令人意外,因为它涵盖了贷款、交易、投资等费用和利息
- 高额的金融服务费用并不表明效率,而是表明了高开销
- Visa 和 Mastercard 并没有从整个经济中抽取 2.5%,大部分交换费用归银行所有
- Visa 的国际业务意味着其收入中有一部分来自美国以外
- 现金处理成本高昂,包括点钞、找零、银行点钞等多次操作
- 许多希望退休的人依赖 401k、养老金等,这些依赖于股票市场
- 世界上最富有的 1% 拥有世界一半的财富,贫富差距正在扩大
- 继承财富是一个问题,许多美国问题都是由于未能解决这个问题而产生的
- 认为应该根据工作努力而非父母身份来决定收入,反对代际继承
- 超级富豪中拥有公司的只是少数,更多的是公司所有权
Meta says it won’t sign Europe AI agreement #
https://www.cnbc.com/2025/07/18/meta-europe-ai-code.html
Meta Platforms(元平台公司)宣布不会签署欧盟的人工智能实践准则,因为该公司认为这一准则是一种过度干预,将会“阻碍”公司的发展。这一决定是由全球事务主管乔尔·卡普兰(Joel Kaplan)在 LinkedIn 上发表的一篇文章中提出的。卡普兰在文章中写道:“欧洲在人工智能方面正走在错误的道路上。”他认为,这一准则为模型开发者引入了许多法律上的不确定性,并且其措施远远超出了去年通过的人工智能法案(AI Act)的范围。
上周,欧盟委员会发布了其通用人工智能模型准则的最终版本,并留给公司自行决定是否签署。这些规则将于下个月生效,旨在为遵守去年欧洲立法者通过的人工智能法案提供一个框架,该法案旨在提高围绕这项技术透明度和安全性。
Meta 并不是第一个反对欧洲新人工智能规则手册的公司。ASML 控股和空客等公司最近签署了一封信,呼吁欧盟将该准则推迟两年实施。上周,OpenAI 承诺签署这一实践准则。卡普兰在文章中表示,他们与这些企业共同关注,这种过度干预将抑制欧洲前沿人工智能模型的发展和部署,并阻碍那些希望在这些模型基础上建立业务的欧洲公司。
卡普兰今年早些时候接替了前全球事务主管尼克·克莱格(Nick Clegg)。他此前曾在 Facebook 担任美国政策副总裁,并在乔治·W·布什总统政府中担任工作人员。
HN 热度 316 points | 评论 476 comments | 作者:rntn | 1 day ago #
https://news.ycombinator.com/item?id=44607838
- 40 家欧盟公司要求推迟 AI 法案两年实施,因为法案内容不清晰。
- 欧盟发布的实践守则自愿性质,意味着签署后可能减少审查。
- 模型提供商若下游合作伙伴滥用模型需承担责任,对开源模型要求高。
- 欧盟为训练版权作品提供了无许可的例外。
- 版权不是天赋人权,而是政府为激励特定行为而创造的经济激励。
- 政府在创作者强大时保护创作者经济利益,现在大公司大规模侵权却获得豁免。
- 版权法可能不会给公众带来好处,创作者也难以通过创作谋生。
- 欧盟版权法保护创作者利益而非公众利益。
- 版权法的存在主要是为了保护商业利益,而非公共利益或创作者权利。
Cancer DNA is detectable in blood years before diagnosis #
https://www.sciencenews.org/article/cancer-tumor-dna-blood-test-screening
这篇文章讨论了一项关于癌症早期检测的突破性研究。研究表明,肿瘤 DNA 可以在人们被诊断出癌症之前三年多就存在于血液中。这一发现表明,使用高度敏感和准确的技术来寻找这些特征性的痕迹,可能成为早期癌症筛查的强大工具。这种技术有一天可能帮助医生在疾病出现任何其他迹象或症状之前检测出癌症,即使是比通常提前几个月的诊断也可能为患者提供更多的治疗选择,而提前数年的发现可能是救命的。
研究者们已经知道肿瘤细胞可以将 DNA 片段脱落到血液中多年,但是在疾病早期阶段找到这些片段就像“大海捞针”。这是因为新形成的肿瘤非常小,只向血液中脱落极小量的 DNA。研究团队想要了解他们能在多早的阶段检测到血液中的这种 DNA。他们依赖于 1980 年代至 1990 年代收集的样本,这些样本来自一项已经跟踪参与者健康数十年的研究。研究人员分析了 26 名在抽血后六个月内被诊断出癌症的人的样本。
实验室测试显示,26 名研究参与者中有 8 人的血液中携带了癌症的遗传特征。这意味着研究团队可以在癌症被诊断前几个月就发现它。但是,是否有可能更早地检测到这种疾病呢?为了找出答案,王的团队利用了在参与者癌症诊断前三年多收集的血液样本。
研究人员使用了一种称为全基因组测序的技术,这使他们能够拼写出构成 DNA 的单个字母。团队能够识别出癌症 DNA 的标志,即人类基因组中特有的癌症特异性变化。这些变化存在于如此低的水平,以至于其他实验室测试可能会错过它们。
王的团队能够如此早期地在样本中检测到癌症,这是“相当挑衅性的”,西雅图弗雷德·哈钦森癌症中心研究和治疗结肠癌的胃肠病学家威廉·格雷迪说。他可以想象一个类似星际迷航的未来,其中血液中有肿瘤 DNA 的患者会接受某种“基本上消除那些癌前病变”的治疗。
格雷迪说,那一天可能还有几年的时间。与此同时,他希望看到这些结果在更大的人群中得到验证——这是王的团队目前正在进行的工作。当前的研究是一个概念验证,她说。
“结果足够有希望,我们将回去查看更多的患者。”
HN 热度 296 points | 评论 134 comments | 作者:bookofjoe | 1 day ago #
https://news.ycombinator.com/item?id=44608295
- 癌症可以在诊断前数年发展,预癌症克隆体携带的体细胞突变可能在转变为恶性病变前存在数十年。
- 循环肿瘤 DNA(ctDNA)面临的永恒挑战是实现有用的灵敏度和特异性。
- 随着年龄增长,大多数人体内会有背景体细胞突变,超过 50 岁的人可能有食管、前列腺或血液中的预癌症克隆体。
- 多数流行的多癌早期检测(MCED)测试使用除了突变之外的信号(例如甲基化状态)来提高灵敏度/特异性,但是否真的足够好到在人群层面上有用还有待商榷。
- 大多数后续筛查的成本效益对于 MCED 检测的灵敏度-特异性配置来说是不可行的。
- 预防性全身 MRI 扫描会产生很多噪声,数据在统计上只有在我们尚不确定的病例中才有用。
- 目前使用这些数据进行治疗计划类似于巫术,可能弊大于利。
- 可能需要数十年和超过百万人的纵向研究,通过年度 MRI、测序和广泛的血液检测来开始显示癌症死亡率的显著降低和严重疾病的诊断改善。
- 我们可能需要大量的训练数据投入机器学习算法,以发现这些数据中的诊断价值。
- 需要观察将来会被诊断出癌症的人,看看他们现在的标记物和影像学表现,形成预测模型。
- 目前的技术可以用于在复杂的多维数据中寻找这样的信号。
- 系统目前专为盈利性治疗晚期疾病而设立。
- 运行这样的试验非常昂贵,且管理员可能会因伦理束缚而提前揭盲并报告每一个小的偶然发现,这会破坏训练过程。
- 美国在制度上无法进行这样的研究,但英国或中国可能可以。
- 预防性全身 MRI 扫描对于健康人的数据很少,难以预防假阳性。
- 基因疗法可能解决这类问题,但目前只能对分裂的细胞进行编辑。
- 通过杀死所有正常的血干细胞来治疗镰状细胞病,但这对于全身系统性疾病来说极其困难。
- 我们可能需要一种新的方式来理解人体“实现”的方式,类似于查看源代码以确定特定功能是否存在逻辑上的可能性。
- 如果可以持续客观量化结果与假设的一致性,那么研究的双盲性可能不那么必要。
- 通过 AI 模型持续客观量化结果与假设的一致性,可以减少研究的开销,进行更多研究以微调结果。
Asynchrony is not concurrency #
https://kristoff.it/blog/asynchrony-is-not-concurrency/
这篇文章由 Loris Cro 于 2025 年 7 月 18 日发表,主题是“异步不是并发”。文章首先指出,人们常说“并发不是并行”,但作者认为这并不足够有用。作者提出,我们缺少一个描述并发编程另一个方面的术语,即“异步”,这导致了我们对软件生态系统的理解存在缺陷。
文章通过两个例子来说明异步和并发的区别。第一个例子是保存两个文件,顺序不重要,可以使用异步 I/O 来同时保存。第二个例子是创建一个 TCP 服务器,并在同一个程序中连接到它,这种情况下,执行两个任务的顺序并不重要,但必须同时进行。
作者给出了这三个术语的定义:
- 异步:任务可以无序执行,但仍然正确。
- 并发:系统能够同时推进多个任务,无论是通过并行还是任务切换。
- 并行:系统能够在物理层面上同时执行多个任务。
文章强调,区分异步和并发的重要性,因为缺乏这种理解,我们创建了语言生态系统,其中库作者必须重复工作,或者更糟的是,异步代码的传播使得即使是单个依赖于异步代码的依赖项也要求用户放弃编写正常的同步代码。为了解决这些问题,我们创造了不神圣的逃生舱口,这在最好的情况下会导致次优行为,在最坏的情况下会导致死锁。
文章最后讨论了 Zig 语言中的异步 I/O 故事,并指出在 Zig 中,异步不是并发,因为使用 io.async 并不意味着并发。即使在单线程阻塞模式下,使用 io.async 的代码也可以运行。这意味着库作者可以在代码中使用 io.async,而不会迫使用户远离单线程阻塞 I/O。相反,不使用 io.async 的代码仍然可以利用并发,但这不会导致死锁。文章解释了同步代码在并发环境中表现良好的两个因素:使用事件驱动的 I/O 系统调用和使用任务切换原语。
最后,文章通过一个同步代码的例子,解释了在 Zig 中如何使用任务切换原语(yield)来处理 I/O 操作。在这个例子中,当执行 write 函数时,它会请求写入文件,然后立即返回,而不是阻塞等待操作完成。这时,程序需要在等待操作完成时切换到不同的任务,即需要 yield。在绿线程的情况下,yield 是通过栈交换来执行的,保存 CPU 中所有通用寄存器的状态,并加载另一个“快照”到 CPU 中。这个快照之前是由事件循环保存的,它 yield 以恢复由操作系统通知为准备好的任务。现在我们切换回事件循环,同样的事情会再次发生。
HN 热度 294 points | 评论 206 comments | 作者:kristoff_it | 1 day ago #
https://news.ycombinator.com/item?id=44608754
- 异步并不意味着代码是正确的,可能会引发用户层面的竞态条件。
- 异步代码是显式为并发设计的代码结构。
- 异步是同步的对立面,指两个或多个需要协同工作的方不同步。
- 异步代码可以使得原本会阻塞的代码变为非阻塞,以便其他事情可以继续进行。
- 异步本身并不能保证非阻塞,需要确保不执行任何阻塞调用。
- 可以异步运行阻塞代码,使其看起来像是非阻塞的。
- 异步编程可以设计为非阻塞,也可以包含阻塞代码。
- 异步编程模型实际上是写了很多阻塞的小块代码,这些代码的非阻塞特性是小的、原子的。
- 对于某些开发者来说,异步是一个不明确的概念,他们更关注事件、阻塞性质的工作以及 API 的使用。
- 异步编程模型对于理解浏览器代码和设备调度器如何使用并发模型非常重要。
It’s rude to show AI output to people #
https://distantprovince.by/posts/its-rude-to-show-ai-output-to-people/
这篇文章由 Alex Martsinovich 撰写,讨论了人工智能(AI)输出的问题,以及人类在处理 AI 生成内容时应遵循的礼仪。文章以科幻小说《Blindsight》中的“scramblers”(信号干扰器)为引子,这些外星生物智能但无意识,对人类无休止的闲聊感到厌烦,因为它们只懂得感知信息。作者通过这个比喻,表达了自己对 AI 文本的感受,认为 AI 文本就像是一种病毒,消耗接收者的资源而没有任何回报,降低了生存机会。
文章接着讨论了“proof-of-thought”(思考证明)的概念,即过去写作比阅读成本更高,因此任何书面文本至少可以证明有人花费了时间来撰写。但现在 AI 使得文本变得非常廉价,不再能依靠“proof-of-thought”来判断文本是否由人类创作。任何文本都可能是 AI 生成的,如果阅读这些文本,就像是在这场战争中受伤一样。
作者认为,AI 只在回应时说话,不会自发地产生内容。要获得 AI 文本,必须有人请求,要传播它,必须有人转发。问题在于其他人类,而不是 AI 本身。使用 AI 没有问题,只要你知道自己在得到什么,交易是完全自愿的。但当你传播 AI 输出时,你可能会有意或无意地用你的好名声为其正名,提供虚假的“proof-of-thought”。在某些情况下,这是可以接受的,因为你确实思考过并采纳了 AI 的输出作为自己的。但在其他情况下,这是不可接受的,我们的“scrambler”大脑会感到被侵犯。
文章最后提出了“人工智能礼仪”的概念,作者认为在这场战争中我们的主要武器是 AI 礼仪。他的观点是,只有在将 AI 输出采纳为自己的或者接收方明确同意的情况下,才能传递 AI 输出。关于采纳意味着什么以及什么可以被视为同意,有很多讨论,但作者认为核心原则是合理的。他强调,我们应该礼貌地不向人类发送 AI 文本,因为我们只是选择性地暴露在无意义的噪音中。
HN 热度 268 points | 评论 195 comments | 作者:distantprovince | 7 hours ago #
https://news.ycombinator.com/item?id=44617172
- 一些人认为使用 LLM(大型语言模型)生成的邮件或消息非常无礼,甚至不想阅读。
- 有人提到,当同事在邮件中不小心留下与 AI 的对话时,这是非常明显的迹象。
- Clippy(微软 Office 助手)如果还在的话,可能会对此感到不安。
- 有人建议用同样的方式回复,浪费同事的时间,以此来指出他们的错误。
- 但也有人认为这样做也会浪费自己的时间。
- 有人提出,最终可能是 AI 代理与 AI 代理之间的对话,人类根本不参与。
- 有人担心 LLM 生成的消息不够个性化,缺乏人与人之间的联系。
- 有人担心英语非母语者使用 LLM 后发送的完美英语消息会让自己显得不够聪明。
- 有人认为 LLM 的普及将改变我们的沟通和工作方式,无论好坏。
- 有人对 LLM 的不可避免性表示质疑,认为这种技术热潮应该有所节制。
- 有人提到,对于有写作障碍的残疾人来说,AI 帮助他们更好地表达自己。
- 有人认为 LinkedIn 是 AI 生成内容的重灾区,建议退出 LinkedIn。
- 有人讽刺 LinkedIn 变成了新的交友平台。
- 有人对 LinkedIn 鼓励 AI 生成回复以提高用户参与度的做法表示不解。
- 有人觉得 AI 生成的内容如果现在看起来不像 AI,那么一两年后也不会像。
- 有人分享了自己如何通过反馈让下属停止使用 AI 生成的回复。
- 有人表示,这可以帮助他们筛选出不值得花费时间和注意力的人。
- 有人提到,他们使用特定的写作风格和词汇来区分自己不是 AI 生成的内容。