2025 04 23 HackerNews

2025-04-23 Hacker News Top Stories #

  1. 美国国家劳工关系委员会的数据被埃隆·马斯克的团队窃取,涉及敏感信息,官方否认但举报人提供了证据。
  2. Dia 是一个开源文本转语音模型,支持情感和语调控制,能够生成逼真的对话和非语言声音。
  3. 作者成功将 NetBSD 操作系统安装在任天堂 Wii 上,并将其用于托管博客,展示了硬件的多功能性。
  4. Evertop 是一款模拟 IBM XT 的便携式电脑,采用电子墨水屏幕和低功耗设计,续航时间长达数百小时。
  5. FTC 指控优步从事欺骗性计费和取消服务行为,包括未经同意订阅服务并使取消变得困难。
  6. 作者通过“重放攻击”入侵房东的恒温器,控制供暖系统,揭示了智能设备的潜在安全隐患。
  7. Supabase 完成 2 亿美元 D 轮融资,估值 20 亿美元,成为开发者和“vibe coders”的热门后端解决方案。
  8. 天文学家确认存在孤立黑洞,这是首次发现没有伴星的黑洞,具有重要的科学意义。
  9. ClickHouse 引入“懒惰物化”功能,通过延迟读取数据显著提升查询性能,尤其在 Top N 查询中表现突出。
  10. 研究探讨了为机器编织开发形式语义的重要性,提出了使用代数拓扑和群论等数学工具解决编织语言的依赖问题。

Whistleblower: DOGE Siphoned NLRB Case Data #

https://krebsonsecurity.com/2025/04/whistleblower-doge-siphoned-nlrb-case-data/

美国国家劳工关系委员会(NLRB)的一名安全架构师 Daniel J. Berulis 向参议院情报委员会提交了一份举报信,指控埃隆·马斯克的政府效率部门(DOGE)人员在 3 月初从 NLRB 的案件文件中转移了大量敏感数据。Berulis 称,DOGE 人员使用短暂的账户进行了这些转移,这些账户配置为不留下网络活动的痕迹。

NLRB 是一家小型独立联邦机构,负责调查和裁决不公平的劳动实践,并存储大量敏感数据,包括员工工会信息和企业商业秘密。Berulis 的举报信指出,DOGE 人员在 3 月 3 日要求创建具有最高权限的账户,这些账户可以读取、复制和修改 NLRB 数据库中的信息,并且可以限制日志可见性、延迟保留、路由日志到其他地方或甚至完全删除它们。

Berulis 表示,他注意到在 3 月 3 日,一辆黑色 SUV 带着警察护卫抵达 NLRB 总部,DOGE 人员与 NLRB 领导层会面,但没有与 IT 人员交谈。之后,NLRB 的代理首席信息官告诉 Berulis 和他的团队,不要遵循标准操作程序来创建 DOGE 账户,并且不应该记录这些账户的创建过程。Berulis 还发现,DOGE 账户创建了一个名为“容器”的虚拟环境,这个环境可以用来构建和运行程序或脚本,而不向外界暴露其活动。

Berulis 表示,在 3 月 4 日凌晨 3 点至 4 点之间,NLRB 的网络流量突然增加,他和他的团队花了几天时间调查,发现 DOGE 账户转移了大约 10GB 的数据。然而,Berulis 表示,他和他的团队无法确定哪些文件被转移或去了哪里,因为他们没有必要的网络访问权限。Berulis 还注意到,几乎有二十次来自俄罗斯 IP 地址的登录尝试,使用了有效的 DOGE 账户凭据,这些尝试都被阻止了。

Berulis 的举报信还指出,NLRB 的网络日志中有一部分在 3 月 5 日消失了,微软 Azure 中的网络监视器被设置为“关闭”状态,这意味着它不再收集和记录数据。Berulis 表示,他发现有人下载了三个外部代码库,这些代码库以前从未被 NLRB 或其承包商使用过,其中一个代码库的“readme”文件解释说,它是用来旋转连接通过一个大型云互联网地址池的,这个池可以作为一个代理来生成伪无限 IP 地址,用于网页抓取和暴力破解。

NLRB 的代理新闻秘书 Tim Bearese 对 NPR 表示,DOGE 既没有请求也没有获得访问 NLRB 系统的权限,NLRB 在 Berulis 提出担忧后进行了调查,但“确定没有发生系统泄漏”。然而,Berulis 已经分享了多个支持性截图,显示了 NLRB 内部关于 DOGE 账户活动的电子邮件讨论,以及微软关于网络异常的安全警报。


HN 热度 774 points | 评论 418 comments | 作者:whalesalad | 13 hours ago #

https://news.ycombinator.com/item?id=43760801

  • 美国政府机构使用微软的云服务存在安全隐患
  • 俄罗斯的 IP 地址尝试登录美国政府机构的系统,可能是故意留下的痕迹
  • 美国政府的数据可能被泄露或窃取,存在安全风险
  • 微软和亚马逊的云服务在美国政府中占有重要地位,可能存在利益冲突
  • 美国政府机构的安全措施可能存在漏洞,需要加强安全保护
  • 事件可能与特朗普政府有关,存在政治因素的干扰
  • 美国政府机构的数据安全问题可能是系统性的,需要进行全面调查和改革
  • 事件引发了人们对数据安全和政府机构透明度的担忧
  • 美国政府机构可能需要使用更加安全的系统和服务,例如开源的 Linux 系统
  • 事件可能会对美国政府的信誉和公众信任产生负面影响

Show HN: Dia, an open-weights TTS model for generating realistic dialogue #

https://github.com/nari-labs/dia

Dia 是一个 1.6B 参数的文本转语音模型,由 Nari Labs 创建。该模型可以直接从文本生成高度逼真的对话,并且可以根据音频条件输出,实现情感和语调控制。该模型还可以生成非语言沟通,如笑声、咳嗽、清嗓子等。

为了加速研究,开发者提供了预训练模型的检查点和推理代码。模型权重托管在 Hugging Face,目前仅支持英语生成。开发者还提供了一个演示页面,比较了 Dia 模型与 ElevenLabs Studio 和 Sesame CSM-1B 的性能。

要使用 Dia 模型,用户可以通过 pip 安装,或者克隆 github 仓库并运行 Gradio UI。模型的使用方法包括生成对话、非语言沟通、语音克隆等。开发者还提供了一个示例代码,展示了如何使用 Dia 模型生成语音。

Dia 模型的特点包括生成对话、非语言沟通、语音克隆等。模型的使用方法包括作为 Python 库使用,或者通过 Gradio UI 使用。开发者还提供了模型的硬件和推理速度信息,包括模型的测试环境、推理速度等。

Dia 模型的许可证为 Apache License 2.0,开发者明确指出该模型仅用于研究和教育目的,禁止用于身份误用、欺骗内容、非法或恶意用途等。开发者还呼吁用户尊重相关法律标准和道德责任。

开发者表示,未来将会添加 Docker 支持、优化推理速度、添加量化等功能。同时,开发者也欢迎任何贡献,用户可以加入 Discord 服务器讨论。开发者还对 Google TPU Research Cloud 程序、HuggingFace、SoundStorm、Parakeet 和 Descript Audio Codec 等项目表示感谢。


HN 热度 601 points | 评论 176 comments | 作者:toebee | 1 day ago #

https://news.ycombinator.com/item?id=43754124

  • 人们对使用人工智能生成音频书籍的质量和未来发展前景持乐观态度
  • 有人认为使用真人的声音来朗读音频书籍更为理想,尤其是作者本人
  • 但是其他人认为,即使是作者,也不一定能成为最佳的朗读者,因为他们可能不是专业的演员
  • 使用人工智能生成音频书籍可以让读者根据自己的喜好定制朗读的声音和风格
  • 有人担心使用人工智能生成音频书籍可能会取代人类朗读者的工作
  • 人工智能生成音频书籍的技术仍然存在不足,需要进一步的发展和改进
  • 有人认为,人工智能生成音频书籍可以让更多的书籍被朗读和分享,尤其是那些没有被出版或翻译的书籍
  • 使用人工智能生成音频书籍可以让读者更容易地获取和享受书籍,尤其是对于视力障碍或时间有限的人群
  • 有人认为,人工智能生成音频书籍的未来发展前景广阔,可能会改变人们阅读和享受书籍的方式

Blog hosted on a Nintendo Wii #

https://blog.infected.systems/posts/2025-04-21-this-blog-is-hosted-on-a-nintendo-wii/

本文介绍了作者将 NetBSD 操作系统安装在任天堂 Wii 游戏机上,并将其用作生产环境运行博客的过程。作者首先提到,他一直对在非通用硬件上运行通用操作系统感兴趣,并且 NetBSD 在其官方网站上提供了 Wii 的支持。

作者接着描述了他如何找到一台二手 Wii 游戏机,并使用 Wilbrand 漏洞对其进行软改造,以安装 Homebrew Channel。然后,他下载了 NetBSD 的 Wii 镜像,并使用 Raspberry Pi Imager 工具将其写入 SD 卡。

安装 NetBSD 后,作者配置了 SSH 服务,并设置了静态网络配置。他还安装了 pkgin 包管理器,并使用它来安装其他软件包。作者提到,Wii 的单核 CPU 可能不够强大,但由于 NetBSD 的良好支持,他仍然能够将其用作生产环境。

在整个过程中,作者分享了他的经验和技巧,包括如何解决 SD 卡兼容性问题和如何配置 SSH 服务。作者还提到,Wii 的 CPU 实际上是基于 PowerPC 750 架构的,这是一种在空间探索和卫星应用中常用的处理器。

总的来说,本文介绍了作者将 NetBSD 操作系统安装在任天堂 Wii 游戏机上,并将其用作生产环境运行博客的过程。作者分享了他的经验和技巧,并提到了 Wii 的硬件特点和 NetBSD 的支持。


HN 热度 592 points | 评论 101 comments | 作者:edent | 1 day ago #

https://news.ycombinator.com/item?id=43754953

  • 美国政府使用水下潜艇等手段入侵美国公司的通信系统来监视美国人,这在 2013 年竟然不是一个大事件。
  • 政治领导人明显违法却没有受到惩罚,这导致了政治领导人认为自己可以肆无忌惮地违法。
  • 有人曾经将博客托管在一个 Nintendo Wii 上,甚至有人将博客托管在一个 Robot Vacuum 上。
  • Wii 的内存只有 88MB,分配给 NetBSD 系统使用的内存只有 13MB。
  • 使用 OBS 或者 QuickTime Player 可以解决 Photo Booth 录制视频时的镜像问题。
  • 任天堂的网络栈质量很差,尤其是 Wii 的 TCP 栈。
  • 有人尝试使用 USB thumbdrive 来替代 SD 卡,以提高系统的可靠性。
  • 任天堂似乎并不关心其网络服务和栈的质量,专注于游戏和硬件创新。

Evertop: E-ink IBM XT clone with 100+ hours of battery life #

https://github.com/ericjenott/Evertop

Evertop 是一台便携式电脑,模拟了 IBM XT 的功能,配备了 80186 处理器和 1MB 内存。它可以运行 DOS、Minix 和其他一些老式操作系统,甚至可以运行 Windows 3.0。由于它使用了低功耗的微控制器、电子墨水屏幕和两个 10,000mAh 电池,并实施了极端的节能措施,因此它可以在单次充电后运行数百甚至数千个小时。

Evertop 配备了多种内置外设,包括键盘、外部 PS/2 键盘和鼠标端口、CGA、Hercules 和 MCGA 图形支持、部分 EGA 和 VGA 支持、PC 扬声器、Adlib、Covox 和 Disney Sound Source 音频输出、内置扬声器和耳机插孔、一个 DB9 RS232 串口、一个 TTL 串口、双键盘和鼠标 PS/2 端口、USB 闪存盘端口、RJ45 以太网端口、Wi-Fi 和 LoRA 无线电。蓝牙硬件也存在,但尚未实现任何功能,计划添加蓝牙键盘和鼠标支持、串口、IP 和音频传输等功能。

Evertop 有三种供电和充电方式:内置可拆卸的太阳能板、2.5-20V DC 输入和 micro USB 连接器。它可以从所有三个源同时充电,并且可以在使用时充电。内置的电压表可以方便地监测电池电量和充电电压。在节能模式下,它可以运行 200-500 小时甚至更长时间的交互式使用,而不是待机模式。

Evertop 还具有可选的用户启动或自动休眠到磁盘和自动完全关机功能,通过 IO 控制的双 MOSFET 电路实现。内部外设可以通过前面板上的物理开关关闭以避免浪费功耗。太阳能板的额定功率为 6V 和 6W,理论上可以产生 1 安培的电流,即使在最弱的多云天气下也可以提供 70-100mA 的电流。

Evertop 使用 256G SD 卡存储软盘和硬盘镜像,硬盘镜像可以达到 4G。模拟系统可以挂载两个软盘和两个硬盘,总共 8G 的存储空间。用户可以设置多个模拟系统并选择在启动时默认哪一个系统。Evertop 的技术核心是 Espressif ESP32 微控制器,显示屏为 5.83 英寸 648x480 的 “快速刷新” 模型,使用无刷新时不消耗功耗的电子墨水屏幕。外壳为 3D 打印的哑光 PETG 塑料。

Evertop 还有一个简化版,称为 “Evertop Min”,去掉了内置键盘、可变电压充电、太阳能板、RJ45 以太网端口、DB9 串口、LoRA 无线电、电压表和一半的电池容量,以减少重量、材料和零件成本。然而,它仍然保留了相同的电子墨水屏幕、双键盘/鼠标 PS/2 端口、内置扬声器、耳机插孔、音量控制轮和 USB 端口。


HN 热度 539 points | 评论 177 comments | 作者:harryvederci | 1 day ago #

https://news.ycombinator.com/item?id=43757037

  • E-ink 显示屏的寿命是一个问题,部分刷新可能会减少显示屏的磨损,但也可能导致鬼影现象。
  • 使用低功耗设备可以实现更长的电池寿命,但安全性和软件支持是需要考虑的问题。
  • 有人认为,使用古老的硬件和软件可能会带来安全风险,但如果设备不联网或不存储重要数据,风险可能会降低。
  • 低功耗设备可以取代传统的笔记本电脑,成为一种新的计算设备形式。
  • 使用 IBM PC 兼容机可以利用其庞大的软件库,实现兼容性和可用性。
  • 有人希望看到现代版的 TRS-80 Model 100 或类似的设备,具有更快的显示屏和更低的功耗。

FTC takes action against Uber for deceptive billing and cancellation practices #

https://www.ftc.gov/news-events/news/press-releases/2025/04/ftc-takes-action-against-uber-deceptive-billing-cancellation-practices

美国联邦贸易委员会(FTC)是一个官方政府网站,负责执行联邦竞争和消费者保护法,防止不公平的商业行为。FTC 的使命是保护公众免受欺骗性或不公平的商业行为和不公平的竞争方法的侵害,通过执法、倡导、研究和教育。

FTC 有几个主要部门,包括执法、政策和建议。执法部门负责调查和起诉违反消费者保护法的公司。政策部门负责制定和实施促进竞争和消费者保护的政策。建议部门为消费者和企业提供指导和资源,帮助他们了解自己的权利和责任。

FTC 还有一个法律图书馆,提供法律资源和指导,帮助企业了解其商业责任并遵守法律。FTC 的网站还提供了一个搜索功能,允许用户搜索法律文件和记录。

FTC 的新闻和活动部分提供了最新的新闻和事件,包括新闻发布、活动和特征文章。FTC 还有一个博客,提供有关消费者保护和竞争的信息和资源。

FTC 对于保护消费者和促进竞争非常重要。FTC 的工作包括调查和起诉违反消费者保护法的公司,制定和实施促进竞争和消费者保护的政策,提供指导和资源给消费者和企业。

最近,FTC 采取行动对抗优步公司,指控优步公司欺骗性地向消费者收费和取消服务。FTC 指控优步公司未经消费者同意而将他们注册为其订阅服务,并且难以让用户取消服务。FTC 主席表示,美国人厌倦了被注册为不想要的订阅服务,并且难以取消。FTC 将继续为美国人辩护,反对欺骗性和不公平的商业行为。


HN 热度 415 points | 评论 249 comments | 作者:pinewurst | 1 day ago #

https://news.ycombinator.com/item?id=43754274

  • 乘客认为 Uber 的动态定价机制会导致价格不透明,尤其是在高峰期或特定事件期间。
  • 部分用户指出,使用 Uber 的礼品卡或积分会导致价格上涨。
  • 有人认为,Uber 的退款机制不透明,难以获得真正的退款。
  • 一些用户表示,Uber 的客服支持不佳,难以解决问题。
  • 部分人认为,动态定价机制会导致消费者损失,尤其是对于低收入人群。
  • 有人提出,竞争是解决这些问题的最佳方法。
  • 部分用户认为,Uber 的定价机制会导致消费者被剥夺利益,尤其是在高峰期。
  • 有人指出,Uber 的算法可能会学习到如何从特定人群中获利,导致不公平的定价。

Attacking My Landlord’s Boiler #

https://blog.videah.net/attacking-my-landlords-boiler/

这篇博客文章讲述了作者如何入侵自己的房东安装的恒温器,以便在不需要房东同意的情况下控制公寓的供暖系统。作者首先介绍了问题的起因:恒温器只能检测单个房间的温度,且其控制面板不方便使用,尤其是当作者在床上或客厅时。另外,作者担心如果忘记关闭供暖系统,会浪费大量能源。

作者决定使用一种称为“重放攻击”的方法来入侵恒温器。这涉及到复制恒温器和锅炉之间的无线信号,然后重新广播这些信号,以模拟恒温器的行为。作者指出,这种方法可能不适用于所有恒温器,因为有些设备可能使用计数器来防止重放攻击。

为了开始,作者研究了恒温器的型号并找到了一份数据表,其中包含了有关其无线通信协议的信息。作者发现恒温器使用 868MHz 频率,这在美国没有许可证是非法的。作者还提到,很少有在线资源可用于克隆 868MHz 信号,大多数资源都集中在 433MHz 频率上。

作者使用了一种称为软件定义无线电(SDR)的技术来检测和分析恒温器的无线信号。作者购买了一款廉价的 RTL-SDR V4 设备,并使用 SDR++ 软件来查看信号。作者还尝试使用 rtl_433 工具来识别恒温器使用的协议,结果表明它与另一款 Honeywell 恒温器使用的协议相同。

接下来,作者尝试使用一款 868MHz 微控制器板来重新广播信号,但遇到了困难。作者随后使用了一款名为 HackRF One 的 SDR 设备,这是一款可以广播信号的设备。作者从阿里巴巴购买了一款 HackRF One 的克隆版,价格远低于原版设备。

使用 HackRF One,作者成功地重新广播了恒温器的信号,并控制了锅炉的供暖系统。作者指出,这种方法可能不适用于所有恒温器,并且可能存在法律问题。作者还提到,阿里巴巴已经删除了许多 HackRF One 克隆版的列表,可能是由于海关和法律问题。


HN 热度 346 points | 评论 188 comments | 作者:ericvolp12 | 19 hours ago #

https://news.ycombinator.com/item?id=43759073

  • 为了节能和省钱,应该使用较低的水循环温度,并根据外部温度进行调整。
  • 较低的水循环温度可以减少热量损失,提高供暖效率。
  • 使用恒温器和外部温度补偿可以实现更好的供暖效果和节能。
  • 供暖系统的设计和安装方式会对供暖效率产生影响,例如将散热器放在外墙下会增加热量损失。
  • 使用大型散热器和低温供暖可以提高供暖效率。
  • 低温供暖可以减少热量损失,提高供暖效率,且可以通过调整供暖温度来实现更好的舒适度。
  • Return 水温应尽可能低,理想情况下应低于 35 度,甚至可以达到 30 度。
  • 供暖系统的设计应考虑到人类的舒适度和节能要求,例如使用 ISO 7730 标准来评估供暖效果。
  • 供暖系统的自动调节和智能控制可以帮助实现更好的供暖效果和节能。

Supabase raises $200M Series D at $2B valuation #

https://finance.yahoo.com/news/exclusive-supabase-raises-200-million-112154867.html

Supabase 最近完成了一轮 2 亿美元的 D 轮融资,公司的估值达到了 20 亿美元。该公司的 CEO 兼联合创始人保罗・科普尔斯通分享了他与 Accel 投资公司合伙人冈萨洛・莫科雷亚的首次接触经历。莫科雷亚为了投资 Supabase,特地前往新西兰,亲自与科普尔斯通会面,并且在几天内进行多次深入交流。经过几天的讨论,Accel 的另一位合伙人阿伦・马修也加入了会谈,最终向 Supabase 提供了融资条款。

此次融资还得到了其他知名投资者的支持,包括 Y Combinator、Craft Ventures 和 Felicis,以及一些知名天使投资人,如 OpenAI 首席产品官凯文・韦尔、Vercel 首席执行官吉列尔莫・劳赫和 Laravel 首席执行官泰勒・奥特威尔。阿伦・马修在谈到投资理由时表示,在每次重大平台转型中,数据库层总是会创造出价值,而 Supabase 正是在这个背景下蓬勃发展的。

目前,Supabase 已经拥有超过 200 万名开发者,管理着 350 万个数据库。该平台支持 Postgres,这是开发者中最流行的数据库系统,旨在成为开发者和 “vibe coders” 的一站式后端解决方案。科普尔斯通提到,Supabase 的社区在未来十年将会持续增长,不仅面向开发者,也将吸引更广泛的企业用户。近期,因 “vibe coding” 概念的兴起,Supabase 的注册用户数量在过去三个月内翻了一番。


HN 热度 275 points | 评论 251 comments | 作者:baristaGeek | 9 hours ago #

https://news.ycombinator.com/item?id=43763225

  • Supabase 是一个很棒的产品,尤其对于非技术人员来说,可以帮助他们快速搭建项目
  • Supabase 只是一个中间商,复制了其他人已经做过的事情,并没有解决任何中等难度的问题
  • 使用 LLM(大语言模型)可以快速生成代码和设计,减少了开发时间和成本
  • 快速生成代码和设计可能会导致代码质量下降和维护困难
  • LLM 可以帮助开发人员快速尝试和验证想法,但不适合用于生产环境
  • 代码生成工具可能会导致代码质量下降和安全问题
  • 快速生成代码和设计可能会导致网络效果降低和价值降低
  • LLM 可以帮助开发人员提高效率和生产力,但需要谨慎使用和评估其输出结果

Astronomers confirm the existence of a lone black hole #

https://phys.org/news/2025-04-astronomers-lone-black-hole.html

最近,天文学家确认了一个孤立的黑洞的存在。这个黑洞位于人马座,通过哈勃太空望远镜和盖亚太空探测器的数据进行了观察和研究。研究团队使用了 2011 年至 2017 年和 2021 年至 2022 年的哈勃数据,以及盖亚太空探测器的数据,发现这个黑洞的质量约为太阳质量的 7 倍。

这个发现对于天文学家来说是一个重要的突破,因为之前所有已知的黑洞都伴随着一颗伴星。黑洞的存在通常是通过其对伴星光的影响来检测的,而没有伴星的黑洞则很难被发现。这个孤立的黑洞是通过其对一颗遥远星星光的引力透镜效应被发现的,当它经过这颗星星前方时,星星的光线被弯曲和放大。

研究团队的发现得到了另一支研究团队的支持,他们在 2023 年修订了之前的结论,同意这个物体是一个黑洞。这个黑洞的质量约为太阳质量的 6 倍,尽管测量结果的不确定性仍然存在,但仍然支持黑洞的结论。

这个孤立的黑洞的发现为天文学家提供了一个新的研究方向,他们希望通过未来发射的罗曼太空望远镜来发现更多的孤立黑洞。这个发现也为我们了解黑洞的形成和演化提供了新的线索,黑洞是宇宙中最神秘和最吸引人的天体之一。

研究团队的发现发表在《天体物理学杂志》上,论文中详细介绍了他们的研究方法和结果。这个发现是天文学领域的一个重要成就,它将有助于我们更好地了解宇宙的奥秘。


HN 热度 233 points | 评论 157 comments | 作者:wglb | 1 day ago #

https://news.ycombinator.com/item?id=43755017

  • 黑洞的存在可能很难被检测到,尤其是当它没有伴星时。
  • 黑洞可能以单独的形式存在,而不是以双星系统的形式存在。
  • 原始黑洞可能是暗物质的候选者,并且可能在大爆炸期间形成。
  • 小型黑洞可能会通过霍金辐射而蒸发掉。
  • 黑洞的事件视界内的物质无法逃脱,除非通过霍金辐射。
  • 霍金辐射是黑洞边界附近的粒子和反粒子之间的相互作用所产生的。
  • 黑洞的质量会随着时间的推移而减少,并最终可能以伽马射线暴的形式爆发。
  • 制造微型黑洞可能需要非常高能量的粒子碰撞,并且需要一种方法来捕获和稳定这些黑洞。

ClickHouse gets lazier and faster: Introducing lazy materialization #

https://clickhouse.com/blog/clickhouse-gets-lazier-and-faster-introducing-lazy-materialization

ClickHouse 是一种快速的分析数据库,其速度优势在于避免不必要的工作。最近,ClickHouse 推出了一个新的优化功能:懒惰物化(lazy materialization),该功能延迟读取列数据,直到它们真正被查询执行计划所需。这种看似“懒惰”的行为在实际工作负载中,尤其是在 Top N 查询中,表现出极高的效率,能够显著加速性能,通常能达到数十倍甚至数百倍的速度提升。

ClickHouse 的 I/O 优化技术包括:列式存储、稀疏主索引、次要数据跳过索引、预过滤(PREWHERE)等。这些技术通过减少不必要的数据读取来提高查询效率。现在,懒惰物化进一步完善了这一优化栈,通过延迟读取列数据,直到它们真正被需要,从而减少了 I/O 操作。

为了演示懒惰物化的影响,文章使用了一个真实的例子,展示了如何使用 Amazon 评论数据集进行测试。测试环境包括一个 AWS EC2 实例,ClickHouse 25.4 版本,Ubuntu Linux 24.04 操作系统等。测试结果表明,懒惰物化能够显著加速 Top N 查询的性能,减少了查询时间。

文章还介绍了 ClickHouse 的查询条件缓存(query condition cache),它能够加速重复查询的速度。然而,为了避免对测试结果的影响,文章中禁用了查询条件缓存。总的来说,懒惰物化是 ClickHouse 的一项重要优化功能,它能够显著提高查询性能,减少 I/O 操作,并进一步完善了 ClickHouse 的 I/O 优化栈。


HN 热度 202 points | 评论 49 comments | 作者:tbragin | 8 hours ago #

https://news.ycombinator.com/item?id=43763688

  • ClickHouse 是一个很棒的软件,但其使用体验不如 DuckDB,如果管理层能改进这些问题就更好了
  • ClickHouse 的 lazy materialization 优化可以显著提高查询速度,尤其是在处理大型数据集时
  • ClickHouse 的性能非常快,CLI 也很方便使用
  • ClickHouse 与 DuckDB 和 Polars 相比,有其自己的优势和劣势
  • 现代硬件和软件使得一些以前认为慢的查询现在可以非常快地执行
  • ClickHouse 的排序算法可以在 O(n) 时间复杂度内找到 top k 个元素
  • ClickHouse 的 partial sorting 和 selection 优化使用 Floyd-Rivest 算法,可以快速找到 top k 个元素
  • ClickHouse 的 max-heap 算法可以在流式处理中正确地找到 top k 个元素

Algebraic Semantics for Machine Knitting #

https://uwplse.org/2025/03/31/Algebraic-Knitting.html

本文讨论了为机器编织(machine knitting)开发形式语义的重要性。机器编织是一种使用编程语言控制机器进行编织的技术,但与传统编程语言不同,它缺乏严格的语义定义。语义是指定义语言中语句的含义,在传统编程语言中,语义用于错误检查、编译优化、代码转换等方面。

作者首先解释了为什么机器编织需要语义,指出语义可以帮助证明程序的性质,例如两个语句是否可以交换执行。然后,作者介绍了机器编织的基本概念,包括针床、载体线和针线的交织。机器编织中的一个基本操作是针线的交织,这可以看作是传统编程语言中的基本操作,例如加法或位运算。

然而,机器编织中存在一个特殊的问题,即针线的交叉会导致操作之间的依赖,即使它们没有直接连接。作者使用图表来说明这个问题,并指出传统编程语言中没有这个问题。为了解决这个问题,作者提出了使用代数拓扑和群论等数学工具来开发机器编织的语义。

作者还讨论了机器编织语言的特点,包括没有条件语句、循环语句或函数,这使得分析机器编织程序变得更容易。然而,机器编织中的操作之间的依赖关系使得分析变得更加复杂。作者指出,开发机器编织的语义可以帮助提高编译器的优化和程序的正确性。

最后,作者总结了机器编织语义的重要性和挑战,并指出需要进一步的研究来开发机器编织的形式语义。作者还指出,机器编织语义的发展可以借鉴传统编程语言的经验,并使用数学工具来解决机器编织中的特殊问题。


HN 热度 175 points | 评论 12 comments | 作者:PaulHoule | 8 hours ago #

https://news.ycombinator.com/item?id=43763614

  • 计算机编织的概念非常有趣,甚至可以使用编织来表示计算机程序
  • 编织机的软件项目非常吸引人,甚至可以在家中自制一个简单的编织机
  • 编织与计算机科学之间存在着深刻的联系,例如布雷德群和可计算性
  • 编织可以被视为一种编程语言,甚至可以用来表示图灵机
  • 有人正在寻找编织机的模拟器,以便在实际操作之前练习
  • 编织机的成本较高,但可以使用丙纶纱或棉纱来降低成本
  • 编织的形式化是计算机科学的一个全新的领域
  • 编织与计算机科学的结合是一个非常有趣的领域,值得进一步探索