2024 04 18 HackerNews

2024-04-18 Hacker News Top Stories #

一句话摘要 #

  1. The NSA is just days away from taking over the internet 文章讨论了美国国家安全局(NSA)可能接管互联网的情况,以及这一行为可能对个人隐私和数据安全产生的影响。
  2. Stop Acting Like You’re Famous 这篇文章鼓励人们在进行个人爱好时不要像名人一样追求名声,而应该专注于享受活动本身。
  3. Mixtral 8x22B Mistral AI 发布了新的开放模型 Mixtral 8x22B,这是一个在多语言能力和数学编码方面表现出色的稀疏专家混合模型。
  4. How many bathrooms have Neanderthals in the tile? 文章讲述了一位 Reddit 用户在新安装的石灰华地板中发现古老下颚骨化石的故事,引发了对石灰华中化石发现的讨论。
  5. ChatControl: EU ministers want to exempt themselves 欧盟内政部长们希望在新的聊天和消息扫描规定中豁免情报机构、警察和军队工作人员的专业账户。
  6. Embeddings are a good starting point for the AI curious app developer 文章为 AI 应用程序开发人员介绍了嵌入式向量(Embeddings)的重要性,并提供了实际应用建议。
  7. An electric new era for Atlas 波士顿动力公司发布了全新的电动 Atlas 机器人,标志着其在机器人领域的创新和发展。
  8. A quick post on Chen’s algorithm 文章讨论了 Yilei Chen 提出的新的量子算法,该算法可能对基于格的密码学方案构成威胁。
  9. Ten years of improvements in PostgreSQL’s optimizer 博文分析了过去十年 PostgreSQL 优化器的改进,展示了其在查询性能上的显著提升。
  10. Covid infections are causing IQ drops and years of brain aging, studies suggest 研究表明 COVID-19 感染可能导致长期的认知问题,如智商下降和大脑老化。

The NSA is just days away from taking over the internet #

https://twitter.com/Snowden/status/1779920066840055847

根据推特链接的内容,Edward Snowden 提到"NSA 距离接管互联网只有几天的时间,但这并没有出现在任何报纸的头版上,因为没有人注意到。"。

此推文指出了 NSA(美国国家安全局)可能会接管互联网的情况,但这一重要信息并未引起广泛关注。Elizabeth Goitein 在回复中提到,如果某项法案通过,任何提供任何服务的公司或个人都可能被迫协助 NSA 进行监视,只要他们可以访问传输或存储通信的设备,如路由器、服务器、基站等。


HN 评论 363 comments | 作者:croes | 14 hours ago #

https://news.ycombinator.com/item?id=40062271

评论中的观点归纳如下:

    1. 对议员 Turner 的看法:将禁止对美国公民进行无需许可的监视解读为保障“对手的宪法权利”;
    1. 对修正案的看法:修正标点符号而不澄清修改的影响或含义似乎很糟糕,类似于阅读没有消息的 git 提交;
    1. 对共和党议员的看法:支持 FISA 保持完整性,即历史上的共和党保守派;
    1. 对 FISA 的看法:FISA 是一个橡皮图章,被滥用来监视政治对手和记者,根本不应存在;
    1. 对政府机构的看法:政府机构被滥用,应对违法行为负责,根除不良政策;
    1. 对民主和共和制度的看法:美国政府过于庞大,应大幅缩减,回归宪法规定的联邦政府职能。

Stop Acting Like You’re Famous #

https://ajkprojects.com/stopactinglikeyourefamous

这个网页的标题是“Stop Acting Like You’re Famous”,内容主要是关于如何在休闲活动中给自己建议。文章指出你并不是名人,所以无需为一个不存在的观众优化任何活动或创作,而是专注于让自己享受这些活动。

如果想尝试手工艺或艺术爱好,应专注于掌握技能并享受它所提供的多样性。不需要建立个人风格,也不需要为自己的作品打造一个围绕着黑白照片的 Instagram 品牌。

文章强调功能比设计更重要,如果不喜欢设计过程,可以让作品看起来丑陋,因为设计是为观众而做的,而你并没有观众。博客写作是有趣且治疗性的,语法和编辑并不重要,只要思路连贯即可。

最重要的是享受写作过程。最糟糕的事情是对任何活动幻想如何从中赚钱,这会让你为错误的事情进行优化,剥夺其中的乐趣。最后,找到一件你喜欢的事情并因为喜欢而去做,可以为自己设定一些目标,但不要为“观众”而设定。


HN 评论 253 comments | 作者:ashleynewman | 20 hours ago #

https://news.ycombinator.com/item?id=40059887

评论中的观点归纳如下:

1)强调努力工作和重视技能的重要性;

2)对于个人爱好,应该专注于享受过程而不是追求名利;

3)警惕过度商业化个人爱好可能带来的负面影响;

4)对于追求卓越和追求回报之间的平衡存在不同看法;

5)在创作中追求完美与享受创作过程之间的平衡;

6)对于是否将个人爱好商业化存在不同观点;

7)强调做自己喜欢的事情,享受其中的乐趣。


Mixtral 8x22B #

https://mistral.ai/news/mixtral-8x22b/

这篇文章介绍了 Mistral AI 最新发布的开放模型 Mixtral 8x22B。这个模型在 AI 社区内树立了性能和效率的新标准。它是一种稀疏专家混合模型,仅使用了 141B 参数中的 39B 活跃参数,为其规模提供了无与伦比的成本效率。Mixtral 8x22B 具有以下优势:

  • 在英语、法语、意大利语、德语和西班牙语方面表现流利
  • 具有强大的数学和编码能力
  • 本地支持函数调用;结合在 La Plateforme 上实施的受限输出模式,这使得应用开发和技术堆栈现代化能够规模化
  • 具有 64K 令牌上下文窗口,允许从大型文档中精确提取信息

Mistral AI 采用 Apache 2.0 开源许可证发布 Mixtral 8x22B,以促进 AI 领域的创新和合作。该模型提供了无与伦比的成本效率,为其规模提供了最佳性能与成本比。Mixtral 8x22B 是 Mistral 开放模型系列的自然延续,其稀疏激活模式使其比任何密集的 70B 模型更快,同时比任何其他开放权重模型(根据宽松或严格许可证分发)更具能力。基础模型的可用性使其成为优秀的微调用例基础。

该文章还提到 Mixtral 8x22B 在常识、推理和知识基准测试中进行了优化,具有多语言能力,并在编码和数学任务中表现最佳。最新发布的 Mixtral 8x22B 版本在数学性能方面表现更佳,GSM8K maj@8 得分为 90.8%,Math maj@4 得分为 44.6%。

您可以在 La Plateforme 上探索 Mixtral 8x22B,并加入 Mistral 开发者社区,共同定义 AI 领域的未来。


HN 评论 209 comments | 作者:meetpateltech | 9 hours ago #

https://news.ycombinator.com/item?id=40064736

这篇帖子中的评论观点归纳如下:讨论了 Mixtral 8x22B 模型的性能和用途,包括对不同模型版本的比较、模型的训练方式和效果、模型的适用性和性能需求,以及与其他模型的对比和评价。同时还涉及到模型的许可证问题、硬件需求和使用场景等方面的讨论。


How many bathrooms have Neanderthals in the tile? #

https://johnhawks.net/weblog/how-many-bathrooms-have-neandertals-in-the-tile/

这篇文章讨论了一位 Reddit 用户在父母家新安装的石灰华地板上发现了一块古老下颚骨化石的故事。

这位 Reddit 用户是一名牙医,他在父母家看到新安装的石灰华地板时立即认出了这块化石。文章提到了一些其他发现在石灰华中的古人类化石,以及石灰华的形成过程和特点。

石灰华是一种在天然泉水附近形成的石灰岩,常常包含各种化石,包括古人类化石。文章还提到了一些其他发现在石灰华中的古人类化石的例子,以及这些发现对人类学和古生物学的重要性。

文章指出,许多古人类化石的发现都是因为开采石灰华沉积物用于建筑。最后,文章强调了工业过程和建筑工程对考古和化石记录的重要性,以及发现古人类化石后应该如何处理的建议。


HN 评论 178 comments | 作者:Luc | 11 hours ago #

https://news.ycombinator.com/item?id=40063367

评论中的观点归纳如下:

    1. 有人分享了参观考古遗址 Bilzingsleben 的经历,推荐对科学感兴趣的人前往参观;
    1. 有人提到在布加勒斯特的地铁站铺设了大量含有化石的大理石,分享了照片;
    1. 有人对大理石和钙华在酒店等场所的应用感到沮丧,认为这些材料经历了漫长的形成过程后却被用于短暂的装饰;
    1. 有人指出几乎所有材料都来自于经历了数百万年静止的事物,如金属、塑料、石油等;
    1. 有人讨论了可替代性材料的重要性,指出一些材料可以相对较快地再生,甚至可以从空气和光中制造塑料;
    1. 有人提到几乎所有使用过的物品多年后都会被丢弃在垃圾填埋场;
    1. 有人讨论了大理石等材料的再利用,分享了一些公司销售再生大理石板的信息;
    1. 有人分享了关于使用旧大理石板的讨论,认为这些材料可以有多次用途;
    1. 有人提到波尔德市有鼓励拆除而非拆毁房屋的激励措施,售卖拆除的材料;
    1. 有人讨论了石英等材料的再利用,指出一些石英台面实际上是廉价的复合材料;
    1. 有人分享了可以通过 CT 扫描来定位石块内部的化石,以便进行提取规划;
    1. 有人提到使用地质雷达可以可视化化石,但材料的导电性会影响分辨率和范围;
    1. 有人讨论了通过 CT 扫描来定位化石的方法,指出一些石材公司已经自动化切割和检查表面的过程;

ChatControl: EU ministers want to exempt themselves #

https://european-pirateparty.eu/chatcontrol-eu-ministers-want-to-exempt-themselves/

根据法国新闻机构 Contexte 泄露的最新草案内容,欧盟内政部长们希望豁免情报机构、警察和军队工作人员的专业账户免受聊天和消息扫描(第 1 条(2a))的规定。草案还规定不适用于“机密信息”(第 1 条(2b)),欧盟各国政府拒绝了新的欧盟儿童性虐待规定中提出的新欧盟儿童保护中心应支持他们预防儿童性虐待并制定预防倡议的最佳实践(第 43(8)条)的想法。

欧盟内政部长们希望豁免警察、士兵、情报人员甚至他们自己免受聊天控制扫描的事实表明,他们清楚地知道他们希望释放给我们公民的窥探算法是多么不可靠和危险,评论海盗党欧洲议会议员 Patrick Breyer。他们似乎担心即使与儿童性虐待无关的军事机密也可能随时传送到美国。政府通信的保密性当然很重要,但同样也适用于保护商业和当然包括公民通信,包括受害者自己需要进行安全交流和治疗的空间。我们知道,今天的自愿窥探算法泄露的大多数聊天内容对警察来说并不重要,例如家庭照片或自愿性交流。令人震惊的是,欧盟内政部长们自己不愿承受他们正在强加给我们的通讯数字隐私和安全加密破坏的后果。

“承诺专业秘密不受聊天控制影响的说法是用段落编造的谎言。没有提供者和算法能够知道或确定聊天是否是与医生、治疗师、律师、辩护律师等进行,以便将其豁免于聊天控制之外。聊天控制不可避免地会威胁泄露出为医疗目的发送的亲密照片和为保护受虐待受害者而发送的审判文件。”

“欧盟内政部长们拒绝制定防止儿童性虐待的最佳实践,这对官方目标保护儿童构成了嘲弄。这项法案的目的显然是中国式的大规模监视,而不是更好地保护我们的孩子。真正的儿童保护需要系统科学评估和实施跨学科预防计划,以及欧洲范围内的刑事调查标准和指南,包括受害者的识别和必要的技术手段。欧盟各国政府希望在 6 月初通过聊天控制法案。"


HN 评论 178 comments | 作者:Sami_Lehtinen | 12 hours ago #

https://news.ycombinator.com/item?id=40063025

这篇帖子中的评论观点归纳如下:

有人认为应该对起草这项法律的人进行强制执行,让他们也感受到隐私被侵犯的恐惧;

另一些人认为权力越大,隐私就应该越少;

还有人指出政客试图豁免自己,表明他们意识到提案的负面后果,但这并非正确解决方案,只是意识到问题的过渡阶段;

另外,有人认为欧盟机构试图通过儿童色情作为借口创建大陆范围的监控计划。


Embeddings are a good starting point for the AI curious app developer #

https://bawolf.substack.com/p/embeddings-are-a-good-starting-point

这篇文章讨论了向 AI 应用程序开发人员介绍嵌入式向量(Embeddings)的重要性。作者分享了他对嵌入式向量的体验,认为它们是一种突破性的技术,使搜索体验变得更加直观和自然。嵌入式向量是数字数组,但包含了大量人类知识的压缩形式,将原本需要专门项目开发的功能转化为产品工程师可以处理的任务。

文章提到了使用嵌入式向量的工具选项,重点介绍了一些关键观点:

嵌入式向量适用于搜索和推荐,因为它们擅长衡量与任意输入的相似性。 Pgvector 是一个 Postgres 扩展,可以存储和查询嵌入式向量,无需添加新服务,可以将标准 SQL 逻辑与嵌入式操作结合起来。 作者分享了一个小型图标应用程序的构建过程,展示了如何利用嵌入式向量实现图标搜索和推荐功能。

此外,文章还涵盖了关于嵌入式模型的选择、如何对图标数据进行编码、搜索结果排序算法等方面的内容。作者强调了嵌入式向量的重要性,以及如何结合数据库功能实现更高效的搜索和推荐功能。整体而言,这篇文章为 AI 应用程序开发人员提供了关于嵌入式向量的详细介绍和实际应用建议。


HN 评论 116 comments | 作者:bryantwolf | 6 hours ago #

https://news.ycombinator.com/item?id=40067486

  • 评论中提到了使用嵌入是 AI 应用开发者的良好起点,建议直接安装句子转换器和 faiss 库进行有趣的项目。
  • 评论中提到了一种简单的嵌入方法,通过对文本中的单词进行索引和计数来生成嵌入,然后使用余弦相似度进行比较。
  • 讨论了嵌入的关键属性是每个维度都有意义,使得两个嵌入的点积成为表示事物相似度的有意义指标。
  • 评论中讨论了使用增量索引和计数来创建词袋文本嵌入,以及如何使用余弦相似度进行比较。
  • 评论中提到了使用嵌入进行语义搜索,以及如何在本地运行嵌入逻辑,避免依赖外部 API。
  • 讨论了使用嵌入进行文本聚类和风格特征捕捉的可能性。
  • 提到了嵌入的限制和使用场景,以及不同数据库和工具的比较和应用建议。

An electric new era for Atlas #

https://bostondynamics.com/blog/electric-new-era-for-atlas/

这篇文章介绍了波士顿动力公司发布的全新电动 Atlas 机器人,标志着一个新时代的开始。这款全新的 Atlas 机器人是为实际应用而设计的,构建在数十年的机器人研发和实践经验基础之上。Atlas 项目的下一代将继续秉承波士顿动力公司致力于提供最具能力和实用性的移动机器人,解决当今工业中最棘手挑战的承诺,与 Spot、Stretch 一同开启新篇章。

文章提到,波士顿动力公司过去十年一直是少数投入真正研发工作于人形机器人的公司之一。现在,机器人行业的格局已经大不相同。客户们通过 Spot 和 Stretch 取得了成功,他们渴望用 Atlas 挑战下一个挑战。波士顿动力公司有着成功商业化的记录,对于不仅仅创造令人印象深刻的研发项目,而是提供有价值的解决方案充满信心。

此外,文章还提到了 Atlas 机器人的电动版本将比以往任何一代都更强大,具有更广泛的运动范围。除了提供行业领先的硬件外,波士顿动力公司在软件方面也取得了令人振奋的进展。他们配备了新的人工智能和机器学习工具,如强化学习和计算机视觉,以确保机器人能够高效运作和适应复杂的现实情况。

总的来说,这篇文章详细介绍了波士顿动力公司的全新电动 Atlas 机器人,展示了他们在机器人领域的创新和发展,以及对未来的展望和计划。


HN 评论 334 comments | 作者:colinramsay | 10 hours ago #

https://news.ycombinator.com/item?id=40064105

评论中的观点归纳如下:

    1. 对于维护机器人的维护问题,需要考虑维修难度和维修成本,提倡维修权利。
    1. 认为维修权利对于机器人技术比汽车或通用计算技术更为重要。
    1. 认为公司不愿意放弃技术优势,可能会限制维修权利。
    1. 讨论了手机和拖拉机等设备的维修难度和限制。
    1. 讨论了机器人维修和控制问题,以及公司对维修性的控制。
    1. 讨论了机器人的复杂性和维修问题。
    1. 讨论了机器人自我复制的潜在影响。
    1. 讨论了机器人在制造业中的应用和潜力。
    1. 讨论了机器人维修对就业的影响。
    1. 讨论了机器人的外观和设计。
    1. 讨论了机器人在科幻电影中的形象。
    1. 讨论了机器人的潜在用途和技术进步。

A quick post on Chen’s algorithm #

https://blog.cryptographyengineering.com/2024/04/16/a-quick-post-on-chens-algorithm/

这篇博文是由 Matthew Green 撰写的,介绍了一个由 Yilei Chen 撰写的新的电子打印版《量子算法用于格问题》,这一消息在密码学研究社区引起了轰动。文章提到,现在专家们正在评估这一结果,如果结果成立,将对应用密码学社区带来不好的消息。文章简要介绍了以下五个要点:

密码学家喜欢基于被认为是“困难”的数学问题构建现代公钥加密方案。目前大多数方案基于三个问题:因子分解(RSA 加密系统)、离散对数(Diffie-Hellman、DSA)和椭圆曲线离散对数问题(EC-Diffie-Hellman、ECDSA 等)。 虽然我们希望我们喜欢的问题在本质上是“困难”的,但研究人员已经设计出了有效解决这些问题的算法,只要有人找到了如何构建足够强大的量子计算机来运行攻击算法。幸运的是,目前还没有建造出这样的计算机!

即使量子计算机目前还不足以破解我们的公钥加密,未来量子攻击的威胁已经激发了行业、政府和学术界联合起来解决这个问题。这不仅仅是为了未来保护我们的系统:即使量子计算机需要数十年才能建造,未来的量子计算机也可能破解我们今天发送的加密消息!

一个显著的结果是 NIST 的后量子密码(PQC)竞赛:这是一个旨在标准化“后量子”密码方案的公开竞赛。关键是,这些方案必须基于不同的数学问题,尤其是那些似乎不容易找到有效的量子解决方案的问题。 在这一新方案集中,最受欢迎的方案类别是基于与数学对象称为格相关的问题。基于格问题的 NIST 批准方案包括 Kyber 和 Dilithium。格问题也是几种高效完全同态加密(FHE)方案的基础。

文章还介绍了 Chen 的(尚未经同行评审)预印本声称在具有特定参数的格中有效解决“最短独立向量问题”(SIVP,以及 GapSVP)的新量子算法。如果结果成立,未来量子计算机可能会破解依赖于这些问题特定实例的困难性的方案。文章指出,即使结果是正确的,易受攻击的参数也是非常具体的,并且 Chen 的算法并不立即适用于最近标准化的 NIST 算法,如 Kyber 或 Dilithium。文章强调,攻击只会变得更好,如果 Chen 的结果可以改进,量子算法可能会使整个“后量子”基于格的方案变得过时,迫使密码学家和行业重新开始。

文章提到作者不是格基密码学或量子计算方面的专家,而真正了解这些领域的人正在忙于验证这篇文章。文章提供了一些相关的链接,以便读者了解最新的发展。


HN 评论 49 comments | 作者:feross | 1 day ago #

https://news.ycombinator.com/item?id=40056640

这篇帖子中的评论观点主要包括:对密码学领域的新算法和技术的探讨、基于哈希函数的安全性讨论、基于格的密码学方案的应用、对 McEliece 密码系统的评价、关于 NP 难题和量子计算的讨论、以及对全球变暖和量子计算紧迫性的比较。


Ten years of improvements in PostgreSQL’s optimizer #

https://rmarcus.info/blog/2024/04/12/pg-over-time.html

这篇博文讨论了过去十年中 PostgreSQL 优化器的改进情况。作者作为一名查询优化研究员,花费了过去 10 年的时间与 PostgreSQL 这个最复杂的开源查询优化器进行研究、学习和构建。

作者最近想知道自从他开始研究数据库以来,PostgreSQL 在这十年间改进了多少。虽然变更日志和观点文章很多,但作者并没有找到强有力的实证比较,因此决定在 PostgreSQL 8 到 16 上运行连接顺序基准测试(JOB),记录每个数据库版本的第 90 百分位查询延迟。

作者使用 GCC 13.2 在 Arch Linux 的 Docker 容器中构建了每个 PostgreSQL 版本,为了衡量查询优化器的质量而非索引/IO 性能,将 shared_buffers 设置为 8GB(足够容纳整个数据库),并为所有版本设置 work_mem 为 8MB。总体而言,PostgreSQL 的尾部性能有了显著改进,尽管版本 13 到 16 基本保持稳定。

将 PostgreSQL 8 与 16 版本进行比较,过去 10 年中 PostgreSQL 的优化器尾部延迟几乎减少了一半!作者还通过回归分析发现,每个新的 PostgreSQL 主要版本平均带来了 15% 的 Join Order Benchmark 性能改进。然而,线性模型可能不是衡量变化的好方法。除了查询优化器外,执行引擎的改进也起到了作用,从并行工作者到即时(JIT)编译。

研究人员应注意,PostgreSQL 是一个不断发展的目标。学习的查询优化研究已经随着时间与不同版本的 PostgreSQL 进行了比较。文章还提到了升级数据库的潜力,从 PostgreSQL 8 到 16 可能大幅改善工作负载的尾部延迟。

最后,作者建议研究人员注意到 PostgreSQL 是一个不断发展的目标,因此老技术在 PostgreSQL 上的改进可能会比新技术更强。


HN 评论 57 comments | 作者:samaysharma | 20 hours ago #

https://news.ycombinator.com/item?id=40060123

  • Postgres 优化问题需要更多关于成本的数据,尤其是系统调用延迟和外键统计数据。
  • 应采用延迟或备选方案规划,尤其是对于大型和昂贵的查询。
  • 机器学习可能有改进空间,但目前的努力令人印象不佳,应用机器学习于成本发现和估算。
  • Postgres 需要更好地调整参数,如 random_page_cost,以适应硬件。
  • 缺少外键统计数据可能导致某些连接计划不佳。
  • Postgres JIT 编译器在某些情况下可能降低查询性能,有人建议禁用它。
  • Postgres 优化主要在算法级别进行,选择最佳算法和执行顺序。
  • 有关 Postgres 查询优化的更多信息可参考相关书籍和在线资源。

Covid infections are causing IQ drops and years of brain aging, studies suggest #

https://www.cbc.ca/radio/quirks/long-covid-brain-1.7171918

这篇文章讨论了 COVID-19 对大脑的深远影响,研究人员正在探究病毒是如何破坏血脑屏障、影响脑容积,并显示即使是轻微的 COVID 病例也可能导致相当于大脑老化七年的情况。

研究发现 COVID 感染会导致大脑皮质醇和血清素水平下降,可能导致“脑雾”等认知问题。文章还提到 COVID 感染后可能出现脑炎、智商下降以及大脑老化等问题。研究表明 COVID 感染会引起大脑炎症,影响大脑功能,甚至可能导致血脑屏障泄漏,进而影响神经功能。

随着病毒变异,研究人员发现病毒对大脑的影响也在改变,但随着疫苗和抗病毒药物的出现,长期 COVID 的风险有所降低。文章指出,COVID-19 感染可能导致长期不良健康影响,如帕金森病、头痛、脑雾等。这篇文章强调了 COVID-19 对大脑的潜在影响,以及研究人员正在努力理解这些影响并寻找解决方法。


HN 评论 250 comments | 作者:luu | 17 hours ago #

https://news.ycombinator.com/item?id=40061068

评论中的观点归纳如下:

    1. 有人认为标题误导,研究只是观察性的,并未声称因果关系;
    1. 有案例显示 COVID 后认知能力严重下降,可能导致智商降低;
    1. 有人指出 COVID 和长期 COVID 相关的负面认知影响,呼吁减少感染次数;
    1. 有人质疑使用 IQ 测试来衡量疾病影响,认为 IQ 测试并非衡量疾病影响的理想方式;
    1. 有人认为 IQ 测试主要用于衡量脑损伤,因此对脑功能受损时智商下降的情况进行了讨论。