2025-05-13 Hacker News Top Stories #

车企在开发“软件定义车辆”方面面临诸多挑战，需解决技术难题并适应新的软件开发模式和商业模式转型。

美国版权局指出AI公司可能侵犯版权，局长被解职，引发版权与AI发展的讨论。

一款约会应用存在严重安全漏洞，暴露用户隐私，开发者未能及时响应问题。

嵌入式技术在技术写作中具有潜力，但其高维空间特性使理解和解释变得更加困难。

作者通过逆向工程Windows安全中心服务API，展示了禁用Windows Defender的方法及其潜在风险。

贝尔实验室的成功源于自由管理风格和长期研究投入，但其衰落反映了现代创新环境的挑战。

连续思维机（CTM）是一种模拟神经元时间同步的新型神经网络架构，可能为实现更高智能提供新方向。

美国联邦贸易委员会推迟执行“点击取消”规则，以重新评估执行负担并保护消费者权益。

巴比肯建筑群是伦敦一处布鲁塔利斯姆风格的文化地标，以其独特设计和文化意义而闻名。

Scraperr是一个强大的自托管网页抓取工具，支持多种功能，但需遵守法律和道德指南使用。

Car companies are in a billion-dollar software war #

https://insideevs.com/features/759153/car-companies-software-companies/

汽车公司正在进行一场价值数十亿美元的软件战争，但每个人都在失利。福特最近宣布，将其下一代电气架构项目 FNV4 与现有的架构合并，这似乎证实了该项目没有按计划进行的报道。这是传统汽车制造商在开发真正的“软件定义车辆”（SDV）方面遇到的众多挫折中的又一个例子。

软件定义车辆的概念是由特斯拉发明的，第一款软件定义车辆是特斯拉 Model S。特斯拉 Model S 采用了一种新的方法，使用一个集中式的计算机来处理大多数软件任务，而不是像传统汽车那样使用多个电子控制单元（ECU）和供应商提供的软件。这种方法使得特斯拉可以更容易地更新软件并添加新功能。

然而，其他汽车制造商在开发软件定义车辆方面遇到了困难。通用汽车公司的 Vehicle Intelligence Platform（VIP）使用 CAN 总线系统和以太网连接，但该平台的软件问题导致了几款车型的发布延迟，包括 Hummer EV、Cadillac Lyriq 和 Chevy Blazer EV。沃尔沃也在其软件定义车辆平台的开发中遇到了困难，尽管其 EX90 和 EX30 车型已经发布，但仍然存在许多软件问题。

福特的 FNV4 项目原本是其下一代电气架构的重要组成部分，但由于软件问题，该项目被迫与现有的架构合并。据分析师 Sam Abuelsamid 说，福特的软件定义车辆计划已经落后于计划，公司需要加快开发速度。另一方面，沃尔沃的软件定义车辆平台虽然存在问题，但仍然是市场上最先进的平台之一。

汽车公司在软件定义车辆方面的挣扎不仅仅是技术问题，也是商业模式问题。传统汽车制造商需要适应新的软件开发模式，包括更加频繁的更新和更开放的合作。同时，汽车公司也需要解决软件安全和质量问题，以确保车辆的安全性和可靠性。

总之，汽车公司正在进行一场软件战争，各个公司都在努力开发软件定义车辆。虽然特斯拉已经取得了领先优势，但其他公司仍然面临着许多挑战，包括软件开发、商业模式转型和安全性问题。汽车公司需要加快软件开发速度，改善软件质量，并解决安全性问题，以在软件定义车辆市场中取得成功。

HN 热度 430 points | 评论 757 comments | 作者：rntn | 1 day ago #

https://news.ycombinator.com/item?id=43955525

车企在软件开发方面存在困难，不是因为缺乏软件人才，而是因为他们无法与硬件开发相结合。
车企的电子系统开发受到硬件限制，导致软件功能无法正常实现。
车企采用第三方供应商的电子系统，导致系统之间的兼容性和通信协议问题。
车企的软件开发受到供应商关系管理的制约，需要协调多个供应商的合同和兼容性问题。
车企的成本控制策略导致供应商之间的竞争，进而影响了电子系统的开发和兼容性。
车企的组织结构和激励机制导致软件开发的重要性被忽视，直到最近才被重视。
车企的电子系统开发需要统一的协议和标准，才能实现不同系统之间的无缝通信和兼容性。

US Copyright Office found AI companies breach copyright. Its boss was fired #

https://www.theregister.com/2025/05/12/us_copyright_office_ai_copyright/

美国版权局局长希拉·珀尔穆特（Shira Perlmutter）在报告发布后不久被解职，引发了人们的猜测。有人认为，这可能是因为她拒绝为埃隆·马斯克的 AI 项目提供方便，马斯克曾表示希望使用大量的版权作品来训练他的 AI 模型。也有可能是因为白宫对版权局的多元化和包容性政策不满。

报告的发布引发了人们对 AI 和版权的讨论，许多创作者和艺术家呼吁政府保护他们的权利。同时，AI 公司也在寻找解决方案，例如支付版权费或使用合法的数据来源。这个问题的解决需要平衡创作者的权利和 AI 的发展需求。

此外，美国政府也在考虑相关的立法，例如《TAKE IT DOWN Act》，该法案旨在保护在线言论自由，但其条款被认为过于宽泛。同时，印度和新西兰等国也在考虑如何规范 AI 和社交媒体的使用，包括要求社交媒体平台对用户进行年龄验证和内容审查。这些举措表明，各国政府正在努力应对 AI 和数字技术带来的挑战。

HN 热度 388 points | 评论 316 comments | 作者：croes | 11 hours ago #

https://news.ycombinator.com/item?id=43961247

如果美国限制 AI 公司使用版权作品，其他国家可能不会遵守，这可能会导致美国在 AI 领域落后。
企业不应享有双重标准，一方面要求保护版权，另一方面又侵犯他人的版权。
大型企业和富人可以肆无忌惮地侵犯版权，而普通人却会受到起诉和罚款。
AI 获取版权作品的目的是什么，如果只是为了提高创作能力，可能并不值得，因为这可能会导致更多的抄袭和侵犯版权。
使用版权作品训练 AI 可能会使其更擅长复制和抄袭，而不是真正提高其智能和创造力。
如果 AI 可以使用版权作品，可能会导致文化和知识的共享和传播，但也可能会导致版权所有者的权益受损。
限制 AI 使用版权作品可能会阻碍其发展和应用，但也可能会保护版权所有者的权益和促进创造性作品的产生。

I hacked a dating app (and how not to treat a security researcher) #

https://alexschapiro.com/blog/security/vulnerability/2025/04/21/startups-need-to-take-security-seriously

本文介绍了一个名为 Cerca 的约会应用程序存在严重的安全漏洞，允许攻击者访问用户的个人信息，包括私人消息、护照信息、性取向等。作者是一名大学生，在测试该应用程序时发现了这些漏洞。他使用 Charles Proxy 拦截网络请求，发现了一次性密码（OTP）直接在响应中返回，这意味着任何人都可以使用仅凭电话号码访问其他用户的账户。

为了进一步探索这些漏洞，作者使用目录扫描工具枚举了 API 端点，并发现了一个名为/docs 的端点，该端点提供了一个 openapi.json 文件，暴露了所有端点。使用 Burp Suite 工具，作者可以访问未受保护的端点，包括获取用户个人资料的端点，该端点返回了大量的个人信息，包括电话号码、电子邮件、大学信息等。

作者还发现，应用程序存储了用户的护照或身份证信息，这些信息也可以被访问。通过编写一个 Python 脚本，作者能够枚举出超过 6,000 个有效的用户 ID，并发现 207 个用户提交了身份证信息。这些漏洞使得攻击者可以进行账户接管、身份盗窃、跟踪和勒索等恶意行为。

作者尝试联系 Cerca 的团队报告这些漏洞，但除了初步的确认外，团队没有进一步回应。因此，作者决定发表这篇文章，以警告用户注意这些安全风险，并强调了开发者需要优先考虑用户数据安全的重要性。文章强调，这些漏洞不仅仅是技术问题，也是对用户隐私和安全的严重威胁。

HN 热度 360 points | 评论 198 comments | 作者：bearsyankees | 4 hours ago #

https://news.ycombinator.com/item?id=43964937

应该对开发 Dating App 的公司进行监管和处罚，以保护用户的个人信息和隐私。
软件开发应该有类似于建筑工程的许可和监管制度，以确保开发者的专业性和对用户的责任。
开发者在发现安全漏洞后应该及时响应和修复，而不是忽视或敷衍。
如果开发者没有足够的安全知识和经验，就不应该开发处理敏感信息的应用程序。
应该对开发者和公司进行责任追究和赔偿，当他们的疏忽或故意行为导致用户信息泄露或损害。
监管和法律应该加强对应用程序开发和数据保护的监管，以防止类似的事件发生。
开发者应该优先考虑用户的安全和隐私，而不是快速推出产品和追求利润。

Embeddings are underrated #

https://technicalwriting.dev/ml/embeddings/overview.html

本文讨论了嵌入式技术（embeddings）在技术写作中的潜在应用。嵌入式技术是一种机器学习方法，能够将文本转换为数字向量，从而可以比较和分析不同文本之间的语义关系。作者认为，嵌入式技术可能会对技术写作产生重大影响，因为它可以帮助技术写作者发现文本之间的联系和关系。

要使用嵌入式技术，需要输入文本数据，嵌入式模型会输出一个数字数组，代表该文本在高维空间中的位置。这个数字数组可以被用来比较不同文本之间的相似度和差异。作者举例说明了如何使用 Gemini 嵌入式模型生成嵌入式数组，并讨论了不同嵌入式模型的优缺点。

嵌入式技术的工作原理是将文本转换为高维空间中的点，每个点代表一个文本的语义位置。通过比较不同点之间的距离，可以确定文本之间的语义关系。作者使用了一个二维地图的例子来说明嵌入式技术的工作原理，并指出嵌入式技术实际上是在高维空间中工作的。

嵌入式技术有许多潜在的应用，包括文本分类、聚类和检索。作者还讨论了嵌入式技术的环境影响和成本，并指出生成嵌入式数组的成本相对较低，但训练嵌入式模型可能需要大量的计算资源。

总的来说，本文介绍了嵌入式技术的基本原理和应用，讨论了其在技术写作中的潜在价值和挑战。作者希望通过本文让读者了解嵌入式技术的潜力和局限性，并鼓励读者进一步探索和应用这一技术。

HN 热度 359 points | 评论 114 comments | 作者：jxmorris12 | 6 hours ago #

https://news.ycombinator.com/item?id=43963868

Embeddings 的工作原理很难被直观地理解，因为它们操作在高维空间中，人类难以想象。
Embeddings 中的维度与概念之间没有一一对应的关系，而是通过方向和维度的组合来表示复杂的概念。
使用高维空间可以使得 embeddings 能够“容纳”大量的概念，但也使得理解和解释变得更加困难。
词嵌入（word embeddings）在处理语境和细微差别时存在局限性，现代的 transformer 模型能够更好地捕捉语境和语义意义。
Embeddings 的可视化和解释需要谨慎，因为高维空间中可以找到多种投影方式，使得结果看起来很有道理，但实际上可能并不准确。
Embeddings 的应用需要考虑到其局限性和潜在的偏差，避免过度依赖单一的模型或方法。

I ruined my vacation by reverse engineering WSC #

https://blog.es3n1n.eu/posts/how-i-ruined-my-vacation/

这篇文章讲述了作者如何通过逆向工程 Windows 安全中心（WSC）服务 API 来禁用 Windows Defender。作者回顾了一年前发布的一个名为 no-defender 的工具，该工具使用第三方代码来注册一个假的防病毒软件，从而禁用 Windows Defender。然而，该项目因 DMCA 投诉而被删除。

作者在韩国旅行期间，收到了一位朋友的消息，询问是否可以创建一个干净的 no-defender 实现。作者开始研究 WSC 服务 API，并使用一个参考实现来重建 WSC 注册过程。然而，作者遇到了访问被拒绝的错误，怀疑 WSC 服务 API 正在验证调用过程的签名。

作者尝试将代码注入到 WSC 服务 API 调用的进程中，并注册一个新的防病毒软件。然而，这种方法也失败了，作者决定进行更深入的逆向工程。作者使用了一台虚拟机和调试工具来分析 WSC 服务 API 的实现，发现了一个名为 WscServiceUtils::CreateExternalBaseFromCaller 的函数，该函数负责验证调用过程的签名。

作者继续分析 WSC 服务 API 的实现，发现了一个名为 PPL（Protected Process Light）的保护机制，该机制阻止调试器附加到 WSC 服务 API 进程。作者使用了一段内核模式代码来移除 PPL 保护，终于能够附加调试器到 WSC 服务 API 进程。作者的分析结果表明，WSC 服务 API 的实现非常复杂，需要进行更多的研究来完全理解其工作原理。

HN 热度 324 points | 评论 164 comments | 作者：todsacerdoti | 17 hours ago #

https://news.ycombinator.com/item?id=43959403

禁用 Windows Defender 可以通过重命名程序文件夹或使用本地组策略来实现，但这种方法可能会被 Windows Update 逆转。
删除或重命名系统文件是最直接的方法，但这种方法可能会被 Windows Update Repair 逆转。
使用 Linux 系统可以避免 Windows 的各种限制和问题。
Windows 系统的安全性取决于用户的行为，禁用 Windows Update 和 Windows Defender 不一定会增加系统的风险。
浏览器是系统安全的关键，保持浏览器更新是非常重要的。
使用组策略可以禁用 Windows Defender，但这种方法可能不适用于所有 Windows 版本。
禁用 Tamper Protection 可以防止 Windows Defender 被重新启用。
Windows 系统的安全性取决于整个网络的安全性，如果大多数机器都没有打补丁，系统就容易受到攻击。

Why Bell Labs Worked #

https://1517.substack.com/p/why-bell-labs-worked

《为什么贝尔实验室成功》这篇文章探讨了贝尔实验室的辉煌历史以及它在现代社会中的衰落，分析了造成这一变化的深层原因。

文章开头提到，贝尔实验室（Bell Labs）被视为创新的象征，吸引了许多追求卓越的人。它的创始人亚历山大・格雷厄姆・贝尔具有广泛的研究兴趣，并采用了一种启发式的管理风格，这种风格在贝尔实验室中得以延续。贝尔实验室的第二任领导人默文・凯利（Mervin Kelly）则在 1920 年代末和 1930 年代初开始积极招募各种人才，建立了一支追求知识和创新的团队。

文章详细列举了贝尔实验室在二战期间的诸多成就，包括改进英国的磁控管、开发 “巴祖卡”、制造半自动化的电子计算机等。凯利的管理理念强调给予科研人员自由，让他们自主选择研究项目，而不是进行微观管理。他认为，过于关注上级的期望会对创造力产生抑制。

然而，随着 AT&T（母公司）及其贝尔实验室的衰落，文章指出，贝尔实验室并不是简单地在 AT&T 衰退后消亡，而是受到了信息时代的影响。在与其同时代的科技公司中，尽管这些公司在研究上投入了巨额资金，但并没有复制出贝尔实验室的创新模式。此外，学术界的现状也在逐渐恶化，科研人员花费大量时间申请资助而不是进行实际研究，这种状况导致了创新的缺失。

文章进一步分析了现代社会的 MBA 文化，强调在当今以绩效为导向的环境中，过分强调指标和问责制会抑制创造力。贝尔实验室的成功在于给予聪明的人极大的自由和自主权，允许他们 “浪费时间”，进行探索性研究。这种自由使得像克劳德・香农（Claude Shannon）这样的科学家能够追随自己的兴趣，而不被物质回报所驱动。

最终，作者指出，重建贝尔实验室的成功需要一种新的思维方式 —— 关注人和问题的选择，并为他们提供一个能够自由交流、合作与成长的环境。文章提到，在 1517 基金会工作的体验让作者看到了一种类似贝尔实验室的潜力，因为基金会的合伙人们理解如何创造一个开放的探索空间。

总结而言，文章不仅回顾了贝尔实验室的辉煌历史，也深入探讨了现代科研与创新环境的不足，呼吁更多的组织学习贝尔实验室的成功经验，以促进未来的创新。

HN 热度 308 points | 评论 213 comments | 作者：areoform | 1 day ago #

https://news.ycombinator.com/item?id=43957010

贝尔实验室的成功是因为其独特的资金模式和战略性研究投资
当今科学界面临着过剩的科学家，导致难以判断潜力和产生重大影响
科学界的过剩问题是由于过多的科学家从事非科研工作或产生负面影响的研究
MBA 管理模式的出现是由于社会阶级现象和语言问题，而不是有效的管理
过去的科学成就看似容易，但是在当时却是具有挑战性的
科学界的发展需要考虑到系统性原因和历史背景，而不是简单地归咎于某一因素
科学研究需要长期投资和稳定的资金支持，而不是短期的预期回报
贝尔实验室的衰落是由于 AT&T 的垄断地位被打破和资金支持的减少
当今的科学研究面临着巨大的竞争和资金压力，需要新的模式和策略来解决这些问题

Continuous Thought Machines #

https://pub.sakana.ai/ctm/

该网页介绍了一种新的神经网络架构，称为连续思维机（Continuous Thought Machine，CTM）。CTM 的设计目的是将神经元的时间同步作为其核心组成部分，以模拟生物大脑的神经动力学。传统的神经网络通常忽略神经元的时间动态，而 CTM 则通过引入一个内部维度来模拟神经元的时间演化。

CTM 的工作原理是通过一个递归过程来处理数据，在每个步骤中，神经元的激活值会被记录下来，并用于计算神经元之间的同步性。这种同步性被用作 CTM 的表示形式，以观察和预测数据。CTM 的设计灵感来自生物大脑的神经动力学，特别是时序依赖的可塑性和神经振荡。

研究人员认为，当前的神经网络虽然在很多任务上表现出色，但仍然缺乏生物大脑的灵活性和普遍性。他们认为，时间同步是生物大脑智能的关键组成部分，而 CTM 的设计正是为了弥补这一缺陷。CTM 的创新之处在于其内部维度的设计，使得神经元的时间同步成为其核心组成部分。

CTM 的应用包括迷宫求解等任务，研究人员提供了一个在线演示，展示了 CTM 如何通过递归过程来求解迷宫。CTM 的结果表明，其性能优于传统的神经网络，且其内部维度的设计使得其能够更好地模拟生物大脑的神经动力学。

总的来说，CTM 是一种新的神经网络架构，其设计目的是模拟生物大脑的神经动力学，特别是时间同步。CTM 的创新之处在于其内部维度的设计，使得神经元的时间同步成为其核心组成部分。研究人员认为，CTM 有可能弥补当前神经网络的缺陷，实现更高的智能水平。

HN 热度 275 points | 评论 31 comments | 作者：hardmaru | 18 hours ago #

https://news.ycombinator.com/item?id=43959071

这篇论文令人担忧，因为它没有承认生物学上可行的脉冲、时间依赖的人工神经网络的研究成果。
作者将单个突触整合步骤称为“思考”，这可能会让很多人感到困惑。
有人认为这篇论文没有对现有研究进行足够的引用和承认。
有人建议分享一些关于神经科学启发的算法概念和实现细节的书籍和论文。
有人提到了几个相关的论文和研究成果，包括 Maass 2002、Sussillo & Abbott 2009 等。
作者使用“思考”这个术语来描述网络范围的内部循环，而不是单个突触整合步骤。
有人认为这篇论文可能是由 Jürgen Schmidhuber 写的。
有人讨论了时间的概念在脑和身体中的重要性，以及生成有序序列的作用。
有人认为最近的研究成果可能会让人工智能更接近奇点。
有人对最近的研究成果持怀疑态度，认为还需要更多的研究和试验才能取得突破。
有人提到了 InceptionLabs 最近的研究成果，使用扩散模型加速推理速度。
有人认为当前的算法还不能让模型表现得很好，尤其是在时间序列强化学习方面。

The FTC puts off enforcing its ‘click-to-cancel’ rule #

https://www.theverge.com/news/664730/ftc-delay-click-to-cancel-rule

美国联邦贸易委员会（FTC）原本计划于 5 月 14 日开始执行其“点击取消”规则的剩余条款，要求订阅服务的取消过程必须与注册过程一样简单。然而，FTC 现宣布将推迟执行该规则至 7 月 14 日。该规则被称为“负面选择规则”，禁止公司为客户设置不同于注册过程的取消流程。如果可以在线注册，客户也必须能够在线取消订阅。

FTC 表示，决定推迟执行该规则是因为重新评估了强制执行该规则的负担。FTC 以 3-0 的投票结果决定推迟执行，但由于两名委员因被特朗普非法解职而缺席，投票结果可能受到影响。FTC 表示，从新截止日期开始，受监管的实体必须遵守整个规则，因为委员会将开始执行它。然而，FTC 也表示可能会修改规则的条款，如果执行该规则暴露了任何问题。

此外，FTC 还提到，新的截止日期将使公司有足够的时间来调整其取消订阅的流程，以满足新的要求。FTC 的这一决定可能会对许多订阅服务公司产生影响，因为它们需要修改其取消订阅的流程，以满足新的要求。同时，FTC 也表示将密切监视公司的执行情况，以确保他们遵守新的规则。

值得注意的是，FTC 的“点击取消”规则是为了保护消费者权益而制定的，旨在使取消订阅的过程更加简单和透明。通过推迟执行该规则，FTC 给了公司更多的时间来调整其流程，但也可能会导致消费者在短期内仍然面临取消订阅的困难。因此，消费者需要继续关注 FTC 的最新动态，以确保自己的权益得到保护。

HN 热度 272 points | 评论 165 comments | 作者：speckx | 8 hours ago #

https://news.ycombinator.com/item?id=43962528

美国的消费者保护法对合同的约束力过弱，导致企业可以通过设置障碍来阻止客户取消服务
客户服务中心的工作人员可能没有权限取消服务，或者会转接客户到其他部门，导致客户取消服务的过程变得复杂和耗时
部分客户建议直接发送注册信或认证邮件来取消服务，但这种方法可能不被企业认可
有些人认为可以通过创建临时信用卡号码来取消服务，但这种方法可能并不适用于所有信用卡
部分人建议在取消服务时直接要求与主管或美国的客户服务中心通话，以避免被转接到其他部门
美国的消费者保护法应该更加完善，企业应该提供更方便的取消服务方式
部分人认为，可以通过停止支付来取消服务，但这种方法可能会导致企业追讨债务
有些国家的法律对消费者更为友好，允许客户无需理由取消服务，而企业需要自行追讨债务

The Barbican #

https://arslan.io/2025/05/12/barbican-estate/

作者 Fatih Arslan 在三年前偶然发现了巴比肯（Barbican）建筑群，并对其产生了浓厚的兴趣。巴比肯是位于伦敦的一座建于 1965 年至 1976 年之间的建筑群，作者认为它是一座美丽的建筑。作者通过观看 YouTube 视频和阅读书籍对巴比肯进行了深入的了解，并有机会参观了这座建筑。

在参观巴比肯期间，作者参加了一场由居民提供的建筑导览，导览者向他们介绍了许多有趣的细节。例如，巴比肯的设计使得人们容易迷路，导览者甚至开玩笑说没有小偷会来这里，因为他们会迷路。建筑群内还有一些只有居民才能进入的区域，包括地下停车场和隐藏的门道。

巴比肯的建筑风格受到了古埃及和军事建筑的影响，建筑物的命名也以著名的英语人物命名。建筑群内还有一些值得注意的细节，如圆形的埃及符号和对著名建筑师的致敬。作者还提到，巴比肯是媒体、建筑师和设计师的热门拍摄地，建筑群内还有一所音乐学校和一个类似调音叉的建筑。

作者还推荐了几本关于巴比肯的书，包括《巴比肯居民》、《巴比肯庄园》和《建设乌托邦：巴比肯中心》。这些书籍提供了更多关于巴比肯的历史、设计和居民生活的信息。作者的参观和研究使他对巴比肯有了更深入的了解，并希望通过这篇文章与读者分享他的发现。

HN 热度 266 points | 评论 101 comments | 作者：farslan | 5 hours ago #

https://news.ycombinator.com/item?id=43964136

巴比肯是伦敦一个舒适、干净、安静、美观的地区，适合居住和休闲。
巴比肯的设计初衷是减少行人流量，采用迷宫般的布局，有效地隔离了城市的喧嚣。
巴比肯的服务费较高，且采用租赁制，购买时需要考虑剩余的租赁年限。
巴比肯的音乐厅和剧院是伦敦著名的文化场所，吸引了许多游客和艺术爱好者。
巴比肯的设计风格为布鲁塔利斯姆，受到一些人的赞赏，但也有人认为它是丑陋的 eyesore。
巴比肯的保温室是伦敦的一个隐藏宝藏，需要提前预订门票才能参观。

Scraperr – A Self Hosted Webscraper #

https://github.com/jaypyles/Scraperr

Scraperr 是一个强大的自托管网页抓取解决方案。它允许用户使用 XPath 选择器从网站中提取数据。该应用程序提供了一个清晰的界面来管理抓取任务、查看结果和导出数据。

Scraperr 的主要特点包括 XPath 基础的提取、队列管理、域名爬行、自定义头部、媒体下载、结果可视化和数据导出。用户可以使用 XPath 选择器精确地目标网页元素，并提交和管理多个抓取任务。同时，Scraperr 还支持域名爬行，允许用户抓取同一域名下的所有网页。

此外，Scraperr 提供了自定义头部的功能，允许用户添加 JSON 头部到抓取请求中。它还支持媒体下载，能够自动下载图像、视频和其他媒体文件。抓取结果可以以结构化表格格式显示，并且可以导出为各种格式。

在使用 Scraperr 时，用户需要遵守法律和道德指南。包括尊重 robots.txt 文件、遵守网站的服务条款、实现合理的请求延迟以避免过载服务器等。Scraperr 的创作者不对该工具的滥用负责。

Scraperr 项目遵循 MIT 许可证，用户可以在 LICENSE 文件中查看详细信息。开发者可以通过运行 make build up-dev 命令来开始使用 Scraperr。该项目的文档和快速入门指南可以在 Scraperr 官网找到。

HN 热度 247 points | 评论 79 comments | 作者：jpyles | 1 day ago #

https://news.ycombinator.com/item?id=43955842

网站爬虫应遵守 robots.txt 协议，并在 User Agent 字符串中提供联系方式或唯一标识符
网站爬虫不应忽略 robots.txt 文件，否则可能会对网站造成不必要的负担
网站爬虫应尊重网站的资源，避免过度请求或超时
网站所有者有权决定哪些爬虫可以访问其网站，并可以对不遵守规则的爬虫进行封禁
网站的 robots.txt 文件不应仅允许特定的搜索引擎爬虫，而应对所有爬虫一视同仁
网站爬虫的行为应遵守道德标准，避免对网站造成不必要的损害
网站所有者可以通过日志分析和封禁 IP 地址来防止不良爬虫的访问
网站的性能问题可能是由于不良爬虫造成的，网站所有者应采取措施防止这种情况
网站爬虫的开发应遵守相关法律法规和道德标准，避免对网站造成不必要的损害