2025-07-11 Hacker News Top Stories #

研究发现AI工具反而导致经验丰富的开源开发者生产力下降。

Grok 4作为被称为全球最强大的AI模型发布，引发关于其价格和功能的广泛讨论。

德国法院裁定Meta的跟踪技术违反欧洲隐私法规，要求赔偿并可能影响未来集体诉讼。

开源项目FlopperZiro提供了一个低成本的Flipper Zero克隆设备，供DIY和学习使用。

MCP-B协议允许AI直接与浏览器功能交互，通过API实现高效自动化。

美国年轻人社交活动减少，尤其是派对时间，反映了社会和经济结构的变化。

Gemini 2.5在边界框检测任务中表现出色，但仍需优化以提升精度。

加拿大英语的类型学研究揭示了其独特的词汇和用法，分类为六种类型。

弗吉尼亚州的公共图书馆成功抵御私募股权接管，引发关于公共服务与利润平衡的讨论。

MCP服务器项目简化了从Anna’s Archive搜索和下载文档的过程，提升了用户体验。

Measuring the impact of AI on experienced open-source developer productivity #

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

这个网页是一篇关于 2025 年初人工智能对经验丰富的开源开发者生产力影响的研究文章。

研究背景： 文章首先指出，尽管编码/代理基准测试对于理解人工智能（AI）能力很有用，但这些测试通常为了规模和效率牺牲了现实性。这些任务是自包含的，不需要先前的上下文就能理解，并且使用算法评估，这不能捕捉到许多重要的能力。这些特性可能导致基准测试高估了 AI 的能力。另一方面，由于基准测试没有实时的人类互动，模型可能无法完成任务，尽管取得了实质性进展，因为一些小瓶颈在实际使用中人类会修复。这可能导致我们低估了模型的能力。总的来说，直接将基准测试分数转化为实际影响是困难的。

研究动机： 文章提到，评估 AI 在现实世界中的影响对于更好地理解 AI 对 AI 研发本身的影响很重要，这可能带来显著的风险。例如，极其迅速的 AI 进步可能导致监督或保障措施的崩溃。衡量 AI 对软件开发者生产力的影响，为 AI 对 AI 研发加速的整体影响提供了补充证据。

研究方法： 为了直接测量 AI 工具对软件开发的实际影响，研究者招募了 16 名经验丰富的开发者，他们来自大型开源代码库（平均 22k+ 星和 1M+ 代码行），并且已经为这些代码库贡献了多年。开发者提供了 246 个实际问题列表，这些问题对代码库很有价值——包括常规工作中的 bug 修复、功能添加和重构。然后，这些问题被随机分配，允许或不允许在处理这些问题时使用 AI。当允许使用 AI 时，开发者可以选择使用任何工具（主要是 Cursor Pro 与 Claude 3.5/3.7 Sonnet——研究时的前沿模型）；当不允许使用时，他们则在没有生成性 AI 帮助的情况下工作。开发者在记录屏幕的同时完成这些任务（平均每个任务两小时），然后自报他们需要的总实现时间。研究者为开发者的参与支付每小时 150 美元的报酬。

核心结果： 当允许开发者使用 AI 工具时，他们完成任务的时间比不允许使用时多出 19%——这是一个显著的减速，与开发者的信念和专家预测相反。这种感知与现实之间的差距是惊人的：开发者预计 AI 会让他们的速度提高 24%，即使在经历了减速之后，他们仍然相信 AI 让他们的速度提高了 20%。

讨论： 文章讨论了如何将研究结果与 AI 基准测试的出色成绩和 AI 工具有用性的广泛报告以及广泛采用相协调。这些证据来源给出了关于 AI 代理完成任务或加速人类能力的部分矛盾答案。文章总结了这些证据来源，并指出这并不是全面的，而是大致指出了一些重要的不同点。

因素分析： 研究者调查了 20 个可能解释减速的潜在因素，发现有 5 个因素可能有所贡献。他们排除了许多实验伪影——开发者使用了前沿模型，遵守了他们的处理分配，没有差异化地放弃问题（例如放弃难以处理的 AI 禁止问题，降低了平均 AI 禁止难度），并且提交了相同质量的 PR，无论是否使用 AI。减速在不同的结果度量、估计方法和许多其他数据子集/分析中都持续存在。更多细节和分析请参见文章。

这篇文章提供了对 2025 年初 AI 工具在软件开发领域实际影响的实证研究，揭示了 AI 工具在提高开发者生产力方面的局限性，并探讨了这些发现与 AI 基准测试和实际应用之间的差异。

HN 热度 483 points | 评论 306 comments | 作者：dheerajvs | 8 hours ago #

https://news.ycombinator.com/item?id=44522772

这篇论文显示，使用 AI 工具可能有一个很高的学习曲线，导致开发者在适应过程中生产力下降。
有观点认为，对于 LLMs（大型语言模型）来说，将责任归咎于用户是一种逃避，其他技术产品不会这样。
开发者认为，技术工具通常需要经验才能有效使用，AI 工具也不例外。
研究指出，即使开发者有 AI 经验，也可能在使用 AI 时表现更差，这可能提高了 AI 的相对速度。
研究结果表明，开发者在使用 AI 后的自我报告过于乐观，实际生产力可能低于预期。
有观点认为，AI 技能的提升可能来自于能够减少等待和空闲时间的工作流程。
研究数据显示，开发者在使用 AI 时，活跃编码、测试和研究的时间减少，而空闲时间和 AI 交互时间增加。
有人指出，将时间分解为绝对时间（小时）可能比百分比更有用，因为实际的小时数可能会增加 AI 相关任务的时间比例。

Grok 4 Launch [video] #

https://twitter.com/xai/status/1943158495588815072

介绍 Grok 4，世界上最强大的 AI 模型

主要内容：

Grok 4 发布： 网页上宣布了 Grok 4 的发布，这是一款被描述为世界上最强大的 AI 模型。网页上有一个直播链接，用户可以通过点击观看 Grok 4 的演示直播。
直播信息： 直播的时间是 7 月 10 日，12:01 PM，并且已经吸引了 20.6 百万的观看次数。直播获得了 4.3 千的回复，8.2 千的点赞和 26 千的分享，以及 7.8 千的评论。
用户互动： 网页鼓励新用户注册，以便获得个性化的时间线。用户可以通过苹果账号注册，或者创建新账户。注册过程中，用户需要同意服务条款和隐私政策，包括 Cookie 的使用。
技术问题提示： 如果在注册过程中出现问题，网页建议用户尝试重新加载页面。
法律声明： 网页底部提供了服务条款、隐私政策和 Cookie 政策的链接，以及版权信息，表明版权归属于 X Corp.所有。

HN 热度 419 points | 评论 544 comments | 作者：meetpateltech | 21 hours ago #

https://news.ycombinator.com/item?id=44517055

Grok 4 的“重型”模型价格为每月 300 美元，价格似乎在不断上涨，而我们原本被承诺价格会下降。
有人认为许多公司可能没有足够的 GPU，这是谷歌可能没有的问题。
可以在 AI 工作室免费使用 Gemini 2.5 Pro，并且可以设置高达 32k 的思考预算而不需要支付任何费用。
有人认为价格下降的是入门级产品和相同性能随时间的价格，而价格范围变得更宽是成熟的标志。
有人认为 LLMs（大型语言模型）具有自由派偏见，而保守派 LLM 项目可能会很有趣。
有人认为 LLMs 的智能并不意味着道德智能，它们可以同时具备能力和不愉快。
有人认为将写作水平的标准设定得过高，因为历史上能写出好文章的人非常少。
有人认为 LLMs 可能具有美国民主党的偏见，而美国共和党人过于激进，不能被称为“保守派”。

German court rules Meta tracking technology violates European privacy laws #

https://therecord.media/german-court-meta-tracking-tech

德国法院裁定 Meta 跟踪技术违反欧洲隐私法规

德国一家法院近日作出裁决，要求 Meta 公司向一名德国 Facebook 用户支付 5000 欧元（约合 5900 美元）的赔偿金，该用户起诉 Meta 平台在第三方网站中嵌入跟踪技术。这一裁决可能会为未来因数据隐私违规而产生的巨额罚款铺平道路，特别是涉及像素和类似工具的问题。

德国莱比锡地区法院上周五裁定，Meta 的跟踪像素和软件开发工具包（SDK）被嵌入到无数网站和应用程序中，这些技术在未经用户同意的情况下收集用户数据，违反了欧洲的通用数据保护条例（GDPR）。

法院支持原告的裁决设定了一个先例，允许其他用户在不“明确证明个人损害”的情况下提起诉讼，这是根据莱比锡地区法院的新闻稿。新闻稿中提到：“只要用户访问第三方网站或使用应用程序，即使他们没有通过 Instagram 和 Facebook 账户登录，Meta 也能随时单独识别每个用户。”

新闻稿还指出，Meta 通过处理个人数据来“画像”Facebook 用户，从而“严重违反”欧洲数据保护法，这一行为为这家科技巨头带来了数十亿的利润。

专家表示，这项裁决使所有使用跟踪技术的网站和应用程序面临重大诉讼的风险。AesirX 的首席执行官 Ronni K. Gothard Christiansen 表示，这项裁决为集体诉讼设定了先例，具有“破坏业务的潜力”。AesirX 是一家帮助企业遵守数据隐私法规的咨询公司。Christiansen 说，这样的诉讼可能包括所有未经用户同意使用 Meta 像素或其他跟踪技术的德国访客。他补充道：“如果访问者数量达到数万甚至数百万，5000 欧元的赔偿金很快就会累积起来。”

HN 热度 348 points | 评论 161 comments | 作者：bundie | 19 hours ago #

https://news.ycombinator.com/item?id=44517424

德国法院的裁决虽然显著，但实际影响可能有限，因为欧洲集体诉讼机制与美国不同，德国消费者不太可能因为追踪像素而提起个人诉讼。
德国消费者默认被加入追踪，与其他欧洲国家不同，这也是为什么有针对 X 和 TikTok 的集体诉讼。
有人提出可以将其商品化，通过签约获得 2500 欧元的赔偿。
有人提到，这种商业模式在租赁合同中已经存在。
有人提到，对于取消或延误的机票，有些网站可以帮助用户获得赔偿。
瑞典出现了一些企业，通过法律公司收集多付的租金。
有人指出，这项裁决可能在上诉中站不住脚，因为法院的完整决定尚未公布。
有人不理解 Facebook 与网站运营商的责任划分，认为根据 GDPR，网站应负责在将数据传递给广告网络前获得用户同意。
根据法院的决定，使用追踪技术的网站和应用程序都可能面临重大诉讼。
有人质疑网站作为“地点”的含义，认为 GDPR 并未明确提及追踪。
有人提出，即使网站获得了用户同意嵌入 Facebook 技术，Facebook 识别个体用户的能力可能仍然不符合 GDPR 规定。
有人提出，可以有一些法律公司代表处于相同情况的用户提起诉讼，并收取一定比例的费用。
有人提到，欧洲没有与美国集体诉讼完全相同的制度，但有允许“代表行动”的欧盟指令，其范围较窄。
有人提到，有律师事务所可以处理这类个案，如果业务案例足够大的话。
有人提到，可以直接在航空公司提供的表格中输入数据以获得赔偿。

Show HN: FlopperZiro – A DIY open-source Flipper Zero clone #

https://github.com/lraton/FlopperZiro

Flopper Ziro 是一个基于 Arduino IDE 的 Flipper Zero 克隆项目，旨在提供一种成本低廉、DIY 和完全开源的设备。该项目由 lraton 创建，尽管它只是一个趣味项目，并不专业，也不打算替代专业设备。

项目主要信息： #

** 项目名称 **: Flopper Ziro
** 作者 **: lraton
** 平台 **: GitHub
** 项目状态 **: 处于开发中，功能尚未完善

主要组件： #

STM32-L432KC (微控制器)
FS1000a (射频发射器)
RXB12 (射频接收器)
PN532 (RFID/NFC 模块)
PN7150 (待测试)
** 红外 LED 与接收器 **
2N222A PBFREE (晶体管)
SSD1306 (128x64 OLED 显示屏)
**TF 卡存储扩展 **
TP4056 (电池充电器)
**DC-DC 5V 升压模块 **
** 多个按钮 ** (6x6x8mm)
**Micro USB 接口 **
**3.7V 锂电池 **

主要功能： #

RubberDucky: 可编程的 USB 设备
RFID/NFC: 功能正在开发中
** 红外功能 **: 可以读取红外信号并进行模拟或保存
** 射频功能 **: 可以读取射频信号并进行模拟或保存
**SD 卡存储 **: 支持从 SD 卡保存和加载数据
** 电池百分比显示 **
** 剩余 SD 卡存储百分比显示 **
** 通过 Arduino IDE 编程 **
**3D 打印外壳 **: 计划制作（外壳链接）

待办事项： #

软件部分： #

解决 SSD1306 与 SD 卡之间的问题
完成 SD 菜单
实现保存 / 加载功能
制作 SD 列表
修复 SD 列表中的错误
完成射频扫描和发送功能
修复红外数据显示中的错误
完成 RFID 功能：读取 UID、读取 ISO14443B、模拟、保存 RFID 数据

硬件部分： #

制作第一块 PCB
新版 PCB 设计
尝试使用 PN7150 替代 PN532

额外： #

编写相关文档

注意事项： #

该项目的目标是为了娱乐和学习，不应被视为专业设备的替代品。

HN 热度 343 points | 评论 73 comments | 作者：iraton | 1 day ago #

https://news.ycombinator.com/item?id=44512763

LilyGo T-Embed CC1100 硬件能力与 Flipper Zero 相似，价格更低，运行 Bruce Pentest 固件，但不如 Flipper Zero 完善。
许多设备如 Arduino 和 Raspberry Pi 的流行并非因为硬件能力，而是因为“规模社区”的存在。
Flipper Zero 社区相对较小，发展不如 Arduino 和 ESP32 社区活跃。
许多“如何在 Raspberry Pi 上做 X”的教程实际上是“如何在 Linux 上做 X”，但因为与流行板卡的关联而受到关注。
社区产生的指南和工具可能比特定流行设备更广泛，无论是故意还是偶然。
人们从不同起点开始，Raspberry Pi 社区在降低入门信息障碍方面做得不错。
重新发明轮子有助于更好地理解它。
该项目名称本身就值得一笑。
该项目是意大利人发起的，英语可能不是他们的第一语言，不应因为语言问题而受到负面评价。
Kiisu 设备与 Flipper Zero 功能 1:1，且有额外功能。
该项目和 Capibara Zero 在软件支持方面与 Flipper Zero 相比还有差距，Flipper Zero 背后有强大的社区支持。
与 Raspberry Pi 相比，其他单板计算机可能更便宜，但软件通常更差，且没有大社区支持。
如果坚持使用 RockChip 产品，软件并不差。
只要它们有 Linux 内核，就不认为软件比 Raspberry Pi 更差。
许多设备软件更新受限于内核，难以更新。
根据个人需求，“更好”的定义不同。
Flipper Zero 的固件库已于 2025 年 4 月 12 日归档，不太可能复兴或具有竞争力。
在 Defcon 期间，拉斯维加斯的酒店可能会对此类设备有所看法。
从管理员角度来看，此类设备在黑客友好型会议上并不理想，但从运营层面来看，可以归咎于 Kevin Mitnick。
Kiisu 项目可以运行 Flipper 代码和修改后的 Flipper 代码。
该项目主要是 433 MHz 的重放攻击器，可能只能生成 OOK 调制的任意数据。
该项目只是一个有趣的项目，不是专业的，也不是专业设备的替代品。
标题似乎将其描述为一个功能性克隆，而不是有限复制。
该项目不是克隆，而是一个“demake”（更差的重制版）。
目前该项目只是一个重放攻击，但未来可能会有所改进。

MCP-B: A Protocol for AI Browser Automation #

https://mcp-b.ai/

MCP-B（Model Context Protocol for the Browser）是一种新型的浏览器自动化技术，它使人工智能（AI）能够直接与网站的功能进行交互，而不是通过模拟用户的操作（如读取屏幕和点击按钮）。以下是 MCP-B 的详细总结：

1. 快速执行 #

MCP-B 允许 AI 助手以毫秒级的速度完成任务，而传统的浏览器自动化通常需要 10 到 20 秒。通过直接 API 调用，MCP-B 大幅提高了执行效率。

2. 零配置 #

只需添加大约 50 行代码，网站就可以变得支持 AI。与传统的需要复杂配置的 OAuth 2.1 和 API 密钥不同，MCP-B 不需要这些，使用现有的浏览器认证。

3. 内嵌 MCP 服务器 #

MCP 服务器被嵌入到网页中，而不是作为独立的进程或云服务运行。这使得 MCP 服务器成为 Web 应用程序的一部分，简化了认证流程。

4. 安全性 #

MCP-B 尊重现有的权限模型，利用浏览器的会话进行身份验证，避免了复杂的 OAuth 2.1 实现和 API 密钥管理，确保了安全性。

5. 实现流程 #

** 标签页 MCP 服务器 **：使用 TypeScript 和内存传输，包装经过身份验证的 API，利用现有的 Cookies/JWT。
**MCP-B 扩展 **：通过 content scripts 与标签页服务器连接，汇聚所有工具并管理连接。
**MCP 客户端 **：使用本地桥接和代理服务器选项，使 AI 能够请求工具并返回结果。

6. 优势对比 #

与传统的浏览器自动化相比，MCP-B 具有更高的性能和可靠性。传统方法依赖于屏幕解析，容易受到 UI 变化的影响，而 MCP-B 通过直接访问结构化数据和 API 避免了这些问题。

7. 用户友好 #

MCP-B 为最终用户提供了更简洁的体验，不需要管理 API 密钥或配置 OAuth，直接在浏览器中运行。

8. 扩展性 #

MCP-B 充当了一个扩展平台，其他 AI 扩展可以连接到 MCP-B，利用其提供的功能。

9. 支持的浏览器 #

MCP-B 浏览器扩展兼容 Chrome、Edge 和 Firefox，为用户提供了一种跨浏览器的解决方案。

10. 开始使用 #

用户只需从 Chrome Web Store 安装扩展，配置其 AI 提供商，便可以开始自动化工作流。

总之，MCP-B 通过简化设置流程、提高性能和安全性，推动了浏览器自动化的未来，使得 AI 助手能够更加高效地与 Web 应用程序互动。

HN 热度 322 points | 评论 166 comments | 作者：bustodisgusto | 1 day ago #

https://news.ycombinator.com/item?id=44515403

MCP 可能会像 RSS 一样被公司控制，用户无法完全掌控数据使用方式
REST API 和 MCP 本质上不是同一回事，MCP 更像是 JSON-RPC，具有枚举功能和签名的方法
REST API 并没有消亡，而是成为了前后端分离的一种机制
真正的 HATEOAS API 构建困难，自动导航 API 的实用性有限
APIs 主要是企业间合作的方式，对普通用户来说并不实用
RSS 仍然广泛存在，许多网站仍然支持 RSS，尽管有些只提供部分内容
RSS 阅读器的使用人数减少，但技术本身仍然被广泛支持和使用
许多网站提供的 RSS 只包含标题和文章摘要，目的是引导用户点击广告
RSS 一直很小众，公司停止投入资源是因为使用人数少
一些社交媒体平台内置了 RSS 功能，RSS 并非小众
RSS 被公司有意淘汰，因为它们无法从中获得利润

The death of partying in the USA #

https://www.derekthompson.org/p/the-death-of-partying-in-the-usaand

这篇文章由 Derek Thompson 撰写，主题是探讨美国年轻人社交活动减少的现象，特别是派对活动的减少，以及这一变化背后的原因和它为何重要。

文章首先引用了《大西洋月刊》的 Ellen Cushing 的文章，指出根据美国时间使用调查（ATUS）的数据，2023 年仅有 4.1% 的美国人表示他们在典型的周末或假日“参加或主办”派对或仪式，意味着每 25 个美国家庭中只有一个计划参加社交活动。ATUS 是一个政府问卷，询问大量美国人他们如何分配时间，包括睡觉、工作、打扮、与宠物玩耍和参加派对等。最新的 ATUS 估计显示，美国人参加或主办社交活动的时间从 2003 年到 2024 年下降了 50%，几乎每个年龄段的人都减少了一半的派对时间，而 15 至 24 岁的年轻人减少得更多，达到了 70%。

Thompson 将这一现象归入他称之为“反社交世纪”的更广泛社会现象中。在这个焦虑和心理困扰激增的时代，美国人比历史上任何时期都更孤独。面对面的社交活动在过去二十年中下降了约 20%，对于未婚男性和 25 岁以下的人来说，这一下降超过了 35%，这可能解释了为什么这些群体似乎比以往任何时候都更少朋友。

文章还提到了一些令人震惊的统计数据，比如男性看电视的时间是与外人社交时间的 7 倍，女性宠物主人与宠物互动的时间比与人类朋友面对面接触的时间还要多。自 2000 年代初以来，美国人表示他们花在帮助或照顾非直系家庭成员的时间减少了超过三分之一。

Thompson 认为，派对的消亡和反社交世纪一样，是由一系列复杂因素造成的，包括劳动经济学、家庭动态、消费技术和现代心理学。他提到，女性历来是家庭社交日历的守护者，但到了 20 世纪下半叶，许多女性从无偿的家庭工作转向了有薪职位。1970 年，女性劳动力参与率首次超过 50%，目前接近 80%。随着越来越多的女性将工作日投入到 9 到 5 的工作，男性未能接管填满社交日历所需的后勤工作，成人聚会在双收入家庭时代逐渐减少。同时，育儿规范也发生了变化。美国人过去孩子多但看管得少，现在孩子少但看管得多。父母比过去更焦虑，不仅担心邻里犯罪和游乐场事故，还担心孩子的成就。

文章最后指出，自 1970 年以来，个人主义和孤独感的上升是全面的。几乎所有衡量社会团结的指标都受到了影响，包括教堂出席率、工会参与度，以及保龄球联赛。尽管有些批评者坚持认为每个社会现象都是关于阶级的故事，但 Putnam 展示了这些趋势影响了富人和穷人。他说，无论发生了什么，它都发生在我们所有人身上。

HN 热度 312 points | 评论 585 comments | 作者：tysone | 1 day ago #

https://news.ycombinator.com/item?id=44514550

社交媒体、智能手机和过度安排/保护破坏了许多年轻人的社交生活。
Reddit 和 Twitter 上的 Gen Z 帖子存在偏见，因为它们倾向于那些经常在线和深入社交媒体的 Gen Z 人。
过度安排是青少年面临的最大问题，许多青少年几乎每晚都有活动。
青少年体育活动的需求对孩子们和家庭来说已经失控，特别是私立/俱乐部联赛。
一些家庭将体育活动视为不可避免的负担，但实际上这是自我强加的。
学校或社区团队的体育活动是一个介于旅行/俱乐部体育和不参加体育之间的折中选择。
一些学校要求学生从小学开始参加旅行队，否则无法在常规学校队伍中打球。
大型高中的趋势导致参与体育活动的机会减少，因为学校规模太大，队伍名额有限。
支持孩子们在体育中追求他们自己的旅程，并记住体育中最重要的不仅仅是场上的表现。

Is Gemini 2.5 good at bounding boxes? #

https://simedw.com/2025/07/10/gemini-bounding-boxes/

SimEdw 的博客在 2025 年 7 月 10 日发表了一篇关于 Gemini 2.5 Pro 在对象检测任务中性能的文章。文章首先提出了一个问题：多模态大型语言模型是否已经准备好在计算机视觉任务中取代卷积神经网络（CNNs）？作者被跳过数据集收集、标注和训练的诱惑所吸引，决定在 MS-COCO 数据集上对 Gemini 2.5 进行基准测试。

文章详细介绍了 MS-COCO 数据集，这是一个经典的对象检测数据集，包含 80 个类别，从人到牙刷。尽管对象边界有时可能模糊，但在整个数据集中这种模糊性会相互抵消。验证集包含 5000 张图片，尽管理论上不应该用于训练，但无法保证 Gemini 在训练过程中没有接触过这些图片。

作者在测试中使用了特定的提示（prompt），将 MS-COCO 的有效类别列表嵌入到提示中，并要求它遵循 JSON 输出模式。为了避免 Gemini 在训练期间接触过 COCO 数据集，作者故意没有明确提及 COCO 的名字。提示要求模型仔细查看图片并检测所有可见的对象，包括小的、远的或部分可见的对象，并确保边界框尽可能紧凑。对于每个检测到的对象，模型需要提供类别名称、置信度、标准化的 2D 边界框坐标和对象的二进制掩码。

文章接着讨论了对象检测中的平均精度（mAP）的计算方法，即模型预测的平均精度在多个重叠阈值（IoU）上的平均值。作者提供了一些伪代码来帮助理解 mAP 的计算过程。

在结果部分，文章清晰地展示了不同模型和设置下的性能对比。Gemini Pro 在结构化输出下的表现优于 Flash 和 Flash-Lite 版本。增加思考预算会显著降低性能。对于 Pro 版本，不使用思考预算时表现更好。Pro 版本在避免返回无效输出方面也表现得更好。

最后，文章得出结论，尽管 CNNs 是针对这 80 个类别明确训练的，但 Gemini 2.5 Pro 在基准测试中表现出色。虽然边界框可能较为宽松，但可以通过像 SAM 这样的分割模型进行细化。尽管 CNNs 在有良好训练数据的情况下更快、更便宜、更容易理解，但 Gemini 在开放集任务中的多功能性几乎具有魔力。作者表示，他将在未来的项目中使用 Gemini。

文章最后提到了 Simon Willison 的相关研究，并推荐读者查看他的可视化工具和博客文章。还提到了一篇论文，该论文比较了各种大型模型在视觉任务上的表现，但它们不是简单地提示边界框坐标，而是采用“递归缩放”的方法，将图像划分为网格单元，并询问模型每个网格中是否有对象的一部分。然后对包含对象的网格递归执行此操作。这与作者的基准测试不同，后者是一次性询问所有对象。

HN 热度 252 points | 评论 55 comments | 作者：simedw | 12 hours ago #

https://news.ycombinator.com/item?id=44520292

Gemini 2.0 及以上版本的 Google 模型都经过了针对边界框检测任务的后训练
Gemini 模型在 box_2d 格式上经过了高度优化，即使是微小的格式变化也会导致性能下降
Gemini 模型在多模态任务中表现出色，包括图像分割
后训练可以利用预训练模型对世界和语言的理解，提升性能
由于不同的视觉语言模型（VLMs）在对象检测任务上的表现差异很大，因此不能简单地交换模型以获得相似结果
一些 VLMs 即使经过后训练，在定位方面仍然表现不佳
Gemini 使用特定的坐标系统（ymin, xmin, ymax, xmax）进行后训练，而其他模型可能使用不同的坐标系统
选择将对象检测任务委托给专门的工具，因为 VLMs 的性能相对较差
Gemini 2.5 在开源对象检测数据集上的表现参差不齐，尤其是在分布外数据上
Gemini 2.5 在零样本学习中表现良好，但在提供视觉示例或文本指令时性能下降
Gemini 在 PDF 边界框检测任务中表现出色
对于没有嵌入文本的 PDF 文档，使用 Gemini 进行边界框检测可能不够稳定
增加缓冲区可能有助于解决边界框定位不准确的问题
视觉语言模型（LLMs）通过将图像令牌化并通过视觉编码器进行处理，而不是简单地调用另一个视觉模型的 API
大多数视觉 LLMs 不使用单独的视觉模型，而是将视觉和语言处理集成在一起

A Typology of Canadianisms #

https://dchp.arts.ubc.ca/how-to-use

《加拿大英语历史原则词典》第三版（DCHP-3）是一个专门收录加拿大英语词汇的词典，它详细解释了加拿大英语中特有的词汇和用法。该词典的结构和前一版（DCHP-2）基本相同，但在外观上有所不同。

词典中的每个词条（headwords, lexemes）都按照六个加拿大英语类型进行分类，或者被标记为“非加拿大”（Non-Canadian）。这六个类型分别是：

起源型（Type 1）：在加拿大创造的形式和意义，例如“garburator”（垃圾处理机）。
保留型（Type 2）：在加拿大英语中保留的曾经广泛使用的英语形式或意义，例如“pencil crayon”（彩色铅笔）。
语义变化型（Type 3）：在加拿大英语中语义发生变化的形式，例如“toque”（原本指厨师帽或女帽，后指紧贴头部的保暖冬帽）。
文化显著型（Type 4）：在加拿大文化中具有显著地位的形式或意义，例如“hockey”（冰球）相关的术语。
频率型（Type 5）：因在加拿大使用频率高而被认为是加拿大英语的形式或意义，例如“washroom”（洗手间）。
纪念型（Type 6）：与加拿大历史上的阴暗面相关的形式或意义，例如“residential school”（寄宿学校）。

每个词条的结构遵循 DCHP-2 的顺序，左侧显示可用的意义和超链接，右上角的时间戳标识词条的版本和首次创建的日期。引用段落在每个意义下继续，非加拿大的引用用“匕首”标记，以供上下文理解。引用来自加拿大的来源或加拿大讲者，点击书图标可以查看详细的书目信息，并且如果可用，会提供到来源的超链接。

方括号中的引用用于两种目的：包括非加拿大的引用，如来自美国来源的“atmospheric river”（大气河流）；或者在极少数情况下，为了上下文理解提供外语引用，如“quadrex”（四重奏）。

在“stagette”（女子婚前派对）的例子中，引用段落结束后，接着是参考文献和图片部分。任何提及的来源都会在这里提供，并且如果可用，会链接。最后，所有在“Word Story”和其他编辑文本（例如注释）中提到的视觉效果（例如频率图表和图片）都会被列出。

频率图表遵循既定的模型，使用“the”作为搜索词，这被证明比使用情态动词“could”更可靠。图表标题中总是显示精确的搜索词。多部分词汇总是用引号搜索，例如“were dinged”（被指责）的图表是通过输入“were dinged” site:.ca 创建的，然后是其他网站搜索，例如 site:.edu。在这种情况下，“ding”的频率图表能够区分许多不同的含义，并隔离出具有加拿大地位的唯一含义。

由于某些术语的多义性，有时通过添加或排除搜索词，或使用更专业的短语来缩小搜索范围，这些短语用双引号复制，例如“buy on tick”（赊账购买）或“off-reserve population”（非保留地人口）。通过阅读引用并决定是否只产生了目标意义或几乎只产生了目标意义，来决定是否缩小搜索范围。词典没有解释为什么使用某种搜索词组合而不是另一种，因为这样的讨论可能会过于复杂和冗长。

HN 热度 246 points | 评论 305 comments | 作者：gnabgib | 1 day ago #

https://news.ycombinator.com/item?id=44515101

加拿大一词源自易洛魁族语言，最初由法国殖民者用来指代原住民
“加拿大”一词最初由探险家雅克·卡蒂埃用来指代现在称为“魁北克”的城市
英国入侵后，“加拿大”一词开始用来指代第一民族和法国定居者（贬义）
随着时间的推移，“加拿大”一词通常用来指代加拿大居民
蒙特利尔的“Les Canadiens”曲棍球队是加拿大最古老的曲棍球队，名字是对“加拿大”一词的重新采用
“省”一词起源于拉丁语，由罗马人用来描述被征服的领土
加拿大的创始人在 1867 年决定使用“省”而不是“州”
建议对加拿大历史感兴趣的人查看法语版本的维基百科页面
英国人选择了一个法国词，被征服者能理解，这是有意义的
“省”一词明确了对海外王冠的忠诚
“自治领”是一个更清晰的表示对海外王冠忠诚的术语
几乎所有与政府/法律/行政相关的英语词汇都源自法语
诺曼法语在英格兰作为行政语言使用了大约 300 年
“自治领加拿大”实际上是一个铁路公司的名字
加拿大西部、海洋省份和魁北克人都有某种形式的疏离感
魁北克省有非常严格的语言法律，旨在保护法语
魁北克的法语社区通过攻击英语社区的语言、文化、教育和就业来驱逐他们
魁北克的英语人口占 10%，拥有 3 所大学，包括麦吉尔大学，以及剧院、艺术家、报纸和电视节目

A Virginia public library is fighting off a takeover by private equity #

https://lithub.com/a-virginia-public-library-is-fighting-off-a-threatened-takeover-by-private-equity/

弗吉尼亚州的一家公共图书馆正在抵御私募股权的接管。

弗吉尼亚州弗朗特罗亚尔的塞缪尔斯公共图书馆在被反 LGBTQ 书籍横幅者针对并撤资后，成功阻止了一家私募股权集团的威胁性接管。当地社区团结起来支持塞缪尔斯公共图书馆，反对攻击，私募股权拥有的图书馆系统和服务公司（LS&S）撤回了他们运营图书馆的投标。但由于他们本财年 7 月开始的经费被削减，图书馆现在处于不确定的境地。

塞缪尔斯公共图书馆几乎贯穿了整个美国历史；它成立于 1799 年，是弗吉尼亚州第二古老的图书馆。该图书馆在 50 年代更名为塞缪尔斯，并最近作为一家与当地政府合作的非营利组织运营。它的服务记录令人印象深刻：它赢得了 2024 年弗吉尼亚年度图书馆奖，并且根据当地皇家检查员的说法，去年它增加了 2204 名新持卡人，举办了 542 个项目，并有 401859 次借阅。

图书馆最近的麻烦始于几年前，当时塞缪尔斯成为一群想要从书架上移除儿童书籍的人的目标。2023 年，“清理塞缪尔斯”对他们不喜欢的书籍提出了数百项投诉，这些书籍大多是具有 LGBTQ 主题的书籍。该组织的一员告诉美联社，他们的投诉根植于纳税人对“自治”的担忧，这很讽刺，因为这场斗争最终以试图将图书馆的管理外包给一家私人、盈利的公司而告终。

站在书籍横幅者一边，当地沃伦县官员投票决定扣留图书馆的资金。塞缪尔斯坚决反对审查制度，他们的资金最终得以恢复。但今年 3 月，沃伦县监事会投票反对续签年度资金，理由是管理不善，并宣布他们打算引进外来的 LS&S 来运营图书馆。

LS&S 并不陌生于引发这些社区斗争。谷歌搜索这家公司会找到很多抗议当地图书馆接管的文章和评论、诉讼报告以及 Reddit 上警告图书馆员小心为他们工作的帖子。LS&S 从 80 年代开始构建管理目录的软件，并在里根推动私有化联邦政府大部分业务时赢得了联邦机构的政府合同。今天，他们由常青服务集团拥有，这是一个拥有众多子公司的私募股权公司，许多子公司都在政府外包和国防领域。

《泰晤士报》在 2010 年报道了这家公司，当时它被引入管理加州图书馆，并已发展成为美国“第五大图书馆系统”。在文章中，LS&S 的前首席执行官弗兰克·A·佩扎尼特用效率和精简来描述他的工作，这意味着大量的削减：

“图书馆有这种美国国旗、苹果派的东西，”外包公司的首席执行官弗兰克·A·佩扎尼特说。他已承诺在圣克拉丽塔每年节省 100 万美元，主要是通过削减开销和替换工会员工。“不知怎的，它们被归类为一个神圣的组织。”

“很多图书馆都很糟糕，”佩扎尼特先生说。“他们的政策都是关于工作保障的。这就是为什么这个行业对我们感到紧张。你可以在图书馆工作 35 年，然后退休。我们不会以那种方式经营我们的公司。你来找我们，你必须工作。”

最后，有一家公司勇敢地站出来对抗图书馆员。

我很高兴塞缪尔斯能够击退 LS&S，但这一事件是商业的全面市场逻辑如何与政府内部的惩罚性行为者携手合作的另一个例子。当你不能让人们支持改变公共服务的计划时，一家私人公司可以进来将它们精简至死。

为他们辩护，我认为这些企业中的一些认为他们正在做正确的事情。但是，对利润的重视使他们看不到公共利益作为一个值得的底线。为社区提供服务可能无利可图，但这并不意味着它是错误的。

我想起了一个 NPR 采访，采访了一位失望的 DOGE 工作人员，他没有在联邦政府发现一个腐败和懒惰的巢穴。“政府真的不浪费，”他说。

政府致力于为其公民做很多事情，但通常，它执行得相当好，充满了惊人、勤奋、受过教育的人。它对这些人太好吗？也许。它对公民太好吗？也许。它可以更有效地运行吗？可能。但效率总是目标吗？不，我不知道。

效率不应该总是目标，特别是当它被用作盈利能力的狭义隐喻时。像塞缪尔斯公共图书馆这样的公共机构之所以有效，是因为它服务于金钱之外的东西。

如果你想在他们争取恢复资金的过程中支持塞缪尔斯，你可以在他们的网站上捐款。

HN 热度 243 points | 评论 209 comments | 作者：sharkweek | 21 hours ago #

https://news.ycombinator.com/item?id=44516793

利润最大化常常与人类福祉和社会繁荣背道而驰，例如健康保险公司通过拒绝索赔来获利，导致保险体系昂贵且健康结果更差。
贪婪而非利润是问题所在，政府政策也并非完全出于利他，而是通过教育和健康保险等公共项目降低雇主成本，提高社会秩序和利润。
20 世纪的教训被遗忘，利润不应仅看作财务报表上的数字，而应反映长期利益。
人性（贪婪）无法改变，应设计制度引导人性朝有益方向发展，同时控制其副作用。
资本主义是将贪婪转化为对所有人有益的事物的不完整尝试，但市场失败很常见，需要混合经济和聪明的监管。
通过法律和政府机制可以控制由贪婪引发的行为，问题在于公司高管因贪婪导致的有害行为很少受到惩罚。
集中规划因信息传递问题和缺乏私人激励而失败，但现在技术进步使得集中规划可能不再是问题。
在资本主义下，政府不受金钱影响是不可能的，总会有足够富有的个人或公司能够影响政府。

Show HN: MCP server for searching and downloading documents from Anna’s Archive #

https://github.com/iosifache/annas-mcp

这个网页介绍了一个名为“Anna’s Archive MCP Server（和 CLI 工具）”的项目，它是一个用于搜索和下载 Anna’s Archive 中文档的 MCP 服务器和命令行界面（CLI）工具。

项目说明： 该项目提供了一个 MCP 服务器和 CLI 工具，用于从 Anna’s Archive 中搜索和下载文档。尽管公众对 Anna’s Archive 的看法各异，但该平台是一个全面的存储库，用于自动检索在许可授权框架下发布的文档（包括 Creative Commons 出版物和公共领域材料）。该软件不支持未经授权获取受版权保护的内容，应仅被视为一个实用工具。用户被敦促尊重作者的知识产权，并承认在文档创作中投入的巨大努力。

可用操作：

搜索：使用 MCP 工具的“search”操作或 CLI 命令的“search”，搜索 Anna’s Archive 中与指定术语匹配的文档。
下载：使用 MCP 工具的“download”操作或 CLI 命令的“download”，下载之前搜索工具返回的特定文档。

要求：

如果你只计划使用 CLI 工具，你需要向 Anna’s Archive 捐赠，以获得 JSON API 访问权限和一个 API 密钥。
如果你将项目用作 MCP 服务器，你还需要一个 MCP 客户端，比如 Claude Desktop。
环境应包含两个变量：ANNAS_SECRET_KEY（API 密钥）和 ANNAS_DOWNLOAD_PATH（文档应下载到的路径）。

设置：

从 GitHub Releases 部分下载适当的二进制文件。
如果你打算使用工具的 MCP 服务器功能，你需要将其集成到你的 MCP 客户端中。如果你使用的是 Claude Desktop，可以考虑提供的示例配置。

演示：

作为 MCP 服务器的演示。
作为 CLI 工具的演示。

关于：

这是一个用于搜索和下载 Anna’s Archive 中文档的 MCP 服务器和 CLI 工具。
网址为 annas-archive.org。
涉及的主题包括 cli、annas-archive 和 mcp-server。

资源：

可以阅读项目的 Readme 文件了解更多信息。

活动：

该项目获得了 280 个星标和 8 个分支。

发布：

最新版本 v0.0.2 于 2025 年 7 月 10 日发布。

语言：

该项目主要使用 Go 语言（82.8%）和 Shell 脚本（17.2%）。

网页底部包含了 GitHub 的版权信息、条款、隐私政策、安全、状态、文档、联系方式和 cookie 管理等链接。

HN 热度 242 points | 评论 74 comments | 作者：iosifache | 1 day ago #

https://news.ycombinator.com/item?id=44514753

该项目允许用户直接从 Claude Desktop 搜索和下载 Anna’s Archive 中的书籍。
MCP 服务器相较于命令行工具，提供了更好的用户体验和数据访问民主化。
MCP 集成使得非技术用户也能轻松使用原本复杂的工具。
MCP 服务器的创建可能会被 API 库原生支持，因为其抽象与 API 相似。
该项目不仅仅是为了简化人类使用 Anna’s Archive，而是为了使 AI 代理能够自动获取信息。
MCP 为 AI 代理提供了标准的方式来使用命令和指令，而 CLI 工具则没有这种标准性。
一些人认为，与版权利益相比，智能的发展和知识的普遍获取更为重要。