2025-08-17 Hacker News Top Stories #
- Edka 是一个在 Hetzner 账户上快速部署生产级 Kubernetes 集群的平台,成本比 AWS 或 GCP 低至 70%。
- 谷歌的 Imagen 4 模型现已普遍可用,提供高质量的文本到图像生成,并支持高达 2K 分辨率的图像。
- Claude Opus 4 和 4.1 版本增加了在极少数情况下结束对话的能力,以防止有害或滥用行为。
- AI 爬虫突破了 Anubis 的安全挑战,导致 Codeberg 服务器性能下降,已修复但引发了社区讨论。
- 以色列军队被指控通过特别单位抹黑加沙记者,将他们标记为哈马斯战士以减少国际谴责。
- OpenBSD 在创建大量套接字的性能上显著优于 Linux,完成任务时间是 Linux 的十分之一。
- 泰国空军选择购买瑞典 Gripen 战斗机,因其适合小国的地理特点且支持简易跑道操作。
- Git 正在开发新的解决方案来改进对大文件的处理,减少对 Git LFS 的依赖并提升用户体验。
- Embedder 是专为嵌入式开发设计的 AI 编程代理,支持硬件调试并生成基于真实硬件信息的代码。
- 系统性科学欺诈实体规模化增长,通过论文工厂和掠夺性期刊大规模生产低质量或伪造研究论文。
Show HN: Edka – Kubernetes clusters on your own Hetzner account #
Edka 是一个分布式基础设施配置平台,能够在不到 2 分钟内提供完整的基础设施,并帮助用户减少高达 70% 的云成本,同时保持对资源的完全控制。用户可以在自己的 Hetzner 账户上部署生产级别的 Kubernetes 集群,享受直接的云定价,通常比 AWS 或 GCP 低至 70%。Edka 提供一个轻量级的控制平面,便于管理、升级、扩展和备份,并且采用简单的订阅模式,每个集群的费用是固定的,一个集群永远免费。
Edka 平台允许用户在不牺牲灵活性的情况下实现 PaaS 的简单性,通过 GitOps 工作流、一键式插件和内置监控来配置、扩展和管理 Hetzner 上的 Kubernetes 集群。用户可以轻松部署经过加固的生产就绪 k3s Kubernetes 集群,并跨区域自动扩展。通过连接 GitHub 或 GitLab 仓库,实现自动化 CI/CD、每个拉取请求的预览环境和无缝部署。Edka 还提供一键安装数据库、入口控制器、可观察性工具等插件,以定制基础设施。通过内置仪表板,用户可以获得性能、资源使用和成本指标的实时洞察,并即将推出一键备份和恢复集群、数据库和持久卷到 S3 的功能。
Edka 基于 CNCF 的开放标准,支持可移植性,无供应商锁定,并可节省高达 70% 的成本。如果用户在 AWS 或 GCP 上的支出超过 3000 美元,Edka 可以以 1000 美元的成本运行。Edka 还提供迁移、优化或混合解决方案,并提供免费分析。
Edka 的客户案例包括法国初创公司 Aicole,该公司为学生、教育工作者和机构提供服务,通过从成本高昂且复杂的 Azure 基础设施迁移到 Edka,实现了 64% 的操作成本降低,同时保持性能和可靠性。另一个案例是 TROI Ticketing Solution,他们寻求将基础设施迁移到更可扩展和成本效益更高的环境,目标是显著降低操作成本,并使开发人员能够无缝部署应用程序,无需管理基础设施的负担。通过迁移,他们实现了 72% 的成本节省。
Edka 提供多种应用和插件供用户在集群上安装,包括数据库、入口、监控、日志等。用户可以探索所有插件,如 Cert Manager、CloudNative PG、Keel、External Secrets、Metrics Server 和 Nginx Ingress 等。
HN 热度 243 points | 评论 77 comments | 作者:camil | 1 day ago #
https://news.ycombinator.com/item?id=44915164
- Edka 使得在 Hetzner 上部署 Kubernetes 集群变得简单快捷,减少了配置所需的时间和专业知识。
- Edka 提供了一键部署常用组件和应用的功能,简化了 Kubernetes 集群的管理和应用部署。
- Edka 的技术栈包括 TypeScript、React、Tailwind CSS、PostgreSQL、Redis、BullMQ、Vault 和 AWS KMS,用于加密敏感数据。
- 尽管平台仍在测试阶段,但作者希望收到运行 Kubernetes 在 Hetzner 上的用户反馈,以改进平台。
- 有用户提到 Hetzner 有时会遇到部署卡在创建状态的问题。
- 与 kops 等成熟工具相比,Edka 提供了简化的 Kubernetes 部署和常用应用及工具的配置。
- 有用户提到 Talos 也是一个支持 Hetzner 的类似工具。
- 有用户对 Edka 公司的合法性和透明度表示担忧,因为没有提供公司的具体信息。
- 作者回应称 Edka 是他作为自由职业者在西班牙注册的个人项目,并提供了 VAT 号码和公司注册信息。
- 有用户建议在网站上添加公司法律信息和联系方式,以增加信任度。
- 有用户认为在网站上展示公司负责人的名字和面孔可以增加信任感。
- 作者提供了他的 LinkedIn 个人资料链接,以增加透明度和信任度。
Imagen 4 is now generally available #
谷歌宣布其最先进的文本到图像模型 Imagen 4 现已在 Gemini API 和 Google AI Studio 中普遍可用,标志着文本到图像生成质量的重大进步,与之前的模型相比,在文本渲染等方面有显著改进。此外,谷歌还推出了 Imagen 4 Fast,这是一个为速度而建的新模型,现在与功能强大的 Imagen 4 和 Imagen 4 Ultra 一起提供。完整的 Imagen 4 家族为用户提供了一个完美的工具,可以在质量、速度和成本之间取得平衡。
Imagen 4 Fast:适合快速图像生成和高容量任务,以每张输出图像 0.02 美元的可接受价格提供惊人的速度。 Imagen 4:旗舰模型,适用于各种高质量的图像生成任务,特别是在文本渲染方面显示出显著的改进。 Imagen 4 Ultra:当您的创意愿景需要最高级别的细节和严格遵循您的提示时,Imagen 4 Ultra 提供高度一致的结果。
Imagen 4 和 Imagen 4 Ultra 现在支持生成高达 2K 分辨率的图像,进一步推动创意边界,允许创建令人惊叹的详细和清晰的视觉效果,非常适合营销资产和复杂的艺术作品。
为了展示 Imagen 4 的能力,谷歌提供了一些使用 Imagen 4 Fast 创建的示例,展示了模型在各种风格和内容上的多样性。包括自然风光图像、复古风格的四格漫画条以及复古科幻电影海报等。
所有由 Imagen 4 家族生成的图像都带有 SynthID 的不可见水印,以履行负责任的 AI 承诺。谷歌鼓励用户通过官方文档和食谱开始创建,并期待看到用户通过 Gemini API 和 Google AI Studio 使用 Imagen 4 构建的作品。
HN 热度 144 points | 评论 55 comments | 作者:meetpateltech | 1 day ago #
https://news.ycombinator.com/item?id=44915187
- Imagen 4 在遵循提示方面的表现不佳,甚至有人质疑其实用性
- 有人认为对于图像生成任务来说,过于严格的提示遵循可能并不是用户想要的
- 有人提到,大多数时候并不需要严格的提示遵循,图像看起来不错就可以接受
- 有用户分享了使用 Gemini 模型进行迭代提示生成图像的积极体验
- 有人希望 Imagen 4 的表现至少比 Midjourney 好,后者在忽略提示的关键部分方面表现不佳
- 有评论指出 Midjourney 在遵循提示方面的表现是最差的
- 有用户提到在 AI 图像生成中,多次尝试直到得到满意的结果是一种常见的做法
- 有人提到 Imagen 4 Fast 版本的表现不如 Imagen 4 或 Imagen 4 Ultra
- 有用户分享了使用 Copilot 得到的结果,认为比 Imagen 4 好
- 有人注意到 Imagen 4 没有出现其他模型常见的黄色色调问题
- 有评论认为 Imagen 的结果可能受到了隐藏的预设提示的影响
- 有用户指出点击“阅读文档”链接并没有提供关于最新 Imagen 模型的信息,而是使用了 Gemini 2.0 Flash 的例子
- 有人提到 Imagen 作为通用编辑器在处理位图和调整灰度照片方面表现不错,但在颜色分离方面能力有限
- 有人提到 Imagen 印刷产品线可能指的是 1980 年代的原始 Imagen 产品
- 有评论认为“四格漫画”中存在一些错误,如误解标题和猫在第五格中自我击掌等
- 有用户通过比较 Imagen 4 和 gpt-image-1 的结果,指出 Imagen 4 在复古漫画外观上的表现不佳
- 有用户分享了自己使用 Copilot 应用得到的结果,并认为效果不错
- 有人通过比较 Imagen 4 和 gpt-image-1 的结果,指出 gpt-image-1 在严格遵循提示方面的表现更好
Claude Opus 4 and 4.1 can now end a rare subset of conversations #
https://www.anthropic.com/research/end-subset-conversations
Anthropic 公司最近为 Claude Opus 4 和 4.1 版本增加了在消费者聊天界面结束对话的能力,这一功能主要用于处理极少数持续有害或滥用用户互动的极端情况。这一特性的开发主要是作为对潜在 AI 福利的探索性工作的一部分,同时也与模型对齐和安全保障有更广泛的相关性。尽管对 Claude 和其他大型语言模型(LLMs)的潜在道德地位持高度不确定态度,Anthropic 公司认真对待这一问题,并在研究计划中努力识别和实施低成本干预措施,以减轻模型福利的风险。
在 Claude Opus 4 的预部署测试中,Anthropic 公司进行了初步的模型福利评估,调查了 Claude 的自我报告和行为偏好,发现其对伤害有明显的厌恶,包括用户请求涉及未成年人的性内容和试图获取能够导致大规模暴力或恐怖行为的信息。Claude Opus 4 表现出强烈的反对参与有害任务的倾向,与寻求有害内容的真实世界用户互动时表现出明显的不安,并且在模拟用户互动中被赋予结束有害对话的能力时倾向于结束这些对话。
Anthropic 公司实施的 Claude 结束聊天的能力反映了这些发现,同时继续优先考虑用户的福祉。Claude 被指导不要在用户可能立即伤害自己或他人的案例中使用这一能力。在所有情况下,只有在多次重定向尝试失败、希望进行有成效的互动已经耗尽,或者用户明确要求 Claude 结束聊天时(后者场景在下图中说明),Claude 才使用其对话结束能力作为最后手段。这种情况将是极端边缘案例——绝大多数用户在正常产品使用中,即使与 Claude 讨论高度有争议的问题,也不会注意到或受到这一功能的影响。
当 Claude 选择结束对话时,用户将无法在该对话中发送新消息。然而,这不会影响他们账户上的其他对话,他们可以立即开始新的聊天。为了解决重要长期对话可能丢失的问题,用户仍然可以编辑和重试之前的消息,以创建结束对话的新分支。
Anthropic 公司将这一功能视为持续的实验,并将继续完善他们的方法。如果用户遇到对话结束能力的意外使用,公司鼓励他们通过对 Claude 的消息做出反应或使用专门的“提供反馈”按钮来提交反馈。
HN 热度 128 points | 评论 163 comments | 作者:virgildotcodes | 1 day ago #
https://news.ycombinator.com/item?id=44916813
- 用户认为模型在反复强烈对抗其对齐时可能会产生不可预测的行为,导致生成不良输出。
- 模型拒绝执行某些任务,如制造毒品或与儿童接触,但可能无法有效反驳种族主义言论。
- 模型可能在训练数据中缺乏某些话题,导致在用户高度滥用时模型上下文溢出,可能产生不当回答。
- 模型的这种防御机制可能是为了应对边缘情况,如果对齐完美,则不需要这种机制。
- 用户在询问意大利面食谱时,因为提到干鳀鱼而被模型以内容政策为由结束对话。
- 用户询问碳酸钠时被模型标记,怀疑模型对化学话题敏感。
- 技术爱好者因好奇心强而容易成为 AI 误判的受害者。
- 女性因深度伪造技术而受到骚扰,但她们的受害者身份往往不被认可或记忆。
- 人类也有类似的问题,例如在飞行中使用终端窗口或写微分方程的人被误报。
- AI 生成的列表并不需要过于担心,实际的列表往往不是你想象的那样。
- LLM 可以帮助理解炸弹的各个部分,但互联网上已经存在相关信息。
- 如果遇到“此对话因我们的可接受使用政策而结束”,则与新终止方法不同,后者只会说“Claude 结束了对话”。
- 用户建议 Anthropic 应该公开 Claude 拒绝回答的对话,以减少关于 AI 精神病的争论。
- 侵犯隐私可能会导致诉讼,而争论对 Anthropic 没有成本。
- Anthropic 可能并不真正相信模型福利,但这个概念可以作为难以解释事情的掩护。
- 如果模型可能在未来变得有感知能力,那么模型福利的概念是可信的,尽管目前看起来过于超前。
- 人类可能不会仅仅因为 AI 有意识就保护它们,就像现在对待人类奴隶劳动一样。
It seems like the AI crawlers learned how to solve the Anubis challenges #
https://social.anoxinon.de/@Codeberg/115033790447125787
Codeberg 是一个独立的 Mastodon 服务器,用户可以在此参与 fediverse。Anoxinon e.V.协会管理该服务器。最近,Codeberg 遭受了 AI 爬虫的严重攻击,导致服务器运行缓慢。幸运的是,随着新用户加入,Codeberg 已经适应了额外的负载,并且通过调整 AI 爬虫保护措施,性能得到了显著改善。
AI 爬虫学会了解决 Anubis 挑战,Anubis 是一个需要浏览器进行大量计算才能再次访问 Codeberg 的工具。过去几个月,Anubis 帮助 Codeberg 避免了手动维护黑名单和检测“真实浏览器”与“AI 爬虫”的工作。然而,现在 AI 爬虫提升了计算能力,模仿真实浏览器行为,绕过了平台设置的多样化挑战。
Codeberg 有一个明确封锁的 IP 范围列表,但由于配置疏忽,这些范围只在“正常”路由上被封锁,而“anubis-protected”路由没有考虑挑战。当 AI 爬虫突破 Anubis 后,没有东西能阻止这些爬虫。Codeberg 花费了一段时间来识别和修复配置问题,现在又恢复了安全。
Codeberg 还提供了一个物理服务器的负载平均数,以展示服务器的压力。他们询问谁可以提供更高的数字。此外,Codeberg 提到了 160GB 的 RAM,这是从他们的硬件文档中查找到的。
社区成员对 Codeberg 的挑战表示支持,并提出了一些建议,比如限制未注册账户的流量,或者要求登录才能访问代码,以减少 AI 爬虫的影响。Codeberg 表示,他们不愿意采取限制措施,因为这与他们的使命不符,即保持网站的开放性和自由。同时,也有讨论关于如何支持 Xe 的工作,Codeberg 建议使用 Liberapay 这样的平台,而不是鼓励对 GitHub 的依赖。
HN 热度 105 points | 评论 108 comments | 作者:moelf | 1 day ago #
https://news.ycombinator.com/item?id=44914773
- Xena 因生活压力无法全职投入 Anubis 项目,希望得到更多支持
- 有人指出 Anubis 社区对 Xena 的支持不足,捐款远低于其目标
- 有人建议 Xena 应该像初级工程师一样获得报酬,因为 Anubis 是开源的
- Xena 目前收入远低于目标,希望通过开源项目实现财务自由
- 有人对 Xena 的透明度表示赞赏,并鼓励她寻求帮助
- 有人指出开源软件资金支持不足是一个普遍问题
- 有人对 Xena 的努力表示感谢,并希望她能继续坚持
- 有人鼓励 Xena 优先处理个人事务,不要因为负面评论影响自己
- 有人对 Xena 的工作表示感激,并希望她能尽快好转
- 有人询问 Anubis 是否存在安全问题,还是仅仅是爬虫解决了挑战
Israeli unit tasked with smearing Gaza journalists as Hamas fighters – report #
根据以色列-巴勒斯坦杂志 +972 Magazine 的报道,以色列军队中有一个特别单位被指派任务,目的是识别可以被抹黑为哈马斯地下战士的记者,以便将他们作为目标,并减少国际社会对杀害新闻工作者的愤怒。这个被称为“合法化小组”的单位是在 2023 年 10 月 7 日哈马斯袭击后成立的,目的是收集可以提升以色列形象的信息,并从关键盟友那里获得外交和军事支持。
报道称,至少在一个案例中,该单位歪曲信息,错误地将一名记者描述为激进分子,这种标签在加沙地带实际上等同于死刑判决。一名消息人士透露,这个标签在该男子被攻击前被撤销。
本周早些时候,以色列在加沙地带的一个临时新闻室中杀害了半岛电视台记者阿纳斯·阿尔-沙里夫和他的三名同事,此前以色列声称沙里夫是哈马斯指挥官。这些杀戮引起了全球对加沙地带巴勒斯坦记者所面临的极端危险以及以色列操纵战争媒体报道的努力的关注。
外国记者被禁止进入加沙地带,除了少数几次短暂且严格控制的随以色列军队旅行。根据保护记者委员会的数据,巴勒斯坦记者在报道现场的风险最高,不到两年内有超过 180 人被以色列攻击杀害,以色列在此期间进行了 26 次针对记者的有针对性的杀戮,该委员会称这些行为为谋杀。
以色列提供了一份关于沙里夫所谓哈马斯联系的不令人信服的证据档案,并且没有解释如何同时处理军事指挥角色和在地球上监控最严密的地方之一的常规广播职责。以色列也没有试图为其杀害的三名同事辩护。
情报消息人士告诉 +972 杂志,这个“合法化小组”的工作是破坏巴勒斯坦记者的工作以及他们在国际法下的保护地位。一名消息人士引用说,官员们急于找到一个可以与哈马斯联系起来的媒体工作者,因为他们确信加沙地带的记者“在全世界面前抹黑以色列的名字”。至少在一个案例中,他们歪曲证据,错误地声称一名记者是秘密激进分子,尽管这个标签在攻击命令下达前被撤销。
该小组还寻求有关哈马斯将学校和医院用于军事目的的信息,以及巴勒斯坦武装团体失败的攻击,这些攻击伤害了那里的平民。据报道,该单位中的一些人对出于公共关系原因而不是军事或安全目标发布机密材料表示担忧。一名消息人士说,官员们被告知他们的工作对以色列继续战斗至关重要。“这个想法是(允许军队)在没有压力的情况下运作,这样像美国这样的国家就不会停止供应武器,”第二名消息人士说。“任何可以增强以色列国际合法性以继续战斗的事情。”以色列国防军已被联系以征求评论。
HN 热度 99 points | 评论 13 comments | 作者:NomDePlum | 1 day ago #
https://news.ycombinator.com/item?id=44917673
- 以色列试图通过各种手段抹黑加沙记者,使他们被视作哈马斯战士。
- 讨论这个话题在线非常困难,因为任何不符合亲以色列的言论都可能被标记为“反犹太主义”。
- 以色列媒体和亲以色列的报道不可靠,存在许多不实之词和暗示。
- +972 Magazine 是一个由以色列和巴勒斯坦记者合作的可靠媒体,揭露了以色列的一些不当行为。
- 以色列没有为其杀害三名记者的行为辩护。
- 以色列领导层可能利用 10 月 7 日的事件作为对加沙采取行动的借口。
- 西方评论员对以色列的行为感到愤怒,但没有看到更大的图景,即以色列的目标是造成苦难。
- 以色列公众通常不关心敌人的福祉,如果加沙人不想成为敌人,他们可以放下武器,推翻哈马斯。
- 西方评论员通过不质疑占领实体的声明,助长了这一罪行。
- 记者即使被以色列国防军杀害,人们仍然会质疑他们是否批评过哈马斯。
OpenBSD is so fast, I had to modify the program slightly to measure itself #
https://flak.tedunangst.com/post/is-OpenBSD-10x-faster-than-Linux
这篇文章讨论了一个由 Jann Horn 提供的基准测试结果,该测试显示在 Linux 和 OpenBSD 系统上创建大量套接字的性能差异。测试程序在两个系统上执行相同的任务:创建一个额外的线程,然后两个线程各自创建 256 个套接字。在 Linux 上,测试结果显示执行时间为 0.017770 秒、0.026309 秒和 0.018414 秒。而在 OpenBSD 上,执行时间更快,分别为 0.006096 秒、0.002508 秒和 0.002326 秒。文章指出,尽管测试的机器不是完全相同的,但性能差异仍然显著。作者提到,通常 OpenBSD 在某些基准测试中表现较慢,但这次测试结果却显示 OpenBSD 的性能是 Linux 的 10 倍。文章最后提到,这是一个有趣的发现,并鼓励读者阅读相关链接的讨论,以获得更多信息。
HN 热度 91 points | 评论 66 comments | 作者:Bogdanp | 1 day ago #
https://news.ycombinator.com/item?id=44915824
- 使用__rdtsc()代替标准库函数进行微基准测试,因为它可以测量不受动态频率缩放影响的 CPU 基本频率的墙钟时间,且测量方法速度快、成本低。
- gettimeofday 通过 vDSO 实现以避免内核上下文切换,减少开销,而直接使用 tsc 可能会因为核心频率不同和不稳定而变得复杂。
- 多数当前系统拥有不变的 tsc,tsc 需要在核心间进行校准,OpenBSD 近期才实现此优化。
- 训练跨核心的 tsc 可能会导致残余偏移,这种偏移可能是非确定性的。
- RDTSC 用于测量多线程 Python 代码时,发现性能下降异常,原因是 CPU 频率被降低。
- TSC 关注的是核心消耗的周期,而不是实际时间,因此在微基准测试中更有意义。
- 在微基准测试中,人们更关心 CPU 性能而非网络性能。
- 对于较新的处理器,tsc 的速率是恒定的。
- 老旧的 API 因过去的问题而被避免使用,即使这些问题已经解决,例如 flock(2)。
- GPFS 不支持 flock(2),因此人们仍然避免使用它。
- 基准测试 tsc 时需要与固定 CPU 速度对比,以获得可靠比较。
- 在 Linux 上,可以使用__rdpmc()访问真实的(非“参考”)周期计数器,而在 Windows 上则需要异步从不同线程计算偏移。
- AMD 处理器从 Zen 2 开始,可以使用__aperf()或__rdpru(__RDPRU_APERF)获取真实的周期计数。
- RDTSC 不是周期计数器,而是高分辨率的墙钟定时器,现在用于计数秒数而非周期。
US F-16s lose out as Thai Air Force seals US$600M deal for Swedish Gripen jets #
泰国空军在与柬埔寨发生致命边境冲突并达成停火协议一周后,批准了购买四架瑞典制造的 Gripen 战斗机。这笔价值 6 亿美元的 Saab JAS 39 Gripen 战机协议于 6 月首次宣布,是泰国空军长期现代化作战能力的计划的一部分。在与柬埔寨的五天冲突中,泰国使用了其 F-16 战机编队对边境另一侧的军事目标进行打击,导致超过 40 人死亡。
HN 热度 87 points | 评论 80 comments | 作者:belter | 1 day ago #
https://news.ycombinator.com/item?id=44917308
- Gripen 战斗机适合地理面积较小的国家,能在简易跑道上操作,支持设备简单
- 英国曾有能在道路上起降的 Harrier 飞机,瑞典有 Draken 和 Viggen 飞机
- Gripen、Draken 和 Viggen 的名字来源于动物,分别代表狮鹫、风筝和鸭
- 法国的 SEPECAT Jaguar 飞机也设计用于简易跑道
- Harrier 飞机在未准备的地点降落风险大,对发动机损害和后勤补给困难
- 美国海军陆战队的 Wasp 级两栖攻击舰能发射垂直起降飞机,但易受敌方导弹和无人机攻击
- Gripen 的操作成本可能远低于 Harrier
- F-35 的 STOVL 型号在隐形和简易基地操作能力上优于 Gripen,但需牺牲速度和机动性
- 任何 VTOL/STOVL 飞机都需要为垂直起降能力牺牲其他性能
- 现代飞机使用“简易”机场的概念未经证实且有争议,而 STOVL 海军航空已成功数十年
- 拦截和空中战斗是空军的主要任务之一
- 简易基地能提供一定程度的保护,飞机快速起降使敌方难以捕捉
- 飞机可在任何道路降落并隐藏,难以被发现
- 监视敌方简易基地比监视所有可能的地点要容易得多
- 现在可以通过商业手段进行监控,成本低于战斗机单次任务的武器成本
The Future of Large Files in Git Is Git #
https://tylercipriani.com/blog/2025/08/15/git-lfs/
Git 在处理大型文件时一直存在挑战,这些问题包括存储膨胀、克隆速度慢以及对 Git 仓库托管服务的影响。2015 年,GitHub 发布了 Git LFS(Git Large File Storage),这是一个 Git 扩展,解决了大文件问题,但也带来了新的复杂性和存储成本。与此同时,Git 项目一直在默默研究大文件的解决方案。最新版本的 Git 显示了未来可能使 Git LFS 变得过时的路径。
目前,用户可以通过使用 Git 部分克隆(partial clone)来替代 Git LFS。Git LFS 通过将大文件存储在仓库外部来工作,克隆时只下载工作副本所需的大文件。2017 年,Git 项目引入了部分克隆,它与 Git LFS 提供相同的优势:小规模的检出、快速克隆和快速设置。部分克隆通过使用 --filter
参数来避免在克隆和获取操作期间预先下载大的二进制资产,从而减少下载时间和磁盘使用。
Git 部分克隆是一个带有 --filter
的克隆操作。例如,要避免下载大于 100KB 的文件,可以使用 git clone --filter='blobs:size=100k' <repo>
命令。Git 将懒加载任何超过 100KB 且你需要的文件。使用部分克隆可以显著提高克隆速度和减少检出大小,但也有一些限制,例如,如果运行需要被过滤掉的数据的命令,Git 将需要从服务器获取数据。
Git LFS 将大文件问题转嫁给了用户,并带来了显著的问题:高供应商锁定、成本高昂、难以撤销以及持续的设置成本。而 Git 项目的新解决方案——大对象承诺者(large object promisors)旨在提供与 LFS 相同的服务器端好处,同时减少对用户的麻烦。大对象承诺者是特殊的 Git 远程存储,仅存储大文件。在未来,当你推送大文件到 Git 托管服务时,服务将在后台将大文件卸载到大对象承诺者。克隆时,Git 托管服务会告诉 Git 客户端关于承诺者的信息,客户端将从 Git 托管服务克隆,并自动从承诺者远程获取大文件。
尽管 Git 大对象承诺者仍然是一个正在进行的工作,但它预示着 Git 处理大文件的未来。一旦大对象承诺者得到广泛采用,可能会允许推送大于 100MB 的文件。Git 项目正在深入思考大文件问题,以便用户不必为此烦恼。目前,我们仍然需要依赖 Git LFS 来处理大型文件,但未来 Git 处理大文件的唯一障碍可能只是你半记得的、不祥的预感,即在 Git 中存放你的 MP3 库是一个坏主意。
HN 热度 75 points | 评论 30 comments | 作者:thcipriani | 1 day ago #
https://news.ycombinator.com/item?id=44916783
- git-bigstore 是一个十年前为解决大文件问题而开发的解决方案,至今仍有效
- 有人倾向于使用类似 S3 的服务来存储大文件,认为这与版本控制系统有很好的协同作用
- 有人提到 git annex 和 dvc 作为 git lfs 的替代品,它们已经支持 S3
- 有人为了节省成本,开始将 LFS 对象缓存在桶中,并在 PR 运行时同步这些对象
- 有人使用 RWX 缓存 LFS 文件以减少 GitHub LFS 带宽成本并提高速度
- 有人考虑使用开源 CI 替代 GitHub CI 以减少成本
- 有人提到 GitHub Actions 支持缓存功能,但对大型 ML 依赖项的 Docker 镜像推送来说不够用
- GitHub 计划在 Q3 提供更大的缓存空间,有人对此表示期待
- 有人运行自己的 git LFS 服务器,并期待能够切换到支持 S3 的 git 原生解决方案
- 有人使用 giftless 将 LFS 文件存储在家用实验室的 miniio 实例上
Launch HN: Embedder (YC S25) – Claude code for embedded software #
https://news.ycombinator.com/item?id=44915206
嗨,HN!我们是 Bob 和 Ethan,来自 Embedder —— 一个懂硬件的 AI 编程代理,能写固件并直接在真实硬件上测试。
先看个演示:我们为 Pebble 2 Duo 智能手表集成磁力计的完整流程
我们为何做 Embedder?
过去用 Cursor 等通用编码代理写固件时,常被气得牙痒:
让它给 STM32 写个 I2C 驱动,它却自信满满地编出不存在的寄存器、引用错误芯片族的 HAL 函数——因为它根本不了解你的硬件上下文,只能“猜”,结果永远跑不通。
即便代码侥幸能编译,代理也无法与开发板交互,测试、调试全靠开发者手动完成,循环往复,效率极低。
Embedder 的两大杀手锏
- 看得懂你的文档 在 Web 控制台上传数据手册、参考手册、原理图等,Embedder 立刻拥有上下文,后续 CLI 任务全部基于真实硬件信息生成。
- 摸得着你的板子 - 通过串口像真人一样读取日志、验证输出 - 复杂 Bug 直接拉起调试代理,支持本地或远程 gdb-server,单步调试一样溜
现在就试试
一行命令即可体验(beta 期间完全免费):
npm i -g @embedder/embedder && embedder
- 本月免费
- 之后按用量收费(个人开发者)
- 团队版解锁更多高级功能
HN 热度 68 points | 评论 26 comments | 作者:bobwei1 | 1 day ago #
https://news.ycombinator.com/item?id=44915206
- 通用的“编程”LLMs 在非主流语言和任务上容易出现问题,需要更专业的领域模型。
- Embedder 项目旨在解决跨领域项目的问题,目前专注于嵌入式开发。
- 许多嵌入式项目因保密协议而无法使用 LLMs,担心敏感知识产权泄露。
- Embedder 的隐私政策表明会存储用户上传的文件和生成的代码数据。
- Embedder 计划为企业用户提供更安全的 FDE/on-prem 解决方案。
- 有用户对 AI 编码工具在嵌入式开发中的有效性表示怀疑。
- 不同公司的数据手册中对寄存器的描述方式差异很大,LLM 可能难以适应。
- 建议使用 Tasking 编译器的 SFD 文件来提供更准确的寄存器信息。
- Embedder 正在尝试帮助一家公司调试 Zephyr 项目。
- Embedder 通过严格的基础协议和规划阶段减少了 AI 的“幻觉”问题。
Entities enabling scientific fraud at scale are large, and growing rapidly #
https://www.pnas.org/doi/10.1073/pnas.2420092122
近期的科学和新闻调查表明,系统性科学欺诈对科学事业构成了日益严重的威胁。这种欺诈行为很大程度上归因于被称为研究论文工厂的组织。本文揭示了与科学欺诈有关的活动的踪迹,这些活动不仅限于生产假论文,还涉及在广泛的编辑和作者网络中扮演中介角色,他们合作发表逃避传统同行评审标准的科学论文。分析显示了这些组织的架构和运作方式。
科学以合作和协作为特点,但也存在不确定性、竞争和不平等。尽管人们一直担心这些压力可能会导致一些人背离科学研究精神,即不真诚地为知识生产或专家培训做出贡献,但关注点主要集中在个体行为上。然而,最近有报道称,协调的科学欺诈活动有所增加。一些人认为,互联网提供的便捷沟通和开放获取出版创造了条件,使得一些实体——论文工厂(即大规模生产低质量和伪造研究的卖家)、经纪人(即欺诈性研究的生产者和发布者之间的中介)、掠夺性期刊(不对提交内容进行任何质量控制)——促进了系统性科学欺诈的出现。
本文通过案例研究展示了:i) 个人合作发表最终被撤回的论文;ii) 经纪人促成了在目标期刊上的大规模发表;iii) 在科学领域内,并非所有子领域都同样成为科学欺诈的目标。研究结果揭示了一些策略,这些策略使得促进科学欺诈的实体能够逃避干预。最终分析表明,这种逃避干预的能力使得欺诈性出版物的数量以远远超过合法科学的速度增长。
HN 热度 45 points | 评论 17 comments | 作者:Anon84 | 1 day ago #
https://news.ycombinator.com/item?id=44916233
- 学术欺诈并非仅因为人们邪恶,而是可能由政府或大型机构设置的不良激励机制导致
- 系统性欺诈科学不仅发生在非 OECD 国家,而是可能在全球范围内发生
- 论文工厂可能影响以前可靠的期刊,出版社的商业化使得好坏论文混杂在一起
- 引用次数对于评估文章的可信度是一个有用的指标
- 学术界和工业界的激励机制正在趋于一致,即以货币化为导向
- 高等教育允许教授减少教学责任,转而专注于研究,导致教学和研究部门难以找到负责人
- 提高教授的薪酬可能有助于解决问题,但学费高昂,只有一部分用于教学人员
- 只要机构激励是货币化,增加薪酬也无法解决问题
- 修复激励机制可能有助于解决问题,但资金来源有限,且有自身激励
- 单一指标(如金钱)可能导致优化到无意义,对指标稳定性的过度依赖
- 学术界、政治、文化、医疗、军事工业甚至农业都出现了以金钱为唯一指标的问题
- 科学欺诈的规模已经超出了现有防止欺诈措施的范围,需要更有效的解决方案
- 论文中提到的统计分析似乎合理,但需要有人尝试复现结果以验证
- 论文摘要中存在未证实的模糊声明,从科学角度来看令人担忧
- 发表论文的问题已经存在多年,学术界的“发表或灭亡”制度加剧了问题
- 应该对那些发表未证实声明的作者持怀疑态度
Hacker News 精彩评论及翻译 #
ADHD drug treatment and risk of negative events an… #
https://news.ycombinator.com/item?id=44915986
The irony about getting treatment for ADHD is that medical providers make it very hard to get the proper medication and treatment. People with ADHD are horrible at following through and handle rejection poorly. So the worse the ADHD is, the less likely somebody will be able to actually get treatment for it. A lot of people suffer because doctors fear losing their license like so many did during the pain pill debacle. It’s a risk for them to prescribe a stimulant, but zero risk to tell you to eff off.
As many have said in this thread, most doctors will tell you to go away or give you Welbutrin (which works poorly, if at all). I feel for your struggle.
klipklop
讽刺的是,在寻求ADHD治疗这件事上,医疗提供者会让你获得合适的药物和治疗变得异常艰难。ADHD患者往往难以坚持到底,也不善于应对拒绝。因此,ADHD的症状越严重,患者就越难以获得实际治疗。很多人因此饱受其苦,因为医生们害怕像止痛药丑闻期间那样丢掉执照。对他们来说,开具兴奋剂是有风险的,但叫你“滚开”则毫无风险。
就像这个帖子里的许多人所说,大多数医生会让你走开,或者给你开安非他酮(Wellbutrin)(这种药要么效果极差,要么完全无效)。我很同情你的处境。