2025-05-22 Hacker News Top Stories #
- 微软强制开发者审核AI代码助手Copilot生成的低质量PR引发争议。
- 谷歌发布视频生成模型Veo 3、图像模型Imagen 4及电影工具Flow,推动媒体生成创新。
- Litestream升级支持多写入者与时间点恢复,优化SQLite数据库备份与多租户场景。
- 谷歌推出移动优先AI模型Gemma 3n,实现设备端高效多模态处理。
- Signal通过“屏幕安全”功能默认阻止截图,应对Microsoft Recall的隐私风险。
- Mistral AI开源Devstral模型在代码基准测试中表现优异,支持企业敏感代码处理。
- Google AI Ultra订阅服务提供高级AI工具与30TB存储,面向高阶用户收费249.99美元/月。
- NSA选择器将网络流量音频化,为网络诊断与艺术创作提供独特工具。
- ZLinq库通过零内存分配优化.NET平台LINQ性能,支持SIMD与链式调用。
- Animated Factorization动态可视化数字因数分解,辅助数学概念理解与交互优化。
Watching AI drive Microsoft employees insane #
GitHub/微软近期公开了 Copilot 智能代理的预览版,该功能已开始在.NET 运行时仓库中自动提交 PR(Pull Request),但效果堪忧。作者虽自知不该幸灾乐祸,仍忍不住调侃这些漏洞百出的案例(附 4 个问题 PR 链接),甚至表示"如果这是行业未来,我想提前下车"。
作者特别强调:
- 同情被迫审核这些 PR 的微软员工,认为他们可能只是迫于高层"全面应用 Copilot"的压力在尽力应对;
- 澄清自己的嘲讽针对的是鼓吹 AI 的微软管理层,而非基层开发者;
- 呼吁网友保持克制,不要骚扰开发人员或在这些 PR 下刷梗。
HN 热度 913 points | 评论 486 comments | 作者:laiysb | 14 hours ago #
https://news.ycombinator.com/item?id=44050152
- 人工智能代码助手可能会犯低级错误,需要大量的人工干预和反馈。
- 代码助手不能完全替代人类开发者,尤其是在理解代码的上下文和逻辑方面。
- 代码助手可能会产生大量的无用代码,需要人工进行筛选和优化。
- 代码助手的使用可能会导致开发效率的降低,尤其是在初期阶段。
- 代码助手可能会取代一些低级别的编程工作,但高级别的编程工作仍需要人类开发者。
- 代码助手的发展可能会导致一些传统的编程工作流程的改变和优化。
- 代码助手可能会成为未来编程工作中的重要工具,但需要进一步的改进和完善。
Veo 3 and Imagen 4, and a new tool for filmmaking called Flow #
https://blog.google/technology/ai/generative-media-models-io-2025/
本文介绍了谷歌最新的生成媒体模型,包括 Veo 3 和 Imagen 4,以及一个新的电影制作工具 Flow。这些模型可以生成令人惊叹的图像、视频和音乐,赋予艺术家将他们的创意愿景变为现实的能力。Veo 3 是最新的视频生成模型,不仅提高了图像质量,还可以生成带有音频的视频,例如背景噪音、对话等。该模型还可以理解文本和图像提示,实现了准确的唇部同步和物理模拟。
Veo 2 模型也进行了更新,新增了几个功能,包括参考功率视频、摄像机控制、出画和物体添加/删除等。这些功能可以让创作者更好地控制视频的创作过程,实现更精确的摄像机运动和场景控制。Flow 工具允许视觉故事讲述者使用谷歌 DeepMind 的最先进模型,创作出具有复杂角色、场景和风格的电影。
谷歌与创意产业密切合作,帮助塑造这些模型和产品,确保创作者能够负责任地使用这些工具。Veo 3 和 Imagen 4 模型的推出标志着媒体生成领域的重大突破,赋予创作者新的工具和可能性。这些模型和工具的推出也表明了谷歌在人工智能和媒体生成领域的持续创新和投入。
HN 热度 782 points | 评论 498 comments | 作者:youssefarizk | 1 day ago #
https://news.ycombinator.com/item?id=44044043
- Veo 3 和 Imagen 4 的演示视频令人惊叹,展示了 AI 在视频和图像生成方面的巨大进步
- AI 已经能够生成非常逼真的视频和图像,甚至可以模仿人类的说话和表情
- 这项技术可能会改变电影和视频制作行业,允许一个人在家中制作出高质量的视频
- 有人担心 AI 生成的视频和图像可能会被滥用,例如用于制造假新闻或虚假信息
- Veo 3 和 Imagen 4 的出现可能标志着 AI 技术的一个新时代,人们需要重新思考如何使用和控制这项技术
- 有人认为 AI 生成的视频和图像可能会取代人类的创造力和工作岗位
- 也有人认为 AI 技术可以帮助人们更好地创作和表达自己,带来新的艺术和创造可能性
- 有人指出,AI 生成的视频和图像可能会面临伦理和道德问题,例如如何保护原创作者的权利和利益
- Veo 3 和 Imagen 4 的演示视频也引发了人们对 AI 技术发展速度和潜在影响的讨论和思考
Litestream: Revamped #
https://fly.io/blog/litestream-revamped/
Litestream 是一种开源工具,旨在让开发者能够在 SQLite 数据库上运行全栈应用程序,并通过将数据库更新流式传输到对象存储中实现可靠的恢复。该工具的作者 Ben Johnson 表示,Litestream 的诞生是为了解决传统的 n-tier 数据库设计中需要进行 sysadmin 工作的问题。通过 Litestream,开发者可以在 SQLite 上运行应用程序,而不需要担心数据丢失的问题。
Litestream 的工作原理是通过与 SQLite 应用程序一起运行,接管 WAL 检查点过程,并将数据库更新流式传输到 S3 兼容的对象存储中。如果服务器发生故障,整个数据库可以被恢复到另一个服务器。Litestream 还支持点对时间恢复,即可以恢复数据库到任意一个时间点。
为了改进 Litestream 的性能,作者引入了 LiteFS 的概念,LiteFS 是一种基于事务的文件系统,可以实现读取复制和主备切换。然而,LiteFS 需要用户了解 Consul 等知识,而 Litestream 则更为简单和易用。因此,作者决定将 LiteFS 的一些特性应用到 Litestream 中,例如点对时间恢复和轻量级读取复制。
Litestream 的新特性包括快速点对时间恢复和轻量级读取复制。快速点对时间恢复通过使用 LTX 文件格式实现,LTX 文件格式可以记录事务范围内的页面变化,并支持合并和压缩。轻量级读取复制则通过使用 VFS(虚拟文件系统)实现,VFS 可以让 Litestream 直接从 S3 兼容的对象存储中读取和缓存页面。
Litestream 的作者表示,Litestream 是完全开源的,并且不依赖于任何特定的云服务提供商。开发者可以在任何地方使用 Litestream,并且可以将其应用于大量的数据库复制场景。总的来说,Litestream 是一种强大的工具,可以帮助开发者在 SQLite 上运行全栈应用程序,并实现可靠的数据恢复和读取复制。
HN 热度 432 points | 评论 88 comments | 作者:usrme | 1 day ago #
https://news.ycombinator.com/item?id=44045292
- Litestream 的新版本解决了多个写入问题,支持动态添加新数据库,并且可以恢复到任意时间点。
- 新版本的 Litestream 支持使用 S3 作为备份存储,利用 S3 的条件写入功能来处理多个写入者。
- 有些用户已经在生产环境中使用 Litestream,并且对其性能和可靠性感到满意。
- Litestream 的新版本可以支持多租户场景,每个用户可以拥有自己的数据库,并且可以恢复到任意时间点。
- 有些用户对 Litestream 的配置文件是静态的感到不满,希望能够动态添加新数据库。
- 新版本的 Litestream 支持使用 FUSE 层作为读取复制层,可以提高读取性能。
- 有些用户对 Litestream 的文档和开发者体验感到不满,希望能够改进。
- Litestream 的新版本可以支持自动 checkpoint 和 WAL 备份,提高了数据安全性。
Gemma 3n preview: Mobile-first AI #
https://developers.googleblog.com/en/introducing-gemma-3n/
Gemma 3n 预览版发布:高效、移动优先的 AI Gemma 3n 是一款高效、移动优先的 AI 模型,旨在为开发者提供更好的性能和更低的内存占用。该模型是 Gemma 3 和 Gemma 3 QAT 的后续版本,采用了新的、最先进的架构,能够在移动设备上运行,并支持多种应用程序,包括 Gemini Nano。
Gemma 3n 的特点包括:
- 优化的设备性能和效率:Gemma 3n 在移动设备上响应速度更快,质量更好,内存占用更低。
- 多功能性:Gemma 3n 包括一个 4B 的主模型和一个 2B 的子模型,能够动态地在性能和质量之间进行权衡。
- 私密性和离线支持:Gemma 3n 支持本地执行,能够在没有互联网连接的情况下运行,并尊重用户的私密性。
- 扩展的多模态理解:Gemma 3n 能够理解和处理多种类型的输入,包括文本、图像、音频和视频。
Gemma 3n 的应用场景包括:
- 构建实时、交互式的应用程序,能够理解和响应用户环境中的视觉和听觉提示。
- 开发更深入的文本生成和理解应用程序,使用结合了音频、图像、视频和文本的输入。
- 创建高级的音频中心应用程序,包括实时语音转录、翻译和语音驱动的交互。
Gemma 3n 的发布标志着 AI 技术的又一个重要进步,开发者可以通过 Google AI Studio 和 Google AI Edge 来试用和集成该模型。Gemma 3n 的发布也体现了 Google 对负责任的 AI 开发的承诺,确保 AI 技术的安全性和私密性。
HN 热度 428 points | 评论 149 comments | 作者:meetpateltech | 1 day ago #
https://news.ycombinator.com/item?id=44044199
- Gemma 3n 模型在移动设备上运行速度较慢,尤其是在旧款手机上。
- Gemma 3n 模型的性能在不同手机和处理器上有所不同,新款手机和高端处理器可以获得更好的性能。
- Gemma 3n 模型可以在本地运行,不需要网络连接,但需要下载模型和进行初始化设置。
- Gemma 3n 模型的性能接近 Claude 3.7 Sonnet,在聊天机器人领域表现出色。
- Gemma 3n 模型支持 GPU 加速,但需要特定的硬件和软件支持。
- Gemma 3n 模型可以用于各种应用场景,包括图像识别、文本生成和对话系统。
- Gemma 3n 模型的代码和库可以被开发者用于自己的项目和应用中。
- Gemma 3n 模型的性能和功能仍在不断改进和优化中。
By default, Signal doesn’t recall #
https://signal.org/blog/signal-doesnt-recall/
Signal Desktop 现在包括一个新的“屏幕安全”设置,旨在防止 Windows 计算机捕获 Signal 聊天的截图。该设置默认启用在 Windows 11 上。Signal 实现此功能的原因是为了保护 Signal 消息免受 Microsoft Recall 的影响。Microsoft Recall 是一个功能,可以每隔几秒钟截取应用程序的截图,并将其存储在一个可搜索的数据库中。
Microsoft Recall 曾在 2024 年 5 月 20 日首次宣布,但由于安全性和隐私问题的反弹,该功能被迅速撤回。然而,Recall 现在又回来了,Signal 也做好了准备。尽管 Microsoft 在过去的一年中对 Recall 进行了多次调整,但该功能仍然对 Signal 等隐私保护应用程序构成风险。因此,Signal 默认启用了“屏幕安全”设置,以保护 Signal Desktop 的安全性,尽管这可能会带来一些可用性问题。
当“屏幕安全”设置启用时,用户将无法截取 Signal Desktop 的截图。Signal 实现此功能的方法是使用数字版权管理(DRM)标志,这将防止 Recall 或其他截图应用程序捕获 Signal 的内容。Signal 表示,实现此功能是为了保护用户的隐私和安全,尽管这可能会对一些合法的截图用例(如辅助软件)造成影响。
Signal 还表示,Microsoft Recall 的设计存在缺陷,未提供足够的设置选项让应用程序开发者保护用户的隐私。Signal 希望未来的 AI 系统能够更加考虑隐私和安全问题,而不是仅仅追求功能和数据。Signal 表示,作为一个非营利组织,他们将继续致力于保护用户的隐私和安全,并希望其他公司也能做出同样的承诺。
HN 热度 412 points | 评论 311 comments | 作者:feross | 8 hours ago #
https://news.ycombinator.com/item?id=44053364
- 微软的行为越来越让人无法接受,例如 OneDrive 自动开启,Edge 加载东西无法关闭等。
- Linux 系统使用体验越来越好,更新不会破坏环境,安装软件也更加方便。
- 微软的软件现在感觉是针对用户,而不是帮助用户。
- Signal 的“撤回”功能虽然有用,但如果攻击者可以直接查询撤回数据库,说明他们已经可以读取所有 Signal 消息。
- Signal 的“消失消息”功能只适用于文本消息,语音和视频通话的记录仍然会被保存。
- 使用 Linux 系统可以避免微软的强制更新和数据上传等问题。
- Signal 的开发者应该意识到元数据的重要性和保密的必要性,但他们仍然保存了语音和视频通话的记录。
Devstral #
https://mistral.ai/news/devstral
Mistral AI 公司最近推出了一个名为 Devstral 的开源模型,用于解决软件工程任务。Devstral 模型是由 Mistral AI 和 All Hands AI 公司合作开发的,已经在 SWE-Bench Verified 基准测试中取得了优异的成绩,超过了其他所有开源模型。
Devstral 模型的设计目标是解决现实世界中的软件工程问题,例如在大型代码库中上下文化代码、识别不同组件之间的关系以及识别复杂函数中的微妙错误。该模型可以运行在 OpenHands 或 SWE-Agent 等代码代理框架上,以定义模型与测试用例之间的接口。
在 SWE-Bench Verified 基准测试中,Devstral 模型取得了 46.8% 的成绩,超过了之前的开源模型最高成绩 6%。同时,当使用相同的测试框架(OpenHands)时,Devstral 模型也超过了其他更大的模型,如 Deepseek-V3-0324 和 Qwen3 232B-A22B。
Devstral 模型的优点在于其灵活性和轻量级设计,使其可以在单个 RTX 4090 或 32GB RAM 的 Mac 上运行。这使得它非常适合本地部署和设备上的使用。同时,Devstral 模型也适合用于企业环境中的敏感代码库,特别是那些需要严格的安全和合规要求的环境。
Mistral AI 公司将 Devstral 模型以 Apache 2.0 协议开源,允许社区免费使用和定制。同时,公司也提供了 API 接口和模型下载服务,用户可以自行部署和使用 Devstral 模型。对于需要在私有代码库上进行微调或定制的企业客户,Mistral AI 公司也提供了专门的支持服务。
未来,Mistral AI 公司计划继续开发和改进 Devstral 模型,预计将在未来几周内推出更大的代理编码模型。同时,公司也欢迎用户的反馈和建议,以便进一步改进和优化 Devstral 模型。
HN 热度 350 points | 评论 74 comments | 作者:mfiguiere | 11 hours ago #
https://news.ycombinator.com/item?id=44051733
- Devstral 模型的文件大小为 14GB,运行时大约需要 15.4GB 的内存空间。
- 有人推荐使用 Goose 作为本地开发软件。
- 部分模型不支持工具,或者工具支持不完善,导致开发体验不佳。
- 有人对模型的性能持怀疑态度,认为可能是通过特定测试用例进行优化。
- Mistral 模型在某些基准测试中表现出色,但在实际使用中可能并不是如此。
- 有人认为模型的性能取决于具体的项目和语言。
- Apache 2.0 协议是模型开发中一个重要的因素,能够降低法律风险。
- 有人认为在选择模型时,应该考虑到其许可协议和使用限制。
Google AI Ultra #
https://blog.google/products/google-one/google-ai-ultra/
本文介绍了 Google AI Ultra 的推出,这是一项新的 AI 订阅计划,提供了最高的使用限制和对 Google 最先进的 AI 模型和高级功能的访问。该计划面向需要最高级别 AI 访问的用户,包括电影制作人、开发人员、创意专业人士等。
Google AI Ultra 计划包括多项高级功能,如 Gemini、Flow、Whisk、NotebookLM 等。Gemini 是 Google 的 AI 应用,提供了最高的使用限制和对 Deep Research、Veo 2 和 Veo 3 模型的访问。Flow 是一种新的 AI 电影制作工具,允许用户使用 Google DeepMind 的最先进模型创建电影片段和场景。Whisk 是一种 AI 工具,帮助用户快速探索和可视化新的想法。NotebookLM 是一种 AI 笔记本,提供了最高的使用限制和增强的模型功能。
此外,Google AI Ultra 计划还包括其他福利,如 30 TB 的存储空间、YouTube Premium 计划和 Project Mariner 等。Project Mariner 是一种研究原型,可以帮助用户管理多个任务。YouTube Premium 计划允许用户在 YouTube 和 YouTube Music 上无广告、离线和后台播放。
Google AI Ultra 计划的价格为每月 249.99 美元,首次使用者可以享受前三个月 50% 的折扣。该计划目前仅在美国推出,未来将在更多国家推出。同时,Google AI Pro 计划也将获得新的福利,如 AI 电影制作功能和 Gemini 在 Chrome 中的早期访问等。这些新福利将首先在美国推出,未来将在更多国家推出。
HN 热度 305 points | 评论 322 comments | 作者:mfiguiere | 1 day ago #
https://news.ycombinator.com/item?id=44044367
- 人们对 AI 公司的定价策略持怀疑态度,认为高昂的费用可能会阻碍其发展。
- AI 公司可能会尝试通过区分商业和个人用户来收取不同价格,但这可能会导致公平性问题。
- 一些人认为,AI 公司应该提供更灵活的定价方案,例如按使用量收费,而不是固定的月费。
- AI 模型的训练数据可能会被用于商业目的,这引发了人们对数据隐私和安全的担忧。
- 企业级 AI 服务可能需要更强大的安全和合规保障,这将成为一个重要的区别点。
- AI 技术的发展可能会导致传统行业的颠覆,人们需要重新思考其商业模式。
- 高昂的 AI 费用可能会导致小型企业和个人开发者无法承受,进而影响整个 AI 生态系统的发展。
- AI 公司可能需要找到新的商业模式,例如提供更高质量的服务或更个性化的体验,以证明其价值。
- AI 技术的发展速度非常快,人们需要不断地学习和适应新的变化。
The NSA Selector #
https://github.com/wenzellabs/the_NSA_selector
这个网页介绍了一款名为 NSA 选择器(NSA selector)的 Eurorack 模块。该模块具有两个以太网接口和一个音频输出接口,任何通过网络传输的数据都会被发送到音频输出接口。它不是一个传统的音频接口,而是将网络数据直接转换为音频信号。
NSA 选择器的工作原理是将网络数据从一个以太网接口转发到另一个接口,同时将数据转换为 4 位 25MS/s 的音频信号。这种转换过程使用了 delta-sigma 调制器,可以将 16 位 48kHz 的 WAV 文件转换为 4 位 25MHz 的 NSA 文件。然而,这种转换过程会导致音质损失,并可能产生网络传输的延迟和过载。
网页还提供了一些使用 NSA 选择器的例子,包括使用网络 ping 命令创建一个简单的序列器,通过 HTTP 服务器传输未压缩的图像文件,以及使用 SSH 登录远程机器来创建一个延迟效果。网页还提到了其他可能的使用场景,例如监听在线游戏、社交媒体和 IoT 设备的网络流量。
NSA 选择器的技术参数包括:3 个以太网接口,4 位 MII 总线,4 位 DAC 和低通滤波器。模块的尺寸为 4HP,电流消耗为 12V 100mA,-12V 2mA。网页还提供了一个组装套件的视频教程和购买模块的链接。
总的来说,NSA 选择器是一款独特的 Eurorack 模块,可以将网络数据转换为音频信号,提供了一种新的方式来探索网络传输的音频化。尽管它可能不是一个传统的音频接口,但它提供了一个有趣的方式来监听和操作网络数据。
HN 热度 293 points | 评论 73 comments | 作者:anigbrowl | 1 day ago #
https://news.ycombinator.com/item?id=44044459
- NSA 选择器是一个将网络流量转换为音频输出的工具,用户可以通过声音来诊断网络问题
- 该工具可以帮助用户识别不同类型的网络流量,例如 TCP 速率控制和数据包丢失
- 网络流量可以被转换成音频信号,用户可以通过声音来感知网络活动
- 该工具使用模拟组件来生成音频信号,使其与全数字方法不同
- 不同的网站和网络活动会产生不同的音频信号,用户可以通过声音来识别不同的网络流量
- 该工具可以被用于网络诊断和调试,帮助用户快速识别网络问题
- 该工具的原理类似于旧的 SunOS 系统中的
ping
命令,可以通过声音来诊断网络问题 - 用户可以通过该工具来感知网络活动,例如数据包丢失和 TCP 速率控制
- 该工具可以被用于教育和研究目的,帮助用户更好地理解网络协议和流量
- 该工具的开发者使用了创造性的方法来生成音频信号,使其成为一个有趣和独特的工具
“ZLinq”, a Zero-Allocation LINQ Library for .NET #
https://neuecc.medium.com/zlinq-a-zero-allocation-linq-library-for-net-1bb0a3e5c749
ZLinq 是一个零分配的 LINQ 库,用于.NET 平台。它通过使用结构体和泛型来实现零分配,包括 LINQ to Span、LINQ to SIMD、LINQ to Tree 等扩展。ZLinq 的目标是创建一个实用的零分配 LINQ 库,覆盖所有.NET 10 中的方法和重载,确保 99% 的行为兼容性,并实现超越简单的分配减少的优化,包括 SIMD 支持。
ZLinq 的作者 Yoshifumi Kawai 具有丰富的 LINQ 实现经验,包括 linq.js、UniRx 和 R3 等。他结合这些经验和零分配相关的知识,创建了 ZLinq。ZLinq 的性能优于标准库,尤其是在链式方法调用时。ZLinq 的 benchmark 显示,它在大多数场景下都能超越标准库。
ZLinq 的使用非常简单,只需要添加一个 AsValueEnumerable()调用即可。它还提供了一个 Source Generator,用于自动替换标准库的 LINQ 方法。ZLinq 的 ValueEnumerable 架构和优化是其核心,使用 ref struct 和 IValueEnumerator
ZLinq 的作者还分享了其实现细节,包括 ValueEnumerable 的定义、Where 方法的实现和 TryGetNext 方法的优化。ZLinq 的目标是成为一个实用的零分配 LINQ 库,能够在大多数场景下超越标准库。其性能、使用简单性和优化使其成为一个值得关注的库。
HN 热度 254 points | 评论 86 comments | 作者:cempaka | 1 day ago #
https://news.ycombinator.com/item?id=44046578
- .Net 10 中的新特性可能会使 ZLinq 库变得过时,但在实际应用中,ZLinq 仍然有其价值。
- ZLinq 库可以在不分配内存的情况下使用 LINQ,提高性能。
- LINQ 的语法糖使得代码更容易阅读和维护,但也可能导致性能问题。
- Ruby 语言中的 map、select 等方法与 LINQ 类似,但 LINQ 的语法糖更为强大。
- LINQ 的查询语法可以处理两种不同的情况:内存中的数据和数据库中的数据。
- LINQ 的设计初衷是为了解决 Ruby 等语言的舒适度问题,提供了一种更为优雅的数据查询方式。
- LINQ 的语法糖可能是设计上的缺陷,但也为编译器提供了优化的机会。
Animated Factorization (2012) #
http://www.datapointed.net/visualizations/math/factorization/animated-diagrams/
Animated Factorization 使用动态可视化的方式,清晰地展示出数字的因数分解过程。
HN 热度 223 points | 评论 52 comments | 作者:miniBill | 10 hours ago #
https://news.ycombinator.com/item?id=44051958
- 有人希望能够创建一个拖拽式的玩具,来直观地展示数字的乘法和加法过程
- 使用非规则多边形来表示质数可能会更容易识别
- 有人提出了使用二进制展开来表示数字的因数分解
- Animated Factorization 中的图形可以用来帮助理解一些数学概念,如 Sierpinski 三角形
- 有人希望能够减慢动画的播放速度,以便更好地观察数字的变化过程
- 数字之间的跳跃有时会很大,需要更好地理解数字的乘法和加法关系
- 获取乘法视角的方法包括使用对数、质因数分解和观察数字的模式
- Animated Factorization 是一个很好的工具,可以帮助人们更好地理解数学概念和数字的关系