2024-05-22 Hacker News Top Stories #
Statement from Scarlett Johansson on the OpenAI “Sky” voice #
https://twitter.com/BobbyAllyn/status/1792679435701014908
这条推特来自 Bobby Allyn,内容是关于斯嘉丽·约翰逊就 OpenAI 事件发表的声明。推文中提到了斯嘉丽·约翰逊对 OpenAI 事件的看法,表达了惊讶之情。
她曾被 Sam Altman 邀请为 ChatGPT 4.0 系统配音,目的是希望通过一个富有同情心的人声来缓解人工智能带来的不适。虽然一开始他/她拒绝了该邀请,但后来发现 OpenAI 推出的新系统"Sky"的声音与自己的声音惊人的相似,甚至最亲密的朋友都无法分辨。
导致他/她不得不聘请律师向 OpenAI 提出法律诉求,要求说明"Sky"声音的制作过程,最终 OpenAI 勉强同意下线该声音。
推文发布于 2024 年 5 月 20 日晚上 10:10,获得了 16.6M 次观看,16.5K 次转发,5,181 次引用,83.8K 次点赞和 10.3K 次收藏。
HN 评论 954 comments | 作者:mjcl | 1 day ago #
https://news.ycombinator.com/item?id=40421225
- OpenAI 在去年秋天接触了 Scarlett,她拒绝了。
- 产品发布前两天,他们联系她的经纪人要求重新考虑。
- OpenAI 无回应后,仍然展示产品,Sam 在推特中称“她”指 Scarlett 的电影。
- 当 Scarlett 的律师要求解释“Sky”声音是如何创建时,OpenAI 从产品线中撤回了声音。
- Altman 愿意为 ChatGPT 偷取名人的声音,如果这是真实的故事,一切都很肮脏。
- Altman 想成为 AI 监管的一部分,这是一个公开的矛盾。
- 希望通过这些混乱我们能得到更好的领导者而不是更好的拍马屁者。
- Twitter 让自恋的精神病者无法抗拒,暴露自己的虚荣。
- 所有这些富有的白痴仍然在社会和行业中拥有巨大的影响力。
- Altman 是一个众所周知的骗子。
- Altman 在技术方面一无所知,在业务上是一个冷酷无情的鲨鱼。
What UI density means and how to design for it #
https://matthewstrom.com/writing/ui-density/
这篇文章讨论了用户界面(UI)密度的概念。作者指出,随着时间的推移,界面变得越来越稀疏。UI 密度不仅仅是界面在某一时刻的外观,更关乎界面在一系列时刻中提供信息的数量以及这些时刻之间如何通过设计决策连接,以及这些决策如何与软件提供的价值相关联。
文章探讨了视觉密度、信息密度和设计密度等概念。视觉密度是指在给定空间中看到的事物数量,而信息密度是指图表中的“数据墨水”与总墨水量之比。设计密度涉及设计决策的数量与总设计决策数量之比。文章还讨论了时间密度,即用户在给定时间内可以执行的操作数量。
最后,作者强调 UI 密度是用户从界面中获得的价值除以界面占据的时间和空间。通过设计密度,我们可以帮助用户更好地利用我们构建的软件。
HN 评论 246 comments | 作者:delaugust | 9 hours ago #
https://news.ycombinator.com/item?id=40428386
- 手机上查看餐厅菜单时,物理菜单比移动网站菜单更好,因为移动网站只能显示少量项目,需要多次滚动才能看到全部。
- “移动友好”通常意味着会浪费手机屏幕上的空间。
- 在手机浏览器上我一直使用桌面模式。
- 有些网站禁用了手机浏览器的缩放功能,这对查看图片非常困扰。
- 在手机 Chrome 的设置中有一个选项“强制启用缩放”,可以覆盖网站禁止缩放的设置。
- 桌面模式在手机上使用有时很有用,因为一些网站的移动版本设计得很糟糕。
- 有些网站甚至禁用手势缩放,这让人非常沮丧。
- 在手机上查看 PDF 菜单并不是很好的用户体验,需要不断缩放和滚动。
- 有很多好的移动友好菜单,清晰易读,方便浏览和点菜。
- 有些人喜欢在手机上搜索页面或快速浏览,但移动菜单的设计不利于这样的操作。
- 在手机上查看完整菜单仍然需要缩放和拖动,与在网站上分类菜单浏览没有太大区别。
- 菜单变得庞大时,线性浏览会变得繁琐,相比之下,矩形表示的数据更易于浏览。
- 缩放和拖动通常更容易,尤其是当网站劫持滚动、减慢滚动速度或进行滚动捕捉时。
- 移动网络很少充分利用缩放功能,这令人费解。
- 有些网站甚至禁用手势缩放,这让人非常沮丧。
- 在数字密集型用户界面中,便于手动交易的关键是延迟:不应该有“等等,服务器收到我的订单了吗?”的疑问。
- 有些网站设计在手机屏幕上浪费了空间,可以在其中塞入广告。
- 有些新餐厅也会这样设计,让人感到恼火,最好的餐厅网站直接在首页显示菜单的 PDF。
- PDF 在手机屏幕上查看并不是很好的用户体验,需要不断缩放和拖动,可能还要来回切换标签页。
- 移动友好的菜单设计应该有清晰易读的字体,按类别轻松滚动浏览项目,一键添加到订单或查看更多细节和照片。
- 有些人认为他们从未见过任何好的移动友好菜单,但这并不代表它们不存在。
- 捏合缩放是一种快速浏览概览并放大感兴趣内容的优秀导航模式,但许多移动界面并未充分利用。
- 有些网站甚至劫持手势以禁用缩放,这非常令人沮丧。
- 在数字密集型用户界面中,当菜单变得庞大时,线性浏览会变得繁琐,相比之下,矩形表示的数据更易于浏览。
- 有些网站设计在手机屏幕上浪费了空间,可以在其中塞入广告。
- 有些新餐厅也会这样设计,让人感到恼火,最好的餐厅网站直接在首页显示菜单的 PDF。
- PDF 在手机屏幕上查看并不是很好的用户体验,需要不断缩放和拖动,可能还要来回切换标签页。
Enlightenmentware #
https://mmapped.blog/posts/28-enlightenmentware.html
这篇名为《Enlightenmentware》的文章探讨了程序员与软件工具的互动。作者提到,大多数软件工具只能完成基本工作,但偶尔会发现一款软件超越了简单的实用性,激发了想象力,开启了新的可能性,影响了我们设计自己系统的方式。作者将这类软件称为“启蒙软件”。
作者首先谈到了对他启蒙最深的软件:UNIX。他在大学期间开始寻找编程工作,发现几乎所有职位都要求了解 UNIX 和 sockets。由于学校课程没有涵盖 UNIX 或操作系统,作者自学 UNIX,并深入探索了 UNIX 操作系统的奥秘,从而打开了新的认知世界。
接着,作者提到了 Git。他在早期接触了版本控制系统,包括 Rational ClearCase 和 Subversion,但直到发现 Git,他才真正体会到版本控制的便利和美妙之处。Git 的设计让作者深入了解版本控制的内部工作原理,甚至尝试了构建一个玩具单文件版本控制系统。
文章还提到了 Emacs,作者分享了他对 Emacs 的喜爱和对其内部结构的探索。Emacs 作为一款 Lisp 机器,提供了强大、便捷和友好的开发环境,让作者享受在其中编写代码的乐趣。
此外,作者还介绍了 Boost.Graph 和 Bazel 这两款启蒙软件。Boost.Graph 库通过泛型编程的思想解决了图算法中数据表示的问题,而 Bazel 则成为作者理解普遍计划-执行模式的最后一块拼图,成为他最喜爱的构建系统之一。
总的来说,作者认为好的启蒙软件应该解决深层次的问题,具有简洁而强大的设计,并鼓励用户探索其内部工作原理。文章最后邀请读者分享他们心目中的启蒙软件。
HN 评论 217 comments | 作者:zaik | 1 day ago #
https://news.ycombinator.com/item?id=40419856
- 编译器资源如 Compiler Explorer 对编译器和性能优化讨论产生重大影响
- 网页沙盒降低了尝试项目和行为实验的门槛
- Mathematica 作为交互式系统在学术中产生积极影响
- Jupyter Notebooks 和在线工具改变了代码测试方式
- Windows 系统版本讨论,包括 Windows 2000、XP、7、10 和 11
- Docker 节省了大量时间和精力,特别是在咨询工作中
- Nix 和 Nixpkgs 提供了强大的构建和管理功能
- Magit 简化了 Git 的使用,提高了效率
- NixOS 的复现性构建解决了多种问题
- Unix、Emacs 和 Git 等工具简洁而强大,影响系统设计方式
- Puppeteer/Playwright、Google Apps Script 等工具开启了新的编程可能性
- 可编辑代码比可重用代码更有价值,提高了代码库的生产力
- 软件设计中的“深类”和“浅类”概念对于系统设计有重要意义
Introducing Copilot+ PCs #
https://blogs.microsoft.com/blog/2024/05/20/introducing-copilot-pcs/
2024 年 5 月 20 日,在微软新总部的特别活动上,微软推出了一种新类别的 Windows PC,名为 Copilot+ PC。这些 Copilot+ PC 是有史以来最快、最智能的 Windows PC。搭载强大的新硅片,能够实现每秒 40 多万亿次的操作,拥有全天电池续航,并可访问最先进的 AI 模型。
其中包括 Recall 功能,可以轻松查找和记忆在 PC 上看到的内容;Cocreator 功能,可以在设备上快速生成和优化 AI 图像;以及 Live Captions 功能,将 40 多种语言的音频实时翻译成英文。这些体验在微软 Surface 以及合作伙伴 Acer、ASUS、戴尔、惠普、联想和三星的轻薄美观设备上得以实现,预订从今天开始,6 月 18 日开始发售,售价从 999 美元起。这批 Copilot+ PCs 只是个开始,微软对设备上的人工智能创新充满信心。他们重新构想了整个 PC 生态系统,从硅芯片到操作系统,应用层到云端,将人工智能置于核心地位,标志着 Windows 平台数十年来最重要的改变。
文章还介绍了 Copilot+ PCs 的架构革新,将 CPU、GPU 和新的高性能神经处理单元(NPU)结合在一起,通过与 Azure 云中运行的大型语言模型(LLMs)和小型语言模型(SLMs)协同工作,实现了前所未有的性能水平。它们在运行人工智能工作负载方面比以往更强大,效率提高了 100 倍,超越了苹果的 MacBook Air 15 英寸。此外,Copilot+ PCs 还拥有出色的电池续航时间,可以实现长达 22 小时的本地视频播放或 15 小时的网络浏览。
文章还介绍了 Copilot+ PCs 提供的新的强大 AI 体验,包括 Recall 功能,可以帮助用户快速直观地找到 PC 上的内容;Cocreator 功能,内置于 Windows 中,可以帮助用户实时生成、编辑和优化图像;以及 Live Captions 功能,可以将 40 多种语言的音频实时翻译成英文字幕。此外,文章还介绍了与 Adobe 等合作伙伴合作,将 AI 技术整合到其旗舰应用程序中,为用户提供更快速、更创新的 AI 体验。
最后,文章还介绍了微软 Surface 和其他合作伙伴推出的新 Copilot+ PCs,包括 Acer、ASUS、戴尔、惠普和联想等品牌,这些设备将于 6 月 18 日开始发售,售价从 999 美元起。微软 Surface 还推出了全新的 Surface Pro 和 Surface Laptop,提供了更新、现代化的设计和全新的 AI 体验,为用户带来更快的速度和更长的电池续航时间。
HN 评论 549 comments | 作者:skilled | 1 day ago #
https://news.ycombinator.com/item?id=40417828
- Microsoft 的“Copilot”品牌涵盖多个产品,包括 GitHub Copilot 和 Surface 重新品牌。
- 工程师常常借用之前由专门团队创建的概念,这在 UX/UI 领域也很常见。
- 微软的命名规范混乱,如.NET 生态系统,这让人难以理解正确的产品下载。
- 微软的随机命名约定让人不愿使用其产品,因为网络搜索结果会被大量污染。
- 微软频繁更改产品名称可能是因为商标注册等问题,这在药品公司也很常见。
- 微软的命名方式,如 Visual Studio 2019,导致用户需要查找版本号,这在大公司中似乎不应该发生。
- 微软在命名上的混乱,如.NET Messenger 和 Skype 的问题,令人困惑。
- 微软的命名方式,如 ASP.NET Core,ASP.NET,.NET Standard 等,让人感到困惑。
- .NET 类似于 JVM,包括 SDK、构建系统和包管理器,ASP.NET Core 是.NET 的 Web 框架。
- ASP.NET Core 不仅是.NET 的 Web 框架,还包括其他几个可选择的 Web 框架。
- 微软的命名方式,如 Windows Surface Copilot for Workgroups 360.Net,令人困惑。
- 微软的命名方式,如 Azure Windows Surface Copilot for Workgroups 360.Net,显示出 Azure 在微软的重要性。
- 微软的品牌命名混乱,如"Windows App",让用户难以搜索。
Going Dark: The war on encryption is on the rise #
https://mullvad.net/en/why-privacy-matters/going-dark
在网站 https://mullvad.net/en/why-privacy-matters/going-dark 上,讨论了加密战争的升级,通过美国和欧盟之间的不光彩合作。文章提到欧盟委员会试图推动全面监视所有欧盟公民的提案,称为“Chat Control”,但遭到了广泛批评。接着介绍了“Going Dark”倡议,旨在在每部欧洲手机和电脑上安装国家间谍软件。
文章详细描述了 Chat Control 提案的内容和反对声音,以及背后的利益关系。还揭露了美国科技公司和安全机构在起草法案中的角色,以及他们与欧盟之间的联系。文章还讨论了欧洲议会对 Chat Control 提案的拒绝,以及随后的 Going Dark 倡议,旨在实现大规模监视。
最后,文章提到了欧洲警察局长对端到端加密的反对,以及他们对获取加密通信内容的要求。整体来说,文章揭示了加密战争的复杂性,以及隐私权与安全之间的平衡挑战。
HN 评论 168 comments | 作者:janandonly | 12 hours ago #
https://news.ycombinator.com/item?id=40426701
- 评论中提到了监控法案的变化,包括政客和警察不受监控的异常规定。人们对这种价值观倒置感到恐惧,认为政客和警察应该是受监视的对象。
- 讨论还涉及到个人对社交媒体和智能手机的依赖,以及对隐私和监控的担忧。
- 一些评论指出,人们选择放弃隐私以换取便利,但对政府收集数据则感到恐慌。
- 还有评论讨论了政府和企业之间权力的分配,以及对政府权力削弱的担忧。
- 有人提到了与政府监控相关的文学作品《1984》,并表达了对当代社会发展的担忧。
- 其他评论则探讨了政客和警察应受监控的重要性,以及政府和民众之间权力关系的复杂性。
CADmium: A local-first CAD program built for the browser #
https://mattferraro.dev/posts/cadmium
这篇文章介绍了一个名为 CADmium 的本地优先 CAD 程序,旨在构建一个新的开源 CAD 程序。文章详细讨论了构建 3D 参数化 CAD 程序所需的各个组成部分,包括 2D 约束求解器、B-rep 内核、历史跟踪器、3D 用户界面和文件格式。
其中,对 2D 约束求解器的讨论涉及不同方法的优缺点,如基于矩阵方程和基于物理模拟的方法。在 B-rep 内核部分,介绍了不同内核的比较,包括专有内核如 Parasolid 和开源内核如 OpenCascade。历史跟踪器部分探讨了参数化 CAD 程序的特征历史存储,提出了弹性建模策略和对 sketch 特征历史的可能扩展。
3D 用户界面部分讨论了在浏览器中进行 CAD 设计的优势,并介绍了 CADmium 的技术栈。最后,文件格式部分提到 CADmium 将使用 JSON 格式,并探讨了导出和 CLI 工具的重要性。
文章总结指出,这些想法中有讚和有疑,但在这个领域中有着巨大的机会,希望能吸引更多人加入并共同探索。
HN 评论 130 comments | 作者:samwillis | 8 hours ago #
https://news.ycombinator.com/item?id=40428827
- 评论中提到世界急需一个优秀的开源参数化 CAD 软件,Truck 和 CADmium 可能成为未来开源参数化 CAD 的理想选择。
- 一些用户希望有一个好的、非订阅的本地优先 CAD 软件,对于像 Alibre Atom3D 这样的软件感到满意。
- 也有人认为在浏览器中进行 CAD 设计是有意义的,因为可以跨平台使用,不需要安装软件。
- 一些人关注 CAD 软件的开源性,认为开源可能会带来更多好处。
- 评论中提到了一些现有 CAD 软件的优缺点,以及对新项目 CADmium 的期待和担忧。
Shipbreaking #
https://www.edwardburtynsky.com/projects/photographs/shipbreaking
这个网站是关于加拿大摄影师爱德华·伯特因斯基(Edward Burtynsky)的项目之一,展示了他的摄影作品“Shipbreaking”(拆船)。
伯特因斯基在艺术家声明中提到,他的拆船项目灵感源自听到关于单壳船危险性的广播节目,这些船在 2004 年后将不再被保险公司承保,迫使这些船只被报废。他认为拆船是最终的回收,尤其是对于有史以来最大的船只。他前往印度和孟加拉国,拍摄了这些船只被拆解的场景。
伯特因斯基的拆船摄影作品展现了工业“进步”所留下的破坏痕迹,但在这些图像的广阔视角中,也透露出一种美与震撼,仿佛自然本身随着时间的推移,可以重新夺回人类对土地的野心。
这些作品呈现出一种末日般的氛围,同时也展示了人类活动对环境的影响。
HN 评论 147 comments | 作者:thunderbong | 18 hours ago #
https://news.ycombinator.com/item?id=40424304
- 从印度的船舶拆解场景中发现的个人回忆和家庭故事。
- 对船舶拆解和其他回收工作的全球利益和低薪问题的讨论。
- 关于发展中国家工人权利和工资问题的看法。
- 对西方公司将船只运往印度等地拆解的环境和人权问题的担忧。
- 讨论劳工权利、环境污染和私有财产概念的观点。
- 对船舶拆解行业条件的描述,包括环境影响和工人安全问题。
- 对船舶拆解行业的历史和现状的观察。
- 对船舶拆解行业的影响和人道主义问题的讨论。
- 船舶拆解行业的危险性和管理方式的讨论。
- 对船舶拆解行业的文化和社会影响的观察。
- 船舶拆解行业的环境和人道主义问题的关注。
- 船舶拆解行业的音乐和文学作品的引用和讨论。
NoTunes is a macOS application that will prevent Apple Music from launching #
https://github.com/tombonez/noTunes
这个 GitHub 地址是关于一个名为 noTunes 的简单 macOS 应用程序的项目。noTunes 是一个 macOS 应用程序,可以阻止 iTunes 或 Apple Music 启动。通过启动 noTunes 应用程序,iTunes/Music 将不再能够启动,例如,当蓝牙耳机重新连接时。你可以通过菜单栏图标的简单左键单击来切换应用程序的功能。
安装方法包括使用 Homebrew 进行安装或直接下载安装包。使用方法包括设置 noTunes 在启动时运行、切换 noTunes 功能、隐藏/恢复菜单栏图标、设置替代 iTunes/Apple Music 等。该项目的代码遵循 MIT 许可协议。
HN 评论 248 comments | 作者:faebi | 12 hours ago #
https://news.ycombinator.com/item?id=40426621
- 某用户表示,苹果产品的默认设置让人难以忍受,希望能有更多选择权;
- 另一用户认为,苹果擅长营销,但用户购买产品并非仅因功能,而是因为最佳用户体验;
- 有人提到,macOS 的初始体验是最好的,但也有人认为 Windows 体验更好,甚至表示 macOS 在开发方面是一场噩梦;
- 有用户称,macOS 的功能逐渐减少,但 UI 仍不错,注重键盘快捷键和窗口管理;
- 有人指出,macOS 在开发方面存在问题,如 Docker 不兼容,Homebrew 表现不一,核心工具不断更替,跨平台框架被移除等。
The OpenAI board was right #
https://garymarcus.substack.com/p/the-openai-board-was-right
这篇文章讨论了 OpenAI 发布的一个新的演示,展示了一个声音角色,声音性感嘶哑,旨在让人联想到《她》这部电影中斯嘉丽·约翰逊的人工智能角色。很多人对此赞不绝口。然而,随后出现了一些负面反应。一些人注意到了巧合,并不是所有人都感到满意。有人质疑斯嘉丽是否得到了补偿。在压力下,OpenAI 撤下了类似斯嘉丽的声音,声称相似性纯属巧合。
作者认为这是胡扯,显然是被驳斥的胡扯。斯嘉丽本人也发表了声明,揭露了真相。整个事件实际上涉及到同意问题。艺术家、作家和演员不希望他们的作品在未经允许的情况下被使用;如果你想使用他们的东西,你应该得到他们的许可并进行补偿。斯嘉丽说“不”。然而,OpenAI 并没有停止。
文章指出 OpenAI 的前董事会在去年 11 月解雇了 Sam,因为他不够坦诚。作者希望新的 OpenAI 董事会认识到 Sam 的行为与一个承诺帮助人类的非营利组织应有的行为不一致。
HN 评论 326 comments | 作者:isaacfrond | 15 hours ago #
https://news.ycombinator.com/item?id=40425403
- OpenAI 被指存在广泛的盗用问题,建议将公司的股权重新分配给提供价值的内容所有者。
- 评论中指出 OpenAI 存在更广泛的问题,需要更强有力的法律干预,以解决版权和肖像权问题。
- 评论呼吁停止试图创造部落,而是说服 HN 上的个体以理性方式思考。
- 讨论中提到 OpenAI 的创始人 Sam Altman 被指为无耻之徒,存在道德和诚信问题。
- 评论中提到 OpenAI 的技术被认为是惊人的,但也存在过度宣传和误导。
- 讨论中涉及 OpenAI 使用声音模型问题,引发关于版权和肖像权的争议。
- 评论中指出 OpenAI 可能会面临法律诉讼,因为其行为可能侵犯了 Scarlett Johansson 的形象权。
- 讨论中提到 OpenAI 可能存在意图模仿 Scarlett Johansson 在电影《Her》中的角色,引发了关于版权和形象权的讨论。
Chameleon: Meta’s New Multi-Modal LLM #
https://arxiv.org/abs/2405.09818
这篇论文介绍了 Chameleon,这是一系列早期融合基于标记的混合模态模型,能够理解和生成图像和文本,而且可以按任意顺序进行。论文详细描述了从一开始的稳定训练方法,对齐配方以及针对早期融合、基于标记、混合模态设置的架构参数化。这些模型在广泛的任务上进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长篇混合模态生成。
Chameleon 展示了广泛且通用的能力,包括在图像字幕任务中表现出色,优于 Llama-2 在仅文本任务中,同时与 Mixtral 8x7B 和 Gemini-Pro 等模型竞争,并且能够进行非平凡的图像生成,所有这些功能都在一个模型中实现。
根据新的长篇混合模态生成评估,其中提示或输出包含混合图像和文本序列,Chameleon 与更大的模型(包括 Gemini Pro 和 GPT-4V)的性能相匹敌甚至超越,根据人类判断,Chameleon 在统一建模完整多模态文档方面迈出了重要一步。
HN 评论 39 comments | 作者:gabrielbirnbaum | 21 hours ago #
https://news.ycombinator.com/item?id=40423082
- 作者积极改进模型后发布,科学进步令人振奋
- 论文中的基础研究和模态竞争困难分析备受赞赏
- 模型训练时间和成本巨大,对开源模型前景不利
- 开源模型长期前景存疑,需要更高效的训练方法
- 量子化和更小模型或许是解决之道
- 人们期待未来模型训练效率的突破
- 分布式训练或许是未来方向
- 保持专业知识需要实践
- 技术领域发展迅速,但也存在大量投机行为
- 技术发展势头减缓,寻求新突破
- 智能软件价值巨大,但距离通用人工智能还有很长一段路
- 研究“整体大于部分之和”是重要研究方向
- Meta 是否会开源这些模型尚不明确
- 论文中明确模型未使用 Meta 产品数据
- 作者对模型来源清晰表达,与 OpenAI 相比更透明