2024-06-14 Hacker News Top Stories #
- GJK算法高效检测凸多面体碰撞,但非凸形状处理存局限。
- 微软被指为利润牺牲安全,SolarWinds攻击暴露漏洞未修。
- “Abliteration"技术移除LLM审查限制,引发安全与伦理讨论。
- 日本立法促智能手机应用商店竞争,限制苹果谷歌垄断。
- Meta揭秘大规模语言模型训练策略,优化软硬件应对挑战。
- Meta推MLow低比特率音频编解码器,提升通话质量与效率。
- 印度Agnikul创72小时3D打印火箭引擎,航天创新受关注。
- Google融合Android技术于ChromeOS,提速增智Chromebook体验。
- Sussman教授视编程为创意乐趣,强调其艺术性与享受过程。
- AMD MI300X在LLM推理超越NVIDIA H100,展现AI市场竞争力。
The GJK Algorithm: A weird and beautiful way to do a simple thing #
https://computerwebsite.net/writing/gjk
这个网页上介绍了 Gilbert–Johnson–Keerthi(GJK)算法,简单地解释了这一算法的原理。GJK 算法是一种用于判断两个形状是否重叠的方法。每个形状都是由无限多个点组成的集合,如果存在一个点同时属于两个集合,则这两个形状重叠。
另一种判断方法是,如果存在形状 A 中的点 a 和形状 B 中的点 b,使得 a - b = 0,则表示这两个形状相交。这里的 0 代表原点。算法通过计算 Minkowski 差集来判断两个形状是否相交,即将两个形状相减并查看新集合是否包含原点。通过找到 A ⊖ B 的凸包,即找到一个三角形,可以判断两个形状是否相交。
GJK 算法的目标是找到包含原点的简单形状,以尽可能少的操作来判断两个形状是否相交。算法的实现需要使用支持函数来确定形状上的点,通过寻找支持函数在不同方向上的最远点来确定形状的边界。最终,通过迭代过程,判断简单形状是否包含原点,从而确定两个形状是否相交。
HN 评论 57 comments | 作者:arithmoquine | 1 day ago #
https://news.ycombinator.com/item?id=40660761
- GJK 算法用于 3D 碰撞检测和最近点算法,但在实践中会遇到许多问题,如物体在面对面接触时可能导致振动或错误移动。
- GJK 算法在处理凸多面体时效果最佳,但对凸性要求严格,需要能处理平面多边形面。
- GJK 算法是一种高效的解决方案,尽管在数值分析上具有挑战性,但在正常情况下是 O(log N),在某些情况下是 O(1)。
- GJK 算法的终止条件很难确定,需要考虑凸多面体的严格凸性要求。
- 通过 Minkowski 差异来解决碰撞,需要使用 EPA 来计算交点,这在数值稳定性方面具有挑战性。
- 作者的解释清晰易懂,对 GJK 算法的介绍令人印象深刻,值得骄傲。
- GJK 算法处理非凸形状时会将其分解为凸形状,以便处理。
- GJK 算法和使用凸优化方法检查两个凸集之间的交集之间的比较值得探讨。
Microsoft Chose Profit over Security, Whistleblower Says #
https://www.propublica.org/article/microsoft-solarwinds-golden-saml-data-breach-russian-hackers
这篇文章讲述了微软公司拒绝修复一个安全漏洞,导致后来俄罗斯黑客利用该漏洞入侵美国政府。文章中提到,微软雇佣了安德鲁·哈里斯,他发现了一个产品漏洞,允许黑客伪装成合法员工访问敏感数据。
哈里斯多次警告微软修复漏洞,但微软拒绝,担心影响与政府的业务合作。最终,俄罗斯黑客利用这一漏洞进行了 SolarWinds 攻击,盗取了美国政府机构的敏感数据。微软在此事件中受到影响,建议客户禁用了与哈里斯三年前提出的解决方案相同的功能。
哈里斯对微软的决定感到沮丧,并在社交媒体上公开批评微软未能警告客户有关 Golden SAML 的风险。文章还提到微软后来采取了一些措施来减轻 SAML 风险,包括提供一种有效检测此类黑客攻击后果的方法。
HN 评论 235 comments | 作者:tyleroconnell | 12 hours ago #
https://news.ycombinator.com/item?id=40667976
- 零信任和对组织网络的不信任是解决安全问题的解决方案,谷歌采用了零信任策略,内部应用都面向互联网,用户无法直接访问(shortsunblack)。
- 大型企业在技术不是他们的核心竞争力时,许多安全问题是难以克服的,实施这些解决方案很难(orf)。
- 在老公司成功将许多应用程序转移到这种模型后,实现这一目标的第一步是承认你没有这样做(pwarner)。
- 在尝试实施零信任模型时,可能会遇到内部应用程序无法在公共互联网上暴露,导致一些问题(michaelt)。
- 实施零信任并不困难,难点在于如何实施(zach_miller)。
- 在公共公司中,安全与利润之间的不匹配是一个无法解决的问题,需要文化上的巨大转变(JohnFen)。
- 企业应该将安全视为默认,而不是将其视为一个功能(Sohcahtoa82)。
- 领导者的言行应该受到评判,而不是他们说的话,这不仅是微软或 Satya 的问题,几乎所有大公司都存在这种行为(_heimdall)。
- 有关公司价值观的培训通常是为了避免法律责任,而不是关于道德(potatolicious)。
- 在高层次,薪酬现在与安全结果挂钩,这是非常认真的(coffeemug)。
- 安全结果仍然会被操纵(tomrod)。
- 停止使用那些做坏事的公司的软件,改进那些没有做坏事的软件(abdullahkhalids)。
Uncensor any LLM with abliteration #
https://huggingface.co/blog/mlabonne/abliteration
这篇文章介绍了一种名为“abliteration”的技术,可以解除任何被审查的大型语言模型(LLM)的审查限制,而无需重新训练。文章指出,现代 LLM 经过精细调整以确保安全和遵循指令,这意味着它们被训练为拒绝有害请求。然而,这种安全特性限制了模型的灵活性和响应性。通过“abliteration”技术,可以有效地消除模型内置的拒绝机制,使其能够对各种提示做出响应。
在文章中,作者详细介绍了“abliteration”的工作原理。首先,通过收集有害指令和无害指令的数据,计算两者之间的平均差异,得出代表“拒绝方向”的向量。然后,通过推断时间干预或永久性权重正交化的方式,消除模型表示这一特征的能力。文章还提供了代码实现和实例,展示了如何在推断时对模型进行干预,以及如何通过权重正交化来实现“abliteration”。
此外,文章还介绍了如何使用 DPO(Differentiable Plasticity Optimization)对经过“abliteration”处理的模型进行微调,以提高其性能。作者展示了通过 DPO 微调后的模型在各项基准测试中取得了显著改进,使其成为一个完全无审查且性能优越的 LLM。文章最后总结了“abliteration”技术的应用,强调了安全精细调整的脆弱性和伦理考虑。
总体而言,这篇文章详细介绍了“abliteration”技术的原理和实践,展示了如何解除 LLM 的审查限制,以及如何通过微调来提高模型性能。
HN 评论 233 comments | 作者:mizzao | 19 hours ago #
https://news.ycombinator.com/item?id=40665721
- 使用新的模型能够提供有趣的回答,不会拒绝回答问题,更像是与朋友聊天,提供各种奇怪的场景想法。
- 有人认为在朋友圈中进行想象游戏是有趣的,但也有人警惕某些人可能会走得太远,提到了一些不当的想法。
- LLM 不是朋友,而是工具,应该有安全机制,以防止滥用。
- 对于工具是否应该有特定的安全措施存在争议,但大多数人认为安全机制是必要的。
- 人们应该对信息持怀疑态度,而不是依赖回答的正确性。
- 人们有权选择对模型进行审查,以避免传播有害信息。
- 公司对模型进行审查可能是出于商业原因,但这也引发了对信息审查的讨论。
- 政府在当今社会中的影响力相对较小,企业更像是现代生活的有效治理者。
- 人们对模型的审查应该考虑到公共可用知识的差异,避免自动化欺凌和心理虐待。
Japan enacts law to promote competition in smartphone app stores #
根据日本共同社报道,日本国会于周三通过了一项法律,旨在促进智能手机应用商店的竞争,限制科技巨头苹果公司和谷歌有限责任公司限制第三方公司在其平台上销售和运营应用程序。该法律将禁止苹果的 iOS 和谷歌的安卓智能手机操作系统、应用商店和支付平台的提供商阻止销售与其自身平台直接竞争的应用程序和服务。
这一变化旨在阻止主导市场的公司进行门禁,并迫使它们与较小的挑战者进行价格竞争,以期使消费者受益并促进创新。该法律还将禁止科技巨头在互联网搜索结果中优先展示自己的服务。违反新法律将面临罚款,罚款金额为违反规定服务的国内收入的 20%,如果公司不停止反竞争行为,罚款金额可增加至 30%。这一新罚款金额是反垄断法规定的现有罚款的三倍以上,后者对被认为利用反竞争优势获得的服务收入处以 6% 的罚款。
预计这项新法律将于 2025 年底前生效,这项法律类似于欧盟于 3 月引入的类似法规。这些科技巨头将由公平交易委员会指定,并将被要求提交合规报告,并由委员会监督以确保它们遵守规定。这项立法在 5 月获得众议院批准后,于周三在参议院通过后生效。
HN 评论 300 comments | 作者:pjmlp | 1 day ago #
https://news.ycombinator.com/item?id=40662176
- 该法律将禁止苹果的 iOS 和谷歌的 Android 智能手机操作系统、应用商店和支付平台阻止销售与原生平台直接竞争的应用和服务。
- 一些人担心,如果应用与苹果竞争但同时违反苹果的服务条款,将如何解决这一冲突。
- 一些人认为,硬件制造商不应该规定可以向用户分发什么软件,以避免不公平的商业行为。
- 一些人认为,硬件制造商需要确保软件不会破坏设备,但苹果和谷歌已经超出了合理的灰色地带。
- 防止软件破坏设备是一个解决方案,但几乎所有手机用户被垄断强加了这种选择,这是一个问题。
- 一些人认为,硬件制造商应该提供稳定的 API,但不一定要求是稳定的,只要达到他们内部应用程序使用的水平即可。
- 一些人担心,如果要下载 Skype 或 Teams,可能需要先下载 Microsoft Store 应用,然后登录,然后下载所需的应用,而商店可能会很慢、糟糕并且充满广告。
How Meta trains large language models at scale #
这篇文章介绍了 Meta 如何在规模上训练大型语言模型。随着他们将人工智能研究和开发集中在解决日益复杂的问题上,他们面临的最显著和具有挑战性的转变之一是训练大型语言模型所需的计算规模之巨。
传统上,他们的人工智能模型训练涉及训练大量模型,这些模型需要相对较少的 GPU。随着生成式人工智能(GenAI)的出现,他们看到了从大量作业转向更少但规模极大的作业。支持规模化的 GenAI 意味着重新思考软件、硬件和网络基础设施如何协同工作。
文章详细介绍了大规模模型训练面临的挑战,包括硬件可靠性、故障快速恢复、训练状态的高效保存、GPU 之间的最佳连接等方面。此外,还介绍了在基础设施堆栈各层面进行创新的重要性,包括培训软件、调度、硬件、数据中心部署、可靠性、网络和存储等方面的创新。
未来,Meta 将继续面临处理数十万个 GPU、处理更大量的数据以及处理更长距离和延迟的挑战,他们将采用新的硬件技术,并不断发展基础设施以适应这些挑战。
HN 评论 186 comments | 作者:mfiguiere | 24 hours ago #
https://news.ycombinator.com/item?id=40664339
- 时间限制影响团队对模型质量的影响。
- 硬件相关变化挑战性大,需适应现有资源限制。
- 希望 Meta 利用大型语言模型改进搜索。
- 收入依赖于用户难以找到感兴趣内容。
- 需要失望用户一段时间,然后在合适时机让其满意。
- 希望了解他们如何收集/准备训练数据。
- PII 消毒问题。
- PII 定义。
- PII 的处理方式。
- 小模型可以免费运行,大模型成本高。
- Nvidia 可能在定制芯片方面更胜一筹。
- 谷歌在 AI 领域的长期胜利。
- Nvidia 的 GPU 可能优于谷歌的自定义芯片。
- 谷歌和 Meta 使用自定义 AI 芯片。
- 谷歌可能无法在硬件方面击败 Nvidia。
- 谷歌和 Meta 的自定义芯片。
- Nvidia 的 CUDA 软件。
- 谷歌可能会失败。
- 谷歌的工程文化。
- 谷歌和 Meta 的自定义芯片。
MLow: Meta’s low bitrate audio codec #
https://engineering.fb.com/2024/06/13/web/mlow-metas-low-bitrate-audio-codec/
在 Meta,我们通过我们的应用程序(包括 WhatsApp、Instagram 和 Messenger)为数十亿人提供实时通信(RTC)支持。我们致力于通过提供高质量的体验,使 RTC 对每个人都更加可访问,即使那些可能没有最快的连接或最新手机的人。随着越来越多的人多年来依赖我们的产品进行通话,我们一直在努力寻找新的方法,以确保所有通话都具有良好的音频质量。我们开发了 Meta 低比特率(MLow)编解码器:一种新工具,特别改善了那些在低速连接上的音频质量。
RTC 产品使用许多构建模块来提供完整的体验,其中一个关键组件是音频/视频编解码器。这些编解码器帮助压缩捕获的音频/视频数据,以便有效地通过互联网发送给接收者,保持实时体验。构建一个好的编解码器非常具有挑战性,这就是为什么我们不经常看到新的编解码器出现的原因。Meta 在所有 RTC 需求中使用 Opus,迄今为止它为我们提供了良好的服务——帮助向全球数十亿用户提供质量通话。
我们开发新编解码器的动机在于,鉴于 Meta 产品中 RTC 使用的大规模,我们得以看到编解码器在各种网络场景中的表现以及它对最终用户体验的影响。我们观察到,大部分通话在整个通话过程中或部分通话中都有较差的网络连接。我们需要降低编解码器的操作比特率以避免网络拥塞并保持音频流动,影响了上述三者平衡。我们在 2021 年底开始开发了一个新编解码器。经过近两年的积极开发和测试,我们自豪地宣布 Meta 低比特率音频编解码器,即 MLow,其在 6kbps WB 下比 Opus 的音质提高了两倍(POLQA MOS 1.89 vs 3.9)。更重要的是,我们能够在保持 MLow 的计算复杂度比 Opus 低 10% 的情况下实现这一出色的音质。
MLow 已经完全推出到所有 Instagram 和 Messenger 通话,并正在积极在 WhatsApp 上推出——我们已经看到用户参与度的显著提高,这得益于更好的音频质量。MLow 的推出极大地提高了低端设备上的音频质量,同时确保通话端到端加密。我们对过去两年所取得的成就感到非常兴奋——从开发新编解码器到成功将其交付给全球数十亿用户。我们将继续努力改善在严重丢包网络中的音频恢复,通过更多冗余音频的输出,MLow 使我们能够有效地实现这一目标。我们很高兴继续努力,使所有用户更容易进行高质量的音频通话。
HN 评论 143 comments | 作者:mikece | 8 hours ago #
https://news.ycombinator.com/item?id=40670612
- 低比特率编解码器对实时通信中的延迟敏感,可在卫星电话等电路交换通信中发挥作用;
- 降低数据包速率可减少传输开销,但在某些情况下,传输速率仍受限于网络开销;
- 语音/音频分发中的低比特率编解码器可提高可靠性和感知质量,降低总带宽消耗;
- 通过动态 ptime 和智能适应音频流,可以优化语音通话的延迟、丢包和带宽;
- 通过压缩 RTP 头部或选择更低的数据包速率,可进一步减少音频源的带宽消耗;
- 低比特率编解码器在数字无线电系统等领域有着广泛的应用,相比传统编解码器表现更出色;
- 通过协议优化和动态 ptime,可在高/低带宽、高/低延迟和高/低丢包的实时通信中实现最佳性能。
Indian startup 3D prints rocket engine in 72 hours #
https://spectrum.ieee.org/3d-printed-rocket
这篇文章介绍了印度初创公司 Agnikul 成功发射了一枚 3D 打印火箭发动机,这是迈向“按需”火箭发射的一步。航空监管机构正在共同努力解决这些问题。2022 年 10 月,国际民航组织(ICAO)通过了 2050 年商业航班净零碳排放的目标。美国已经出现了一项航空气候行动计划,目标基本相同。
挑战在于如何在减少排放的同时,实现航空旅行的扩张,以支持经济增长和旅行带来的个人和社会利益。满足这一挑战将需要对飞机和运营方式进行根本性改变。许多公司,包括空客、波音、通用电气航空、普惠、劳斯莱斯等世界主要飞机制造商,都公布了减少航空排放的计划。常见的策略包括使用可持续燃料,如生物质燃料,可以通过在生产过程中吸收碳排放来减少生命周期碳排放。其他研究工作包括使用氨、氢或电力来驱动飞机。
在美国的一项重大努力中,NASA 和行业合作伙伴正在推进飞行演示项目,以开发电力推进系统。在这项联合努力中,通用电气航空和波音的奥罗拉飞行科学公司正在合作推进一个能够为 150 至 180 座单通道飞机提供动力的混合动力推进概念。该项目名为电动动力总成飞行演示(EPFD),自 2021 年以来一直在进行,其主要目标之一是将一架萨博 340 飞机改装为混合动力系统。
通用电气的两台 CT7 发动机将与电动推进单元结合,以展示一种兆瓦级平行混合电动系统。另一个 NASA 的 EPFD 项目与 magniX 及其合作伙伴 AeroTEC 和 Air Tindi 将展示一种由两台普惠 PT6A 发动机和两台 magniX magni650 电动推进单元提供动力的飞机概念。这个项目针对短途航班市场,座位数为 19 至 50 座。EPFD 计划与全球计划的一系列飞行演示项目合作。我们正处于飞机推进系统自喷气发动机问世以来的第一次根本性变革的早期阶段。
文章还探讨了混合电动飞行的复杂性,以及在飞机中实现电气化所面临的挑战,包括可靠性和重量等方面。文章最后指出,为了实现 2050 年航空业零碳排放的雄心目标,需要革命性的新技术和新能源,而混合电动技术的灵活性和兼容性意味着它们可以发挥重要作用。
HN 评论 204 comments | 作者:pseudolus | 12 hours ago #
https://news.ycombinator.com/item?id=40668088
- 3D 打印火箭引擎在印度创造了新纪录,但评论中有人质疑其不需要后期验证的说法。
- 在火箭/航空领域,检查总是值得的,即使是微小的部件也需要检查。
- 在制造火箭引擎时,检查总是必要的,因为即使是微小的部件故障也可能导致整个系统失效。
- 3D 打印火箭零部件在航空领域非常常见,但将整个引擎作为单一部件打印是一种不同的挑战。
- 如果构建足够坚固,就可以减少测试次数,但测试仍然至关重要。
- 火箭/航空领域的失败可能导致有效载荷的完全损失,因此安全检查至关重要。
- 在火箭领域,即使一小部件出现故障也可能导致任务失败,因此检查至关重要。
- 火箭引擎的 3D 打印可以实现更复杂的几何形状,但仍需要进行质量检查。
- 3D 打印火箭引擎是合理的,但跳过质量验证是不明智的。
- 制造火箭引擎时,质量验证是必要的,即使使用 3D 打印技术也不例外。
ChromeOS will soon be developed on large portions of the Android stack #
https://blog.chromium.org/2024/06/building-faster-smarter-chromebook.html
这篇博文介绍了如何通过在 ChromeOS 中引入大部分 Android 技术栈,将 Google 的人工智能、创新和功能更快地带给用户。在过去的 13 年里,ChromeOS 已经发展成为一个安全、快速、功能丰富的 Chromebook 体验,服务于全球数百万的学生、教师、家庭、玩家和企业。最近,通过 Google AI 和 Gemini 技术的新功能,Chromebook 现在有机会将强大的工具交到更多人手中,帮助他们处理日常任务。
为了更快速、更大规模地向用户推出新的 Google AI 功能,ChromeOS 将采用 Android 技术栈的部分内容,如 Android Linux 内核和 Android 框架,作为 ChromeOS 的基础。已经有了与 Android 应用程序的合作历史,ChromeOS 上也可以使用 Android 应用程序,并且从 ChromeOS 122 开始统一了蓝牙堆栈。
将基于 Android 的技术栈引入 ChromeOS 将加快 ChromeOS 核心的人工智能创新步伐,简化工程工作,并帮助手机和配件等不同设备更好地与 Chromebook 配合。同时,我们将继续提供无与伦比的安全性、一致的外观和感觉,以及广泛的管理功能,这是 ChromeOS 用户、企业和学校所喜爱的。
这些技术栈的改进已经开始,但消费者要等一段时间才能体验到。当准备就绪时,我们将提供平稳的过渡到更新的体验。与此同时,我们对 ChromeOS 的持续进展感到非常兴奋,而且我们的常规软件更新和新创新也不会有任何变化。
Chromebook 将继续为全球数百万的客户、用户、开发人员和合作伙伴提供出色的体验。我们对 ChromeOS 的未来充满期待。
HN 评论 422 comments | 作者:feross | 1 day ago #
https://news.ycombinator.com/item?id=40661703
- Android 架构相对于普通 Linux 在内核和用户空间开发方面提供了优势,有助于防止用户因设备制造商未更新 BSP 而被锁定在旧版 OS。
- Chromebooks 比 Android 设备获得更长时间的支持,避免了用户在用户空间遇到的愚蠢问题。
- Android 驱动在 3 年后被弃用,厂商需要频繁进行大量工作。Android 内核存在的问题在 Chromebooks 上不会发生。
- ChromeOS 在每个标准上比 Android 更好地处理碎片化。
- ChromeOS 设备可能在长达 10 年的时间内获得更新。
- ChromeOS 已经保证了 10 年的更新,而 Android 手机能否获得这么多更新尚不确定。
- Nvidia Shield TV 的支持周期虽长,但仍不及 10 年。
- Apple TV HD 获得了长期支持,而 Nvidia Shield TV 则存在安全漏洞。
- Fairphone 5 将获得 8 年的安全更新。
- Librem 5 将获得终身更新,因为它运行主线 Linux 而没有专有驱动程序。
- Linux 内核没有稳定的驱动程序 API,导致第三方开发者需要不断重构驱动程序。
- Linux 内核的稳定 ABI 和更容易访问内核 API 可以帮助关闭源驱动程序更好地访问内核 API。
Gerald Sussman: Programming is (should be) fun (2022) [video] #
https://www.youtube.com/watch?v=2MYzvQ1v8Ww
这个视频的标题是”[Scheme'22] Programming is (should be) fun!",由 ACM SIGPLAN 发布。视频内容主要围绕编程应该是有趣的这个主题展开。Gerald Jay Sussman(麻省理工学院教授)在视频中强调编程不仅仅是编写代码,而是一种创造性表达的媒介。
他指出,编写一个好的程序就像创作一首音乐作品一样,需要灵感和创意。视频中还提到了 Scheme 2022,强调编程应该是一种有趣的体验。评论中有人提到视频中的一句话:“当我看到这样的东西时,很难避免暴力的想法”,这句话可能是整个幻灯片中最好的一句,让人们都能够产生共鸣。
总体来说,这个视频强调了编程应该是一种有趣的、创造性的体验,而不仅仅是枯燥的代码编写。
HN 评论 95 comments | 作者:nequo | 1 day ago #
https://news.ycombinator.com/item?id=40663704
- 编程作为记忆知识的方式,通过编写程序存储知识,消除歧义。
- 编程帮助理解事物,深入数学、物理等领域,通过编程语言传递决策和知识。
- 编程让人能够创造性地学习,通过编码创建图像和关系,帮助理解数学等难以理解的概念。
- 使用编程消除笔记中的歧义,使其可执行/验证,编程让人注意到错误并提高验证能力。
- 编程设计活动中的知识是核心,设计活动通常需要团队合作,通过编程语言传递知识和决策给计算机。
- 编程设计可以持续很长时间,需要文档化以帮助记忆和组织更大的知识集合。
- 编程应该保持有趣,不应变得过于恐惧,目标仍然是有趣,使系统尽可能无畏地工作。
- 编程过程中的乐趣是重要的,当工作变得过于恐惧时,错误和问题就会发生。
- 编程的目标是保持在有趣/具有挑战性的区域,避免无聊和压力/无助的区域。
- 编程应该是有趣和充实的活动,对于那些享受编程的人来说,编程是有趣的。
AMD’s MI300X Outperforms Nvidia’s H100 for LLM Inference #
https://www.blog.tensorwave.com/amds-mi300x-outperforms-nvidias-h100-for-llm-inference/
这篇博文介绍了 AMD 的 MI300X 加速器在实际 AI 工作负载中是否能胜过 NVIDIA 的 H100。文章指出,AMD 的 MI300X 在 Mixture of Expert(MoE)架构上取得了令人印象深刻的初步成果,使用 MK1 的推理软件,MI300X 在一个真实的聊天使用案例中,相比于 H100 SXM 运行 vLLM 的 Mixtral 8x7B,实现了 33% 更高的吞吐量。尽管 NVIDIA 的软件生态更加成熟,但明显可以看出 AMD 已经是 AI 市场上一位强大的竞争对手。考虑到硬件可用性和成本,MI300X 在云端运行大规模推理时被证明是一个有吸引力的选择。文章还提到,预计 AMD 的性能优势在进一步优化后将进一步提升。
在离线和在线推理测试中,MI300X 和 H100 SXM5 加速器之间进行了广泛的比较。离线测试显示,MI300X 在每个批处理大小下都优于 H100,性能提升范围从 1.22 倍到 2.94 倍。在线测试针对聊天数据分布进行了测试,结果显示 MI300X 在每个输出标记时间上都比 H100 具有更高的吞吐量。总的来说,这些基准测试表明,AMD 的 MI300X 在 MoE 架构下(如 Mixtral 8x7B)的离线和在线推理任务中均优于 NVIDIA 的 H100。MI300X 不仅提供更高的吞吐量,而且在需要快速响应时间的实际场景中表现出色。
HN 评论 229 comments | 作者:fvv | 15 hours ago #
https://news.ycombinator.com/item?id=40667102
- TensorWave 是专门从事 AI 工作负载的云服务提供商,使用 AMD 的 Instinct™ MI300X 加速器,性能高于 Nvidia 的 H100,但建议对报告持保留态度。
- AMD 与 Nvidia 的比较应考虑价格因素,AMD 的性能若与 Nvidia 相当,不会以 1/4 价格出售。
- AMD 的 MI300X 与 Nvidia 的 H100 相比,性能仅高出 33%,但 MI300X 的晶体管和内存是 H100 的两倍,AMD 仍有改进空间。
- AMD 的深度学习库在某些方面表现不佳,大多数深度学习 GitHub 仓库使用 CUDA GPU 进行测试,要超越 Nvidia,需要提供更好的性价比或提供“DIY 无限 GPU 内存升级”套件。
- Apple 在追赶 Nvidia 或 AMD 之前,可能会超越 Nvidia,但目前尚无硬件 SIMD 技术。
- Nvidia 的市值相当高,竞争对手可能会推出一款与 Nvidia 一半优秀的产品,迫使 Nvidia 降价竞争。
- 欧洲缺乏大型科技公司,主要因为难以跨越 26 个国家和多种语言、法规的障碍,相比之下,美国是一个国家,市场更统一。
- 欧盟的单一市场在理论上消除了关税,但实际上在跨国公司之间仍存在各种法律和保护主义措施,使得在欧盟内部扩展公司更加困难。
- 欧洲的国家和选民仍重视国家主权和文化,不愿意接受统一的欧盟法律和语言,因此欧洲难以实现美国式的统一。