2025 10 21 HackerNews

2025-10-21 Hacker News Top Stories #

  1. AWS us‑east‑1 区域因 DynamoDB 的 DNS 解析故障引发 IAM、EC2、Lambda 等多项服务连锁中断,后经限流与修复逐步恢复。
  2. 一个互动网页通过模拟太空电梯旅程直观展示大气层、轨道与太空电梯的可行性与挑战,兼具科普与趣味。
  3. us‑east‑1 的 DynamoDB DNS 故障导致控制面服务广泛不可用,社区讨论单区依赖风险与临时应急措施。
  4. DeepSeek‑OCR 是面向视觉—文本压缩的开源 OCR 模型,支持多分辨率、PDF 输入与高效流式推理,适用于文档和图表解析。
  5. 一张详尽的 Linux 网络栈海报展示从虚拟化到物理网卡的包处理流程与性能优化建议,便于系统与网络工程师参考。
  6. Servo 发布 v0.0.1,表明跨平台构建能力初步成熟,但性能与用户体验仍需改进并将持续发布版本。
  7. 诺和诺德在加拿大未及时缴纳专利年费导致 semaglutide 专利失效,暴露出专利管理流程与潜在策略问题。
  8. 联合航空一架 737 MAX 在 36,000 英尺被不明坠落物击中致风挡破裂并安全备降,具体原因仍在调查。
  9. 文章提出将 BERT 的掩码语言建模视为单步离散文本扩散,并通过多步掩码去噪扩展其生成能力。
  10. 阿里云推出 Aegaeon 令牌级 GPU 调度系统,使多个模型共享单卡并显著降低对 Nvidia GPU 的需求、提升推理效率。

AWS Multiple Services Down in us-east-1 #

https://health.aws.amazon.com/health/status?ts=20251020

该网页是 AWS 官方发布的服务健康状态报告,记录了 2023 年 10 月 19 日至 20 日期间,美国东部 1 区(US-EAST-1)发生的重大服务中断事件。

事件起因是 US-EAST-1 区域的 DynamoDB 服务端点出现 DNS 解析问题,导致多个 AWS 服务出现错误率上升和延迟增加。该问题影响了依赖该区域的 IAM、DynamoDB 全球表等功能。

在 10 月 20 日凌晨 12:26,AWS 定位到根本原因并修复了 DynamoDB 的 DNS 问题。但随后,由于 EC2 实例创建依赖 DynamoDB,EC2 内部子系统出现故障,导致实例创建失败。这一问题进一步引发网络负载均衡器健康检查异常,造成 Lambda、DynamoDB、CloudWatch 等服务出现网络连接问题。

AWS 采取了临时限流措施,包括限制 EC2 实例创建、SQS 队列处理和异步 Lambda 调用,以减轻系统压力。随着修复工作推进,各项服务逐步恢复:

  • 10 月 20 日上午 9:38,网络负载均衡器健康检查恢复。
  • 中午 12:15 起,EC2 实例创建成功率提升,Lambda 调用错误显著减少。
  • 下午 1:03,Lambda 调用错误完全恢复,SQS 队列处理速率逐步回升。
  • 下午 2:48,EC2 实例创建限流解除,Redshift 等依赖服务正处理积压任务。
  • 到 3:01,所有 AWS 服务恢复正常运行,部分服务如 AWS Config、Redshift 和 Connect 仍有少量数据积压,预计在数小时内处理完毕。

AWS 表示将发布详细的事件复盘报告。本次事件影响范围广,持续时间长,凸显了核心服务依赖的复杂性与系统韧性的重要性。


HN 热度 1576 points | 评论 1776 comments | 作者:kondro | 18 hours ago #

https://news.ycombinator.com/item?id=45640838

  • 企业在设计多区域容灾时,若依赖单一区域的身份认证系统,一旦该区域故障,将导致整个公司无法访问云控制平面,从而无法执行故障转移。
  • 临时通过修改 Kubernetes 中的 /etc/hosts 文件来绕过故障的 DNS 解析,是一种快速有效的应急手段,尽管这种做法在正常情况下不被推荐。
  • 企业应警惕“循环认证”问题,一旦 DNS 或认证服务中断,将导致无法访问关键系统,如密码 vault。
  • 历史上曾有公司因 BGP 配置错误导致网络瘫痪,甚至需要物理进入数据中心才能修复,而此时门禁系统也因网络故障失效。
  • 在紧急情况下,高层管理者授权快速进入数据中心,通过“是否有人认识你”作为安全验证方式,虽然不具可扩展性,但实际效果高效。
  • 一些数据中心采用严格的物理安全措施,如生物识别和身份核验,但紧急情况下可临时放宽流程以保障系统恢复。
  • 有公司曾将关键密钥封装在混凝土中以防止滥用,但一旦需要使用,仍需借助工具如电钻或角磨机才能取出。
  • 数据中心内部环境可能设置低氧以防火灾,进入者可能因缺氧而头晕,但浓度控制在安全范围内,不会致命。
  • 一些数据中心曾使用哈龙(Halon)灭火系统,其主要通过消耗氧气来灭火,高浓度下可能造成窒息。
  • 数据中心内部环境通常较为普通,危险主要来自设备边缘或工具使用,而非科幻电影中的激光或毒气陷阱。
  • 有真实案例显示,窃贼通过破坏共用墙体进入服务器机房,使用电锯等工具非法侵入并盗取设备。

Space Elevator #

https://neal.fun/space-elevator/

这是一个以“太空电梯”为主题的互动式科普网页,通过模拟乘坐电梯从地面升至太空的旅程,向用户展示大气层的结构、飞行器与鸟类的飞行极限,以及人类探索高空与太空的历史。

旅程从地表的对流层开始,这里聚集了 99% 的大气水蒸气,天气现象多发。随着高度上升,温度逐渐降低,用户会看到不同类型的云:如由冰晶构成的卷云、带来降雨的雨层云、以及能引发雷暴的积雨云。

进入平流层后,温度开始回升,这里包含了保护地球的臭氧层。平流层是许多高空飞行器的巡航区域,如协和飞机和 U-2 侦察机。此处还介绍了高空飞行的极限,如人类跳伞纪录、直升机飞行高度纪录(SA 315B Lama)和飞机速度纪录(SR-71 黑鸟)。

继续上升进入中间层,空气极为稀薄,温度降至最低点,是大多数流星燃烧的地方。由于气压极低,水的沸点也大幅下降,此处还提到了“阿姆斯特朗极限”——超过此高度,人体体液会沸腾。

抵达热层后,虽然温度可高达 2500°C,但由于空气分子极度稀疏,热量无法传导,因此不会感到高温。这里也是极光出现的区域,太阳粒子与大气原子相互作用,产生绚丽的光幕。同时,热层也是人造卫星和空间站运行的区域。

网页还穿插了大量真实历史事件与纪录:如维克托·格里戈里耶维奇·帕拉特的热气球飞行、Felix Baumgartner 的超音速自由落体、苏联 V-2 火箭的飞行高度、以及泰坦尼克号沉没时的气流高度等。

最后,网页以“太空电梯”为结尾,探讨其科学可行性与挑战,强调制造足够强的缆绳和“电梯音乐”是两大难题,用轻松幽默的方式收尾,传递了对科技与探索的向往。

整个页面融合了科学知识、历史纪录与互动体验,以生动方式普及大气层结构、飞行极限与人类航天成就。


HN 热度 1472 points | 评论 336 comments | 作者:kaonwarb | 20 hours ago #

https://news.ycombinator.com/item?id=45640226

  • 地球大气层相对于地球整体尺寸非常薄,100 公里的高度仅相当于城市间的距离,徒步或骑行即可到达。
  • 用教室常见的 13 英寸地球仪类比,大气层厚度约 0.1 英寸,远超过普通纸张厚度,因此“纸层”比喻不准确。
  • 若以 90% 大气集中在 16 公里高度计算,大气层厚度仅约 0.015 英寸,相当于约 4 张普通打印纸叠加的厚度。
  • 有观点指出,地球仪上的山脉凸起比例远超真实,属于夸张表现。
  • 从工程角度看,进入太空的难点并非高速横向运动,而是如何高效克服重力并安全穿越大气层。
  • 火箭发射阶段失败率高,主要因为大气层内飞行面临剧烈气动加热、振动和结构应力,而非轨道速度本身。
  • 尽管轨道速度所需能量巨大(约 32MJ),但实际推进系统效率受限于燃料质量,火箭燃料质量接近或超过有效载荷。
  • 从能量角度看,加速到轨道速度所需能量远超克服重力所需,但实际难度更多体现在工程实现与系统可靠性。
  • 有观点强调,火箭在大气层内飞行时,必须在速度与结构安全之间取得平衡,过快会导致烧毁,过慢则效率低下。
  • 进入太空后,维持轨道相对稳定,但返回大气层时再次面临巨大挑战,是整个任务中最危险的阶段之一。

Major AWS Outage Happening #

https://old.reddit.com/r/aws/comments/1obd3lx/dynamodb_down_useast1/

这篇 Reddit 长帖围绕 2025-10-20 凌晨 AWS us-east-1 区域 DynamoDB 及其他多项服务严重故障展开

  1. 故障现象

    • DynamoDB DNS 记录(dynamodb.us-east-1.amazonaws.com)突然无法解析,导致 API 完全不可用。
    • 连锁波及 Lambda、API Gateway、Kinesis、SQS、CloudFront、Route53、IAM、STS、Billing、Support、SecretsManager、ECR 等几乎所有依赖 us-east-1 控制面的服务;全球大量网站、App(Reddit、Slack、Docker Hub、Canva、Fidelity、Prime Video、Wordle、Snapchat 等)出现登录、支付、流媒体、报警、CI/CD 中断。
  2. 用户现场吐槽

    • 全球 on-call 工程师被告警轰炸,有人灯都关不了(Alexa 依赖 us-east-1),有人第一次值班就“撞大运”。
    • 有人把 DynamoDB 硬编码 IP 写到 /etc/hosts 临时救急;有人连 AWS 控制台、工单系统都进不去,嘲讽“AWS 自己都没做多区域冗余”。
  3. 官方进展

    • 02:01 PDT 公告:初步判定是 DynamoDB endpoint 的 DNS 解析问题,正在多路并行修复,并提示其他依赖 us-east-1 的全球功能(IAM 更新、Global Tables 等)也会受影响。
    • 02:22 PDT 更新:已应用首批缓解措施,部分服务开始恢复,但仍有延迟和请求积压。
    • 02:27 PDT 更新:大部分请求成功,继续清理队列。
  4. 社区梗与反思

    • “It’s always DNS” 成最高频梗;有人建议 AWS 在状态页新增级别“Dumpster Fire”。
    • 大量开发者意识到:把灯、CI、告警、电话系统都托管在单区域云上是“自掘坟墓”,呼吁本地冗余、多 Region、多云或 Home Assistant 等离线方案。

HN 热度 1070 points | 评论 10 comments | 作者:vvoyer | 18 hours ago #

https://news.ycombinator.com/item?id=45640772

  • AWS 官方健康状态页面是获取此次服务中断信息的权威来源,建议优先参考。
  • Reddit 等社区平台上的用户报告在某些情况下比 AWS 官方页面更及时、更可靠。
  • 系统管理员相关的子论坛(如 r/sysadmin)通常是发现此类故障的最早渠道,因为有大量一线运维人员在线。
  • 由于 AWS 官方健康页面本身也可能受影响,其信息的可信度受到质疑。
  • 此次 AWS 故障已影响到学校学生使用 Chromebook 登录,造成实际使用障碍。

DeepSeek OCR #

https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR 是由 DeepSeek AI 发布的一款专注于视觉-文本压缩的模型,旨在从大语言模型(LLM)的视角探索视觉编码器的作用。该模型支持多种分辨率模式,包括 Tiny(512×512)、Small(640×640)、Base(1024×1024)和 Large(1280×1280),并提供动态分辨率模式“Gundam”,可处理多尺寸图像输入。

模型支持多种应用场景,如文档转 Markdown、图像 OCR、图表解析、图像描述、文本定位等,可通过提示词灵活控制输出内容。支持图像和 PDF 输入,具备高并发处理能力,在 A100-40G 上可实现约 2500 tokens/秒的推理速度。

提供两种推理方式:基于 vLLM 的高效推理和基于 Hugging Face Transformers 的兼容推理。vLLM 推理支持流式输出和批量评估,Transformer 推理则可通过简单代码调用完成图像识别与文本生成。

项目开源,采用 MIT 许可证,附带论文链接与详细使用说明。模型基于 Flash Attention 优化,支持 bfloat16 精度与安全加载,适用于科研与工业级应用。项目依赖环境为 CUDA 11.8 + PyTorch 2.6.0,安装过程已提供完整指令。

模型灵感来源于 Vary、GOT-OCR2.0、MinerU 等先进模型,并参考了 Fox、OminiDocBench 等评测基准。项目持续更新,未来将发布正式引用信息。


HN 热度 861 points | 评论 219 comments | 作者:pierre | 19 hours ago #

https://news.ycombinator.com/item?id=45640594

  • 文本 token 是子词单位的整数编码,具有较小的词汇表,而视觉 token 是嵌入空间中的向量,其表示空间更大,传输效率较低。
  • 文本 token 化受限于词边界,难以高效编码全局模式,而视觉 token 可以捕捉更复杂的图像结构信息。
  • 文本 token 的数量虽少,但其组合方式的熵极高,体现了语言表达的高效性。
  • 语言模型的 token 数量限制在约 10 万左右,是权衡表达能力与计算效率的结果。
  • 过大的词汇表会导致计算开销增加,且出现罕见 token(如用户名)时模型难以有效学习其语义。
  • 罕见 token 可被用于对抗性攻击,称为“幽灵 token”,在 AI 安全领域具有潜在风险。
  • 未来可能通过更高阶的表示方式(如 LLVM 字节码或 LLM 内部状态)进行 token 化,实现更密集的信息编码。
  • 利用小型本地模型对代码进行语义压缩并生成摘要 token,可显著减少上下文长度,提升效率。
  • 这种高级 token 化方式虽高效,但会增加模型内部状态的不可解释性,不利于外部调试与分析。

Entire Linux Network stack diagram (2024) #

https://zenodo.org/records/14179366

这是一个关于 Linux 网络栈完整架构的图示海报,发布于 2024 年 11 月 18 日,版本为 v7,由 Ericsson Nikola Tesla 的 Hrvoje Horvat 创作。该图详细展示了从虚拟化层到物理网卡的整个 Linux 网络栈结构,涵盖多个关键层级与技术组件。

图示内容包括:

  • 虚拟化与容器技术:涵盖模拟与半虚拟化环境,以及网络套接字的使用。
  • 网络栈上层:TCP 与 UDP 协议处理。
  • 网络栈底层:包含 GRO(通用接收卸载)、RPS(接收包调度)、RFS(接收流分流)和 GSO(通用分段卸载)等优化技术。
  • 网络调度器:负责数据包的调度与处理。
  • NetFilter 与流量控制:包括桥接、绑定接口、TAP 接口等。
  • 设备驱动层:涉及队列管理、NAPI(New API)机制和中断处理程序。
  • 网卡加速功能:如校验和卸载、VLAN、VxLAN、GRE、TSO(TCP 分段卸载)、LRO(大接收卸载)、RSS(接收侧缩放)等。
  • 物理网络适配器(网卡)。

每个层级均配有性能优化建议和关键统计信息,帮助用户理解如何提升网络性能。该图是书籍《Operativni sustavi i računalne mreže - Linux u primjeni》(操作系统与计算机网络——Linux 的应用)的一部分,可通过 DOI 10.5281/zenodo.8119310 访问该书。

文件为 PDF 格式,大小 5.4MB,已公开获取,支持下载与预览。该资源采用知识共享署名 4.0 国际许可协议(CC BY 4.0),允许自由分享与再利用,前提是正确署名作者。

该海报在 Zenodo 平台发布,累计浏览量达 69,328 次,下载量达 46,782 次,数据总量约 412.7GB。版本迭代频繁,最新版本为 v7,更新至 2024 年 11 月 18 日。所有版本可通过统一 DOI 10.5281/zenodo.12723600 访问,确保长期可追溯性。


HN 热度 547 points | 评论 47 comments | 作者:hhutw | 22 hours ago #

https://news.ycombinator.com/item?id=45639995

  • 一张清晰的网络数据包流转图能极大提升对 iptables 的理解,帮助写出更高效、更可靠的规则。
  • 网络防火墙规则的正确配置依赖于对内核网络栈处理流程的深入理解,仅靠复制粘贴无法真正掌握。
  • iptables 的规则执行顺序和 sysctl 参数的生效位置在图中明确标注,对实际配置至关重要。
  • 传统的 iptables 图表存在不完整的问题,未能体现 NAT 等功能背后的内核代码逻辑。
  • nftables 作为新一代网络过滤框架,其设计与 iptables 有共通之处,理解 Netfilter 框架有助于掌握两者。
  • 尽管 nftables 是未来方向,但 iptables 仍在大量系统中广泛使用,系统管理员仍需掌握。
  • 通过翻译开源书籍内容,可以推动技术知识的全球传播,尤其对非英语母语者具有重要意义。
  • 使用 AI 辅助翻译结合人工校对,是高效完成技术书籍翻译的可行方案。
  • 为容器提供网络功能时,可选择使用独立的 TCP/IP 栈(如 slirp4netns)或共享主机内核栈(如 pasta)。
  • 作者的 Linux 网络栈和磁盘 I/O 图表质量极高,对学习 Linux 系统原理极具价值。
  • 作者的书籍采用 CC BY-SA 许可,允许自由翻译和再分发,为国际化提供了法律基础。
  • 自动化生成如此复杂的系统架构图在技术上极具挑战,但可借助 Mermaid、PlantUML 等工具辅助实现。

Servo v0.0.1 #

https://github.com/servo/servo

Servo 是一个用 Rust 语言编写的并行浏览器引擎原型,旨在为应用程序提供轻量级、高性能的 Web 技术嵌入方案。项目支持 64 位 macOS、Linux、Windows、OpenHarmony 和 Android 平台,致力于推动 Web 技术在更多场景下的应用。

项目采用 MPL-2.0 开源许可证,社区活跃,欢迎全球开发者参与贡献。主要开发与协作通过 GitHub Issues、Servo Zulip 讨论组以及项目定期视频会议进行。

开发者可通过 Servo Book 获取详细的环境配置、构建指南,包括桌面端、Android 和 OpenHarmony 平台的构建方法。构建流程依赖于 mach 工具,支持自动化依赖安装、编译与测试。

项目持续更新,近期提交涉及 ResizeObserverEntry 字段初始化、Android 软键盘集成、IndexedDB 配置支持、CI 流水线优化(使用 nextest)以及 Python 工具链升级(如 ruff 替代 flake8)等改进。

Servo 项目还提供官方文档、安全政策、贡献指南和代码规范,强调代码质量与社区协作。项目主页为 servo.org,同时通过 GitHub Sponsors 支持开源发展。


HN 热度 460 points | 评论 141 comments | 作者:undeveloper | 12 hours ago #

https://news.ycombinator.com/item?id=45643357

  • Servo 团队正式发布 v0.0.1 版本,基于近期的 nightly 构建并经过额外手动测试,未来将每月发布一次 tagged release,但暂不计划上架 crates.io 或各平台应用商店。
  • 此次发布可能与 Mac/Arm 平台支持问题解决有关,标志着 Servo 已具备完整的跨平台构建能力。
  • 项目目前仍处于早期阶段,虽有定期的“本月 Servo”更新博客,但发布公告信息较少,详细进展需查阅博客。
  • 有用户对 Servo 的性能和用户体验表示失望,指出其在 Mac 上启动慢、渲染卡顿、内存占用高,甚至出现渲染错误。
  • 与 Ladybird 相比,Servo 虽有 Mozilla 背景和 Rust 语言优势,但实际表现仍落后,而 Ladybird 虽界面老旧却更流畅稳定。
  • Servo 不仅是浏览器引擎,其底层库在 Rust 生态中被广泛使用,对整个 Web 平台有积极影响。
  • 项目自 2012 年启动,经历 2020 年停滞,2023 年底由 Igalia 重启,实际独立开发时间较短,不应简单以“十年”衡量。
  • 有开发者期待未来 Tauri 能原生使用 Servo,构建纯 Rust 桌面应用,避免依赖系统浏览器,实现更轻量的部署。
  • Servo 的静态链接和代码裁剪可能实现更小的二进制体积,但需权衡功能与性能,如移除 WebRTC、视频播放或使用轻量 JS 引擎。
  • 与 Electron 类似,Servo 的二进制大小也达到 100MB 以上,可能是因为集成了 WebRTC、视频解码等完整功能。
  • 有观点认为,现代浏览器引擎的最小体积可能受限于功能完整性,100MB 可能是“全功能浏览器”的合理下限。
  • Ladybird 体积较小,但其功能和兼容性受限,难以满足主流用户需求,尤其是对 JS 性能和多媒体支持要求高的场景。

Novo Nordisk’s Canadian Mistake #

https://www.science.org/content/blog-post/novo-nordisk-s-canadian-mistake 诺和诺德在加拿大忘了交 250 加元专利年费,导致其“摇钱树”司美格鲁肽专利 2019 年永久失效;2026 年起 Sandoz 等仿制药厂可合法低价杀入加拿大市场,而美国专利要到 2032 年才到期。

  • Sandoz CEO Richard Saynor 透露,公司已在加拿大提交生物类似药申请,计划 2026 年上市。
  • 他发现诺和诺德竟未在加拿大维持司美格鲁肽专利,直呼“肯定有人因此丢工作”。
  • 加拿大专利数据库显示:诺和 2018 年后就停止缴纳年费,2019 年宽限期满专利自动作废,且不可恢复。
  • 加拿大是仅次于美国的第二大司美格鲁肽市场,大量需求被指通过跨境流向美国;专利 lapse 后价格跳水几成定局。
  • 反观美国,专利壁垒牢固,仿制药至少需等到 2032 年。
  • 业内点评:大药企也有“忘了交话费”的低级失误,一次 250 加元的疏忽,可能让诺和在未来几年损失数十亿加元销售额。

HN 热度 414 points | 评论 219 comments | 作者:jbm | 1 day ago #

https://news.ycombinator.com/item?id=45637744

  • Novo Nordisk 在加拿大未能及时支付专利年费,导致其 semaglutide 专利失效,尽管有长达一年的宽限期,但公司未采取补救措施。
  • 专利失效可能并非疏忽,而是有意为之,以避免受到加拿大专利药品价格审查委员会的监管。
  • 有法律专家指出,公司同时申请了补充保护证书(CSP),表明其整体上仍重视专利保护,因此专利失效更可能是战略性决策。
  • 尽管公司声称其知识产权策略是全球性、深思熟虑的,但专利失效与 CSP 申请无法生效之间存在逻辑矛盾,暗示可能仍是失误。
  • 有人质疑,若公司真有意放弃专利,为何在其他方面仍积极维护知识产权,这种行为模式难以解释为纯粹的商业策略。
  • 专利失效事件暴露了大型药企内部管理混乱与官僚主义问题,责任分散导致无人真正担责。
  • 即使是重大药品专利,也因内部流程缺陷而失效,反映出企业对知识产权保护的重视程度不足。
  • 该事件凸显了药企在专利管理上的系统性风险,即便再大的公司也可能因简单疏忽而失去巨额收益。
  • 有评论指出,公司可能低估了专利失效带来的长期市场影响,尤其是在加拿大这一重要市场。

United MAX Hit by Falling Object at 36,000 Feet #

https://avbrief.com/united-max-hit-by-falling-object-at-36000-feet/

一架联合航空的波音 737 MAX 客机在从丹佛飞往洛杉矶的途中,于 36,000 英尺高空遭遇不明物体撞击,引发广泛关注。据美国国家运输安全委员会(NTSB)调查,目前重点怀疑是气象气球的数据采集包坠落导致事故。尽管最初有传言称可能是太空碎片,但专家分析认为,若为太空物体,其撞击速度将造成更严重破坏,与目前仅出现风挡裂纹的情况不符。

撞击导致驾驶舱风挡单层破裂,飞行员手臂出现多处划伤,但未发生客舱失压,飞机安全备降盐湖城,乘客随后转机完成航程。机组人员迅速下降至 26,000 英尺以减轻风挡压力,表现出专业应对能力。

社交媒体上流传的水印照片显示,驾驶舱内有玻璃碎片散落于中央控制台,疑似来自风挡内部层的破裂。有评论指出,全球每天有上千个气象气球升空,其携带的传感器包在降落时可能被飞机意外击中,此类事件虽罕见,但并非首次发生。

部分网友调侃称应为飞行员配备头盔,或增设“太空碎片”类 NOTAM(航行通告),也有观点认为事件或与星链卫星残骸有关,但官方尚未确认。目前事故原因仍在调查中,航空公司与 FAA 暂未发表评论。


HN 热度 392 points | 评论 214 comments | 作者:d_silin | 1 day ago #

https://news.ycombinator.com/item?id=45636285

  • 有评论指出,最初报道中称可能是太空碎片的说法可能不准确,因为若为太空物体,其速度可能导致更严重的损伤,而不仅仅是风挡玻璃破裂。
  • 有关机长称撞击物为“太空碎片”的说法,来源仅为 Reddit 上一名自称是机组人员邻居的用户,可信度较低。
  • 原始文章标题曾为“Airliner hit by possible space debris”,后已更新,因此当前提交的标题可能反映的是旧版本,存在误导性。
  • 有用户指出,从存档页面看,原始标题确实更倾向于“可能来自太空的坠落物体”,与当前标题一致,说明标题更新未及时同步。
  • 外部照片显示飞机风挡周围有划痕痕迹,表明确实有物体撞击,但具体来源尚不明确。
  • 一些照片中出现的纸夹图标(Clippy)是“修复权运动”中象征“友好但无害”的数字反抗符号,代表对大科技公司滥用数据、注意力和暗黑模式的不满。
  • Clippy 作为 90 年代 Office 助手,虽然曾被广泛讨厌,但如今被重新诠释为一种对技术友好的反抗象征,强调技术应服务于人而非控制人。
  • 该符号的流行反映了年轻一代对科技伦理的关注,尽管其实际影响力有限,但能引发对大科技公司行为的讨论。
  • 有人质疑该运动缺乏实质行动,仅靠更换头像难以产生真正改变,且可能被企业利用进行公关炒作。
  • 也有观点认为,这种符号化行为是建立运动的第一步,通过简单行动(如更换头像)引发对话,进而推动更实际的行动,如反对 AI 监控合同。
  • 该现象体现了当代网络文化中“短内容”传播趋势,如 YouTube Shorts 等平台正成为信息传播的新形式。
  • 有人认为这种符号化表达是一种“道德表演”或“虚伪信号”,缺乏深度,但也有观点认为它是一种对技术异化的隐喻性反抗。

BERT is just a single text diffusion step #

https://nathan.rs/posts/roberta-diffusion/

本文探讨了将 BERT 类模型通过扩散机制转化为文本生成模型的可行性,并揭示了离散语言扩散模型与掩码语言建模(MLM)之间的深层联系。

文章指出,谷歌 DeepMind 推出的 Gemini Diffusion 模型采用扩散机制生成文本,与传统逐词生成的 GPT 模型不同,它通过逐步去噪的方式生成完整文本块。作者在阅读相关论文后发现,离散语言扩散本质上是掩码语言建模的推广形式。

回顾 Transformer 发展史,2017 年原始 Transformer 为编码器-解码器结构。2018 年后,BERT(编码器-only)与 GPT(解码器-only)分化:BERT 使用 MLM 训练目标,通过随机掩码部分词元并重建,学习双向上下文表示;GPT 则采用自回归方式,基于左侧上下文逐词预测,擅长生成任务。

在离散语言扩散模型中,作者将图像扩散过程类比到文本:前向过程逐步用替换词元(按预设掩码率序列),最终得到全掩码序列;反向过程则训练模型在不同掩码率下恢复原始文本。这一过程本质上是多阶段的掩码语言建模,而 BERT 的 MLM 只是其中特定掩码率下的特例。

作者以 RoBERTa 为基础,使用 Hugging Face 库在 WikiText 数据集上进行微调实验。通过自定义数据收集器(diffusion_collator),在训练中随机选择掩码率(从 0.1 到 1.0),并保留前 16 个词元作为提示上下文。训练目标是让模型在不同掩码程度下预测原始词元。

推理阶段,输入为 256 个词元的张量,前 16 个为提示,其余为。模型按去噪顺序逐步预测,从高掩码率向低掩码率推进,最终生成完整文本。

文章最后提到,该思路与后续发表的 DiffusionBERT 论文高度一致,建议读者进一步阅读。整体表明:BERT 本质上可以看作单步文本扩散模型,而通过引入多步去噪机制,即可实现强大的文本生成能力。


HN 热度 341 points | 评论 83 comments | 作者:nathan-barry | 11 hours ago #

https://news.ycombinator.com/item?id=45644328

  • BERT 最初被设计为纯编码器,用于语义相似性计算和分类任务,而非文本生成。
  • 尽管早期尝试用 BERT 生成文本效果不佳,但通过在训练时引入两步过程和随机化掩码概率,可使其具备一定的生成能力。
  • 文本扩散模型与 BERT 的掩码语言建模存在内在联系,掩码过程可视为一种扩散步骤。
  • 早在 2014 年,已有研究指出自回归生成模型与去噪自编码器(扩散模型前身)之间存在等价性。
  • 2019 年论文提出无显式扩散框架的生成式掩码语言建模方法,为后续研究奠定基础。
  • 有观点认为,扩散式生成更接近人类大脑处理语言的方式,即先有模糊想法再逐步表达,而非逐词生成。
  • 虽然自回归模型在每一步只生成一个词,但其注意力机制允许模型在隐空间中进行长期规划和推理。
  • 自回归模型在生成过程中并非完全“从头开始”,而是通过注意力机制持续参考已有内容,实现对“计划”的迭代。
  • 然而,当外部输入插入时,模型对已有“计划”的修改能力受限,其内部状态无法真正动态更新。
  • 有观点指出,自回归模型的“记忆”本质上是静态的,无法像人类一样真正更新或修正已有认知。
  • 高温采样等操作可能导致模型偏离原有计划,说明其“计划”并非稳定或强健。
  • 尽管存在争议,但当前主流观点认为自回归模型具备一定的内部规划能力,但其机制与人类思维仍有本质差异。

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system #

https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent 阿里巴巴云发布了一项名为 Aegaeon 的新型 GPU 资源调度系统,该系统在生产环境中经过数月测试,成功将运行大型语言模型(LLM)所需的 Nvidia H20 GPU 数量减少 82%。这一成果基于在 2025 年 ACM 操作系统研讨会(SOSP)上发表的同行评审论文。

Aegaeon 的核心创新在于采用令牌级调度(token-level scheduling),突破传统按请求分配 GPU 资源的方式。它将 GPU 计算资源虚拟化到最小单位——令牌级别,实现多个模型共享同一 GPU,并根据实际输出动态分配算力,显著提升资源利用率。

在测试中,原本需要 1,192 块 H20 GPU 支持的数十个参数规模达 720 亿的 LLM,通过 Aegaeon 系统仅需 213 块 GPU 即可完成,系统整体“有效输出”(goodput)提升最高达 9 倍。该系统由阿里巴巴基础设施团队与北京大学联合研发,CTO 周靖人参与撰写。

该技术特别适用于中国等受美国出口管制限制的市场,使云服务商能在 GPU 供应受限的情况下,通过软件优化大幅扩展 AI 推理能力。Aegaeon 相比现有方案如 ServerlessLLM 和 MuxServe,在性能上提升 1.5 至 9 倍。

尽管目前成果来自阿里巴巴内部环境,但其方法为全球 AI 基础设施优化提供了新思路,尤其在提升 GPU 利用率、降低 AI 推理成本方面具有广泛潜力。


HN 热度 330 points | 评论 229 comments | 作者:hd4 | 13 hours ago #

https://news.ycombinator.com/item?id=45643163

  • 高性能 AI 模型占用大量显存,且加载耗时长达数十秒,因此即使模型空闲也需保持在 GPU 上以避免延迟。
  • 多个不热门的小型模型可被整合到同一块 GPU 上,通过分时调度实现资源高效利用。
  • 通过令牌级调度技术,单个 GPU 可并行服务多个大语言模型,显著降低对 GPU 的需求。
  • 当前的 GPU 资源分配存在严重浪费,部分 GPU 仅用于服务极少数请求,但占用了大量计算资源。
  • 由于模型体积庞大,无法单卡部署,需采用张量并行等技术将模型拆分到多卡运行。
  • 美国对华半导体出口限制反而推动了中国企业在 AI 基础设施领域的自主创新。
  • 中国工程师在外部压力下,被迫像过去硅谷那样进行“原始创新”,推动技术进步。
  • 该优化方案在小规模测试中将 GPU 需求从 1192 块降至 213 块,效果显著,但需考虑模型数量和并行能力的限制。
  • 不同规模集群的指标不可直接类比,需谨慎对待数据的可扩展性。
  • 中国企业在 AI 算力调度方面取得突破,可能带来全球范围内的效率提升。

Hacker News 精彩评论及翻译 #

AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45643848

Interesting day. I’ve been on an incident bridge since 3AM. Our systems have mostly recovered now with a few back office stragglers fighting for compute.

The biggest miss on our side is that, although we designed a multi-region capable application, we could not run the failover process because our security org migrated us to Identity Center and only put it in us-east-1, hard locking the entire company out of the AWS control plane. By the time we’d gotten the root credentials out of the vault, things were coming back up.

Good reminder that you are only as strong as your weakest link.

time0ut

真是够劲儿的一天。我从凌晨3点就一直在事件响应桥上。我们的系统现在基本恢复了,只剩下几个后台系统还在争抢计算资源。

我们这边最大的失误在于,虽然我们设计了一个支持多区域部署的应用,却无法执行故障转移流程,因为我们的安全团队将我们迁移到了 Identity Center,并且只把它部署在了 us-east-1 区域,结果导致整个公司都被彻底锁在了 AWS 控制台之外。

等我们从保险库中取出根凭据时,系统其实已经自行恢复了。

这真是个很好的提醒:你的强大程度只取决于你最薄弱的环节。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45641625

Just a couple of days ago in this HN thread 0 there were quite some users claiming Hetzner is not an options as their uptime isn’t as good as AWS, hence the higher AWS pricing is worth the investment. Oh, the irony.

littlecranky67

就在几天前的这个 HN 讨论串 0里,还有不少用户声称 Hetzner 不行,说他们的停机时间不像 AWS 那么好,所以更高的 AWS 价格是值得的投资。哦,这可真是讽刺啊。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45645786

Seems like major issues are still ongoing. If anything it seems worse than it did ~4 hours ago. For reference I’m a data engineer and it’s Redshift and Airflow (AWS managed) that is FUBAR for me.

indoordin0saur

看起来主要问题仍在持续。实际上,感觉比大约4小时前更严重了。供参考,我是一名数据工程师,对我来说彻底完蛋的是 Redshift 和 Airflow(AWS托管服务)。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45641031

Choosing us-east-1 as your primary region is good, because when you’re down, everybody’s down, too. You don’t get this luxury with other US regions!

nikolay

选择我们东部1区作为您的主区域是个不错的选择,因为当您宕机时,大家也都一起宕机了。在其他美国区域,您可就享受不到这种待遇了!


The scariest “user support” email I’ve ever receiv… #

https://news.ycombinator.com/item?id=45649704

as ChatGPT confirmed when I asked it to analyze it

lol we are so cooked

tantalor

正如我让ChatGPT分析时它所确认的那样

笑死,我们彻底完蛋了


Novo Nordisk’s Canadian Mistake #

https://news.ycombinator.com/item?id=45638127

Prof. Michael Hoffman from Toronto put me on to the Canadian Patent Database, where you can find that Novo did file a patent there for semaglutide. . .but the last time they paid the annual maintenance fee on it was 2018!

You can even find a letter where their lawyers send a refund request for the 2017 maintenance fee ($250) because Novo apparently wanted some more time to see if they wanted to pay it.

On the same date in 2019, the office sent a letter saying that “The fee payable to maintain the rights accorded by the above patent was not received by the prescribed due date. . .”

By that time it was $450 with the late fee added, but that was apparently too much for Novo. They had a one year grace period to make it up, and apparently never did, so their patent lapsed in Canada. And as the Canadian authorities remind them, “Once a patent has lapsed it cannot be revived”.

Impressive failure for “the second-largest semaglutide market in the world.”

jzebedee

多伦多的迈克尔·霍夫曼教授让我知道了加拿大专利数据库,在那里你会发现诺和诺德确实为司美格鲁肽申请了专利……但他们最后一次支付年度维护费是在2018年!

你甚至可以找到一封他们律师发来的信,信中要求退还2017年的维护费(250美元),因为诺和诺德显然想争取更多时间来决定是否要支付这笔费用。

2019年的同一天,该办公室发来一封信称:“上述专利所赋予权利的维护费未在规定截止日期前收到……”

当时加上滞纳费已达到450美元,但这显然对诺和诺德来说太多了。他们有一年的宽限期来补缴,但他们显然没有这么做,因此他们的专利在加拿大失效了。正如加拿大当局提醒他们的那样,“一旦专利失效,就无法恢复”。

这对“世界第二大司美格鲁肽市场”来说,真是一个令人印象深刻的失败。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45642182

Planning for an AWS outage is a complete waste of time and energy for most companies. Yes it does happen but very rarely to the tune of a few hours every 5-10 years. I can almost guarantee that whatever plans you have won’t get you fully operational faster than just waiting for AWS to fix it.

padjo

对大多数公司来说,为 AWS 停机做准备完全是浪费时间精力。没错,停机确实会发生,但非常罕见,每五到十年也就几个小时。我几乎可以保证,无论你有什么计划,都不可能比直接等待 AWS 修复问题让你更快地完全恢复运营。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45641627

“Based on our investigation, the issue appears to be related to DNS resolution of the DynamoDB API endpoint in US-EAST-1. We are working on multiple parallel paths to accelerate recovery.”

It’s always DNS.

stepri

根据我们的调查,问题似乎与 DynamoDB API 在 US-EAST-1 区域的 DNS 解析有关。我们正在通过多条并行路径加速恢复。 果然是 DNS。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45642146

Have a meeting today with our AWS account team about how we’re no longer going to be “All in on AWS” as we diversify workloads away. Was mostly about the pace of innovation on core services slowing and AWS being too far behind on AI services so we’re buying those from elsewhere.

The AWS team keeps touting the rock solid reliability of AWS as a reason why we shouldn’t diversify our cloud. Should be a fun meeting!

JCM9

今天我们和AWS账户团队开了一个会,讨论我们不再“全面投入AWS”的计划,因为我们正在将工作负载进行多元化。会议主要核心服务的创新速度放缓,以及AI服务方面差距过大,所以我们计划从其他地方采购这些服务。

AWS团队一直强调AWS的“坚如磐石的可靠性”,作为我们不应多元化云服务的理由。这应该会是一次有趣的会议!


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45647080

This is having a direct impact on my wellbeing. I was at Whole Foods in Hudson Yards NYC and I couldn’t get the prime discount on my chocolate bar because the system isn’t working. Decided not to get the chocolate bar. Now my chocolate levels are way too low.

0x5345414e

这直接影响了我的健康。我在纽约市哈德逊广场的 Whole Foods 购物时,因为系统故障,没法用会员折扣价买巧克力棒。于是我决定不买了。结果现在我的巧克力水平严重不足了。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45642107

Every week or so we interview a company and ask them if they have a fall-back plan in case AWS goes down or their cloud account disappears. They always have this deer-in-the-headlights look. ‘That can’t happen, right?’

Now imagine for a bit that it will never come back up. See where that leads you. The internet got its main strengths from the fact that it was completely decentralized. We’ve been systematically eroding that strength.

jacquesm

每隔一周左右,我们会采访一家公司,并询问他们,如果 AWS 出故障或他们的云账户消失,他们是否有后备计划。他们脸上总是那种呆若木鸡的表情。“那不可能发生,对吧?”

现在,请想象一下,它再也无法恢复了。看看这会把你引向何方。互联网的主要优势来自于其完全的去中心化特性。而我们一直在系统性地侵蚀这一优势。


United MAX Hit by Falling Object at 36,000 Feet #

https://news.ycombinator.com/item?id=45638559

Go for a scroll up https://neal.fun/space-elevator/

jddj

https://neal.fun/space-elevator/ 滚动看看吧


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45643276

US-East-1 is more than just a normal region. It also provides the backbone for other services, including those in other regions. Thus simply being in another region doesn’t protect you from the consistent us-east-1 shenanigans.

AWS doesn’t talk about that much publicly, but if you press them they will admit in private that there are some pretty nasty single points of failure in the design of AWS that can materialize if us-east-1 has an issue. Most people would say that means AWS isn’t truly multi-region in some areas.

Not entirely clear yet if those single points of failure were at play here, but risk mitigation isn’t as simple as just “don’t use us-east-1” or “deploy in multiple regions with load balancing failover.”

JCM9

US-East-1 不仅仅是一个普通的区域,它还为其他服务(包括其他区域的服务)提供了骨干支持。因此,仅仅部署在其他区域,并不能让你免受持续不断的 us-east-1 问题的困扰。

AWS 不会在公开场合过多谈论此事,但如果你追问,他们在私下会承认,AWS 的设计中存在一些相当严重的单点故障,一旦 us-east-1 出现问题,这些故障就可能暴露出来。大多数人会说,这意味着在某些方面,AWS 并非真正意义上的多区域。

目前尚不完全清楚这些单点故障是否在此事件中起到了作用,但风险缓解并没有“不用 us-east-1”或“通过负载均衡和故障转移部署在多个区域”那么简单。


Novo Nordisk’s Canadian Mistake #

https://news.ycombinator.com/item?id=45638371

Typically when people get fired for something like this they are just the scapegoat.

A failure like this isn’t just one dude forgetting, its a system failure where policies and checks failed. If it is solely up to one person that is a failure in and of itself.

bawolff

通常,因为这类事情被解雇的人往往只是替罪羊。

这样的失败不单单是某个人忘了,而是一个系统性的失败,是政策和检查环节都出了问题。如果这件事完全取决于一个人,那本身就是一种失败。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45641689

When AWS is down, everybody knows it. People don’t really question your hosting choice. It’s the IBM of cloud era.

jpalomaki

当 AWS 出故障时,人人皆知。人们也不会质疑你的托管选择。它就是这个云计算时代的 IBM。


AWS Multiple Services Down in us-east-1 #

https://news.ycombinator.com/item?id=45641213

Oh no… may be LaLiga found out pirates hosting on AWS?

amadeoeoeo

哦不… 也许是西甲发现了在AWS上托管盗版的网站?


J.P. Morgan’s OpenAI loan is strange #

https://news.ycombinator.com/item?id=45648617

What a weird analysis.

A company that has revenues and is extremely well-capitalized gets debt finance. That is not news. That is totally commonplace. “Shouldn’t all their capital come from investors?” No. Companies at all stages typically use a mixture of debt and equity finance.

His EV calculation is completely flawed also. Debt finance is typically senior to equity in recovery at bankruptcy, so when JPMC do this analysis (and believe me they did this analysis) they are not assuming 0% recovery. They are thinking it is most likely in a bankruptcy that they get some x>0% recovery.

Finally, banks don’t think about their relationship with a multi-billion-dollar company in terms of the ROI on a single revolving credit. (even though this will in all likelihood be very profitable for JPMC). They think about how giving this revolving credit makes it more likely they get advisory on any future bond issuance and I-banking work when OpenAI want to do takeovers, and a foot in the door at IPO time etc.

seanhunter

这分析也太奇怪了。

一家有收入且资本极其雄厚的公司获得债务融资,这根本不是什么新闻,而是完全司空见惯的事情。“难道他们的所有资本不应该都来自投资者吗?”不。各个阶段的公司通常都会混合使用债务和股权融资。

他对电动汽车价值的计算也完全是错误的。在破产清算时,债务融资的偿还顺序优先于股权,因此当摩根大通(JPMC)进行此类分析(相信我,他们肯定做过)时,他们并非假设回收率为0%。他们是在考虑,一旦破产,他们最有可能获得一定比例(x>0%)的回收。

最后,银行不会从一笔循环信贷的单笔回报率的角度,去思考他们与这家数十亿美元公司的关系。(尽管这笔信贷很可能会让摩根大通大赚一笔。)他们考虑的是,提供这笔循环信贷,如何在未来OpenAI发行债券或进行收购时,更有可能获得其顾问业务,以及在上市时抢占先机等等。


DeepSeek OCR #

https://news.ycombinator.com/item?id=45642598

Text tokens are quantized and represent subword units, vision tokens only exist in the embedding space.

The way text tokenization works in LLMs is that you have a “lookup table” of (small) token ids to (large) vector embeddings. To pass text to the LLM, you split it at token boundaries, convert strings to token ids, and then construct the “context”, a matrix where each row is a vector taken from that lookup table.

Transmitting text token sequences can be relatively efficient, you just transmit the token IDs themselves[1]. They’re small integers (~100k possible token ids is typical for large models). Transmitting the actual embeddings matrix would be far less efficient, as embeddings often consist of thousands of floating point numbers.

Images are encoded differently. After some basic preprocessing, image data is passed straight to a neural- network-based image encoder. That encoder encodes the image into vectors, which are then appended to the context. There are no token ids, there’s no lookup table, we go straight from image data to token embeddings.

This means transmitting image tokens cannot be done as efficiently, as you’d have to transmit the embeddings themselves. Even though an image is encoded in fewer tokens, the most efficient representation of those tokens takes more bytes.

You can think of a text token as an integer between 0 and n, which we know how to map to a vector. This means you have n possible choices of tokens. In contrast, an image token is an array of m floating point numbers (the vector itself), each of which can take on many possible values. This means the “token space” of vision tokens is actually much larger.

There’s also the issue of patterns. Text tokens correspond directly to a contiguous span of UTF-8 bytes, and most tokenizers won’t create tokens that span word boundaries. This means they can’t encode global patterns efficiently. You can’t have a “Hamlet’s monologue” or “the text that follows is in Spanish” token.

miki123211

文本标记会被量化,并代表子词单元,而视觉标记仅存在于嵌入空间中。

在大型语言模型(LLM)中,文本标记化的工作方式是,你拥有一个由(小的)标记ID到(大的)向量嵌入的“查找表”。要将文本传递给LLM,你需要按标记边界将其分割,将字符串转换为标记ID,然后构建“上下文”(context),一个矩阵,其中每一行都是从该查找表中取出的向量。

传输文本标记序列相对高效,你只需传输标记ID本身[1]。它们是小的整数(大型模型通常约有10万个可能的标记ID)。而传输实际的嵌入矩阵则效率低得多,因为嵌入通常由数千个浮点数组成。

图像的编码方式不同。经过一些基本预处理后,图像数据会直接传递给基于神经网络的图像编码器。该编码器将图像编码为向量,然后这些向量会被附加到上下文中。这里没有标记ID,没有查找表,我们直接从图像数据得到标记嵌入。

这意味着传输图像标记无法像文本那样高效,因为你必须传输嵌入本身。尽管图像用更少的标记进行编码,但这些标记最高效的表示方式也需要更多的字节。

你可以将文本标记看作一个介于0和n之间的整数,我们知道如何将其映射到一个向量。这意味着你有n种可能的标记选择。相比之下,图像标记是一个包含m个浮点数的数组(即向量本身),每个浮点数都可以取许多可能的值。这意味着视觉标记的“标记空间”实际上要大得多。

还有一个问题是模式。文本标记直接对应一段连续的UTF-8字节,并且大多数分词器不会创建跨越词边界的标记。这意味着它们无法高效地编码全局模式。你不能有一个“哈姆雷特的独白”或“以下文本为西班牙语”的标记。


DeepSeek OCR #

https://news.ycombinator.com/item?id=45640720

The paper is more interesting than just another VLM for OCR, they start talking about compression and stuff. E.g. there is this quote

Our work represents an initial exploration into the boundaries of vision-text compression, investigating how many vision tokens are required to decode text tokens. The preliminary results are encouraging: DeepSeek-OCR achieves near-lossless OCR compression at approximately 10× ratios, while 20× compression still retains 60% accuracy.

(I guess you could say a picture token is worth 10 textual tokens…)

Could someone explain to a noob what the information-theoretic intuition is here? Why does this work, is it that text tokens are still too “granular”/repetitive and don’t come close to the ideal entropy coding? Or is switching to vision tokens escaping the limitation of working “one word-ish at a time”, allowing you to get closer to entropy (similar to the way that arithmetic encoding does compared to huffman codes)?

And then they start talking about handling long-context by literally(?) downscaling images, forming a correspondence between information loss in the textual domain and the image domain.

krackers

这篇论文比又一个用于OCR的VLM要有趣得多,他们开始讨论压缩等相关内容。例如,有这么一段引述:

我们的工作是对视觉-文本压缩边界的一次初步探索,研究了需要多少视觉令牌才能解码文本令牌。初步结果令人鼓舞:DeepSeek-OCR在约10倍的压缩比下实现了近无损的OCR压缩,而在20倍的压缩比下仍能保留60%的准确率。

(我猜你可以说,一个图片令牌的价值约等于10个文本令牌……)

能否有哪位大佬向小白科普一下这里的信息论原理?为什么这种方法有效?是因为文本令牌本身仍然过于“细粒化”或存在重复,远未达到理想的熵编码极限?还是说,切换到视觉令牌能够摆脱“一次处理一个词左右”的限制,从而更接近熵编码(类似于算术编码相对于霍夫曼编码的优势)?

接着,他们开始讨论通过(字面意义上的)缩小图像尺寸来处理长上下文的问题,从而在文本域和图像域之间建立起一种信息损失的对应关系。


Postman which I thought worked locally on my compu… #

https://news.ycombinator.com/item?id=45648871

This is exactly why I made Yaak [1]. It’s fully offline, no telemetry, open source, and can even sync with Git.

https://yaak.app

gschier

这正是我开发 Yaak [1] 的原因。它完全离线运行,没有遥测功能,是开源的,甚至还能与 Git 进行同步。

https://yaak.app