2024 10 28 HackerNews

2024-10-28 Hacker News Top Stories #

  1. 微软通过实施两项措施成功缩小了 JavaScript monorepo Git 仓库大小,仓库大小从 178GB 缩小到了 5GB。
  2. 肖邦的一份近200年的未发表华尔兹手稿在纽约摩根图书馆被发现,这是半个多世纪以来首次发现的此类作品。
  3. 演讲者 Oona Räisänen 分享了她如何在公共广播电台上发现神秘的隐藏信号,并通过硬件破解、逆向工程和密码分析,最终揭露了这些信号的意义。
  4. You-get 是一个小型的命令行工具,用于从 Web 下载媒体内容(视频、音频、图片),在没有其他方便的下载方式时使用。
  5. 中国的汉字失忆症是一个日益严重的问题,人们越来越多地忘记如何书写汉字,即使是受过良好教育的人也会出现这种情况。
  6. 1960 年代,美国糖业协会秘密资助哈佛大学研究人员进行研究,以淡化糖对心脏病的风险,并强调脂肪的危害。
  7. 未来将会出现一个"写者"和"非写者"的世界,写者将是那些仍然能够写作的人,而非写者将是那些依赖 AI 写作的人。
  8. 开源软件和大型科技公司提供的服务是两种不同的东西,开源软件是一种免费的软件,但需要有人来维护和支持它。
  9. 学校并不是唯一的选择,尤其是对于那些有才华和好奇心的孩子,做事是学习的好方法。
  10. Moonshine 是一种新的语音识别模型,能够比当前最先进的模型 Whisper 更快、更高效地识别语音。

We shrunk our Javascript monorepo git size #

https://www.jonathancreamer.com/how-we-shrunk-our-git-repo-size-by-94-percent/

本文是关于如何缩小 JavaScript monorepo Git 仓库大小的经验分享。作者在 Microsoft 工作,负责维护一个非常大的 JavaScript monorepo,称为 1JS。这个仓库有大量的代码和贡献者,导致仓库大小达到了 178GB,给开发者带来了很大的困扰。

作者首先分享了他们如何发现仓库大小问题的原因。通过使用 git-sizer 工具,他们发现了两个主要问题:大量的二进制文件和 change 文件。他们通过实施两项措施来解决这些问题:首先,通过 pull request 修改 beachball 工具,减少 change 文件的数量;其次,编写一个 pipeline 定期清理 change 文件夹。

然而,仓库大小问题并没有完全解决。作者又发现了另一个问题:versioned 分支的大小增长过快。通过深入分析,他们发现了一个 git 打包问题,导致 CHANGELOG.md 和 CHANGELOG.json 文件的 diff 被错误地计算,导致仓库大小增长。

为了解决这个问题,作者与 git 开发者合作,开发了一种新的打包算法,称为 path walk。这个算法可以更好地压缩仓库大小。通过使用这个算法,仓库大小从 178GB 缩小到了 5GB。

作者总结了他们的经验,提醒其他开发者注意仓库大小问题,并分享了如何使用新的打包算法来解决这个问题。同时,也呼吁其他开发者关注这个问题,并一起努力解决。


HN 热度 296 points | 评论 190 comments | 作者:kwantaz | 21 hours ago #

https://news.ycombinator.com/item?id=41959428

  • 新的 git-survey 命令目前仅在微软的 git 分支中可用,尚未合并到官方 git 项目
  • full-name-hash 和 path-walk 功能也仅在微软的 git 分支中,尚未出现在官方 git 版本
  • 微软的贡献不应被视为 Embrace, Extend, Extinguish(EEE)策略,因为这些改进是针对开源项目的
  • 微软可能通过引入不兼容的特性来扩展 git,进而迫使用户使用他们的分支,这将使他们有能力控制 git 的发展方向
  • 微软在 VSCode 上的行为可以被视为 EEE 策略的一部分,他们通过提供专有扩展来逐步削弱其他编辑器的竞争能力
  • 通过将改进贡献回官方 git 项目,微软并没有实施 EEE 策略,这与 Red Hat 等公司的工作方式类似
  • 微软过去在其他项目中实施过 EEE 策略,例如 SMTP、Kerberos、HTML 等,因此对 git 的改进也应保持警惕
  • 对于 git 项目,代码本身是可移植的,与 30 年前的办公文档不同,即使 VSCode 开始收费,用户也可以轻松切换到其他编辑器
  • 如果每次微软在开源项目中做出贡献都指责其实施 EEE 策略,会降低这种指责的可信度,当真正的问题出现时,人们可能会忽视
  • 微软通过资源投入使 VSCode 成为最受欢迎的开源 IDE/编辑器,从而削弱了其他非 VSCode 项目的开发动力
  • EEE 策略的关键在于通过专有扩展来制造互操作性问题,而不仅仅是提供更好的功能

A Chopin waltz unearthed after nearly 200 years #

https://www.nytimes.com/2024/10/27/arts/music/chopin-waltz-discovery.html

一份近 200 年的肖邦未发表的华尔兹手稿在纽约摩根图书馆被发现,这是半个多世纪以来首次发现的此类作品。摩根图书馆的策展人罗宾逊・麦克莱伦在整理文化遗物时意外发现了这一手稿,经过专家分析和多重测试,最终确认这是一首由名浪漫主义作曲家弗雷德里克・邦创作的华尔兹,估计创作时间在 1830 年至 1835 年之间。

这首华尔兹有许多独特之处,长度为 48 小,时长约 80 秒,且其开头以安静、不和谐的音符开始,随后迅速转为强烈的和弦。尽管这首曲子可能是完整的,但它的长度短于肖邦其他的华尔兹,且包含一些不寻常的动态标记,如在开头部分出现的 “三重强音”。专家们对手稿的纸张、墨和音乐风格进行了详细分析,认为这首华尔兹具有肖邦的独特风格特征。

著名钢琴家郎朗对此作品表示赞赏,他认为这首华尔兹非常像肖邦的风格,体现了他音乐中的情感深度。肖邦的音乐常常反映了他对波兰故乡的思念与哀伤,这种情感在他短小的作品中表现得尤为明显。

这首华尔兹的手稿使用了常用于赠送小作品的小纸张,可能是肖邦在社交场合中为朋友创作的。在肖邦的生前,他并不常常将这些小作品公开,且手稿上没有签名。专家们推测,肖邦可能对这首曲子的完成度有所怀疑,因此没有将其发表。

该手稿的历史可以追溯到肖邦去世后,由收藏家 A. Sherrill Whiton Jr. 获得,后来的遗产在 2019 年被送到了摩根图书馆。尽管此作品的独特性引发了对其真伪的讨论,音乐界对新发现的作品通常持谨慎态度,但专家们对此手稿的真伪分析给予了高度认可。

总之,这首肖邦的未发表华尔兹不仅为音乐界带来了新的讨论和探索机会,也展现了肖邦在音乐创作中的独特风格和情感深度。


HN 热度 272 points | 评论 88 comments | 作者:perihelions | 11 hours ago #

https://news.ycombinator.com/item?id=41961866

  • 这首新发现的华尔兹确实很好,与其他新发现的乐曲不同,它几乎是一首完成的作品,具有明显的肖邦风格,并为肖邦的作品增添了新的元素
  • 首次演出应该更注重文化意义,可以与波兰当地的文化组织合作,或者选择一位来自肖邦故乡的年轻钢琴家来演奏
  • 肖邦的华尔兹和玛祖卡都是三拍子的舞蹈形式,但华尔兹的节奏更稳定,强调每小节的第一拍
  • 音乐专家可能仅凭声音就能识别出这是肖邦的作品,因为每位作曲家都有独特的风格
  • 肖邦的钢琴作品非常创新,他发明了许多新的演奏方法,波兰的影响和沙龙音乐的风格也非常独特
  • 肖邦几乎只写钢琴作品,而莫扎特、贝多芬等人则更多地为管弦乐队等其他乐器创作
  • 肖邦和后来的勃拉姆斯更多依赖商业演出,而巴赫、莫扎特、贝多芬则更依赖贵族宫廷的支持

I discovered mysterious hidden signals on a public radio channel (2013) [video] #

https://media.ccc.de/v/30C3_-_5588_-_en_-_saal_g_-_201312281600_-_my_journey_into_fm-rds_-_oona_raisanen

视频标题:我的 FM-RDS 之旅

视频简介:演讲者 Oona Räisänen 分享了她如何在公共广播电台上发现神秘的隐藏信号,并通过硬件破解、逆向工程和密码分析,最终揭露了这些信号的意义。

视频信息

  • 时长:36 分钟
  • 发布日期:2013 年 12 月 28 日
  • 事件:30c3
  • 视频格式:MP4、WebM
  • 分辨率:576p、360p、288p
  • 语言:英语 *字幕:英语

HN 热度 247 points | 评论 63 comments | 作者:joebig | 23 hours ago #

https://news.ycombinator.com/item?id=41958766

  • 这个演讲非常有趣,演讲者通过频谱分析器发现了 FM 频道旁的奇怪信号,并尝试解码 RDS 标准,最终发现了一些与公交相关的信息
  • 解开谜团的乐趣是获取知识的主要驱动力
  • 真正的高手是那些对未知事物有自然兴趣并能系统地解决问题的人
  • 很多人不理解为什么有人会对解码 FM RDS 这样的项目感兴趣,认为这是折磨
  • 如果数据被加密,有些人会继续尝试解码,但具体方法取决于个人兴趣
  • 演讲者最近发布了一个 RDS 解码工具,支持 USB RTL-SDR 接收器或预录制文件
  • 智能手机中是否仍然有接收和解码 FM RDS 的应用和硬件,但市场上多为流媒体和 SDR 应用
  • RDS 的交通警报功能(TA)不容易被滥用,因为听众可以选择关闭或换台,而且广播受政府监管
  • 在德国,广播电台不能连续播放 90 秒以上的纯静音,否则会失去许可证
  • 有些广播电台使用 RDS 广播广告,这种做法被认为是不好的
  • 演讲者的黑客精神令人钦佩,这种探索未知的精神值得学习
  • CCC 网站自托管视频的做法值得赞赏,但有些人可能更喜欢使用 YouTube 应用观看视频,因为它可能有更好的用户体验
  • RSS 仍然可以很好地工作,但对于大多数人来说,它可能不再是主要的信息获取方式

You-get: Dumb downloader that scrapes the web #

https://github.com/soimort/you-get

You-Get 是一个小型的命令行工具,用于从 Web 下载媒体内容(视频、音频、图片),在没有其他方便的下载方式时使用。

使用方法:

  • 下载 YouTube 视频:you-get 'https://www.youtube.com/watch?v=jNQXAC9IVRw'
  • 下载其他网站的视频:you-get 'https://example.com/video'

特点:

  • 支持多种网站,包括 YouTube、Youku、Niconico 等
  • 支持多种格式,包括 MP4、WebM 等
  • 支持多种质量,包括 1080p、720p 等
  • 支持下载字幕
  • 支持流式下载

安装方法:

  • 通过 pip 安装:pip install you-get
  • 通过 Antigen 安装(适用于 Zsh 用户):antigen bundle soimort/you-get
  • 通过 GitHub 下载:git clone git://github.com/soimort/you-get.git
  • 通过 Homebrew 安装(适用于 Mac 用户):brew install you-get
  • 通过 pkg 安装(适用于 FreeBSD 用户):pkg install you-get

升级方法:

  • 通过 pip 升级:pip install --upgrade you-get
  • 通过 GitHub 下载最新版本:you-get https://github.com/soimort/you-get/archive/master.zip

使用示例:

  • 下载视频:you-get -i 'https://www.youtube.com/watch?v=jNQXAC9IVRw'
  • 下载字幕:you-get -i 'https://www.youtube.com/watch?v=jNQXAC9IVRw' --subtitle

注意事项:

  • 支持 Python 3.7.4 及以上版本
  • 支持 FFmpeg 1.0 及以上版本
  • 支持 RTMPDump(可选)

HN 热度 197 points | 评论 76 comments | 作者:Anon84 | 10 hours ago #

https://news.ycombinator.com/item?id=41962205

  • 仅下载音频流可以节省 90% 的带宽成本
  • Brave Mobile 浏览器支持后台播放视频音频,无需订阅 YouTube Premium
  • Firefox 浏览器可以通过 video-bg-play 插件实现后台播放
  • GrayJay 应用可以实现类似功能
  • yt2pc 项目可以将 YouTube 播放列表转换为播客兼容的 URL
  • mpv 播放器同样支持仅下载音频流
  • NewPipe 应用可以方便地下载各种格式的音频
  • YTDLnis 应用在 Android 上可以解决下载音频的问题
  • Firefox 浏览器在 Android 上可以通过背景播放器修复插件实现锁屏播放
  • 下载 Bandcamp 上的音乐应该尊重艺术家的意愿,支付费用
  • 项目支持的站点列表并不意味着鼓励使用该工具下载,只是表明该工具在这些站点上有效
  • 项目要求报告问题时提供失败的测试用例,而非直接修复
  • 项目中文版说明中提到不接受普通问题报告,以防止 GitHub Issues 被滥用

Character amnesia in China #

https://globalchinapulse.net/character-amnesia-in-china/

中国的汉字失忆症

在中国,人们越来越多地忘记如何书写汉字,即使是受过良好教育的人也会出现这种情况。这种现象被称为“汉字失忆症”。本文探讨了汉字失忆症的原因和影响。

汉字是世界上最古老的书写系统之一,它们与中国的历史、哲学和艺术密切相关。然而,汉字的数量庞大,使得学习和记忆变得非常困难。在中国的教育系统中,汉字的学习是非常重要的一部分,但是由于汉字的数量太多,很多人在学习过程中会出现忘记如何书写某些汉字的情况。

在 20 世纪初,中国的教育改革者们试图简化汉字,减少汉字的数量,以提高识字率。然而,这种努力并没有完全成功。直到今天,中国的识字率仍然不是很高。

互联网和数字技术的出现使得汉字的输入和处理变得更加容易。然而,这也导致了人们越来越多地依赖于电子设备,而不是手写汉字。结果,人们越来越多地忘记如何书写汉字。

汉字失忆症不仅仅是忘记如何书写某些汉字的问题,它还反映了中国文化和教育的深层次问题。它要求我们重新思考汉字的学习和教育方式,找到新的方法来帮助人们记住和书写汉字。

汉字失忆症的影响不仅仅局限于个人,还会影响整个社会。它会导致人们与传统文化的断裂,影响中国的文化遗产和身份认同。因此,汉字失忆症是一个需要关注和解决的问题。


HN 热度 177 points | 评论 147 comments | 作者:nabla9 | 21 hours ago #

https://news.ycombinator.com/item?id=41959256

  • 作者提到的忘记如何写“嚏”字的情况在中国很常见,即使是高学历的人也会遇到
  • 日语和中文的书写系统中,由于字符数量庞大且笔画多,人们容易忘记如何书写,这与人类记忆的限制有关
  • 书写系统的不稳定性并不影响语言本身,因为正字法只是语言的辅助工具,韩国的例子证明了这一点
  • 数字化输入法在日常生活中帮助人们书写汉字或日语汉字,减少了记忆字符的需求
  • 英语中也存在类似的问题,如拼写和发音的不一致性,以及需要前后文来理解句子的情况
  • 中国和日本的语言学习中,上下文对于阅读和理解单词非常重要
  • 英语虽然拼写和发音规则复杂,但高水平的拼写比赛参与者通常能根据词源和定义猜测单词的拼写
  • 作者的妻子认为孩子应该通过传统的书写方式学习中文,而不是通过输入法
  • 任何需要拼写比赛的语言都不能被认为是完全音标的,中文和日文在这一点上更加严重

50 Years Ago, Sugar Industry Paid Scientists to Point Blame at Fat (2016) #

https://www.npr.org/sections/thetwo-way/2016/09/13/493739074/50-years-ago-sugar-industry-quietly-paid-scientists-to-point-blame-at-fat

1960 年代,美国糖业协会(Sugar Research Foundation)秘密资助哈佛大学研究人员进行研究,以淡化糖对心脏病的风险,并强调脂肪的危害。研究人员在《新英格兰医学杂志》上发表了一篇论文,没有披露糖业协会的资助。该研究审查了各种研究和实验,得出结论,减少脂肪摄入是预防冠心病的最佳方式。

糖业协会的资助是为了反驳有关糖可能与心脏病有关的担忧。该组织的负责人在 1954 年发表演讲时提到,美国人如果减少脂肪摄入,需要用其他东西替代,这将是一个巨大的商业机会。到 1960 年代,糖业协会意识到人们对糖的担忧,决定资助自己的研究,以“驳斥”批评者。

研究人员审查了许多研究,包括一些表明糖可能与心脏病有关的研究。他们对这些研究提出批评,称其方法有缺陷或研究人员不称职。然而,他们对支持脂肪危害的研究却持更宽容的态度。研究人员得出结论,减少脂肪摄入是预防冠心病的最佳方式。

这篇文章的作者指出,糖业协会的资助和研究人员的偏见导致了研究结果的偏差。他们称,糖业协会试图影响科学界对糖和脂肪的看法。文章还指出,糖业协会的资助和研究人员的偏见是“非常聪明”的做法,因为这篇论文发表在著名的医学杂志上,可能会影响整个科学界的讨论。


HN 热度 172 points | 评论 140 comments | 作者:Tomte | 9 hours ago #

https://news.ycombinator.com/item?id=41962750

  • 糖业在 50 年前通过付费科学家将健康问题归咎于脂肪
  • 低脂食品趋势延续至今,但糖分含量并未减少
  • 多个行业曾扭曲事实,包括烟草、石油等
  • 香蕉公司在中美洲通过破坏民主来获取资源
  • 肉类行业正在推广“糖业欺骗你”和“饱和脂肪有益健康”的观点
  • 汽车行业通过创建郊区和制定行人法规影响社会
  • 不能因为某些行业不道德就认为所有行业都不道德
  • 战争/武器行业活跃,电影中频繁出现军队和军事装备
  • 工业化畜牧业和农业也存在扭曲事实的问题
  • 塑料行业和化学农药行业同样有不良行为
  • 旅游、航空和运输行业对环境造成负面影响
  • 消费软件行业存在伦理问题
  • 回收行业复杂,纸张、金属和玻璃的回收效果较好,塑料回收困难
  • 玻璃回收效率低,塑料瓶设计多样化和过厚影响塑料回收效果
  • 政府应强制使用统一且可回收的塑料瓶设计以提高生态效益

Writes and Write-Nots #

https://paulgraham.com/writes.html

这篇文章讨论了写作的重要性和未来写作技能的变化。作者认为,写作是一种思考的方式,能够帮助人们清晰地表达自己的想法和观点。然而,随着 AI 技术的发展,写作技能可能会变得越来越不重要。作者预测,未来将会出现一个"写者"和"非写者"的世界,写者将是那些仍然能够写作的人,而非写者将是那些依赖 AI 写作的人。

作者认为,这种变化是危险的,因为写作是思考的基础。如果人们不再需要写作,他们可能也不会再需要思考。作者引用了 Leslie Lamport 的说法:“如果你不写作,你只是以为你在思考。“这句话强调了写作在思考过程中的重要性。

作者还指出,随着写作技能的消失,人们可能会失去批判性思维和解决问题的能力。因此,作者呼吁人们重视写作技能,继续学习和练习写作,以保持自己的思考能力和批判性思维。

总的来说,这篇文章强调了写作的重要性,警告人们不要依赖 AI 写作,而应该继续学习和练习写作,以保持自己的思考能力和批判性思维。


HN 热度 163 points | 评论 141 comments | 作者:baxtr | 14 hours ago #

https://news.ycombinator.com/item?id=41960914

  • 互联网时代,文本沟通(如短信、社交媒体)变得更为普遍,写作能力的重要性并未减弱。
  • 新一代(如 Z 世代)更多使用视频和图像进行沟通,可能减少写作能力的使用,未来可能依赖 AI 代写文档。
  • 在线约会主要依靠照片和滤镜,而非文字描述,这反映了非文字沟通的趋势。
  • 当前的视频和图像沟通方式(如 TikTok、Instagram)主要表达情感,而非复杂的思考。
  • 视频和图像沟通方式可能提高新一代的识字率,因为这些平台嵌入了大量的文本元素。
  • 新的沟通方式(如短视频)虽然流行,但并不意味着写作能力会消失,历史上写作也曾是少数人的技能。
  • 互联网上的短消息沟通往往缺乏规范,导致信息表达不清晰,但总体上人们写作的量比互联网前更多。
  • 写作是清晰思考的重要工具,但并非唯一工具,人们在不写作的情况下也能进行有效的思考。
  • 作者的观点存在逻辑问题,例如认为清晰思考必须依赖写作,这并不成立。

Open Source on its own is no alternative to Big Tech #

https://berthub.eu/articles/posts/open-source-by-itself-is-no-alternative-for-big-tech/

本文讨论了开源软件(Open Source)是否能成为大型科技公司(Big Tech)的替代品。作者认为,开源软件和大型科技公司提供的服务是两种不同的东西。开源软件是一种免费的软件,但需要有人来维护和支持它,而大型科技公司提供的是一个完整的服务,包括软件、硬件和支持。

作者指出,欧洲议会曾尝试使用开源软件 Nextcloud 作为替代品,但由于缺乏支持和指导,最终失败了。作者认为,这是因为开源软件需要大量的支持和指导,而大型科技公司提供的服务则是完整的。

作者还指出,苹果公司也提供了类似的服务,但由于苹果公司没有积极地针对大型企业和政府市场,所以这些服务并没有被广泛采用。作者认为,这是因为大型企业和政府需要的是一个完整的服务,而不是仅仅是一种软件。

作者总结说,开源软件可以成为大型科技公司的替代品,但需要大量的支持和指导。同时,作者也指出,开源软件需要有人来维护和支持它,这需要投入大量的时间和金钱。

最后,作者提供了一些实用的建议,包括确定可行的范围、进行变革管理、提供培训、确保服务器资源充足、提供帮助支持和选择合适的团队。


HN 热度 161 points | 评论 183 comments | 作者:lhoff | 16 hours ago #

https://news.ycombinator.com/item?id=41960442

  • 企业购买软件时更看重的是软件的可靠性、长期性、服务和支持,而不仅仅是软件本身或其价格。
  • 开源软件的许可证在实际业务中并不重要,供应商通过确保软件的有效性和提供支持来吸引客户。
  • 红帽(Red Hat)等公司通过提供开源软件的支持和服务来盈利,而不是通过销售软件本身。
  • 开源软件通常缺乏多个支持供应商,企业难以在不改变主要操作的情况下更换支持供应商。
  • 云服务提供商的锁定效应可能导致企业未来面临高昂的成本和业务连续性问题。
  • 企业使用开源软件时,可能会失去运行自己硬件的技能,以及软件开发的能力。
  • 开源软件的广泛使用可能因大规模源代码抓取用于机器学习/人工智能训练而减少企业参与度。
  • 企业倾向于选择有销售和支持团队的软件,即使价格较高,也比选择没有这些资源的开源软件更可靠。

School is Not Enough: Learning is a consequence of doing (2021) #

https://map.simonsarris.com/p/school-is-not-enough

学校并不是唯一的选择

文章讨论了现代教育系统的弊端,认为学校并不是唯一的选择,尤其是对于那些有才华和好奇心的孩子。作者认为,学校的教育模式往往限制了孩子的发展,导致他们缺乏实践经验和创造力。

早期的成功故事

文章列举了几个历史上的成功故事,例如达·芬奇、沃尔特·迪士尼和安德鲁·卡内基,他们在很小的时候就开始学习和工作,取得了成功。作者认为,这些故事表明,早期的实践和学习是成功的关键。

现代教育的弊端

作者批评现代教育系统,认为它过于注重理论知识,忽视了实践经验。学校的教育模式往往是标准化的,不能满足不同孩子的需求。作者认为,这种教育模式会导致孩子缺乏创造力和实践经验。

如何改变

作者呼吁改变现代教育系统,鼓励孩子们早期参与实践和学习。作者认为,学校应该提供更多的实践机会,鼓励孩子们探索自己的兴趣和才能。同时,作者也认为,家长和社会应该支持孩子们的早期学习和实践。


HN 热度 155 points | 评论 94 comments | 作者:Gooblebrai | 8 hours ago #

https://news.ycombinator.com/item?id=41963063

  • 做事是学习的好方法,但不能因此忽视学校的教育
  • 早期开始工作并不一定能成为成功人士,很多人只是成为普通的劳动者
  • 文章存在幸存者偏差,忽略了那些没有成功的人
  • 社会问题更多是由于官僚主义和繁文缛节,而不是学校本身
  • 美国的监管体系和公共教育系统存在严重问题,影响了人才的发展
  • 有些成功人士确实没有完成学业,但他们通常是极其优秀的人
  • 凭借运气和抓住机会,有时候也能取得巨大成功
  • 企业要求无关的学历证明,忽略了实际能力和经验
  • 学历可能更多地证明了一个人的毅力和社会信号,而不是实际技能
  • 成功的例子不能普遍适用,每个人的情况都不同

Moonshine, the new state of the art for speech to text #

https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/

介绍 Moonshine,语音识别的新突破

Pete Warden 在博客中介绍了 Moonshine,这是一种新的语音识别模型,能够比当前最先进的模型 Whisper 更快、更高效地识别语音。Moonshine 的速度比 Whisper 快 1.7 倍,同时保持或超过 Whisper 的准确率。

Moonshine 的特点

Moonshine 的架构设计使其能够处理不同长度的语音输入,而 Whisper 则需要将语音输入固定为 30 秒的长度。这种灵活性使得 Moonshine 在处理短语音片段时更快、更高效。

应用和潜在影响

Moonshine 的低资源需求使其能够在设备上本地运行,而无需网络连接。这意味着 Moonshine 可以在任何地方、任何时候运行,保护用户的隐私。Moonshine 的发布为语音识别应用开启了新的可能性,特别是在资源有限的设备上。

与 Whisper 的比较

Moonshine 与 Whisper 相比,具有更快的速度和更低的资源需求。Moonshine 的速度是 Whisper 的 5 倍,在处理 10 秒的语音片段时。Moonshine 的低资源需求使其能够在 8MB 的 RAM 中运行,而 Whisper 则需要至少 30MB 的 RAM。

未来展望

Moonshine 的发布为语音识别应用开启了新的可能性。Pete Warden 表示,Moonshine 的发布是为了帮助机器更好地理解人类,特别是在语音识别方面。Moonshine 的未来应用包括语音翻译、语音控制等方面。


HN 热度 154 points | 评论 33 comments | 作者:freediver | 18 hours ago #

https://news.ycombinator.com/item?id=41960085

  • Moonshine 在长句子上的表现接近 Whisper,但对短句子的处理效果较差
  • Moonshine 与 Whisper 相比,资源消耗更少,但准确率略低
  • 80MB 的 Whisper 模型对于某些简短命令如“开灯”可能足够使用
  • 对于 CPU 个人使用,Whisper 的“base”模型可用,“small”模型效果好但速度慢
  • Moonshine 模型需要与 faster-whisper 进行比较,因为后者在多个项目中表现更优
  • Moonshine 在安装时没有问题,但在运行样本文件时没有输出或输出不正确
  • Moonshine 的训练数据来自 90K 小时的公开 ASR 数据集和 100K 小时的内部数据集
  • 项目名称 Moonshine 的选择不太合适,不易搜索且与技术无关
  • 名字 Moonshine 可能会让一些人联想到酒精,但不应因此而责怪项目命名者
  • 对于康复者来说,重要的是建立工具和支持系统,而不是期待世界隔离他们远离诱惑