2024 10 14 HackerNews

2024-10-14 Hacker News Top Stories #

SpaceX 的星际飞船第五次飞行测试成功，测试中包括了发射和助推器捕捉。

Typst 是一个新的排版系统，类似于 LaTeX，旨在提供 LaTeX 的功能，同时更易于学习和使用。

DIAMOND 是一个基于扩散模型的世界建模方法，用于训练强化学习代理，实现了 Atari 100k 基准测试的最佳成绩。

WordPress.org 接管了 ACF 插件，开发者呼吁用户更新到最新版本，并强调这一行为违反了社区的基本承诺。

大型语言模型减少公共知识共享，自从 ChatGPT 发布后，Stack Overflow 上的活动减少了 25%。

PayPal 将更新其政策，包括隐私政策、卖家保护计划和网络支付服务协议，用户可以在账户设置中选择退出此项服务。

掌控自己的思想和生活，通过简化生活、专注于现在、培养自我意识等方式来实现更高的生活质量。

美国联邦航空管理局（FAA）授予 SpaceX 公司的商业航天运输许可证，授权 SpaceX 进行星舰-超重型（Starship-Super Heavy）运载火箭的发射活动。

WordPress.org 的创始人 Matt Mullenweg 宣布，WordPress.org 已经接管了一个流行的 WP Engine 插件，名为 Advanced Custom Fields (ACF)。

FLUX 模型现在在 Replicate 上运行速度更快，优化后的代码开源，以便社区可以查看和改进。

Starship Flight 5: Launch and booster catch [video] #

https://twitter.com/SpaceX/status/1845152255944819015

SpaceX 在 X（前身为 Twitter）上发布消息，邀请大家观看星际飞船（Starship）的第五次飞行测试。此次测试引起了广泛关注，包括 NASA 的关注，因为这对阿耳忒弥斯（Artemis）计划至关重要，并且是未来火星殖民的重要一步。

网友们对测试的成功表示热烈的赞扬，许多人表达了自豪感和兴奋之情。有评论称 “太棒了！机械巨人（Mechazilla）成功接住了超级重型助推器（Super Heavy Booster）！” 还有人表示 “这对人类来说是一个伟大的日子，令人感动，感谢你们带给我们对未来的希望！”

部分网友也分享了他们的亲身体验，有人提到在离 King Ranch 不远的地方观看了测试，表达了对这一工程壮举的由衷赞美。有人甚至表示：“我原以为会看到一场巨大的火灾，结果却是一次绝佳的成就！这将载入史册，成为里程碑式的成就！”

星际飞船的测试被视为人类工程技术的一次伟大进步，网友们纷纷表达了对 SpaceX 团队的祝贺与感谢。

HN 热度 1437 points | 评论 891 comments | 作者：alecco | 11 hours ago #

https://news.ycombinator.com/item?id=41827362

虽然‘筷子捕捉’增加了风险，但可以快速修复混凝土发射台，而发射塔受损则需要更长时间修复
捕捉臂可以移动和旋转，有助于纠正火箭轨迹误差并软化最终接触，可能比硬地降落更具宽容度
捕捉机制的主要目的是减轻重量，而不是减少风险，因为助推器的使用场景有限，可以将更多重量外部化
火箭发动机可以降低推力，使其在最后几米内缓慢移动，有助于修正误差，捕捉臂还配备了减震器
火箭设计的轨迹是在最后一刻才靠近塔，只有在确定可以成功时才会这样做
SpaceX 可能最终会尝试捕捉第二级火箭，但这需要 FAA 的高度信任
火箭沉没可能不利于数据回收
火箭原型不应留在印度洋，以防竞争对手获取
考虑到卫星图像可以显示确切位置，火箭回收相对简单
SpaceX 自己的回收船很可能就在附近，且可能有美国军舰协助
火箭回收可能非常复杂，尤其是考虑到 Starship 的大小和形状，以及海洋天气条件的影响

Exploring Typst, a new typesetting system similar to LaTeX #

https://blog.jreyesr.com/posts/typst/

Typst 是一个新的排版系统，类似于 LaTeX。它旨在提供 LaTeX 的功能，同时更易于学习和使用。Typst 的语法更接近 Markdown，而不是 LaTeX。

它支持传统的排版元素，如段落、标题、列表、粗体、斜体、图像、表格、脚注、超链接等。它还支持一些不常见于 Web 内容但常见于学术文档的元素，如编号图像和表格、自动交叉引用、参考文献和引文、自动更新的目录、表格、图像、方程和代码块等。 Typst 的目标是提供 LaTeX 的功能，同时更易于学习和使用。它支持 Markdown 语法，并提供了许多 LaTeX 的功能，如自动更新的目录、参考文献和引文等。

Typst 还支持一些扩展包，如绘图包、幻灯片包等。 Typst 可以用来生成 PDF 文档、幻灯片、报告等。它也可以用来生成动态文档，例如根据变量数据生成的报告。 Typst 的应用场景包括学术论文、报告、书籍、幻灯片等。它也可以用来生成动态文档，如根据变量数据生成的报告。

Typst 的优点包括易于学习、使用方便、功能强大等。它的缺点包括还不是很成熟、社区还不大等。

HN 热度 512 points | 评论 203 comments | 作者：judell | 1 day ago #

https://news.ycombinator.com/item?id=41821361

-Typst 比 LaTeX 更快，编译时间从 1 分钟减少到 5 秒以内 -Typst 代码更易读，更易写，即使第三方库或模板的代码也容易理解 -Typst 的运行时和库比 LaTeX 轻量，安装更简单 -Typst 支持编写自定义逻辑或模板，且从一开始就很容易上手 -Typst 与 Jupyter 结合良好，适合用于从 Jupyter 生成 PDF -Typst 在处理标题孤行和寡行方面较弱，但即将在 0.12 版本中修复 -Typst 在处理数学内容和图形/图表方面也表现良好 -Typst 的编辑器仍有改进空间，但 VSCode 插件已相当可用 -使用 Typst 时，内容可以包含状态更新元素，但需遵循良好实践以避免冲突 -Typst 中用户代码是纯函数式的，有助于减少 LaTeX 中常见的宏重定义问题 -Typst 的兼容性问题目前更多是“意料之中”的类型，而非 LaTeX 中那种小改动导致的大问题

Diffusion for World Modeling #

https://diamond-wm.github.io/

DIAMOND 是一个基于扩散模型的世界建模方法，用于训练强化学习代理。该方法通过扩散模型预测环境的下一帧，考虑到代理的动作和之前的帧。DIAMOND 实现了 Atari 100k 基准测试的最佳成绩，平均人类标准化得分为 1.46。

扩散模型的优势

扩散模型可以更好地捕捉环境的视觉细节，相比于传统的离散令牌模型。DIAMOND 的世界模型可以模拟复杂的环境，例如 Atari 游戏和 3D 环境 CounterStrike: Global Offensive (CSGO)。

DIAMOND 的工作原理

DIAMOND 的世界模型通过扩散模型预测环境的下一帧。代理反复提供新的动作，扩散模型更新环境。扩散模型可以模拟环境的动态，代理可以在其中学习。

实验结果

DIAMOND 在 Atari 100k 基准测试中实现了最佳成绩，平均人类标准化得分为 1.46。DIAMOND 的世界模型可以更好地捕捉环境的视觉细节，相比于传统的离散令牌模型。

代码和资源

DIAMOND 的代码和资源已开源，包括可玩的世界模型和 Atari 游戏。

HN 热度 394 points | 评论 184 comments | 作者：francoisfleuret | 14 hours ago #

https://news.ycombinator.com/item?id=41826402

-视频中的场景变换与梦境体验非常相似 -梦境中的文字通常看起来模糊不清，这与扩散模型生成的图像相似 -即使不是清醒梦，梦境中的环境也会不断变化，细节难以清晰呈现 -尝试在清醒梦中查看手部细节时，手指数量等细节往往不准确 -梦境和扩散模型之间的相似性可能揭示了人类潜意识的运作原理 -药物如 LSD 和 DMT-5 能产生与早期生成模型相似的感知体验 -当前模型缺乏强空间推理和连续性预期，这是动物大脑的特征 -扩散模型的潜力在于其可泛化性，未来可能实现更高级的模拟 -模型并不需要特定游戏数据，可以训练模拟多种 3D 环境 -未来的改进可能会使这种技术接近《矩阵》的水平

The ACF plugin on the WordPress directory has been taken over by WordPress.org #

https://twitter.com/wp_acf/status/1845169499064107049

在最近的一条动态中，Advanced Custom Fields（ACF）插件的开发者表示，他们已经获悉，该插件在 WordPress 目录中的管理权被 WordPress.org 接管。这一举动在 WordPress 21 年的历史中，前所未有地在没有创作者同意的情况下，强行夺取了一个仍在积极开发中的插件。

该开发者呼吁用户更新到最新的 ACF 版本 6.3.8，并强调这一行为违反了社区的基本承诺。他们请求大家思考这种行为的伦理问题，并警惕这一先例的设立。虽然 WordPress 的相关指南允许出于任何原因移除插件，但这种行为与指南的整体精神相悖，也缺乏合理的解释。

用户们对此事件进行了评论，指出 WordPress 在此次事件中实际上并没有进行真正意义上的 “分叉”，而是强行接管了 ACF 的插件名、用户安装数和客户评价。他们认为这是一次强制的接管，而非合理的分叉。许多用户表示对这一事件感到震惊，并表示会继续支持 ACF 的官方版本，愿意为其付费，并期待来自开发团队的更新。

一些评论者批评 WordPress 的行为，认为这是一个新的低点，并表示愿意在管理的 WordPress 网站上继续使用 ACF 的高级版本。这一事件引发了广泛关注，许多人表示会传播这一消息，以支持开发团队。

HN 热度 393 points | 评论 212 comments | 作者：endtwist | 1 day ago #

https://news.ycombinator.com/item?id=41821400

Matt 的行为不一致于他声称的官方故事，更像是出于商业竞争的考虑
Matt 的行为违反了 WPEngine 的商标，使用了他们的名称、品牌和 logo
Matt 接管插件的行为对 WordPress 插件开发者造成了极大的信任危机
Matt 的行为可以被视为供应链攻击
Matt 的行为不仅仅是获取了免费代码，还接管了插件的用户、评论等资源
GPL 许可下的代码不能被指责为“盗窃”，但违反许可的行为是盗窃
Matt 的行为更多是象征性的关闭 WPEngine 的贡献渠道，现在的情况更多是关于表面功夫
WPEngine 已经通过购买 ACF 进行了贡献，而不仅仅是赞助活动
Matt 的行为让开发者对 WordPress 社区失去了信心，担心自己的贡献会被随意剥夺
Matt 的行为被认为是极其恶劣的，尤其是在他以支持开源和社区为名的情况下

https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871

这篇文章是一篇研究报告，发表在《PNAS Nexus》上，研究了大型语言模型（LLMs）对在线问答平台（如 Stack Overflow）公共知识共享的影响。研究的重点是流行的 LLM——ChatGPT 的影响。研究发现，自从 ChatGPT 发布后，Stack Overflow 上的活动减少了 25%，这一减少与访问 ChatGPT 受限的俄罗斯和中国版本 Stack Overflow 以及数学问答论坛相比更为显著。研究还发现，ChatGPT 的引入并没有显著改变帖子的质量，且无论是新手还是经验丰富的用户，内容创作都有所下降。这表明 LLMs 不仅取代了重复的、低质量的或初学者级别的内容。

研究还探讨了 ChatGPT 对不同编程语言帖子活动的影响，发现对 Python 和 JavaScript 等最广泛使用的编程语言的影响更大。研究结果对当前 AI 生态系统的可持续性提出了几个重要问题，包括开放数据的减少可能限制未来模型的训练，以及领先模型的所有者通过从用户互动中学习而获得的初始优势可能会加剧技术锁定和市场集中度。

文章最后讨论了这些发现对未来模型训练、AI 领域竞争、数字公共物品的提供以及人类搜索和共享信息方式的影响，并呼吁进行更多关于开放数据和 AI 的政治经济学研究，以及如何激励人们继续为数字公共物品做出贡献。

HN 热度 312 points | 评论 274 comments | 作者：croes | 12 hours ago #

https://news.ycombinator.com/item?id=41827043

-大型语言模型（LLM）通过更快地提供答案，减少了人们访问在线问答平台如 StackOverflow 的频率 -LLM 不是创造新信息，而是重新组合现有信息，因此在缺乏公开样本的领域表现不佳 -在线问答平台上的大多数问题和答案都是关于常见问题，而非创新活动，LLM 可能只是替代了搜索引擎的角色 -即使 LLM 可以快速生成代码，但随着代码复杂度增加，LLM 容易在添加新功能时破坏现有逻辑 -对于复杂或新引入的技术问题，LLM 可能无法提供最新或准确的答案，仍需参考官方文档 -使用 LLM 时，指定所需库和管理上下文可以显著提高其解决问题的能力 -依赖 LLM 可能导致开发者倾向于选择 LLM 熟悉的技术栈，而非最佳技术栈 -数据标注将成为未来的重要业务，但人们通常不愿意主动进行数据标注 -合成数据在训练多模态大模型中起作用，但其信息量受限于训练数据 -LLM 可能使一些小众语言和框架变得更加有利可图，因为只有发明者和核心用户才能理解它们

https://www.paypal.com/us/legalhub/upcoming-policies-full

PayPal 政策更新通知

更新内容

PayPal 隐私政策更新：从 2024 年 11 月 27 日起，PayPal 将与商家共享用户信息，以提供更个性化的购物体验。用户可以在账户设置中选择退出此项服务。
PayPal 卖家保护计划更新：从 2024 年 11 月 18 日起，卖家保护计划的基本要求将包括网站集成要求。此外，卖家保护计划将扩大到某些国家的客人结帐交易。
PayPal 网络支付服务协议更新：从 2024 年 11 月 18 日起，PayPal 将引入自动清算所（ACH）支付服务，允许商家接受银行账户支付。此外，PayPal 网络卡支付服务协议将更名为 PayPal 网络支付服务协议。
PayPal 募捐计划终止：从 2024 年 10 月 7 日起，PayPal 将禁用创建募捐活动的功能。现有的募捐活动将保持开放，直到它们过期。用户需要在 2025 年 1 月 12 日之前将募捐活动中的资金转移到 PayPal 账户中。

重要日期

2024 年 10 月 7 日：PayPal 募捐计划终止
2024 年 11 月 18 日：PayPal 卖家保护计划和网络支付服务协议更新
2024 年 11 月 27 日：PayPal 隐私政策更新

HN 热度 281 points | 评论 117 comments | 作者：xyst | 1 day ago #

https://news.ycombinator.com/item?id=41822178

-隐私法律确实有效，应继续加强 -政府未能有效保护公民隐私，监管被利益集团俘获 -权力下放至州级可以提高监管效率，减少监管捕获的风险 -州级监管更贴近民意，例如州检察长成功打击大型烟草公司 -人们不易搬迁，州级差异使选择更加复杂 -直接民主可能带来问题，如民众对某些议题缺乏了解 -最高法院的某些裁决（如金钱等同言论）阻碍了民主进程 -党派性选区划分和参议院分配不合理，影响了多数人的意志 -法院经常以牵强的理由推翻联邦政府的法规 -州级政府可能在某些关键议题上行动迟缓，需等待多年 -直接投票决定议题令人担忧，民众可能被错误信息误导 -美国政治体系假定公民具备足够智力参与决策，但实际情况未必如此 -即使在财富土地拥有者时代，直接民主也未必完美 -某些州的政策可能对特定群体（如女性）不利，需谨慎考虑

The quiet art of attention #

https://billwear.github.io/art-of-attention.html

这个网页是一篇关于如何掌控自己的思想和生活的文章。文章指出，在生活中，我们常常被自己的想法和情绪所控制，难以集中注意力和做出明智的决定。为了改变这种情况，我们需要学习如何控制自己的思想，培养专注和清晰的思维。

文章建议我们从简单的事情开始，例如注意自己的呼吸，观察自己的想法和情绪，学习如何放松和集中注意力。通过这种练习，我们可以逐渐培养自己的自我意识，学会如何控制自己的思想和情绪，做出更明智的决定。

文章还强调了简化生活的重要性，建议我们放弃不必要的东西，专注于真正重要的事情。通过简化生活，我们可以减少压力，增加效率，做出更好的选择。

最后，文章鼓励读者通过不断的练习和努力，逐渐掌控自己的思想和生活，实现更高的自我意识和生活质量。

HN 热度 274 points | 评论 95 comments | 作者：billwear | 9 hours ago #

https://news.ycombinator.com/item?id=41828601

-斯多葛主义探讨了这些观点，强调外部事件不受我们控制，应关注内心和行动，并围绕美德而非结果和外部事物来训练思想 -爱因斯坦晚年与鲁道夫·卡纳普讨论了“现在”的问题，认为物理无法解释“现在”对人类的特殊意义，神经科学正开始提供见解 -专注于单一任务时，时间似乎飞逝，而分心则会让人脱离“心流”状态 -“现在”和时间的体验是比喻性的，通过正念可以更充分地体验生活中的每一个瞬间，而不是匆匆度过 -“心流”与“正念”或“专注”不同，“心流”是时间在周围加速而自己保持专注的状态 -文章讨论的是对经验本身的内在关注，而评论者提到的是对外部事物的更常见的关注方式 -注意力的培养需要时间和努力，最终可以成为自然而然的习惯，但现代注意力寻求算法等陷阱使这变得极其困难 -冥想练习值得投入时间，有助于对抗当今持续的注意力缺失和缺乏空旷、安静的空间 -认知控制是当今时代最重要的问题之一，多动症社区在这方面有很多领先的技术和方法

Starship Flight 5 license issued by FAA #

https://drs.faa.gov/browse/excelExternalWindow/DRSDOCID173891218620231102140506.0001?modalOpened=true

这份文件是美国联邦航空管理局（FAA）下属的商业航天运输办公室授予 SpaceX 公司的商业航天运输许可证，编号为 VOL 23-129 Rev. 4。该许可证授权 SpaceX 在遵守美国联邦法规 51 U.S.C. Subtitle V, chapter 509 以及相关命令、规则和规定的前提下，进行星舰-超重型（Starship-Super Heavy）运载火箭的发射活动。

许可证包含了一系列的条款、条件和限制，这些内容在 A 和 B 两个许可令中详细说明，并且已经通过引用并入本许可证。许可证的原始发行日期是 2023 年 4 月 14 日，而最新的修订版生效日期是 2024 年 10 月 12 日。许可证的有效期为五年，从 2023 年 4 月 14 日开始计算。

许可证的修订历史记录了从 2023 年 4 月 14 日的原始发行版本到 2024 年 10 月 12 日的第四次修订版本的所有变更。这些变更包括对条款的修改、对环境评估的更新、对特定飞行任务的提及，以及对 SpaceX 必须遵守的环境法规和监测计划的增加。

Order A-1 详细说明了 SpaceX 在德克萨斯州博卡奇卡（Boca Chica）发射场进行星舰-超重型火箭的发射和地面预飞行操作的授权细节，包括对环境缓解措施的要求、额外措施、合规监控、特殊报告要求和环境要求。

Order B-1 则涉及 SpaceX 的财务责任要求，规定了 SpaceX 必须持有的责任保险金额，以覆盖在德克萨斯州博卡奇卡发射场进行的地面预飞行操作和星舰-超重型火箭飞行期间可能产生的索赔。

整个文件强调了 SpaceX 在进行发射活动时必须遵守的联邦、部落、州和地方的环境法律、法规和标准，以及必须维持的持续责任，以确保所有相关的环境许可、许可证、授权和批准都是最新的。此外，SpaceX 还必须遵守 FAA 根据国家环境政策法案准备的文件中的条件、限制、缓解措施和监测计划。

HN 热度 254 points | 评论 221 comments | 作者：LorenDB | 1 day ago #

https://news.ycombinator.com/item?id=41820785

-有人制作了一个手动着陆 SuperHeavy 助推器的游戏，非常有趣，但游戏中的失败效果较多 -Starship 的发动机在空间中重新点火的能力是其执行轨道任务和部署卫星前需要展示的最后一项能力，但不在本次任务时间表上 -游戏中的超推力效果在助推器被刺穿后不切实际，建议改为快速氧气或 CH4 损失和发动机推力损失 -SpaceX 官方也推出了自己的 Starship 游戏，但有人反映游戏在某些浏览器上无法正常运行 -Starship 第五次飞行测试定于 10 月 13 日，发射窗口为 30 分钟，从 CT 时间上午 7 点开始，即 UTC 时间中午 12 点 -发射许可仅提前一天颁发，时间上显得有些仓促 -游戏优化了 Chrome 浏览器，可能是因为开发者主要使用 Chrome 进行测试 -游戏加载和运行情况因用户系统配置不同而有所差异，可能与 GPU 和驱动有关

WordPress.org’s latest move involves taking control of a WP Engine plugin #

https://www.theverge.com/2024/10/12/24268637/wordpress-org-matt-mullenweg-acf-fork-secure-custom-fields-wp-engine

WordPress.org 的创始人 Matt Mullenweg 宣布，WordPress.org 已经接管了一个流行的 WP Engine 插件，名为 Advanced Custom Fields (ACF)。该插件允许网站创建者使用自定义字段，而现有的通用字段无法满足需求。Mullenweg 称，这次接管是为了“删除商业升级和修复安全问题”。他还表示，这次行动是由于 WP Engine 最近对他和 Automattic 提起的诉讼所致。

WP Engine 的 ACF 团队在 X 上表示，WordPress 从未“单方面和强制性地”从其创建者那里接管插件。他们还表示，非 WP Engine、Flywheel 或 ACF Pro 客户需要从 ACF 网站下载 6.3.8 版本，以继续获得更新。

此次事件是 WordPress 和 Automattic 之间争议的一部分。 Automattic 是 WordPress.org 背后的公司，Matt Mullenweg 是其 CEO。WP Engine 是一家提供 WordPress 主机服务的公司。两家公司之间的争议涉及商标和开源软件的使用。

Mullenweg 表示，这次事件是“罕见和异常的情况”，是由 WP Engine 的法律行动引起的。他还表示，WordPress.org 不会对其他插件采取类似行动。

HN 热度 254 points | 评论 194 comments | 作者：lsaferite | 16 hours ago #

https://news.ycombinator.com/item?id=41826082

-WordPress.org 接管了 WP Engine 的插件，引起了客户的恐慌和担忧 -WordPress.org 的行为可能影响到 WP Engine 的商业模式和收入来源

插件修改中包含了安全修复，但主要是移除了与商业版本相关的代码和引用
插件修改不符合版本标准，导致版本号混乱
安全团队可能对 WP Engine 的代码进行了渗透测试，找到了进行修改的借口 -WordPress 的开发者和定制化开发者普遍缺乏专业训练，代码质量堪忧 -部分用户对免费软件和插件的质量要求过高，不愿意支付任何费用 -安全团队的名字被用于此次行为，可能引发团队成员的不满 -此次插件修改可能旨在防止 CSRF 攻击，但修复并不彻底

FLUX is fast and it’s open source #

https://replicate.com/blog/flux-is-fast-and-open-source

FLUX 模型现在在 Replicate 上运行速度更快，我们将优化后的代码开源，以便社区可以查看和改进。优化后的 FLUX 模型的速度如下：

FLUX.1 [schnell] 在 512x512 和 4 步：0.29 秒（P90：0.49 秒）
FLUX.1 [schnell] 在 1024x1024 和 4 步：0.72 秒（P90：0.95 秒）
FLUX.1 [dev] 在 1024x1024 和 28 步：3.03 秒（P90：3.90 秒）

优化方法

我们使用 Alex Redden 的 flux-fp8-api 作为起点，优化模型使用 torch.compile 和 fast CuDNN attention kernels。我们还添加了一个新的同步 HTTP API，使所有图像模型在 Replicate 上运行速度更快。

开源优化

我们将优化后的代码开源，以便社区可以查看和改进。我们希望通过开源优化来改变传统的做法，即模型提供者优化模型并将其发布在专有 API 后面，而不将改进贡献回社区。

未来计划

我们将继续优化 FLUX 模型，并将新技术应用于模型加速。我们还将与社区合作，开发更快的开源 FLUX 模型。

HN 热度 232 points | 评论 115 comments | 作者：smusamashah | 22 hours ago #

https://news.ycombinator.com/item?id=41824390

-文本到图像模型可能通过分步骤实现，如文本到场景图、场景图到语义分割图像、分割图像到最终图像，这样可以提高编辑性和模块化 -通常情况下，直接从 a 到 c 的单一神经网络比从 a 到 b 再到 c 的组合网络更有效，因为直接网络可以确保所有从 a 到 c 的相关信息都被传递 -从历史经验来看，手动特征工程和分步骤的方法在图像识别等领域并不如大规模模式匹配有效 -对于图像生成，从少量词汇开始，可以先进行文本处理，将其分类为对象、人物、颜色、亮度、环境等，然后再生成图像 -使用两个专门的神经网络来实现分步骤的方法，需要解决大规模标注场景图数据集的问题，这在实践中非常困难 -即使在计算资源有限的情况下，通过语音到图像的转换可能会比文本到图像的转换产生更好的结果，因为语音携带了额外的情感和语调信息