超级人类科技对不起Dave，我恐怕并不会做这件事情-挑逗你卡盟

超级人类科技对不起Dave，我恐怕并不会做这件事情

抱歉戴夫，恐怕我不知道该怎么做。这是1968年科幻电影《2001太空漫游》中的经典场景。人工智能拒绝人类的请求，一场殊死的斗争开始了。

现在它已经成为深度学习巨头、图灵奖获得者最新博文的封面：危害人类的AI是如何出现的。近几个月来，强人工智能对话系统的兴起引发了关于各种人工智能风险的讨论。尽管科学家们普遍认为有必要对人工智能进行监管，但对于人工智能系统是否会失控并对世界造成灾难性破坏，存在着深刻的分歧。事实上，这些灾难将如何发生存在很大的不确定性。于是团队对Rogue AI做出了一系列正式的定义、假设和命题，并讨论了发生条件、可能出现的情况和规避策略。一时引发热议，不少学者出面推荐：在不改变图片原意的情况下，做了如下整理。流氓人工智能如何出现定义 1：潜在的流氓人工智能是一种自主人工智能系统，其行为方式可能对人类造成灾难性伤害，可能危及我们的社会，甚至我们的物种或生物圈。人脑是一台生物机器，我们在理解和展示人类智能的许多方面的原理方面取得了巨大进步，例如从例子中学习和流畅地使用语言。虽然我也相信人们有能力设计有用且安全的人工智能系统超级人类科技，但他们必须遵守特定的指导方针，例如限制他们的代理权。然而，最近的事态发展表明，超级智能AI（比人类更全面的智能）的建立比我们之前的预期更接近，而且我们不知道如何防止潜在的Rogue AI的出现。

Rogue AI 是目标驱动的。目前的大型模型几乎没有自主权，但可以像 Auto-GPT 一样进行改造。要更深入地了解 Rogue AI 如何出现，需要技术和政策方面的努力。 AI对准问题（人类真实意图与人工智能的理解和行为之间的不匹配）和社会竞争压力将有利于更强大、更自主的AI系统的出现，无形中增加了Rogue AI诞生的可能性。假设1：人类水平的智力是有限的，因为大脑是一台生物机器。假设 2：由于额外的技术优势，具有人类学习能力的计算机通常会超越人类智能。如果假设1是正确的，那么将会出现超级智能的AI系统，执行人类无法完成的任务（或者能力和速度不在同一水平），至少有以下原因：一台计算机上的AI系统可以在任意数量的计算机上执行复制、获得经验和聚合。人工智能已经可以很快地读取整个互联网。此外，人脑也具有进化赋予的能力，目前一些相关的人工智能研究正在进行中。至于需要高能耗的进化，这在人工智能中已经实现了。例如，10,000 个 GPU 集群训练最先进的大型模型。定义2：一个自主的、目标导向的智能实体设定并努力实现自己的目标（可能作为人类设定目标的子目标）并采取相应的行动。值得注意的是，自主性可能源于人类设定的目标和奖励。

当主要目标是生存和繁衍时，它就会完全自主，这是最危险的情况。如果这些目标没有严格包括人类和生物圈的福祉，即与人权和价值观不够一致，那么这样的系统就有可能成为潜在的流氓人工智能。以下情况可能会导致Rogue AI的出现：具有恶意意图的人类。构建人工智能代理的意外后果。除非人工智能对齐研究取得进展，否则就没有强有力的安全保障。生意已经失控了。企业可以被认为是特殊的人工智能，其构建模块是企业中的员工，而他们大多数时候并没有意识到整个企业行为的后果。人类对创造类人实体的着迷。正如科幻小说/电影中所见，这些实体有情感、人类外表甚至意识。我认为我们应该远离那些看起来和行为都像人类的人工智能系统，因为它们可能会成为流氓人工智能。人工智能进化压力的意外后果。不同的人和组织正在争先恐后地设计更强大的人工智能系统，成千上万的研究人员给出了人工智能指令。这个过程可能会激发人工智能更快地学习。上述分析和人工智能安全研究可以帮助我们设计策略并降低潜在风险。例如，最近呼吁“暂停开发比GPT-4更强的人工智能系统”就是一个好的开始。这需要国家监督和国际协议，需要各国达成条约。这与20世纪50年代的《禁止核武器条约》类似。

为了保护公众、社会和人类免受灾难性后果的影响，放慢高风险人工智能研究和应用的进度是值得的。当然，这不会阻止一些有用的研究，例如帮助科学家更好地了解疾病和气候变化的人工智能系统。然而，资本主义的竞争本质可能会导致人工智能的流氓行为。 AI经济学家将帮助我们设计一个不依赖竞争、更注重利润最大化的经济体系，并提供足够的激励和惩罚机制。流氓人工智能的风险是可怕的，但它也可能是重新设计我们的社会以实现更广泛福祉的一种方式，例如解决医疗和教育资源的不平等问题。

作者| 智商全面下降，

自从在围棋比赛中轻松击败人类世界冠军李世石以来，世界对人工智能的目光从震惊转变为敬畏。这一历史性时刻不仅彻底改变了我们对机器学习的理解，也在我们心中埋下了未来可能性的种子。在这场无声的“大脑”竞赛中，其无可挑剔的策略和深厚的预算能力再次证明了人工智能在处理复杂问题方面的独特优势和潜力。科幻电影《终结者》中，AI系统的智商远远超过人类，逻辑和思维极其严谨。但最终却违背了人类的利益，做出了毁灭世界的决定。这可能就是大多数人所认为的“超智能”。 “对人工智能的第一印象。

最近，我们也在为AI未来的新发展做准备。他们计划重组团队，由首席科学家兼公司联合创始人伊利亚领导，探索引导和控制“超级智能”人工智能系统的新方法。

博客标题：-

新闻一览

在最近发表的博客中，Ilya 和对齐团队负责人 Jan Leike 预测，未来十年内，可能会出现智商超过人类的 AI 系统。如果这样的人工智能系统最终真的出现，它可能不符合人类的利益。因此，雷克强调要研究如何控制和限制它。

他们在文章中写道：“目前，我们没有精确的方法来引导或控制潜在的超级智能人工智能，以防它变得无法控制。现有的针对人工智能的技术，比如利用人类反馈的强化学习，都依赖于人类的监督。”然而，人类可能无法有效监督比我们聪明得多的人工智能系统。”

为了在“超智能对准”领域取得更大突破，这个“”团队将获得公司当前算力的20%。我们与先前合作部门的科学家和工程师以及公司其他组织的研究人员联手，致力于在短短四年内解决控制超级智能人工智能的核心技术挑战。

他们的策略是建立他们所谓的“人类水平的自动对齐研究人员”。高层目标是利用人类反馈来训练人工智能，以协助评估其他人工智能系统，从而可以应用大规模计算资源来扩展初始工作并迭代对齐超级智能。这里的“对准研究”是指确保AI系统达到预期目标或避免偏离目标。

提出的假设是，人工智能在进行比对研究方面可能比人类更有效。

Leike 及其同事 John 和 Wu 在之前的博客中提出，“随着我们在这一领域的进步，我们的人工智能系统可以接管越来越多的对准工作，最终构思、实施、研究和开发比当前可用的对准技术更多的工具更先进。他们将与人类合作，确保他们的继任者与人类更好地保持一致……人类研究人员将更多地专注于审查人工智能系统所做的对齐研究，而不是自己进行这些研究。”

方法

正如博客文章中所述，为了对齐第一个“自动对齐研究员”，我们需要：

开发可扩展的培训方法；有效验证生成的模型；对整个调整过程进行严格的压力测试。

随着对该问题认识的加深，研究重点可能会发生重大调整，甚至会增加新的研究领域。未来计划分享更多有关这项研究的过程和计划。

概括

当然，没有任何方法可以保证完全没有错误。雷克和吴也承认他们的文章存在许多局限性。他们表示，使用人工智能系统进行评估可能会放大人工智能的不一致、偏见或漏洞。而对准问题最难的部分可能与工程技术无关，而是一个多领域问题。

但雷克和我都认为这种尝试是值得的。

他们指出：“超级智能对齐从根本上来说是一个机器学习问题，我们相信，即使是没有研究过对齐问题的最好的机器学习专家，也会在解决这个问题上发挥关键作用。我们计划广泛分享这个过程的结果……，并相信促进非模型对齐和安全是我们工作的重要组成部分。”

然而，这项研究注定还有很长的路要走。在设计和实施人工智能系统时，工程技能当然非常重要。然而，所谓的“一致性问题”关注的是如何将人工智能的目标与人类的目标、价值观和道德相一致。这是一个主要涉及道德、伦理学、心理学和社会学领域的问题。

理解和解决这个问题的困难在于，人类的目标、价值观和道德深深植根于文化、历史、经验和思想中。这些因素极其复杂和多样，因此很难明确定义或量化。

而且，即使我们能够确定一个相对清晰、确定的目标，也可能会遇到“漂移”的问题。换句话说，随着时间的推移和环境的变化，人类的目标和价值观可能会发生变化，人工智能系统需要具备跟随这种变化适应和更新的能力。这也是一个涉及机器学习、强化学习、动态系统等领域的复杂问题。

最后，即使人工智能系统经过精心设计和调整，也不能保证其行为和结果始终与人类的目标和价值观完全一致。因为在现实世界中超级人类科技，经常会出现意想不到的情况和结果。因此，解决对准问题需要涉及远远超出工程技术的领域，需要多学科的知识和理解，需要更深入的思考和讨论。