自动编程：大型语言模型及其他

由于依赖于大型语言模型（LLM）的 GitHub Copilot 等工具的出现，自动编程越来越受欢迎。同时，由于对质量和信任的担忧，自动生成的代码在部署过程中面临挑战。在本文中，我们研究了一般意义上的自动化编码，并研究了围绕代码质量、安全性和程序员责任相关问题的问题。这些是组织在决定使用自动生成的代码时的关键问题。我们讨论了软件工程的进步，如程序修复和分析，如何实现自动编程。最后，我们以前瞻性的观点结束，重点关注不久的将来的编程环境，程序员可能需要切换到不同的角色才能充分利用自动编程的力量。自动修复从 LLM 自动生成的程序，可以帮助从 LLM 生成更高的保证代码，以及保证的证据。在过去的 50 到 60 年里，无论是在意图捕获（捕获用户的愿望）方面，还是在生成正确的代码—方面，编程任务都占据了计算机专业的大部分时间。在建模和系统设计方面取得了重大进展，以支持准确的意图捕获，从而导致形式规范的增长。然而，尽管取得了所有进展，但软件工程师不愿意编写正式的规范，对于大型软件系统来说，没有正式的意图描述—导致调试和修复错误的巨大困难。自动化程序修复领域在微观代码生成方面显示出前景。关键问题是如何信任自动生成的代码。从大型语言模型（LLM）自动生成代码的最新发展使自动编码中的信任问题更加突出。这不仅引发了自动生成代码正确性的整体问题，而且提出了我们何时可以开始信任自动生成的代码以将其集成到我们的代码库中。在过去的几十年里，利基行业已经从模型中生成了代码，但是没有从自然语言规范中自动生成代码被广泛使用的先例。在本文中，我们将彻底讨论此类自动生成代码的信任问题。虽然本文的直接动机是研究大型语言模型（LLM）代码中的信任问题，但我们在本文中更广泛地研究了自动化编程的主题。我们注意到，越来越多的组织正在转向自动生成代码，即使除了大型语言模型的普及之外。最近在 Oracle CloudWorld 2023 [? ] 上的主题演讲中提到，Oracle 正在考虑放弃用 Java 编写软件，而是用一种称为 Apex 的语言自动为新软件项目生成代码。Apex 是一个著名的低代码应用程序平台，用于从应用程序页面中组装应用程序。这种向低代码的转变带来了其他好处，例如轻松实现软件项目的安全审计。总的来说，我们注意到自动编程超越了大型语言模型的使用，并且隐含地包括了低代码无代码应用程序开发增长的最新趋势。由于最近对自动编程的兴趣，与自动生成的代码相关的一系列问题受到了广泛的关注。除了正确性之外，还存在对代码的安全性、隐私性和可解释性的担忧——尤其是当从大型语言模型生成时。务实地说，当包含自动生成代码的软件项目失败时，人们可能仍然担心“推卸责任”。为了理解潜在的问题，我们可以在应用软件和系统软件之间的交互之间进行类比，这导致了众所周知的应用程序兼容性（通常被开发人员称为 appcompat ）问题（例如，参见 [? ] ）。通常，由于操作系统（OS）等系统软件的版本更改，在操作系统上运行的特定应用程序（如 PDF 阅读器）可能会失败。但是，这不一定是由于操作系统本身。这可能是由于对应用软件和操作系统之间期望的错误理解。同样，当自动生成的代码和手动编写的代码在软件项目中共存时，由于错误地理解了不同软件组件之间的期望，错误可能会悄然出现。因此，在本文中，我们将研究当我们将自动生成的代码集成到软件项目中时，信任边界如何变化。研究界可能感兴趣的技术问题之一是将 LLM 生成的代码集成到软件项目中的可接受性标准。正如最近提出的 SWEbench [? ] 中所阐述的那样，程序分析工具增强了 LLM 在自动化关键编程任务（如错误修复和功能添加）方面的能力也值得研究。通过系统地使用程序修复 [? ] ，从 LLM 自动生成的代码的最后一英里改进仍然是一个探索的可能性 [? ] 。这种倒数第二个自动修复策略可以帮助提供正确性的具体证据（例如通过精选测试），从而建立对接受 LLM 生成的代码进入代码存储库的信心。我们还研究了 LLM 在自动化非代码工件和流程（如测试生成、代码审查和代码摘要）方面的影响。更重要的是，从人类与 LLM 交互的角度来看，我们试图在未来的日常编程中提供一种新兴的新前景。传统上，当正式规范不可用时，软件工程师会求助于程序理解或规范推理来理解复杂软件系统的功能。当软件系统不是作为整体工件构建的，而是通过不同团队的合作或通过开源贡献进行组装时，这种做法尤其重要。我们注意到，传统的程序理解问题是由人类完成的，可能涉及使用分析/调试工具来理解复杂软件系统的工作。在 LLM 驱动的编程时代，我们可以假设一个新的理解问题 - 基于自然语言要求，LLM 由程序分析工具增强，可以自动执行大部分理解任务。在理解过程的不同阶段，可以有结构化的规定来咨询人类以消除需求的歧义。研究这种人类与 LLM 协作的机制，并为 LLM/分析器向人类程序员咨询提供足够的原语，可以为我们指明不久的将来的编程环境。我们还强调了自动生成的代码的自动程序修复的可能性，作为可信自动编程的灵活机制。这些可能会在 2030-35 年及以后的未来编程环境中发挥作用。 https://arxivtools.blob.core.windows.net/xueshuxiangzipaperhtml/2024_5_6/2405.02213.pdf

成为VIP会员查看完整内容