随着ChatGPT等服务被部署到数百万用户中,生成语言模型最近大受欢迎。这些神经模型令人着迷、有用,而且令人难以置信地神秘:我们不是设计我们希望它们做的事情,而是将它们推向正确的方向,并且必须发现它们能够做什么。但是我们怎么能依赖这些难以理解的系统呢?
本次演讲将描述我们希望从文本生成模型中获得的一些关键特征,例如一致性和正确性,并展示我们如何设计算法以更可靠地生成具有这些属性的文本。我们还将强调使用这种模型的一些挑战,包括需要发现和命名新的和通常意想不到的突发行为。最后,我们将讨论这对理解模型的重大挑战的影响,以便我们可以安全地控制它们的行为。
Ari Holtzman是华盛顿大学的博士生。他的研究广泛关注文本的生成模型:我们如何使用它们,如何更好地理解它们。他的研究兴趣广泛,从对话(包括在2017年赢得第一届亚马逊Alexa奖)到文本生成的基础研究,如提出Nucleus Sampling,这是一种广泛用于部署系统(如GPT-3 API和学术研究)的解码算法。Ari在纽约大学完成了计算机科学和语言哲学相结合的跨学科学位。