基于GAN的验证码识别工具，0.5秒宣告验证码死刑！

会员服务 ·

基于GAN的验证码识别工具，0.5秒宣告验证码死刑！

2018 年 12 月 15 日 GAN生成式对抗网络

来源：新智元

【导读】在网上如何区别机器人和真人？目前基本还是要靠验证码，目前已经用了近20年，但这招以后可能不管用了！中英两国研究人员联合开发了一套基于GAN的验证码AI识别系统，能在0.5秒之内识别出验证码，从实际测试结果看，可以说宣布了对验证码的“死刑判决”。

在互联网上进行交流时，你如何证明自己是活生生的真人？

这是一个比较棘手的问题，多年来，这个问题的解决方案一直就是“验证码”，就是看看你能够能成功识别一系列机器无法识别的扭曲字符。这类安全验证工具被称为“CAPTCHA”（即“全自动区分机器和人类公共图灵测试”）。

验证码被广泛用于垃圾邮件过滤、在社交网络上，识别并防止机器人账号发布冒充真人的内容（这些内容很可能包含垃圾或欺诈信息）。在过去的20多年里，虽然有过波折，但总体上看，用验证码解决这类问题是管用的。

但现在，情况可能发生了变化。

近日，英国兰卡斯特大学、中国西北大学、北京大学的计算机科学家们共同开发了一种AI系统，能够在短短0.5秒内识别出多种验证码。该系统已在不同的33个验证码系统中进行了成功测试，其中11个来自世界上最受欢迎的一些网站，包括eBay和维基百科等。

该研究的发起人之一、兰卡斯特大学计算与通信学院副教授Zheng Wang表示：这项研究可能会对文本式验证码文本做出“死刑判决”。

这项研究基于深度神经网络的图像分类器。深度神经网络在图像识别方面表现出惊人的性能。但是，要构建成功的模型，通常需要数百万个手动标记的图像才能实现顺利学习。这项最新成果的新颖之处在于，它使用生成对抗网络（GAN）来创建训练数据。

图中数据为该系统与现行识别器对各网站验证码识别准确率的对比，可以看到，大部分测试中的成功识别率都得到了大幅度提升

这套系统不需要收集和标记数以百万计的验证码文本数据，只需要500组数据就可以成功学习。而且可以使用这些数据，来生成数百万甚至数十亿的合成训练数据，建立高性能的图像分类器。结果显示，该系统比迄今为止所见的任何验证码识别器系统的识别精度都高。

这种方法对于需要大量训练数据的任何图像识别任务都是有用的。然而，验证码识别在某种程度上是独一无二的，因为这类任务本身处在不断发展和变化的状态中。

与真人识别结果的准确率对比情况以及可用性评分。可以看到，第一项的模型表现达到100%识别，超过了真人

早期基于文本的验证码（如本文缩略图所示）是该技术的第一次迭代。但是，到目前为止，我们可能更习惯于使用范围更广的、基于交通标志的验证码。

这种不断变化的状态，让面向验证码识别的训练数据的收集成为一个棘手的任务。（相比之下，学习识别一只狗就不存在这个问题，因为狗的一生中其外观形态不会发生大的变化），

研究人员表示：“也就是说，当我们最终收集到足够的训练数据时，验证码的形式可能快要（或已经）发生变化了，这些变化可能会让之前收集的数据完全无用。

我们的研究成果提供了一种以更低的成本构建验证码识别器的新方法。因此，它对现有的验证码体系构成了真正的威胁，因为它可以以更快的速度地学习验证码的解算器。“

参考链接：

https://www.digitaltrends.com/cool-tech/ai-cracks-captcha-05-seconds/

论文地址：

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

高质量延伸阅读

☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛

☞【学界】第1届“智能车辆中的平行视觉”研讨会成功举行

☞【学界】生成式对抗网络：从生成数据到创造智能

☞【学界】OpenPV：中科院研究人员建立开源的平行视觉研究平台

☞【学界】基于平行视觉的特定场景下行人检测

☞【学界】ParallelEye：面向交通视觉研究构建的大规模虚拟图像集

☞【CFP】Virtual Images for Visual Artificial Intelligence

☞【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王飞跃教授：生成式对抗网络GAN的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员：GAN与平行视觉

☞【重磅】平行将成为一种常态：从SimGAN获得CVPR 2017最佳论文奖说起

☞【平行讲坛】平行图像：图像生成的一个新型理论框架

☞【学界】基于生成对抗网络的低秩图像生成方法

☞【学界】Ian Goodfellow等人提出对抗重编程，让神经网络执行其他任务

☞【学界】六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

☞【资源】T2T：利用StackGAN和ProGAN从文本生成人脸

☞【学界】 CVPR 2018最佳论文作者亲笔解读：研究视觉任务关联性的Taskonomy

☞【业界】英特尔OpenVINO™工具包为创新智能视觉提供更多可能

☞【学界】ECCV 2018: 对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得

登录查看更多

相关内容

验证码

关注 4

全自动区分计算机和人类的图灵测试（英语： Completely Automated Public Turing test to tell Computers and Humans Apart，简称 CAPTCHA），俗称 验证码，是一种区分用户是计算机和人的公共全自动程序。

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

58+阅读 · 2020年6月24日

【文献综述】Text Detection and Recognition in the Wild: A Review 自然文本检测与识别

专知会员服务

46+阅读 · 2020年6月11日

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【ICML2020】小样本目标检测

专知会员服务

91+阅读 · 2020年6月2日