来源:新智元
在互联网上进行交流时,你如何证明自己是活生生的真人?
这是一个比较棘手的问题,多年来,这个问题的解决方案一直就是“验证码”,就是看看你能够能成功识别一系列机器无法识别的扭曲字符。这类安全验证工具被称为“CAPTCHA”(即“全自动区分机器和人类公共图灵测试”)。
验证码被广泛用于垃圾邮件过滤、在社交网络上,识别并防止机器人账号发布冒充真人的内容(这些内容很可能包含垃圾或欺诈信息)。在过去的20多年里,虽然有过波折,但总体上看,用验证码解决这类问题是管用的。
但现在,情况可能发生了变化。
近日,英国兰卡斯特大学、中国西北大学、北京大学的计算机科学家们共同开发了一种AI系统,能够在短短0.5秒内识别出多种验证码。该系统已在不同的33个验证码系统中进行了成功测试,其中11个来自世界上最受欢迎的一些网站,包括eBay和维基百科等。
该研究的发起人之一、兰卡斯特大学计算与通信学院副教授Zheng Wang表示:这项研究可能会对文本式验证码文本做出“死刑判决”。
这项研究基于深度神经网络的图像分类器。深度神经网络在图像识别方面表现出惊人的性能。但是,要构建成功的模型,通常需要数百万个手动标记的图像才能实现顺利学习。这项最新成果的新颖之处在于,它使用生成对抗网络(GAN)来创建训练数据。
图中数据为该系统与现行识别器对各网站验证码识别准确率的对比,可以看到,大部分测试中的成功识别率都得到了大幅度提升
这套系统不需要收集和标记数以百万计的验证码文本数据,只需要500组数据就可以成功学习。而且可以使用这些数据,来生成数百万甚至数十亿的合成训练数据,建立高性能的图像分类器。结果显示,该系统比迄今为止所见的任何验证码识别器系统的识别精度都高。
这种方法对于需要大量训练数据的任何图像识别任务都是有用的。然而,验证码识别在某种程度上是独一无二的,因为这类任务本身处在不断发展和变化的状态中。
与真人识别结果的准确率对比情况以及可用性评分。可以看到,第一项的模型表现达到100%识别,超过了真人
早期基于文本的验证码(如本文缩略图所示)是该技术的第一次迭代。但是,到目前为止,我们可能更习惯于使用范围更广的、基于交通标志的验证码。
这种不断变化的状态,让面向验证码识别的训练数据的收集成为一个棘手的任务。(相比之下,学习识别一只狗就不存在这个问题,因为狗的一生中其外观形态不会发生大的变化),
研究人员表示:“也就是说,当我们最终收集到足够的训练数据时,验证码的形式可能快要(或已经)发生变化了,这些变化可能会让之前收集的数据完全无用。
我们的研究成果提供了一种以更低的成本构建验证码识别器的新方法。因此,它对现有的验证码体系构成了真正的威胁,因为它可以以更快的速度地学习验证码的解算器。“
参考链接:
https://www.digitaltrends.com/cool-tech/ai-cracks-captcha-05-seconds/
论文地址:
http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf
☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛
☞【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台
☞【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集
☞【CFP】Virtual Images for Visual Artificial Intelligence
☞【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉
☞【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起
☞【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务
☞【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步
☞【资源】T2T:利用StackGAN和ProGAN从文本生成人脸
☞【学界】 CVPR 2018最佳论文作者亲笔解读:研究视觉任务关联性的Taskonomy