最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:
我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
这个本身用验证码技术就是防止爬虫之类的网络程序的,我所知道的破解验证码就是用人工智能的图像识别那块,好像有类似的函数可用,但是准确率都不会太高的
有一种方案是在浏览器手动登陆然后把cookies提取出来直接在爬虫里包在请求里发出去。
图片一好处理,验证码就是张图片,通过图片处理可以获取验证码(ocr技术);
图片二比较麻烦,如果用第一种方法的话,它的数字覆盖在文字上面了,在获取图片内容的时候难度比较大,第二种方法我没有什么好方法,希望有这方面经验的同学帮忙解答一下
可以用一个验证码服务像是我在用的9eu。
最省事的方式就是把cookie拿出来写在代码里,不过cookie是有时效性的
应对复杂的验证码,比较高效省时的方法应是对接到打码平台,交由他们的人工处理。