首页 > Python爬虫教程 > 第十章：斗转星移-常用的反爬策略及应对方法 > 10.4节：针对selenium的指纹识别

10.4节：针对selenium的指纹识别

薯条老师 2021-06-24 08:15:58 238965 0

编辑收藏

教程引言：

系统地讲解计算机基础知识，Python的基础知识, 高级知识。关注微信公众号[薯条编程]，免费领取Python电子书以及视频课程。

10.4.1 selenium的指纹检测

Selenium是一款web自动化测试工具，其底层使用JavaScript来对用户的操作进行模拟。selenium在驱动浏览器进行自动化操作时，会设置相关的DOM属性，其中一个比较典型的DOM属性是window.navigator.webdriver。

除了window.navigator.webdriver这一DOM属性,尚有数十个与selenium相关的指纹特征。读者可分析selenium源码或者在https://bot.sannysoft.com/页面所对应的js源码中找到与selenium相关的其它指纹信息。

现在来编写一段简单的js检测代码：

<script>
alert(window.navigator.webdriver);
</script>

将以上代码保存至html文件中(test_selenium.html)，并用浏览器打开，打开后的浏览器页面如下图所示：

图片.png

从提示信息可知，window.navigator.webdriver的属性值为false。现在通过selenium来访问该html文件，以下是代码实例：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get(r"D:\\test_selenium.html")

下图所示为程序执行成功以后的浏览器页面：

图片.png

从js检测代码的提示信息可知，此时window.navigator.webdriver的属性值为true。window.navigator.webdriver为true,即表示客户端使用了selenium一类的自动化测试工具来驱动浏览器。基于这样的原理，目标站点利用selenium的相关指纹特征，便可轻松地检测出客户端是否为爬虫，一旦检测为爬虫，那么就采用更严格的反爬策略或直接禁止访问。

现在对js检测代码进行简单修改：

<script>
if (window.navigator.webdriver) {
    alert("爬你妹啊, 一天到晚爬爬爬");
} else {
    alert("你不是爬虫，你是个爬行动物");
}
</script>

爬虫程序执行成功以后的浏览器窗口界面：

图片.png

从以上例子可知，JS代码通过selenium暴露的指纹信息来进行检测，我们在思考反反爬的策略时，也应当从selenium运行时暴露的指纹特征入手，将这些指纹特征隐藏起来或关闭。在本节教程中，着重讲解两种反反爬策略，一是通过浏览器提供的配置选项来关闭指纹特征，一是通过mitmproxy等中间人代理来篡改页面的js检测脚本代码。

10.4.2 修改浏览器配置

以火狐浏览器为例，将dom.webdriver.enabled设置为False,可隐藏window.navigator.webdriver这一DOM属性，以下为代码实例：

from selenium import webdriver
profile = webdriver.FirefoxProfile()
profile.set_preference("dom.webdriver.enabled", False)
driver = webdriver.Firefox(firefox_profile=profile)
driver.get(r"D:\\test_selenium.html")

爬虫程序执行成功以后的浏览器窗口界面：

图片.png

10.4.3 篡改JS检测代码

通过selenium打开某一个网页时，网页先由服务端响应给浏览器，浏览器再解析执行页面中的js代码。在这一过程中，我们可通过mitmproxy等中间人代理工具将服务端响应的页面数据截获下来，然后篡改其中的js检测代码，以达到反反爬的目的。为便于演示，需要读者先安装tornado模块，用来快速地搭建一个本地http服务器。

tornado模块的安装方法：在命令行中执行pip install tornado

安装成功以后，将以下代码保存至Python脚本文件app.py中:

import tornado.ioloop
import tornado.web
class TestSeleniumHandler(tornado.web.RequestHandler):
    def get(self):
        js_code =  """
        <script>
            if (window.navigator.webdriver) {
                alert("爬你妹啊, 一天到晚爬爬爬");
                } else {
                    alert("你不是爬虫，你是个爬行动物");
                }
        </script>
        """
        self.write(js_code)
if __name__ == '__main__':
    app = tornado.web.Application([(r"/test_selenium", TestSeleniumHandler)])
    app.listen(1986)
    tornado.ioloop.IOLoop.current().start()

进入windows命令行，切换到app.py所在的目录，执行python app.py命令以启动本地服务器。服务器启动成功以后，打开浏览器，然后在浏览器地址栏中输入http://127.0.0.1:1986/test_selenium，最后按下回车键：

图片.png

接下来编写mitmproxy的http拦截脚本，脚本代码如下所示：

from mitmproxy import ctx
class ModifyJS:
    def response(self, flow):
        # 将响应的网页数据中的window.navigator.webdriver替换为false
        flow.response.text =  flow.response.text.replace("window.navigator.webdriver", "false")
addons = [
    ModifyJS()
]

将代码保存至Python脚本文件modify_js.py中，然后进入windows命令行，切换到modify_js.py所在的目录，并执行mitmdump -s modify_js.py:

图片.png

打开浏览器，在地址栏中输入http://<你本机的IP地址>:1986/test_selenium，并按回车键：

图片.png

在页面中鼠标右键查看网页源代码：

图片.png

从页面的源码可知，网页的js代码已被篡改。接下来我们再修改爬虫程序中的selenium代码，将浏览器代理设置为mitmproxy服务器的地址：

from selenium import webdriver
profile = webdriver.FirefoxProfile()
profile.set_preference('network.proxy.type', 1)
 
# 将network.proxy.http设置为你本机的IP地址
profile.set_preference('network.proxy.http', '192.168.0.110')
# 将network.proxy.http_port设置为mitmproxy监听的端口
profile.set_preference('network.proxy.http_port', 8080)
profile.update_preferences()
driver = webdriver.Firefox(profile)
# IP需设置为你本机的IP地址
driver.get("http://192.168.0.110:1986/test_selenium")

执行该爬虫程序，如出现下图所示的提示信息，则说明成功地实现了针对selenium指纹特征的反反爬。

图片.png

当然，实际的反爬场景要远比本节举的例子复杂，尤其是目标站点在对js代码进行了混淆的情况下，此时需要读者认真复习第八章中的内容，耐心地做好js逆向破解。

(1) Python后端工程师高薪就业班，月薪8K-15K，免费领取课程大纲
(2) Python爬虫工程师高薪就业班，年薪十万，免费领取课程大纲
(3) Java后端开发工程师高薪就业班，月薪8K-20K, 免费领取课程大纲
(4) Python大数据工程师就业班，月薪12K-25K,免费领取课程大纲

扫码免费领取学习资料：

取消回复欢迎你发表评论:

Python, Java小班课

扫码咨询小班培训

IP代理神器

薯条老师教你学编程

第一章: 初学乍练-Python快速入门

第二章: 初窥门径-从全局把握网络爬虫

第三章: 爬虫数据-网页与JSON

第四章: 爬虫核心-HTTP协议

第五章: 手到擒来-数据的抓包

第六章: 利刃出鞘-HTTP请求库

第七章: 尘埃落定-数据的解析

第八章: 逆向初探-JS逆向

第九章: 爬虫进阶-Selenium, 中间人拦截

第十章：斗转星移-常用的反爬策略及应对方法

10.4节：针对selenium的指纹识别

教程引言：

10.4.1 selenium的指纹检测

10.4.2 修改浏览器配置

10.4.3 篡改JS检测代码

取消回复欢迎你发表评论:

10.4节：针对selenium的指纹识别

教程引言：

10.4.1 selenium的指纹检测

10.4.2 修改浏览器配置

10.4.3 篡改JS检测代码

取消回复欢迎 你 发表评论:

取消回复欢迎你发表评论: