当前位置:主页 > 技术文档 > Selenium 下载
Selenium模拟浏览器万能爬虫指南(python篇)

Selenium模拟浏览器万能爬虫指南(python篇) 超清版

  • 更新:2020-04-10 23:48:32
  • 大小:385 KB
  • 热度:800
  • 审核:邓雨星
  • 类别:技术文章
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

1.  什么是Selenium

Selenium 是一套完整的 Web 应用程序测试系统,它包含了测试的录制、编写及运行和测试的并行处理。支持的浏览器包括 IE (7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 等。完全有 JavaScript 编写,因此可以运行于任何支持 JavaScript 的浏览器上。

2 2. S S elenium  爬虫优劣势分析

2.1 优势

不需要做复杂的抓包、构造请求、解析数据等,开发难度相对要低一些。其访问参数跟使用浏览器的正常用户一模一样,访问行为也相对更像正常用户,不容易被反爬虫策略命中。

在需要模拟用户登录、浏览器滑动或点击时,使用 Selenium 执行 js 语句非常容易实现,比较适合动态网页的信息爬取。

2.2 劣势

相比于抓包→构造请求→解析返回值的爬虫,由于 Selenium 需要生成一个浏览器环境,所有操作(与元素交互、获取元素内容等)均需要等待页面加载完毕后才可以继续进行,所以速度相比构造请求的慢很多。

如果是爬取静态网页,不建议使用 Selenium,原因是速度太慢,效率太低。

建议使用其他爬虫工具,比如 Scrapy。

资源获取

资源地址1:https://pan.baidu.com/s/1dfACbsHEwAMtME5eCBdXKA

相关资源

网友留言