排序
Requests请求动态数据
一、静态页面和动态页面 通俗来讲: 静态网页:网页的内容一经发布,除非再进行人为的修改,否则页面内容不会发生改变。 动态页面:虽然同样页面代码不发生变化,但是其显示的内容确实可以随着...
BeautifulSoup解析数据
一、BeautifulSoup4解析数据 正则可以解析任意的字符串,但是bs4专门用来解析网页的 Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下: Bea...
爬虫验证码破解(三):超级鹰破解
1、超级鹰介绍 超级鹰是沧州世纪鑫鹰信息技术有限公司旗下的互联网技术品牌,是国内领先的智能图片验证码 识别、图片分类平台!超级鹰旨在为广大客户提供即时、精准的图片验证码识别及图片分...
Web前端简介&HTML&CSS&JS简介
一、Web前端简介 1.1 基本知识 网页主要由三个部分组成: 结构:负责网页的结构和内容,如:标题,图片,段落等,由html实现 表现(样式):设定网页的表现形式,如:标签的位置,大小,文字颜...
Spider练习(二):使用BS4抓取豆瓣电影T250
一、需求 使用BS4提取豆瓣电影Top250,1-10页的电影数据,包括'电影名称', '详情页地址', '上映年份','国家','类型', '评分','评论人数',并将结果保存到Excel文件中 网址:https://movie.douba...
Spider练习(三):Selenium提取LOL英雄数据
一、需求 使用Selenium提取数据,从英雄联盟首页进入 https://lol.qq.com/main.shtml 点击英雄资料 ,进入到英雄列表,然后保存 "英雄名称", "英雄职业", "英雄技能&q...
Selenium的进阶使用(二)
二、Selenium进阶使用 2.1 窗口的切换 2.1.1 切换到显式窗口 显式窗口:顾名思义,通过按钮的点击,可以直接打开一个新的窗口 前面提到点击事件click(),是在原窗口中更改网页,所以放打开一个...
Scrapy框架的基本使用(一)
1、Scrapy概述 当我们写了很多个爬虫程序之后,你会发现每次写爬虫程序时,都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍,这里面有很多工作其实都是...
爬虫验证码破解(一):数字验证码
1、前言 我们在进行爬虫的过程中,服务器经常为了校验是否是机器人操作,会使用验证码进行判断 常见的验证码格式: 数字字母验证码 滑块验证码 点字验证码 破解验证码的方式有: 光学文字识别:...
自动化测试工具Selenium
一、Selenium Selenium 是一个用于 web程序的自动化测试工具,直接运行在浏览器中,能够像真正的用户一样操作浏览器,也就是说,利用它可以驱动浏览器执行特定的行为,最终帮助爬虫开发者获...