• 最近一段好忙, 忙的都没时间去管理网站,网站被举报 被攻击 我也是醉了 :sad:

  • 好久没发说说了,感觉与世隔绝了 :lol:

  • 今天更换Git主题,以后本站由Git主题强力驱动 :mrgreen: :mrgreen:
  • 六一儿童节快乐

  • 今天全站启用又拍云 CDN进行加速

  • 这两天有些忙所以没来得及更新,愿一切安好
  • 锲而不舍是取得成功关键的一环
  • 当你无助时,你可以哭,但哭过你必须要振作起来,绝地逢生并不罕见,何况不是绝境! 早安!

  • 今天五一,没有出去玩,主要是人太多了

  • 今天外面风好大,天气也有点冷,出门一定要多穿衣服!

Python爬虫四个步骤

爬虫精进 慕白 5个月前 (05-11) 607次浏览 已收录 0个评论

爬虫四个步骤

01 – 获取数据

1 requests库

  1. requests可以帮助下载网页源代码,文本,图片及音频。
  2. 获取方法: res=requests.get(‘网址’)

  3. response对象属性:
  • response.status_code              检查是否请求成功
  • response.content                    以二进制形式返回
  • response.text                          以字符串形式返回
  • response.encoding                定义response对象编码

2 robots协议

1.Robots 协议是互联网爬虫的一项公认的道德规范,它的全称是
“网络爬虫排除标准”(Robots exclusion protocol),这个协议用
来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

2. 查看方法
在网站的域名后加上/robots.txt,如淘宝的robots协议。

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

协议里最常出现的英文:

  • Allow              表示可以被访问
  • Disallow          表示禁止被访问

02 – 解析数据

1 BeautifulSoup4库

作用:解析requests库获取的数据

2 使用方法

bs对象=BeautifulSoup(‘要解析的文本’,’解释器’)

解析提取数据的方法:

find():只提取首个满足要求的数据:

soup.find(‘标签’,属性)

find_all():提取所有满足要求的数据:

soup.find_all(‘标签’,’属性’)

Tag对象属性/方法:

  • Tag.find(‘标签’,属性),Tag.find_all(‘标签’,属性)
  • Tag.text:返回字符串数据
  • Tag[‘属性名’]:通过属性名取出属性值

清宁时光 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python爬虫四个步骤
喜欢 (0)
[6447834@qq.com]
分享 (0)
慕白
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址