python教程网

当前位置：首页 » python爬虫 » 正文

详解使用scrapy进行模拟登陆三种方式

看: 1864次时间：2021-03-29 分类 : python爬虫

scrapy有三种方法模拟登陆方式：
- 直接携带cookies
- 找url地址，发送post请求存储cookie
- 找到对应的form表单，自动解析input标签，自动解析post请求的url地址，自动带上数据，自动发送请求

1、携带cookies登陆github

import scrapy
import re

class Login1Spider(scrapy.Spider):
  name = 'login1'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/NoobPythoner'] # 这是一个需要登陆以后才能访问的页面

  def start_requests(self): # 重构start_requests方法
    # 这个cookies_str是抓包获取的
    cookies_str = '...' # 抓包获取
    # 将cookies_str转换为cookies_dict
    cookies_dict = {i.split('=')[0]:i.split('=')[1] for i in cookies_str.split('; ')}
    yield scrapy.Request(
      self.start_urls[0],
      callback=self.parse,
      cookies=cookies_dict
    )

  def parse(self, response): # 通过正则表达式匹配用户名来验证是否登陆成功
    result_list = re.findall(r'noobpythoner|NoobPythoner', response.body.decode())
    print(result_list)
    pass

注意：

scrapy中cookie不能够放在headers中，在构造请求的时候有专门的cookies参数，能够接受字典形式的coookie
在setting中设置ROBOTS协议、USER_AGENT

2、使用scrapy.FormRequest()登录

通过scrapy.FormRequest能够发送post请求，同时需要添加fromdata参数作为请求体，以及callback

 yield scrapy.FormRequest(
       "https://github.com/session",
       formdata={
         "authenticity_token":authenticity_token,
         "utf8":utf8,
         "commit":commit,
         "login":"****",
         "password":"****"
       },
       callback=self.parse_login
     )

3、使用scrapy.Formrequest.from_response登陆github

import scrapy
import re

class Login3Spider(scrapy.Spider):
  name = 'login3'
  allowed_domains = ['github.com']
  start_urls = ['https://github.com/login']

  def parse(self, response):
    yield scrapy.FormRequest.from_response(
      response, # 传入response对象,自动解析
      # 可以通过xpath来定位form表单,当前页只有一个form表单时,将会自动定位
      formxpath='//*[@id="login"]/form', 
      formdata={'login': '****', 'password': '***'},
      callback=self.parse_login
    )

  def parse_login(self,response):
    ret = re.findall(r"noobpythoner|NoobPythoner", response.text)
    print(ret)

到此这篇关于详解使用scrapy进行模拟登陆三种方式的文章就介绍到这了,更多相关scrapy模拟登陆内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客！

标签：scrapy requests

2021-07-20Python爬虫基础之爬虫的分类知识总结
2021-07-20Python爬虫基础讲解之请求
2021-07-20PyQt5爬取12306车票信息程序的实现
2021-07-20Python爬虫之m3u8文件里提取小视频的正确姿势
2021-07-20如何用python抓取B站数据
2021-07-20快速搭建python爬虫管理平台
2021-07-20Python爬虫之获取心知天气API实时天气数据并弹窗提醒
2021-07-20Python爬虫之批量下载喜马拉雅音频
2021-07-20python使用pywinauto驱动微信客户端实现公众号爬虫
2021-07-20Requests什么的通通爬不了的Python超强反爬虫方案！

搜索

推荐资源