首页 > python爬虫

Python爬虫部分开篇概念讲解

时间:2021-05-07 python爬虫 查看: 1187

在学习Python爬虫部分,需要你已经学过Python基础和前端的相关知识。

开发环境介绍:

  •  window10 操作系统
  • Python解释器3.8
  • 集成开发环境pycharm

数据的来源及作用

数据的来源有哪些?

  • 用户产生的数据: 百度指数
  • 政府统计的数据: 政府数据
  • 数据管理公司: 聚合数据
  • 自己爬取的数据: 爬取网站上的某些视频

数据的作用

  • 数据分析
  • 智能产品的练习数据
  • 其他(比如买卖)

 爬虫的相关概念

 a) 爬虫的概念

爬虫就是应用程序,从网上下载各种各样的资源。
换句话说就是使用编程语言编写一个用于爬虫web或者app的数据应用程序。
怎么爬取数据呢?

  • 找到要爬取的目标网站,发起请求
  • 分析url是如何变化的和提取有用的url
  • 提取有用的信息

爬虫什么数据都可以爬吗?
当然不能,需要遵守一定的规则和协议

可以看一下京东的:

有些是允许的,有些是不允许的。

b) 爬虫分类

  • 通用爬虫

百度等搜索引擎,从一些初始的URL扩展到整个网站,主要为门户站点搜索引起和大型网站服务采集数据

  • 聚焦网站爬虫

主题网络爬虫,选择性爬取根据需求相关的页面的网络爬虫

  • 增量式网络爬虫

对已经下载的页面采取更新知识和只爬新产生的。

c) 爬虫的原理

  •  通用的爬虫原理

  • 聚焦网络爬虫原理

 

d) 各种语言写爬虫的对比

  •  php对多线程,异步支持不是很友好,并发能力弱。速度和效率低
  • java: 代码量大,而且重构成本比较高,任何改动都会导致大量的改动,而爬虫需要经常修改采集代码
  • Python: 开发效率高,代码简洁,支持的模块多,和HTTP请求和html解析模块非常丰富,还有scrapy,scrapy-redis框架,让开发爬虫更简单。

到此这篇关于Python爬虫部分开篇示例讲解的文章就介绍到这了,更多相关Python爬虫部分开篇示例讲解内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客!

展开全文
上一篇:python爬取企查查企业信息之selenium自动模拟登录企查查
下一篇:python爬虫系列网络请求案例详解
输入字:
相关知识
Python爬虫基础之爬虫的分类知识总结

来给大家讲python爬虫的基础啦,首先我们从爬虫的分类开始讲起,下文有非常详细的知识总结,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下

Python爬虫基础讲解之请求

今天带大家了解一下python爬虫的基础知识,文中有非常详细的解释说明,对正在学习python爬虫的小伙伴们有很好地帮助,需要的朋友可以参考下

PyQt5爬取12306车票信息程序的实现

12306是学习爬虫的比较好的一个练手网站。本文主要实现了PyQt5爬取12306车票信息程序,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

Python爬虫之m3u8文件里提取小视频的正确姿势

本文给大家分享如何正确提取m3u8文件里的.ts视频,并合成完整的.mp4格式视频,通过图文实例代码的形式给大家介绍的非常详细,对Python提取m3u8文件小视频感兴趣的朋友一起看看吧