首页 > python爬虫

Python爬虫部分开篇概念讲解

时间：2021-05-07 python爬虫查看: 2456

在学习Python爬虫部分，需要你已经学过Python基础和前端的相关知识。

开发环境介绍：

window10 操作系统
Python解释器3.8
集成开发环境pycharm

数据的来源及作用

数据的来源有哪些？

用户产生的数据：百度指数
政府统计的数据：政府数据
数据管理公司：聚合数据
自己爬取的数据：爬取网站上的某些视频

数据的作用

数据分析
智能产品的练习数据
其他（比如买卖）

爬虫的相关概念

a) 爬虫的概念

爬虫就是应用程序，从网上下载各种各样的资源。
换句话说就是使用编程语言编写一个用于爬虫web或者app的数据应用程序。
怎么爬取数据呢？

找到要爬取的目标网站，发起请求
分析url是如何变化的和提取有用的url
提取有用的信息

爬虫什么数据都可以爬吗？
当然不能，需要遵守一定的规则和协议

可以看一下京东的：

有些是允许的，有些是不允许的。

b) 爬虫分类

通用爬虫

百度等搜索引擎，从一些初始的URL扩展到整个网站，主要为门户站点搜索引起和大型网站服务采集数据

聚焦网站爬虫

主题网络爬虫，选择性爬取根据需求相关的页面的网络爬虫

增量式网络爬虫

对已经下载的页面采取更新知识和只爬新产生的。

c) 爬虫的原理

通用的爬虫原理

聚焦网络爬虫原理

d) 各种语言写爬虫的对比

php对多线程，异步支持不是很友好，并发能力弱。速度和效率低
java：代码量大，而且重构成本比较高，任何改动都会导致大量的改动，而爬虫需要经常修改采集代码
Python：开发效率高，代码简洁，支持的模块多，和HTTP请求和html解析模块非常丰富，还有scrapy,scrapy-redis框架，让开发爬虫更简单。

到此这篇关于Python爬虫部分开篇示例讲解的文章就介绍到这了,更多相关Python爬虫部分开篇示例讲解内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客！

展开全文

上一篇：python爬取企查查企业信息之selenium自动模拟登录企查查

下一篇：python爬虫系列网络请求案例详解

输入字:

相关知识

: Python爬虫基础之爬虫的分类知识总结; 来给大家讲python爬虫的基础啦,首先我们从爬虫的分类开始讲起,下文有非常详细的知识总结,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下

: Python爬虫基础讲解之请求; 今天带大家了解一下python爬虫的基础知识,文中有非常详细的解释说明,对正在学习python爬虫的小伙伴们有很好地帮助,需要的朋友可以参考下

: PyQt5爬取12306车票信息程序的实现; 12306是学习爬虫的比较好的一个练手网站。本文主要实现了PyQt5爬取12306车票信息程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

: Python爬虫之m3u8文件里提取小视频的正确姿势; 本文给大家分享如何正确提取m3u8文件里的.ts视频，并合成完整的.mp4格式视频，通过图文实例代码的形式给大家介绍的非常详细，对Python提取m3u8文件小视频感兴趣的朋友一起看看吧