`
m635674608
  • 浏览: 4937858 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

爬虫类型

    博客分类:
  • java
 
阅读更多
http://m.chinaz.com/web/2013/0325/297115.shtml


1. 批量型爬虫(Batch Crawler):批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取消耗的时间等。

2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。

3.垂直型爬虫(Focused Crawter):垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或者主题。从节省系统资源的角度来说,不太可能把所有互联网页面下载下来之后再去筛选,这样浪费资源就太过分了,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓墩无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。

分享到:
评论

相关推荐

    爬虫的实际应用

    爬虫类型:1.静态网页爬虫2.动态网页爬虫3.APP内嵌H54.APP数据接口5.数据接口分析直播安排1.接口逆向:美团外卖接口2.事件监听:拍卖系统3.舆情监测

    C#网络爬虫源码

    有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、...

    python爬虫:爬取豆瓣阅读出版社数据

    爬虫类型很多,常用的有通用网络爬虫(爬取网站所有内容)和聚焦网络爬虫(针对某一特定需求) 3爬虫原理 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)...

    Python爬虫框架Scrapy教程 完整版PDF

    它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习...

    C#实现网络爬虫

    有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、...

    完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

    它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。 小刮刮是一个为...

    搜索引擎爬虫(支持自定目录)

    搜索引擎爬虫 可以下载到指定的目录 支持多线程

    利用scrapy框架进行分布式爬虫

    scrapy提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,是一个为爬取网站数据、提取结构性数据而设计的应用程序框架,它可以应用在广泛领域

    爬虫学习。实战:微博各种类型爬虫,唯品会商品,淘宝商品等.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    包含了各个类型网站的爬虫源码集合

    各个比较知名的网站爬虫集合,比如B站,知乎,新浪,B站760万视频信息爬虫,豆瓣用户爬虫,Stackoverflow 100万问答爬虫,spider163 网易云音乐爬虫很多很多的源码合集

    C++网络爬虫项目

    WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 ...

    基于国家企业信用信息公示系统的反爬虫验证码类型.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    scrapy爬虫

    Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。...它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

    利用爬虫把github上所有的项目数据爬下来,包含项目名,语言类型,星数等

    利用爬虫把github上所有的项目数据爬下来,包含项目名,语言类型,星数等

    Python入门及爬虫开发视频教程

    包含环境的安装和配置、变量、数据类型、运算符、流程控制、队列、元组、字典、函数、面向对象(抽象、封装、继承、多态、构造函数等)、python中的包和模块、文件和文件夹模块、正则表达式、python操作sql server、...

    高考志愿,统计大学爬虫

    每年的分数线(年份,录取批次,招生类型,最低分/最低位次,省控线) 学校基本信息(学校id,名字 ,类型,科类 ,级别,位置,以及招生咨询官网 所需要的库 pip3 install json,fake_useragent,requests #第二个可有可无

    Python爬虫的意义以及如何运用爬虫技术开发代码.pdf

    1. 确定爬取目标:确定需要爬取的网站或数据源,以及需要爬取的数据类型。 2. 分析网站结构:通过分析网站的结构,确定需要爬取的数据所在的位置和方式。 3. 编写爬虫代码:使用Python编写爬虫代码,根据网站结构和...

    python爬虫的基本教程.txt

    变量和数据类型:了解Python中的基本数据类型,如字符串、整数、列表等。 控制流语句:掌握条件语句(if/else)、循环语句(for/while)等。 函数和模块:学习如何定义和使用函数,以及如何使用Python模块来扩展...

    飞卢小说网爬虫源代码附件

    飞卢小说网pyhon3爬虫爬取练习附件源码,练习写的不是很完善,欢迎交流

    搞定这套Python爬虫面试题(面试会so easy)

    先来一份完整的爬虫工程师面试考点: 一、 Python 基本功 1、简述Python 的特点和优点 Python 是一门开源的解释性语言,相比 Java C++ 等语言,Python 具有动态特性,非常灵活。 2、Python 有哪些数据类型? Python ...

Global site tag (gtag.js) - Google Analytics