最新帖子

android 微信登录报错

本贴记录android调用微信的错误,并记录解决方案。 阅读全文

cordova-plugin-wechat 微信登录(3)

在上小节介绍了cordova中如何使用cordova-plugin-wechat 阅读全文

cordova 自定义使用插件(2)

在混合式应用中,我们通过现有的Cordova插件,可以轻松的在 H5 上调用手机native的功能。现有的Cordova插件能满足平时大部分的开发需求,然而,有时候找不到合适的插件、或对找到的插件有不满意的地方,那就要动手去做或改写一个插件,这时候就要了解一些Cordova插件的相关知识。 阅读全文

cordova 安装创建项目(1)

Apache Cordova是一个开放源代码的移动开发框架。它允许您使用标准的Web技术-HTML5,CSS3和JavaScript进行跨平台开发。应用程序在针对每个平台的包装器中执行,并依赖于符合标准的API绑定来访问每个设备的功能,例如传感器,数据,网络状态等。简单来说就是将h5打包成一个app,允许页面调用android的API设备。 阅读全文

Scrapy源码分析 核心抓取流程(4)

在小菜初学scrapy时,从google上发现了几篇非常不错的文章,未经博主同意擅自将博主的文章收藏,主要怕日后看时,找不到此文章。小菜在这里向博主致敬,希望看到这篇帖子的小伙伴能够阅读原贴。 阅读全文

Scrapy源码分析 核心组件初始化(3)

在小菜初学scrapy时,从google上发现了几篇非常不错的文章,未经博主同意擅自将博主的文章收藏,主要怕日后看时,找不到此文章。小菜在这里向博主致敬,希望看到这篇帖子的小伙伴能够阅读原贴。 阅读全文

Scrapy源码分析 运行入口(2)

在小菜初学scrapy时,从google上发现了几篇非常不错的文章,未经博主同意擅自将博主的文章收藏,主要怕日后看时,找不到此文章。小菜在这里向博主致敬,希望看到这篇帖子的小伙伴能够阅读原贴。 阅读全文

Scrapy源码分析 架构概览(1)

在小菜初学scrapy时,从google上发现了几篇非常不错的文章,未经博主同意擅自将博主的文章收藏,主要怕日后看时,找不到此文章。小菜在这里向博主致敬,希望看到这篇帖子的小伙伴能够阅读原贴。 阅读全文

知乎中文倒立验证码识别

最近学习scrapy中,在爬取知乎问答时,遇到中知乎中文验证码不知道怎么办。下面就简单记录一下识别知乎中文验证码。 阅读全文

python 云打码识别验证码

现在基本每个网站在登录注册时都会要求输入验证码才能进行后续操作,在爬知乎时,小菜就遇到了这个问题,所以单独将云打码识别验证码记录一下。云打码属于第三方平台,所以识别需要收费,费用个人觉得还可以接受。 阅读全文

Scrapy 知乎模拟登陆 (10)

上小节从无到有写了一个完整的小爬虫,本小节我们继续练习爬虫。相信小伙伴已经知道我们这次爬取的目标是谁了,爬取知乎比爬取下厨房困难一些,原因就是知乎的反爬机制比下厨房的反爬机制更完善。知乎查看问答,必须要登录。我们要想爬取知乎的数据,首先得让程序自动登录。 阅读全文

Scrapy chromedriver被识别

虽然chromedriver已经可以可以使用浏览器登录了,但是由于浏览器还是被chromedriver控制的,chromedriver有一些特性可以被js感知到,所以很多网站可以在网站中加入js逻辑来判断当前的浏览器是否是由driver控制,比如检测是否存在特有标识$cdc_lasutopfhvcZLmcflwindow.navigator.webdriver阅读全文

Scrapy spider未进入parse

在初学scrapy时,按照官方的文档写了一个爬虫片段,发现怎么都会不会进入parse()方法。下面是spider代码 阅读全文

Scrapy 手写一个爬虫(9)

在第一小节中介绍如果创建一个爬虫项目并跑起来,后面几个小节讲解了有关scrapy的基本知识。本小节将运用之前学习的知识写一个爬虫项目。 阅读全文

Scrapy 架构概览(8)

在学习了scrapy基础后,我们在来了解一下scrapy的架构概览,这有助于我们更好的了解、学习scrapy。下面介绍Scrapy的体系结构及其组件之间的交互方式。 阅读全文

Scrapy Feed exports(7)

实现爬虫时最经常提到的需求就是能合适的保存爬取到的数据,或者说,生成一个带有爬取数据的导出文件(通常叫做export feed),来供其他系统使用。 阅读全文

Scrapy Item Pipeline(6)

ItemSpider中被收集之后,它将会被传递到 Item Pipeline,一些组件会按照一定的顺序执行对 Item 的处理 阅读全文

Scrapy Item Loaders(5)

Item Loaders 提供了一种便捷的方式填充抓取到的:Items。虽然 Items 可以使用自带的类字典形式 API 填充,但是 Items Loaders 提供了更便捷的 API,可以分析原始数据并对 Item 进行赋值。 阅读全文

Scrapy Item(4)

抓取的主要目的是从非结构化源(通常是网页)中提取结构化数据。Scrapy Spider可以将提取的数据作为Python字典返回。Python字典虽然方便且熟悉,但缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,尤其是在具有许多蜘蛛的大型项目中。 阅读全文

Scrapy 选择器(3)

Scrapy带有自己的数据提取机制,称为选择器。scrapy有xpathcss两种选择器。XPath 是一种在XML文档中选择节点的语言,也可以与HTML一起使用。 CSS 是用于将样式应用于HTML文档的语言。它定义选择器,将这些样式与特定的HTML元素相关联。 阅读全文