即日起在codingBlog上分享您的技术经验即可获得积分,积分可兑换现金哦。

京东商城爬虫程序

编程语言 shx13114580971 15℃ 0评论


第一次练手,仅做记录:


所需工具:

python3(pip要升级),wheel(使用pip安装),vs2015(vc++build tools也可以,要对应vs2015的版本),

lxml(下载本地后安装),twisted(同上),scrapy(pip安装),pyCharm(管理scrapy项目),mysql




爬取内容:搜索关键字为服装的所有商品,得到其标题,url,价格与评论总数




创建项目与爬虫文件的指令:scrapy startproject jingdong          

                                              cd jingdong //进入项目文件

                                              scrapy genspider -t basic jd jd.com




打开项目后:










编写程序之前首先要修改setting文件中的一些配置,如图










其中USER_AGENT的内容来源如下图:(f12进入开发者模式后name栏没有内容的话就先刷新一下)












 

因为商品价格与评论数无法在页面源码中获得,所以需要通过浏览器抓包的方式获取,抓取方式如下图:







蓝线是价格信息,红线是评论总数信息,信息所在的网址如下图:





编程构造网址时可以尝试将不需要的部分删减掉,使url更简洁一些





设计数据库时,价格字段最好制成字符型,因为可能会出现价格区间的表示形式。还要注意字符集,数据库与代码都设置成utf-8





爬取结果:







转载请注明:CodingBlog » 京东商城爬虫程序

喜欢 (0)or分享 (0)
发表我的评论
取消评论

*

表情