用Python爬取淘宝2000款T T-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

用Python爬取淘宝2000款T T

阅读量：2071 次

发布时间：2019-04-29

本文共 2371 字，大约阅读时间需要 7 分钟。

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：裸睡的猪

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

一、淘宝登录复习

前面我们已经介绍过了如何使用requests库登录淘宝，收到了很多同学的反馈和提问，猪哥感到很欣慰，同时对那些没有及时回复的同学说声抱歉！

顺便再提一下这个登录功能，代码是完全没有问题。如果你登录出现申请st码失败的错误时候，可以更换_verify_password方法中的所有请求参数。

在这里插入图片描述

在淘宝登录2.0改进中我们增加了cookies序列化的功能，目的就是为了方便爬取淘宝数据，因为如果你同一个ip频繁登录淘宝的话可能就会触发淘宝的反扒机制！

关于淘宝登录的成功率，在实际的使用中基本都能成功，如果不成功就按上面的方法更换登录参数！

二、淘宝商品信息爬取

这篇文章主要是讲解如何爬取数据

本次爬取是调用淘宝pc端搜索接口，对返回的数据进行提取、然后保存为excel文件！

看似一个简单的功能却包含了很多问题，我们来一点一点往下看吧！

三、爬取单页数据

开始写一个爬虫项目我们都需要量化后再分步，而一般第一步便是先爬取一页试试！

1.查找加载数据URL

我们在网页中打开淘宝网，然后登录，打开chrome的调试窗口，点击network，然后勾选上Preserve log，在搜索框中输入你想要搜索的商品名称

在这里插入图片描述

这是第一页的请求，我们查看了数据发现：返回的商品信息数据插入到了网页里面，而不是直接返回的纯json数据！

在这里插入图片描述

2. 是否有返回纯json数据接口？

就好奇有没有返回纯json的数据接口呢？于是我就点了下一页（也就是第二页）

在这里插入图片描述

请求第二页后猪哥发现返回的数据竟然是纯json，然后比较两次请求url，找到只返回json数据的参数！

在这里插入图片描述

通过比较我们发现搜索请求url中如果带ajax=true参数的话就直接返回json数据，那我们是不是可以直接模拟直接请求json数据！

所以猪哥就直接使用第二页的请求参数去请求数据（也就是直接请求json数据），但是请求第一页就出现错误：

在这里插入图片描述

直接返回一个链接而不是json数据，这个链接是什么鬼？点一下。。。

在这里插入图片描述

铛铛铛，滑块出现，有同学会问：用requests能搞定淘宝滑块吗？猪哥咨询过几个爬虫大佬，

滑块的原理是收集响应时间，拖拽速度，时间，位置，轨迹，重试次数等然后判断是否是人工滑动。

而且还经常变算法，所以猪哥选择放弃这条路！

3.使用请求网页接口

所以我们只能选择类似第一页（请求url中不带ajax=true参数，返回整个网页形式）的请求接口，然后再把数据提取出来！

在这里插入图片描述

这样我们就可以爬取到淘宝的网页信息了

四、提取商品属性

爬到网页之后，我们要做的就是提取数据，这里先从网页提取json数据，然后解析json获取想要的属性。

1.提取网页中商品json数据

既然我们选择了请求整个网页，我们就需要了解数据内嵌在网页的哪个位置，该怎么提取出来。

经过猪哥搜索比较发现，返回网页中的js参数：g_page_config就是我们要的商品信息，而且也是json数据格式！

在这里插入图片描述

然后我们写一个正则就可以将数据提取出来了！

goods_match = re.search(r'g_page_config = (.*?)}};', response.text)

2.获取商品价格等属性

要想提取json数据，就要了解返回json数据的结构，我们可以将数据复制到一些json插件或在线解析

在这里插入图片描述

了解json数据结构之后，我们就可以写一个方法去提取我们想要的属性了

在这里插入图片描述

五、保存为excel

操作excel有很多库，网上有人专门针对excel操作库做了对比与测评感兴趣可以看看：https://dwz.cn/M6D8AQnq

猪哥选择使用pandas库来操作excel，原因是pandas比较操作方便且是比较常用数据分析库！

1.安装库

pandas库操作excel其实是依赖其他的一些库，所以我们需要安装多个库

pip install xlrdpip install openpyxlpip install numpypip install pandas

2.保存excel

在这里插入图片描述

这里有点坑的是pandas操作excel没有追加模式，只能先读取数据后使用append追加再写入excel！

在这里插入图片描述

六、批量爬取

一次爬取的整个流程（爬取、数据提取、保存）完成之后，我们就可以批量循环调用了。

在这里插入图片描述

这里设置的超时秒数是猪哥实践出来的，从3s、5s到10s以上，太频繁容易出现验证码！

在这里插入图片描述

猪哥分多次爬取了两千多条数据

在这里插入图片描述

七、爬取淘宝遇到的问题

爬取淘宝遇到了非常多的问题，这里为大家一一列举：

1.登录问题

在这里插入图片描述

问题：申请st码失败怎么办？

回答：更换_verify_password方法中的所有请求参数。

参数没问题的话登录基本都会成功！

2.代理池

为了防止自己的ip被封，猪哥使用了代理池。爬取淘宝需要高质量的ip才能爬取，猪哥试了很多网上免费的ip，基本都不能爬取。

在这里插入图片描述

但是有一个网站的ip很好站大爷：http://ip.zdaye.com/dayProxy.html ，这个网站每小时都会更新一批ip，猪哥试过还是有很多ip是可以爬取淘宝的。

3.重试机制

为了防止正常请求失败，猪哥在爬取的方法上加上了重试机制！

在这里插入图片描述

需要安装retry库

pip install retry

4.出现滑块

上面那些都没问题，但是还是会出现滑块，猪哥测试过很多次，有些爬取20次-40次左右最容易出现滑块。

在这里插入图片描述

出现滑块只能等个半小时后继续爬，因为目前还不能使用requests库解决滑块，后面学习selenium等其他框架看看是否能解决！

转载地址：http://dwnmf.baihongyu.com/

你可能感兴趣的文章

Intellij IDEA使用（十三）—— 在Intellij IDEA中配置Maven

面试题 —— 关于main方法的十个面试题

集成测试（一）—— 使用PHP页面请求Spring项目的Java接口数据

使用Maven构建的简单的单模块SSM项目

Intellij IDEA使用（十四）—— 在IDEA中创建包（package）的问题

Redis学习笔记（四）—— redis的常用命令和五大数据类型的简单使用

Win10+VS2015编译libcurl

Windows下使用jsoncpp

Ubuntu下测试使用Nginx+uWsgi+Django

Windows下编译x264

visual studio调试内存泄漏工具

开源Faac实现PCM编码AAC

Windows下wave API 音频采集

借船过河：一个据说能看穿你的人性和欲望的心理测试

AndroidStudio 导入三方库使用

Ubuntu解决gcc编译报错/usr/bin/ld: cannot find -lstdc++

解决Ubuntu14.04 - 16.10版本 cheese摄像头灯亮却黑屏问题

解决Ubuntu 64bit下使用交叉编译链提示error while loading shared libraries: libz.so.1

VS生成DLL文件供第三方调用

Android Studio color和font设置

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-18 03:42:30 当前IP: 3.149.29.112 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我