使用Python爬虫爬取小红书完完整整的全过程
- 更新时间:2022-10-18 08:58:31
- 编辑:瞿飞英
参考资料
- 【Python面向对象(封装、继承、多态)】知识结构图(超大图) / 239 KB / 码小辫 推荐度:
- 深入浅出深度学习:原理剖析与Python实践 PDF 电子书 / 92.1 MB / 黄安埠 推荐度:
- 超完整Python基础入门知识教程 / 97.8 MB / 码小辫 推荐度:
正文内容
Python爬取小红书
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于Python进击者 ,作者kuls
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
https://space.bilibili.com/523606542
小红书
首先,我们打开之前大家配置好的charles
我们来简单抓包一下小红书小程序(注意这里是小程序,不是app)
不选择app的原因是,小红书的App有点难度,参照网上的一些思路,还是选择了小程序
1、通过charles抓包对小程序进行分析
我们打开小红书小程序,随意搜索一个关键词
按照我的路径,你可以发现列表中的数据已经被我们抓到了。
但是你以为这就结束了?
不不不
通过这次抓包,我们知道了可以通过这个api接口获取到数据
但是当我们把爬虫都写好时,我们会发现headers里面有两个很难处理的参数
"authorization"和"x-sign"
这两个玩意,一直在变化,而且不知道从何获取。
所以
2、使用mitmproxy来进行抓包
其实通过charles抓包,整体的抓取思路我们已经清晰
就是获取到"authorization"和"x-sign"两个参数,然后对url进行get请求
这里用到的mitmproxy,其实和charles差不多,都是抓包工具
但是mitmproxy能够跟Python一起执行
这就舒服很多啊
简单给大家举例子
def request(flow): print(flow.request.headers)
在mitmproxy中提供这样的方法给我们,我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性
这不正是我们想要的吗?
我们直接截取"authorization"和"x-sign" 这两个参数
然后往headers里填入
整个就完成了。
以上是我们整个的爬取思路,下面给大家讲解一下代码怎么写
其实代码写起来并不难
首先,我们必须截取到搜索api的流,这样我们才能够对其进行获取信息
if 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' in flow.request.url:
我们通过判断flow的request里面是否存在搜索api的url
来确定我们需要抓取的请求
authorization=re.findall("authorization',.*?'(.*?)'\)",str(flow.request.headers))[0] x_sign=re.findall("x-sign',.*?'(.*?)'\)",str(flow.request.headers))[0] url=flow.request.url
通过上述代码,我们就能够把最关键的三个参数拿到手了,接下来就是一些普通的解析json了。
最终,我们可以拿到自己想要的数据了
如果你想要获取到单篇数据,可以拿到文章id后抓取
"https://www.xiaohongshu.com/discovery/item/" + str(id)
这个页面headers里需要带有cookie,你随意访问一个网站都可以拿到cookie,目前看来好像是固定的
最后,可以把数据放入csv
总结
其实小红书爬虫的抓取并不是特别的难,关键在于思路以及使用的方法是什么。
到此这篇关于使用Python爬虫爬取小红书完完整整的全过程的文章就介绍到这了,更多相关Python爬取小红书内容请搜索码农之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持码农之家!
Python相关教程
-
Mac用python实现简单的目录树展示实例讲解
今天小编就为大家分享一篇在Mac下使用python实现简单的目录树展示方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2019-06-07
-
深入理解Python中的 sort 和 sorted的用法与区别
这篇文章主要介绍了Python中的 sort 和 sorted的用法与区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
发布时间:2020-01-28
-
python 基本数据类型占用内存空间大小的实例
今天小编就为大家分享一篇python 基本数据类型占用内存空间大小的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2022-04-25
-
python爬取指定微信公众号文章方法
这篇文章主要为大家详细介绍了python爬取指定微信公众号文章,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
发布时间:2019-06-09
-
python实现在微信群刷屏的实例方法和代码
今天小编就为大家分享一篇利用python实现在微信群刷屏的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2020-01-11
-
python实现汽车管理系统实例源码
这篇文章主要为大家详细介绍了python实现汽车管理系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
发布时间:2020-05-21
-
python中while和for的区别点整理
Python中for循环和while循环本质上是没有区别的,但是在实际应用上,针对性不太一样。while循环适用于未知循环次数的循环,for循环适用于已知循环次数的循环 。
发布时间:2020-04-23
-
Python list和str互转的实现示例
给大家整理了关于Python的教程,这篇文章主要介绍了Python list和str互转的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
发布时间:2022-06-14
-
python里协程使用同步锁Lock的代码分析
今天小编就为大家分享一篇在python里协程使用同步锁Lock的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2020-01-17
-
Python使用post及get方式提交数据的实例代码分析
今天小编就为大家分享一篇关于Python使用post及get方式提交数据的实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
发布时间:2020-02-04