当前位置：主页 > python教程 > python 爬取小说下载

python 爬取小说并下载的示例

发布：2022-12-03 09:29:07 59

为找教程的网友们整理了python相关的编程文章，网友勾嘉运根据主题投稿了本篇教程内容，涉及到python、爬取小说、python、下载小说、python 爬取小说下载相关内容，已被988网友关注，相关难点技巧可以阅读下方的电子资料。

python 爬取小说下载

代码

import requests
import time
from tqdm import tqdm
from bs4 import BeautifulSoup

"""
  Author:
    Jack Cui
  Wechat:
    https://mp.weixin.qq.com/s/OCWwRVDFNslIuKyiCVUoTA
"""

def get_content(target):
  req = requests.get(url = target)
  req.encoding = 'utf-8'
  html = req.text
  bf = BeautifulSoup(html, 'lxml')
  texts = bf.find('div', id='content')
  content = texts.text.strip().split('\xa0'*4)
  return content

if __name__ == '__main__':
  server = 'https://www.xsbiquge.com'
  book_name = '诡秘之主.txt'
  target = 'https://www.xsbiquge.com/15_15338/'
  req = requests.get(url = target)
  req.encoding = 'utf-8'
  html = req.text
  chapter_bs = BeautifulSoup(html, 'lxml')
  chapters = chapter_bs.find('div', id='list')
  chapters = chapters.find_all('a')
  for chapter in tqdm(chapters):
    chapter_name = chapter.string
    url = server + chapter.get('href')
    content = get_content(url)
    with open(book_name, 'a', encoding='utf-8') as f:
      f.write(chapter_name)
      f.write('\n')
      f.write('\n'.join(content))
      f.write('\n')

下载效果：

可以看到，小说内容保存到“诡秘之主.txt”中，小说一共 1416 章，下载需要大约 20 分钟，每秒钟大约下载 1 个章节。

下载完成，实际花费了 27 分钟。

20 多分钟下载一本小说，你可能感觉太慢了。想提速，可以使用多进程，大幅提高下载速度。如果使用分布式，甚至可以1秒钟内下载完毕。

但是，我不建议这样做。

我们要做一个友好的爬虫，如果我们去提速，那么我们访问的服务器也会面临更大的压力。

以我们这次下载小说的代码为例，每秒钟下载 1 个章节，服务器承受的压力大约 1qps，意思就是，一秒钟请求一次。

如果我们 1 秒同时下载 1416 个章节，那么服务器将承受大约 1416 qps 的压力，这还是仅仅你发出的并发请求数，再算上其他的用户的请求，并发量可能更多。

如果服务器资源不足，这个并发量足以一瞬间将服务器“打死”，特别是一些小网站，都很脆弱。

过大并发量的爬虫程序，相当于发起了一次 CC 攻击，并不是所有网站都能承受百万级别并发量的。

所以，写爬虫，一定要谨慎，勿给服务器增加过多的压力，满足我们的获取数据的需求，这就够了。

你好，我也好，大家好才是真的好。

以上就是python 爬取小说并下载的示例的详细内容，更多关于python 爬取小说下载的资料请关注码农之家其它相关文章！

上一篇：pycharm中leetcode插件使用图文详解
下一篇：python3 用ssh隧道连接mysql的操作

参考资料

python编辑程序时使用F5可运行程序问题总结

发布：2019-06-27

在本篇文章中小编给大家分享了关于python编辑程序时使用F5可运行程序时出现的问题以及相关解决方法，有需要的朋友们可以学习下。

自学python需要看什么书

发布：2020-02-17

自学python倒是向大家推荐这些书籍！《PYTHON基础教程(第2版本)》、《Python Cookbook（第2版）中文版》、《Python编程快速上手——让繁琐工作自动化》、《Python核心编程（第3版）》。

python selenium xpath定位操作

发布：2022-10-10

给大家整理一篇关于python的教程，这篇文章主要介绍了python selenium xpath定位操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python中数据类型总结

发布：2020-01-02

python中的基本数据类型有：整型，字符串，布尔值，列表，元组，字典，集合。其中可变数据类型包括列表，字典；不可变数据类型有整型，字符串和元组。

介绍Python如何获取文件所在目录和文件名

发布：2020-01-23

下面小编就为大家带来一篇Python获取文件所在目录和文件名的方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧

电脑从cmd中怎么进不去python

发布：2021-05-24

电脑cmd进不去Python可能是因为安装Python是没有进行环境变量的配置，从cmd中无法找到Python的安装路径，所以导致从cmd无法启动Python。只要在系统变量path后加上Python的安装路径就可以了。

Python写一个量化股票提醒系统实例

发布：2019-06-22

这篇文章主要介绍了小白用Python写了一个股票提醒系统,迷你版量化系统，完美的实现了实时提醒功能，代码简单易懂，非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下

python3.4用函数操作mysql5.7方法

发布：2020-05-05

1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 # __author__ =

python3的url编码和解码应用实例

发布：2020-01-30

今天小编就为大家分享一篇python3的url编码和解码,自定义gbk、utf-8的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

网友讨论

最新更新

最近更新

05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21敏捷软件测试实践指南
05-21编写可维护的JavaScript
05-21Modbus协议
05-21竹林蹊径：深入浅出Windows驱动开发
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源

python 爬取小说并下载的示例

python 爬取小说下载

参考资料

精通Python设计模式 PDF电子书

深度学习：基于Keras的Python实践 PDF电子书

《Python编程无师自通：专业程序员的养成》配套资源

相关文章

python编辑程序时使用F5可运行程序问题总结

自学python需要看什么书

python selenium xpath定位操作

python中数据类型总结

介绍Python如何获取文件所在目录和文件名

电脑从cmd中怎么进不去python

Python写一个量化股票提醒系统实例

python3.4用函数操作mysql5.7方法

python3的url编码和解码应用实例

网友讨论