用python爬取租房网站信息的代码
- 更新时间:2022-06-27 09:10:47
- 编辑:阎仙媛
自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:
链家的房租网站 两个导入的包 1.requests 用来过去网页内容 2.BeautifulSoup import time import pymssql import requests from bs4 import BeautifulSoup # https://wh.lianjia.com/zufang/ #获取url中下面的内容 def get_page(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') return soup #封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表 def get_links(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') link_div = soup.find_all('div',class_ = 'pic-panel') links = [div.a.get('href') for div in link_div] return links #收集一个房子的信息 def get_house_info(house_url): soup = get_page(house_url) price = soup.find('span',class_='total').text unit = soup.find('span',class_= 'unit').text[1:-1] area = soup.find('p', class_ = 'lf').text house_info= soup.find_all('p',class_ = 'lf') area = house_info[0].text[3:] #字符串切片工具 layout = house_info[1].text[5:] info={ '价格':price, '单位':unit, '面积':area, '户型':layout } return info #链接数据库 server="192.168.xx.xx" #换成自己的服务器信息 user="liujiepeng" password="xxxxx" #自己的数据库用户名和密码 conn=pymssql.connect(server,user,password,database="house") def insert(conn,house): #sql_values = values.format(house['价格'],house['单位'],house['面积'], #house['户型']) sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"]) print(sql) cursor = conn.cursor() #游标,开拓新的窗口 #cursor1 = conn.cursor() cursor.execute(sql) #执行sql语句 conn.commit() #提交 ,更新sql 语句 links = get_links('https://wh.lianjia.com/zufang/') count = 1 for link in links: #time.sleep(2) print('获取一个数据成功') house = get_house_info(link) insert(conn,house) print("第%s个数据,存入数据库成功!"%(count)) count = count+1 #print(house["价格"],end='\r')
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对码农之家的支持。如果你想了解更多相关内容请查看下面相关链接
相关教程
-
python存储16bit和32bit图像的代码讲解
今天小编就为大家分享一篇python存储16bit和32bit图像的实例,具有的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2020-02-03
-
Python自动生成HTML的方法实例讲解
python 自动化批量生成前端的HTML可以大大减轻工作量 下面演示两种生成 HTML 的方法 方法一:使用 webbrowser #coding:utf-8 import webbrowser#命名生成的htmlGEN_HTML = test.html #打开文件,准备写入f = open(GE
发布时间:2019-08-06
-
实例详解Python编程实现生成特定范围内不重复多个随机数的2种方法
这篇文章主要介绍了Python编程实现生成特定范围内不重复多个随机数的2种方法,涉及Python基于random生成随机数的常见操作技巧,需要的朋友可以参考下
发布时间:2020-01-23
-
python如何同步两个文件夹下的内容
这篇文章主要为大家详细介绍了python同步两个文件夹下的内容,包括子文件夹,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
发布时间:2019-11-21
-
libreoffice python 操作word及excel文档的方法
给网友们整理关于python的教程,这篇文章主要介绍了libreoffice python 操作word及excel文档的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习
发布时间:2022-06-22
-
Python入门基础教程图
啄木鸟社区上原始翻译后绘制的,最早这个图是出现在,这个图太棒了,有编程基础的人一下子就了解 Python 的用法了。真正的 30 分钟上手,需要的朋友可以参考下
发布时间:2020-02-03
-
Python数据预处理实例详解
这篇文章主要介绍了Python数据预处理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
发布时间:2020-02-26
-
python批量读取word文档并整理关键信息到excel表格
今天小编就为大家分享一篇使用python批量读取word文档并整理关键信息到excel表格的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2021-05-14