当前位置:主页 > python教程 > python xpath模块

python爬虫xpath模块简介示例代码

发布:2023-04-10 10:00:01 59


给大家整理了相关的编程文章,网友暴俊杰根据主题投稿了本篇教程内容,涉及到python、xpath模块、python爬虫、xpath、python xpath模块相关内容,已被792网友关注,下面的电子资料对本篇知识点有更加详尽的解释。

python xpath模块

一、前言

前两篇博客讲解了爬虫解析网页数据的两种常用方法,re正则表达解析和beautifulsoup标签解析,所以今天的博客将围绕另外一种数据解析方法,它就是xpath模块解析,话不多说,进入内容:

二、简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

xpath是最常用且最便捷高效的一种解析方式,通用型强,其不仅可以用于python语言中,还可以用于其他语言中,数据解析建议首先xpath。

三、安装

pip3 install lxml

四、使用

1、导入

from lxml import etree

2、基本使用

实例化一个etree的对象,且需要将被解析的页面源代码数据加载到该对象中

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

from lxml import etree
tree = etree.parse('./tree.html')  #从本地加载源码,实例化一个etree对象。必须是本地的文件,不能是字符串
tree = etree.HTML(源码)           #从互联网加载源码,实例化etree对象
#  / 表示从从根节点开始,一个 / 表示一个层级,//表示多个层级
r = tree.xpath('//div//a')       #以列表的形式返回div下的所有的a标签对象的地址
r = tree.xpath('//div//a')[1]    #返回div下的第二个a标签对象地址
r = tree.xpath('//div[@class="tang"]')   #以列表的形式返回tang标签地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang标签下所有的a标签地址
#获取标签中的文本内容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a标签中的文本
#获取标签中属性值
r = tree.xpath('//div//a/@href')   ##以列表的形式返回所有a标签中href属性值

3、基本使用

from lxml import etree
 
wb_data = """
        
        """
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))

从下面的结果来看,我们打印机html其实就是一个python对象,etree.tostring(html)则是补全html的基本写法,补全了缺胳膊少腿的标签。

3、获取某个标签的内容(基本使用),注意,获取a标签的所有内容,a后面就不用再加正斜杠,否则报错。

写法一

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')
print(html)
for i in html_data:
    print(i.text)
 
# 打印结果如下:

first item
second item
third item
fourth item
fifth item

写法二(直接在需要查找内容的标签后面加一个/text()就行)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
    print(i)

# 打印结果如下: 

first item
second item
third item
fourth item
fifth item

4、打开读取html文件

#使用parse打开html的文件
html = etree.parse('test.html')
html_data = html.xpath('//*')
#打印是一个列表,需要遍历 print(html_data) for i in html_data: print(i.text)
html = etree.parse('test.html')
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode('utf-8')
print(res)
 
打印:
     

5、打印指定路径下a标签的属性(可以通过遍历拿到某个属性的值,查找标签的内容)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
    print(i)
 
打印:
https://www.jb51.net/article/link1.html
https://www.jb51.net/article/link2.html
https://www.jb51.net/article/link3.html
https://www.jb51.net/article/link4.html
https://www.jb51.net/article/link5.html

6、我们知道我们使用xpath拿到得都是一个个的ElementTree对象,所以如果需要查找内容的话,还需要遍历拿到数据的列表。

查到绝对路径下a标签属性等于https://www.jb51.net/article/link2.html的内容。

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="https://www.jb51.net/article/link2.html"]/text()')
print(html_data)
for i in html_data:
    print(i)
 
打印:
['second item']
second item

7、上面我们找到全部都是绝对路径(每一个都是从根开始查找),下面我们查找相对路径,例如,查找所有li标签下的a标签内容。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
    print(i)
 
打印:
['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item

8、上面我们使用绝对路径,查找了所有a标签的属性等于href属性值,利用的是/—绝对路径,下面我们使用相对路径,查找一下l相对路径下li标签下的a标签下的href属性的值,注意,a标签后面需要双//。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a//@href')
print(html_data)
for i in html_data:
    print(i)
 
打印:
['https://www.jb51.net/article/link1.html', 'https://www.jb51.net/article/link2.html', 'https://www.jb51.net/article/link3.html', 'https://www.jb51.net/article/link4.html', 'https://www.jb51.net/article/link5.html']
https://www.jb51.net/article/link1.html
https://www.jb51.net/article/link2.html
https://www.jb51.net/article/link3.html
https://www.jb51.net/article/link4.html
https://www.jb51.net/article/link5.html

9、相对路径下跟绝对路径下查特定属性的方法类似,也可以说相同。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a[@href="https://www.jb51.net/article/link2.html"]')
print(html_data)
for i in html_data:
    print(i.text)
 
打印:
[]
second item

10、查找最后一个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()]/a/text()')
print(html_data)
for i in html_data:
    print(i)
 
打印:
['fifth item']
fifth item

11、查找倒数第二个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()-1]/a/text()')
print(html_data)
for i in html_data:
    print(i)
 
打印:
['fourth item']
fourth item

五、案例

案例1:获取58商城房价单位:

import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#实例化一个etree对象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #获取所有//span标签为"content-title"的文本内容,列表形式
with open("58房价.txt",mode="w",encoding="utf-8") as fp:
    for r_list in r:
        fp.writelines(str(r_list))
        print(r_list)

案例2:获取豆瓣top榜电影信息(这个是老生常谈的话题了) 

import re
from time import sleep
import requests
from lxml import etree
import random
import csv
  
def main(page,f):
    url = f'https://movie.douban.com/top250?start={page*25}&filter='
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',}
    resp = requests.get(url,headers=headers)
    tree = etree.HTML(resp.text)
    # 获取详情页的链接列表
    href_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')
    # 获取电影名称列表
    name_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')
    for url,name in zip(href_list,name_list):
        f.flush()  # 刷新文件
        try:
            get_info(url,name)  # 获取详情页的信息
        except:
            pass
        sleep(1 + random.random())  # 休息
    print(f'第{i+1}页爬取完毕')
  
def get_info(url,name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',
        'Host': 'movie.douban.com',
    }
    resp = requests.get(url,headers=headers)
    html = resp.text
    tree = etree.HTML(html)
    # 导演
    dir = tree.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
    # 电影类型
    type_ = re.findall(r'property="v:genre">(.*?)',html)
    type_ = '/'.join(type_)
    # 国家
    country = re.findall(r'地区: (.*?)

到此这篇关于python爬虫xpath模块简介的文章就介绍到这了,更多相关python xpath模块内容请搜索码农之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持码农之家!


参考资料

相关文章

  • 详解python ThreadPoolExecutor异常捕获

    发布:2023-04-26

    本文主要介绍了详解python ThreadPoolExecutor异常捕获,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧


  • 如何使用python 判断矩阵中每行非零个数

    发布:2020-02-08

    今天小编就为大家分享一篇python 判断矩阵中每行非零个数的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧


  • python实现windows壁纸定期更换功能

    python实现windows壁纸定期更换功能

    发布:2022-07-04

    为网友们分享了关于python的教程,这篇文章主要为大家详细介绍了python实现windows壁纸定期更换功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下


  • python程序中调用其他程序的实现

    发布:2023-04-23

    本文主要介绍了python程序中调用其他程序的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧


  • python/golang实现循环链表的代码

    发布:2021-04-07

    这篇文章主要介绍了python/golang如何实现循环链表,帮助大家更好的理解和学习循环链表的实现方法,感兴趣的朋友可以了解下


  • python的index函数用法 详解python中的index函数用法

    发布:2019-08-06

    1.函数的创建 def fun(): #定义 print(hellow) #函数的执行代码 retrun 1 #返回值fun() #执行函数 2.函数的参数 普通参数 :要按照顺序输入参数 def fun(a,b,c): print(a) print(b) print(c) return afun(11,22,33)#输出:1


  • 怎样管理多个Python版本和虚拟环境

    发布:2020-01-26

    这篇文章主要介绍了详解如何管理多个Python版本和虚拟环境,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧


  • Python办公自动化SFTP详解

    Python办公自动化SFTP详解

    发布:2022-09-12

    为网友们分享了关于Python的教程,这篇文章主要介绍了Python办公自动化SFTP详解,sftp和ftp的区别在安全通道,使用的协议,链接方式,安全性等方面都有不同,更多相关内容需要的小伙伴可以参考一下


网友讨论