xpath 选择某元素之前的所有元素

maiyantao · 发表于 2024-6-16 20:17:46

需要选择 div 节点下的 p 节点，并且 p 节点需要在 h2 节点之前：

from parsel import Selector
# 假设html_content是你的HTML内容字符串
html_content = '''
<div>
<p>应被选择的p1</p>
<p>应被选择的p2</p>
<h2>标题</h2>
<p>不应被选择的p3</p>
<p>不应被选择的p4</p>
<h2>另一个标题</h2>
<p>不应被选择的p5</p>
<p>应被选择的p6</p>
</div>
'''
selector = Selector(text=html_content)
# 使用XPath表达式直接选取符合条件的p标签
selected_p_texts = selector.xpath('//div/p[not(preceding-sibling::h2)]/text()').getall()
# 输出符合条件的p标签文本
for text in selected_p_texts:
print(text)

复制代码

这段代码中，XPath表达式//div/p[not(preceding-sibling::h2)]/text()的作用是选取所有div下的p元素，这些p元素之前不能有h2元素作为兄弟节点，然后提取这些p元素的文本内容。这样就直接通过XPath实现了你的需求，而无需额外的循环和条件判断。——通义千问

maiyantao · 发表于 2024-6-16 20:25:05

上面这种方法普适性可能不是很好，有些节点文本的选择不是很方便，最终采用下面的方式：

@staticmethod
def parse_re_desc_before_h2(job_resp: requests.Response) -> str:
"""
解析位于 id=readingAidText 标签下所有的文本
如果存在 <h2> 标签选择 <h2> 标签前面的元素文本
采用正则的方式提取 h2 前面元素并重新构建 selector
"""
reading_aid_text = re.findall('<div.*?id="readingAidText".*?>(.*?)<h2>', job_resp.text, re.S)
reading_aid_text = reading_aid_text[0] if reading_aid_text else '<div></div>'
selector = Selector(text=reading_aid_text)
desc = selector.xpath('//text()').getall()
return ' '.join(desc).strip()

复制代码

		自动登录	找回密码
密码			立即注册