當(dāng)前位置:首頁 > IT技術(shù) > Web編程 > 正文

一日一技:使用Scrapy的選擇器來解析HTML
2021-09-17 11:54:08

一日一技:使用Scrapy的選擇器來解析HTML_解析json

在使用Scrapy抓取網(wǎng)站的時候,可能會遇到這樣的情況,網(wǎng)站返回一個JSON字符串。在JSON字符串中又有一項,它的值是HTML。

如果不用Scrapy,我們一般使用lxml來解析HTML:

  1. from lxml.html import fromstring
  2. selector = fromstring(HTML)
  3. name = selector.xpath('xxxx')

如果使用Scrapy解析網(wǎng)站直接返回的HTML,我們使用response即可:

  1. def parse(self, response):
  2. ? ?name = response.xpath('xxx').extract()

那么現(xiàn)在問題來了。如果想使用Scrapy解析JSON返回的HTML,難道還有再單獨用上lxml嗎?顯然不需要,可以使用Scrapy的Selector模塊:

  1. from scrapy.selector import Selector
  2. selector = Selector(text='你獲得的HTML')
  3. name = selector.xpath('xxxx').extract()

一日一技:使用Scrapy的選擇器來解析HTML_html_02

?

本文摘自 :https://blog.51cto.com/u

開通會員,享受整站包年服務(wù)立即開通 >