извлечь метатеги с веб-сайта с помощью порции (scrapy)
я хочу использовать порцию для извлечения метатегов с какого-то веб-сайта, но он не показывает тег заголовка, он начинается только с тега тела
я могу извлечь данные только из тега body
извлечь метатеги с веб-сайта с помощью порции (scrapy)
я хочу использовать порцию для извлечения метатегов с какого-то веб-сайта, но он не показывает тег заголовка, он начинается только с тега тела
я могу извлечь данные только из тега body
Вам нужно аннотировать элемент в body
, а затем перейти к элементу в head
, который вы хотите отобразить.
html
. Вы получите предупреждение о том, что вы потеряете все атрибуты, сопоставленные с аннотацией, нажмите «ОК».head
.head
.+ Field
, чтобы создать новое поле, а затем сопоставьте желаемое значение атрибута с целевым полем.См. также: https://github.com/scrapinghub/portia/issues/60.
вы можете использовать это для мета-имен:
meta_name = hxs.select('//meta/@name').extract()
и это для мета-контента:
meta_content = hxs.select('//meta/@content').extract()
и это для содержимого мета с определенным именем, например описанием:
meta = hxs.select('//meta[@name=\'description\']/@content').extract()