У меня есть файл csv
из пары десятков веб-страниц, которые я пытаюсь перебрать.
Цель состоит в том, чтобы получить текст с веб-страницы, удалить html-разметку (используя html2text
), а затем сохранить чистый текст в виде файла .txt
. Моя идея заключалась в том, чтобы сохранить чистый текст каждой веб-страницы в виде элемента списка, а затем экспортировать каждый элемент списка в текстовый файл.
Я могу заставить программу перебирать URL-адреса и вынимать html, но сохранение в отдельные файлы txt продолжает выдавать ошибку. Может ли кто-нибудь дать мне несколько идей о том, как это сделать?
Код:
from stripogram import html2text
import urllib
import csv
text_list = []
urls = csv.reader(open('web_links2.csv'))
for url in urls:
response = urllib.urlopen(url[0])
html = response.read()
text = html2text(html)
text_list.append(text)
print text_list
for item in text_list:
f = open('c:\users\jacob\documents\txt_files\%s.txt'%(item,), 'w')
f.write(item)
f.close