Witam!
Polskie treści mocno napuchły więc pozwolę sobie zalożyć nowy wątek.
Ogólnie chodzi o to by wyciągać archiwalne zapisy róznych blogów.
Na początek bloog.pl
A dokładnie tymontymanski.bloog.pl
Oto co udało mi się stworzyć.
Spoiler! import re
class blogi_pl(BasicNewsRecipe):
title = 'blog_tymontymanski'
author = u'Tymon Tymański'
__author__ = 'HerC'
description = ''
language = 'pl'
#cover_url = ''
auto_cleanup = False
remove_empty_feeds = True
remove_tags = []
remove_tags.append(dict(name = 'div', attrs = {'class' : 'trop-url'}))
remove_tags.append(dict(name = 'div', attrs = {'id' : 'loginOI'}))
remove_tags.append(dict(name = 'p', attrs = {'class' : 'komentarz'}))
remove_tags.append(dict(name = 'span', attrs = {'class' : 'SBM_link'}))
remove_tags.append(dict(name = 'a', attrs = {'class' : 'pomocnik komentarz'}))
keep_only_tags =[]
keep_only_tags.append(dict(name = 'div', attrs = {'class' : 'wpis'}))
remove_attributes = ['style','font','color','size']
preprocess_regexps = [(re.compile(r'<a.*?>', re.IGNORECASE), lambda m: ''),(re.compile(r'</a>', re.IGNORECASE), lambda m: '')]
def parse_index(self):
feeds = []
for ii in reversed(range(1,100)):
articles = []
url = u'http://tymontymanski.bloog.pl/kat,0,page,%s,index.html' % ii
soup = self.index_to_soup(url)
desc = None
gg = soup.findAll('h2')
wy = soup.findAll('div',attrs = {'class' : 'wpis'})
section_title = '%s' % ii
for bb in reversed(wy):
oo = bb.find('a')
title = self.tag_to_string(oo)
sub_url = 'http://tymontymanski.bloog.pl' + self.tag_to_string(oo['href'])
articles.append({'title':title, 'url':sub_url, 'description':desc,'date':''})
feeds.append((section_title, articles))
return feeds
remove_empty_feeds = TrueCoś tam wyciąga ale jest jeszcze parę rzeczy, które można by dodać.
- jakaś zmienna global? by można było zrobić uniwersalną recepturkę dla różnych blogerów (np. tymontymanski, skiba, arturandrus itd.)
- jeden kolor czcionki najlepiej czarny
- wielkość czcionki "domyślna" (żadnych pomniejszonych i powiększonych)
- dodać komentarze; komentarze bywają na kilku stronach i w odwrotnej kolejności...
- jpg autora bloga jako okładka
- itp.
pomożecie?