eKsiążki
https://forum.eksiazki.org/

Polskie treści w calibre - komentarze
https://forum.eksiazki.org/recepty-f172/polskie-tresci-w-calibre-komentarze-t8606-30.html
Strona 3 z 17

Autor:  spadak [ 10 wrz 2010 10:30:40 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

t3d napisał(a):
Ha! Nawet się pewnie nie spodziewałeś, ale w tym cytacie zwróciłeś mi uwagę na błąd, jakim było zamienianie z pierwszego wyrażenia. Nie powinno być tam </div> :)

Zastanawiałem się przez chwilę nad tym div'em, ale stwierdziłem że wiesz lepiej :)

Autor:  Richard [ 11 wrz 2010 0:49:15 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Zrobiłem receptę dla Gazety Pomorskiej. Wyciąłem większość zbędnych elementów ze strony, ogólnie jest ok chociaż ktoś kto się zna mógłby sprawdzić i może jeszcze trochę poprawić styl/wygląd.

Edit: recipe został przeniesiony z tego postu do repozytorium http://github.com/t3d/kalibrator

Autor:  t3d [ 12 wrz 2010 18:22:13 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Bardzo mnie cieszy, że ktoś się odważył samemu poeksperymentować :)

Chyba najładniej byłoby dodać wszystkie możliwe (nie nakładające się) feedy i poinstruować ludzi, że mogą sobie te im niepotrzebne zakomentować.

Jeśli jesteś chętny, to zapraszam na nasze repozytorium githuba. Jeśli używasz gita, to nawet creditsy będą prawidłowo podane ;)

Autor:  Richard [ 14 wrz 2010 17:54:06 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Po przejrzeniu git helpa dodałem recipe poprzez git bash'a, chyba niedokładnie tak samo jak wy dodajecie bo podgląd na stronce nie koloruje mi składni:
http://github.com/t3d/kalibrator/blob/m ... ska.recipe

Autor:  t3d [ 14 wrz 2010 21:28:23 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Witamy w klubie!

Za kilka-kilkanaście dni będę chciał zgłosić te nowe recipe'y do dołączenia do oficjalnego wydania. Jeśli ktoś zauważy jakieś niedociągnięcia, to proszę się zgłaszać.
Sam w międzyczasie zauważyłem, że warto w moich recipe'ach do rmf24 dodać kilka kolejnych filtrów do embedowanych obiektów, bo pojawiają się w różnych konfiguracjach (raz po lewej, raz po prawej, etc.), co pozwala wymknąć im się z obecnie zastawionych na nie pułapek :)

A kolorowanie składni i wykrywanie języka programowania na githubie jest dla mnie zagadką. Czasem działa, a czasem nie.

Autor:  Mori [ 14 wrz 2010 21:41:53 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

To na pewno nie jest kwestia ustawienia złego kodowania w pliku? Taki strzał :)

Autor:  t3d [ 15 wrz 2010 8:56:07 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Mori napisał(a):
To na pewno nie jest kwestia ustawienia złego kodowania w pliku? Taki strzał :)

Właśnie, mam wrażenie, że opis feeda będzie skrzaczony w calibre :P
A poza tym lepiej byłoby poprawić polskie znaki w nazwach feedów.

Jak pisałem swoje feedy i przez przypadek zostawiłem gdzieś polskie litery w kodowaniu UTF-8, to ebook-convert wywalał informację o nieprawidłowym znaku, przy okazji wyrzucając tą literę w notacji \uXXXX, gdzie X to cyfra 0-f. Wystarczyło potem zastąpić tą literę podaną przez niego sekwencją ;)

EDIT:
Już sam to poprawiłem przy pomocy http://www.utf8-chartable.de/unicode-ut ... ?start=256 :)

Ale jest jeszcze kilka rzeczy do poprawienia. Z tych, które zauważyłem:
* W artykule o parkingu w Bydgoszczy link do większej mapki,
* link do "opinii bydgoskich MM-kowiczów" w artykule o Aquaparku,
* "Przeczytaj też" i "przeczytaj również" w artykule o bójce na stadionie,
* "multimedia" w artykule o narkotykach.

To właśnie takie datale miałem na myśli mówiąc o przytrzymaniu recipe'a w becie :)

Autor:  Richard [ 15 wrz 2010 11:08:20 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Dziękuję za poprawienie polskich liter w kodzie i za linka do tabelki kodów. Właśnie wgrałem recipe dla aktualności komputerowych z PCLab.pl, już z \u015b zamiast ś w kodzie ;)
http://github.com/t3d/kalibrator/blob/m ... _pl.recipe

Co do dodatkowych rzeczy do wycięcia z Pomorskiej to spróbuję kilka powtarzających się tekstów wyciąć ręcznie regexp'em, nie mogę automatycznie wszystkich wyciąć ponieważ:
1. Wewnątrz artykułów Pomorska wstawia często linki bez dodania żadnego "div/p/a id/class/name=" dzięki któremu mógłbym skorzystać z remove_tags. Nie mogę po prostu wyciąć wszystkich linków bo czasami fragment tekstu artykułu ma w sobie link i bym wtedy wyciął część tekstu artykułu.
2. Teksty przed linkami w stylu "Poznaj opinie bydgoskich MM-kowiczów:" - ponownie brak "div/p/a id/class/name=" dzięki którym byłoby automatycznie wiadomo że to nie jest część tekstu artykułu.

Autor:  t3d [ 15 wrz 2010 11:43:29 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Richard napisał(a):
Właśnie wgrałem recipe dla aktualności komputerowych z PCLab.pl, już z \u015b zamiast ś w kodzie ;)

I od razu koloruje ;)

A w pclabie na pewno będziesz miał filmiki z youtube'a do wycięcia. Nie planujesz dodania kanału z artykułami?

Autor:  Richard [ 15 wrz 2010 13:30:17 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

t3d napisał(a):
A w pclabie na pewno będziesz miał filmiki z youtube'a do wycięcia.

Sprawdzałem w następujących 3 aktualnościach które mają wstawione filmiki i plik wygenerowany z recipe nie pokazywał pozostałości po filmiku youtube:
"Dwa flagowe smartfony Nokii z nowym Symbianem zaprezentowane na Nokia World 2010"
"Hybryda jakiej jeszcze nie było: x86 i ARM w jednym komputerze"
"Procesor AMD Zacate przyłapany na działaniu"

Pewnie warto jeszcze poczekać i zobaczyć jak będzie z następnymi aktualnościami.

t3d napisał(a):
Nie planujesz dodania kanału z artykułami?

Z artykułami na PCLab jest taki problem że jeden artykuł potrafi mieć kilkanaście podstron. Wiesz może co trzeba zrobić w recipe żeby wczytało wszystkie podstrony każdego artykułu? Jak użyłem do artykułów recipe od aktualności to była zapisywana zawsze tylko pierwsza podstrona.

Autor:  Mori [ 15 wrz 2010 13:40:46 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

http://calibre-ebook.com/user_manual/ne ... ocess_html

Używasz tego i odpowiednio pobierasz sobie więcej danych, których potem używasz.

Tak jak w przykładzie z NYTimes tutaj http://calibre-ebook.com/user_manual/news.html
Kod:
def preprocess_html(self, soup):
    refresh = soup.find('meta', {'http-equiv':'refresh'})
    if refresh is None:
        return soup
    content = refresh.get('content').partition('=')[2]
    raw = self.browser.open('http://www.nytimes.com'+content).read()
    return BeautifulSoup(raw.decode('cp1252', 'replace'))

(choć oni tu jedynie zmieniają sobie stronę, to tak naprawdę nie ma różnicy i możesz zawsze wciągnąć tyle danych, na ile masz ochotę)

Ewentualnie można spróbować z http://calibre-ebook.com/user_manual/ne ... obfuscated + http://calibre-ebook.com/user_manual/ne ... ed_article

Autor:  t3d [ 15 wrz 2010 14:36:11 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

No tak, treść na kilku stronach to problem, z którym też na razie sobie nie poradziłem, a przydałoby się to zrobić w recipe do esensji.

A na razie nieco poprawiłem RMFy.

Autor:  Richard [ 15 wrz 2010 19:26:03 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

Wyciąłem z Pomorskiej dodatkowe rzeczy które zauważył T3d plus kilka nowych (właśnie wrzuciłem poprawioną wersję na gita).

Autor:  piotrrz [ 19 wrz 2010 18:42:01 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

skoro mamy już frazpc, to może by chip.pl? :)

Autor:  Richard [ 19 wrz 2010 20:34:53 ]
Tytuł:  Re: Polskie treści w calibre - komentarze

piotrrz napisał(a):
skoro mamy już frazpc, to może by chip.pl? :)

Rozwiń listę "Pobierz aktualności", wybierz "Dodaj..", "Przełącz na tryb zaawansowany", wklej zawartość chip_pl.recipe

Edit: recipe został przeniesiony z tego postu do repozytorium http://github.com/t3d/kalibrator

Potestuj i daj znać czy jesteś zadowolony z recipe.

Strona 3 z 17 Wszystkie czasy w strefie UTC + 1 [czas letni (DST)]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/