Teraz jest 28 mar 2024 19:34:26




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 39 ]  Przejdź na stronę 1, 2, 3  Następna strona
www.pbi.edu.pl 
Autor Wiadomość
Użytkownik

Dołączył(a): 03 gru 2009 20:13:29
Posty: 30
Post www.pbi.edu.pl
Cześć
Nie wiem czy ktoś z tego woogole korzysta, ale napisałem skrypcik który umożliwia zgranie i scalenie książek z

http://www.pbi.edu.pl/

Na razie tylko tych które są w formie tekstowej, niestety nie jest to aż tak proste, gdyż wymaga do działania pod windowsem cygwina, ( http://www.cygwin.com ) albo linuksa.

Ale działa, po ściągnięciu można książkę wprost przerzucić do eclicto

Instrukcja, skrypt oraz katalog pbi jest dostępny tutaj:

http://chomikuj.pl/rdst75/programiki

plik pbi.zip


W skrócie należy zainstalować cygwina, (koniecznie wybierając dodatkowo wget), przegrać pliczek z zipa do katalogu cygwina.
Odpalić skrypt, przegrać plik .html z katalogu książki na czytnik, czy jak to tam chcemy używać.


16 lut 2010 14:53:47
Zobacz profil
Admin
Avatar użytkownika

Dołączył(a): 11 lip 2007 19:38:54
Posty: 3266
Lokalizacja: Kraków
eCzytnik: eClicto, iPad, K3 WiFi, K4
Post Re: www.pbi.edu.pl
Ja też byłem proszony o to, więc tak niejako "na kolanie" napisałem prosty skrypt PHP do pobierania książek (nawet dwie przykładowe są w środku): http://www.mediafire.com/?knyxmqcwejy

PHP w wersji 5 wymagane - file_put_contents dochodzi, to dlatego =] curl jako rozszerzenie do PHP również wymagany (dla użytkowników Windowsa polecam ściągnąć sobie XAMPP [może być wersja lite]).

Skrypt można pewnie zoptymalizować, ładniej zapisać, przerobić na klasę itp. - ja nie miałem ani czasu, ani ochoty, by to zrobić.

_________________
Cytuj:
Muad'Dib uczył się prędko, ponieważ najpierw przeszedł szkolenie jak się uczyć. A najpierwszą ze wszystkich otrzymał lekcję podstawowej wiary, że może się nauczyć. Szokuje odkrycie, jak wielu ludzi nie wierzy, że mogą się nauczyć, a o ile więcej uważa, że nauka jest trudna.


18 lut 2010 1:20:29
Zobacz profil WWW
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
Dobry pomysł z tym skryptem, ale mam kilka uwag :P

A propos instrukcji...

Polskie znaki są u mnie skrzaczone,
zdanie u działaniu pod linuksem urwane,
a poza tym id nie jest cyfrą, jak piszesz, tylko liczbą :P

A propos skryptu
(jeszcze go nie odpalałem, ale takie mam pierwsze przemyślenia po zajrzeniu do niego)

1. Nie podałeś licencji
2. Może dobrym rozwiązaniem byłoby użycie "mktemp -d"


A tak ogólnie, to chomik nie jest zbyt dobrym miejscem na publikację kodu. Polecam githuba. Umożliwia wygodną współpracę, sam pakuje w archiwa i (z powodu oparcia na gicie) wspaniale ułatwia śledzenie zmian w kodzie (i ich ewentualne wycofanie, jeśli coś zostało popsute ;))

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


19 lut 2010 12:07:02
Zobacz profil WWW
Użytkownik

Dołączył(a): 03 gru 2009 20:13:29
Posty: 30
Post Re: www.pbi.edu.pl
Licencje wybierz sobie dowolną, to tylko kilka linijek nie warto się bawić, dopisze public domain przy jakiś poprawkach. To samo do publikacji, na razie nie sądzę żeby dużo osób korzystało z programu, sama instalacja cygwina większość odstraszy...
Jak będzie inaczej to można się bawić w githuby czy inne.
Chyba że jest jakiś portal z programami, programikami pomocnymi przy ebookach.

Linuksiaże mogą sobie poprawić kodowanie instrukcji w terminalu ;) wrzuce w html będzie ok dla wszystkich.

Dobra poprawie że id to cyfry nie cyfra... ;)

Apropo pbi.
Chciałem sprawdzić ile stron ogólnie posiadają, trzeba zgrać strone indeksu, spisać ilość stron i to samo dla następnej książki.
Podzieliłbym 3,5 miliona które dostali na ilość stron ;)
Ale jak zapuściłem skrypta to padł ich mysql czy co tam mają, kilka pytań i wywala błędy select xxx zwrócił zero ;) Trzeba było rozdzielać 3 sekundową przerwą, więc narazie dałem sobie spokój, jeszcze mnie za hakera wezmą.


19 lut 2010 21:38:08
Zobacz profil
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
Właśnie chodzi mi po głowie pomysł stworzenia jakiegoś pakietu użytków do ebooków. Można by zautomatyzować kilka czynności, chociażby takich jak tworzenie djvu, konwersja między formatami itp.
Pytanie tylko czy jest taka potrzeba...
Zwłaszcza, że jest calibre....

A co do Twojego skryptu - mam jeszcze pomysł na 2 funkcjonalności.
Przeszukiwanie załączonego spisu po słowach - grep wyrzucałby wyniki i byłaby opcja wybrania z menu utworu do ściągnięcia. Wtedy można by zapomnieć o id - obsługiwane by to było w sposób niewidoczny dla użytkownika.
A druga rzecz to obsługa grafiki.

EDIT:
Uruchomiłem skrypt i dopiero teraz mamy o czym gadać :P
Kod:
tomek@tesla ~/książki/pbi $ sh sciagnijpbi.sh
rm: nie można usunąć `tmp/[0-9]*.html': Nie ma takiego pliku ani katalogu
Nie podales id ksiazki, bez tego nic nie sciagne
Wejdz na strone www.pbi.edu.pl otworz interesujaca cie pozycje i szukaj w adresie
?p=XXXX np. echo http://www.pbi.edu.pl/content.php?p=50620&s=2&w=
tomek@tesla ~/książki/pbi $ sh sciagnijpbi.sh 1896
mkdir: nie można utworzyć katalogu `ksiazki': Plik istnieje
rm: nie można usunąć `tmp/[0-9]*.html': Nie ma takiego pliku ani katalogu
wget: tmp/log.tmp: Nie ma takiego pliku ani katalogu
cat: tmp/cover.html: Nie ma takiego pliku ani katalogu
cat: tmp/cover.html: Nie ma takiego pliku ani katalogu
cat: tmp/cover.html: Nie ma takiego pliku ani katalogu

Znalazlem ksiazke:
Autor:
Tytul:

sciagnijpbi.sh: line 103: [: 1: oczekiwano operatora jednoargumentowego

Sciaganie zakonczone, lacze pliki:
ls: nie ma dostępu do tmp/[0-9]*.html: Nie ma takiego pliku ani katalogu

Laczenie zakonczone
Zapisano plik:ksiazki/ - .htm
tomek@tesla ~/książki/pbi $ mkdir tmp
tomek@tesla ~/książki/pbi $ sh sciagnijpbi.sh 1896
mkdir: nie można utworzyć katalogu `ksiazki': Plik istnieje
rm: nie można usunąć `tmp/[0-9]*.html': Nie ma takiego pliku ani katalogu

Znalazlem ksiazke:
Autor: Platon
Tytul: Obrona Sokratesa

Sciagam strone 25 / 25
Sciaganie zakonczone, lacze pliki:

Laczenie zakonczone
Zapisano plik:ksiazki/Platon - Obrona Sokratesa.htm
tomek@tesla ~/książki/pbi $ ls ksiazki/
- .htm  Platon - Obrona Sokratesa.htm

Jabyś dał na githuba to bym przesłał patche :P

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


19 lut 2010 22:54:21
Zobacz profil WWW
Użytkownik

Dołączył(a): 03 gru 2009 20:13:29
Posty: 30
Post Re: www.pbi.edu.pl
eee tam poradziłeś sobie...
Jak masz miejsce gdzieś to wrzuć tam poprawione i tyle :)
Może ktoś jeszcze coś dopisze, albo to moriego się zamontuje.

Mi brak czegoś co by popoprawiało teksty, dużo plików txt kończy się na 80 znaku w lini, nie ma akapitów.
A tak wzasadzie to wystarczy przeparsować taki plik, poszukać czy linia kończy się. jak nie to połączyć.


19 lut 2010 23:19:08
Zobacz profil
Użytkownik

Dołączył(a): 03 gru 2009 20:13:29
Posty: 30
Post Re: www.pbi.edu.pl
Ok, poprawki naniesione.
Licencja, brak komunikatów o tworzeniu katalogów itp...

Zapraszam do testowania, jak znajdę chwile czasu i energi to postaram się dodać opcje ściągania obrazkowych książek


20 lut 2010 13:55:21
Zobacz profil
Użytkownik

Dołączył(a): 18 lut 2009 17:55:48
Posty: 211
eCzytnik: iPad, dawniej: iRex DR1000S
Post Re: www.pbi.edu.pl
Dzięki, rdst75. Dobra robota. Jutro potestuję.

(Moriemu już dziękowałem :) ).

_________________
Copywriting


20 lut 2010 23:42:42
Zobacz profil WWW
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
http://github.com/t3d/sciagnijpbi

Niebawem wszystko pozmieniam (łącznie z licencją) :P

Oryginalna wersja od rdst75 zawsze będzie osiągalna pod tym linkiem:
http://github.com/t3d/sciagnijpbi/tree/ ... fd3cc7fb4c

@rdst75
Jak generowałeś spis z katalogu? W pierwszej linii są jakieś śmieci...

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


21 lut 2010 18:06:49
Zobacz profil WWW
Użytkownik

Dołączył(a): 03 gru 2009 20:13:29
Posty: 30
Post Re: www.pbi.edu.pl
Innym skryptem oczywiście, potem jeszcze poprawki i sortowanie w Open Officie.

A tak przyokazji to można już sciągać książki obrazkowe, znaczy ściągnie pokolei wszystki .jpg
Pytanie tylko co potem z nimi, Image Magic do pdf?


21 lut 2010 19:58:01
Zobacz profil
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
rdst75 napisał(a):
Innym skryptem oczywiście, potem jeszcze poprawki i sortowanie w Open Officie.

Dobra, to jak jakieś update'y wypuścisz do katalogu, to daj znać ;)
rdst75 napisał(a):
Pytanie tylko co potem z nimi, Image Magic do pdf?

Ja bym je po prostu wrzucił do katalogu z odpowiednią nazwą. Już w takiej postaci wygodnie się to czyta na komputerze. Poza tym można zrobić pdf, można djvu, można zrobić archiwum cbz, albo cbr, ale to już raczej sprawa użytkownika co z tym zrobi dalej :)

EDIT:
@rdst75
jak jest z curl pod cygwinem? Jest domyślnie, czy trzeba coś doinstalować?

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


21 lut 2010 22:14:49
Zobacz profil WWW
Użytkownik

Dołączył(a): 18 lut 2009 17:55:48
Posty: 211
eCzytnik: iPad, dawniej: iRex DR1000S
Post Re: www.pbi.edu.pl
Najlepiej byłoby, gdyby skrypt przed złożeniem PDFa przekonwertował obrazki do 2 kolorów (czerń/biel), np. przez unpaper http://unpaper.berlios.de/.

_________________
Copywriting


21 lut 2010 22:32:11
Zobacz profil WWW
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
rafal napisał(a):
Najlepiej byłoby, gdyby skrypt przed złożeniem PDFa przekonwertował obrazki do 2 kolorów (czerń/biel), np. przez unpaper http://unpaper.berlios.de/.

ImageMagick sam to potrafi :P
A poza tym lepsza jest większa ilość kolorów, bo przecież czytniki mają kilka(naście) odcieni szarości. Można po prostu ograniczyć kolory do szarości.

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


21 lut 2010 23:02:14
Zobacz profil WWW
Użytkownik

Dołączył(a): 18 lut 2009 17:55:48
Posty: 211
eCzytnik: iPad, dawniej: iRex DR1000S
Post Re: www.pbi.edu.pl
Wiele odcieni szarości oznacza często niską czytelność tekstu. Bo zamiast czarnego tekstu na białym tle mamy szary tekst na szarawym tle.

_________________
Copywriting


21 lut 2010 23:26:45
Zobacz profil WWW
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: www.pbi.edu.pl
rafal napisał(a):
Wiele odcieni szarości oznacza często niską czytelność tekstu. Bo zamiast czarnego tekstu na białym tle mamy szary tekst na szarawym tle.

Owszem, niektóre z algorytmów binaryzacji potrafią bardzo ładnie wyciąć szumy tła i nieistostne informacje, ale wątpię żeby ustawienie w skrypcie jakieś prostej metody binaryzacji dało dobre rezultaty dla wszystkich możliwych plików które się nawiną. Optowałbym raczej za wydzieleniem tych operacji do innego skryptu, który można byłoby zapuścić testowo kilka razy, przejrzeć wyniki, w razie potrzeby skorygować jakieś parametry itd...

Lektura na temat binaryzacji dla ambitniejszych (materiały z moich studiów ;)):
http://www.mif.pg.gda.pl/homepages/marcin/Wyklad3.pdf

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


22 lut 2010 0:10:28
Zobacz profil WWW
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 39 ]  Przejdź na stronę 1, 2, 3  Następna strona


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 0 gości


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron