Teraz jest 16 sty 2017 11:50:38




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 30 ]  Przejdź na stronę 1, 2  Następna strona
Słownik języka polskiego 
Autor Wiadomość
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Słownik języka polskiego
Największy, najlepiej dopracowany na ten moment słownik języka polskiego dla Kindle, do pobrania na blogu:

http://eczytniki.blogspot.com/2016/04/sownik-jezyka-polskiego-opracowanie.html

W pełni legalny i darmowy. Oparty na bazie słów ze strony sjp.pl, Rozwinięcie i uaktualnienie pracy Sana Zamoyskiego - więcej treści, ponad dwa razy mniejszy rozmiar.

Zapraszam do pobierania, testowania i zgłaszania ewentualnych błędów.


Ostatnio edytowano 30 kwi 2016 21:28:29 przez athame, łącznie edytowano 1 raz



30 kwi 2016 11:57:48
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 21 lip 2011 8:46:47
Posty: 130
eCzytnik: KoboT,NookST,K3G, KPW2,KPW3,TolV2
Post Re: Słownik języka polskiego
Działa świetnie.
Zauważyłam trochę śmieci w haśle „Aachen”.
Osobiście zrobiłabym jeszcze kilka zamian estetycznych (sam wielokrotnie wspominasz, że warto dążyć do doskonałości):
* spacja dywiz spacja -> spacja półpauza spacja
* spacja cudzysłów -> spacja cudzysłów otwierający („)
* pozostałe cudzysłowy -> cudzysłów zamykający (”)
Potem sprawdziłabym, czy cudzysłowy mają swoje pary i wprowadziła ewentualne poprawki, zapisując sobie konkretne hasła, w których występuje problem, aby w przyszłej wersji poprawki poszły szybciej.

No i może w następnej edycji dodać jakąś okładkę? Będzie ładniej wyglądało na czytniku :)


30 kwi 2016 17:56:23
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Dziękuję za odzew i zwrócenie uwagi na "śmieci". Sam zauważyłem kilka elementów do poprawy. Niestety implementacja na sjp.pl jest uciążliwa do automatycznej analizy i sporo rzeczy trzeba poprawić ręcznie. Co do półpauzy i cudzysłowów to akurat proste - póki co zostawiłem domyślne formatowanie z kodu źródłowego. Poprawię, ale generowanie TAB/MOBI trwa godziny (ok. 2-3), więc nie będę tego robił po każdej drobnej zmianie.

Zastanawiam się nad zrobieniem crosslinków, ale to raczej też żmudna ręczna praca (lub pomysłowy skrypt). Okładka może być w wersji 1.0, ale najlepiej jak dostanę dobrego gotowca. Sam słownik to wersja beta 0.97 - planuje rozwijać. Jeśli jednak miałbym w przyszłości opierać to na stronie sjp.pl to nie mogę nakładać wielu ręcznych poprawek.

Aktualnie problem jest z hasłami, które występują w 2/3 wersjach: pisanej małymi literami, z dużą na początku i/lub w całości dużymi. W takiej sytuacji przy haśle definicje są powtórzone 2 lub 3 razy - niestety nie do wyeliminowania automatem (a przynajmniej nie prosto, bo muszę rozstrzygnąć która definicja jest do hasła pisanego z małej, a która do hasła pisanego z wielkiej - niestety w obu danych źródłowych są wymienione w tej samej kolejności).

EDYCJA:
- dywizy/półpauzy poprawione (w wersji produkcyjnej); cudzysłowów nie odnaleziono;
- odnalazłem źródło "śmietnika" - wyjątkowo wredna sprawa - na szczęście do usunięcia automatem;


30 kwi 2016 22:02:59
Zobacz profil
SwiatCzytnikow.pl
Avatar użytkownika

Dołączył(a): 14 sie 2010 10:00:21
Posty: 1771
eCzytnik: kindle, onyx, nook, kobo, pb, ipad
Post Re: Słownik języka polskiego
Screeny na blogu się nie wyświetlają, po kliknięciu błąd 403. A słownik zaraz potestuję.

_________________
http://swiatczytnikow.pl (dawniej: Świat Kindle)
http://ebooki.swiatczytnikow.pl - (prawie) wszystkie polskie e-booki w jednym miejscu, czyli porównywarka ofert księgarni.


30 kwi 2016 22:16:22
Zobacz profil WWW
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Poprawione.


30 kwi 2016 23:22:04
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 21 lip 2011 8:46:47
Posty: 130
eCzytnik: KoboT,NookST,K3G, KPW2,KPW3,TolV2
Post Re: Słownik języka polskiego
* Rozumiem, że chodzi o hasła wieloznaczne takie jak abba, Abba/ABBA (choć różnią się odmianami i definicjami).
Haseł, które mają dwie powtórzone definicje (przy różnym zapisie) jest 4804, a takich, które mają trzy definicje – 62.

* Ponieważ Kindle (chyba) nie potrafi wyszukiwać w słowniku odmian z dywizem, np. ADM-u, ckm-em itp. – można zapewne odchudzić słownik o wszystkie odmiany z dywizem, bo i tak nie zostaną wyszukane. Sprawa do zbadania.

* Cudzysłów jest zapisany jako encja:
Kod:
"

* Te „śmieci” są tylko 61 razy i rzeczywiście łatwo je usunąć.


30 kwi 2016 23:31:11
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Jeszcze raz dziękuję za feedback.
* chodzi właśnie o takie hasła; biorąc pod uwagę ilość trzeba znaleźć jakiś automatyczny sposób na rozdzielenie;

* chyba jednak potrafi;

* dzięki; przeoczyłem to;

* tych "śmieci" już nie ma, ale sam słownik uaktualnię jak pozbędę się pozostałych problemów (za dzień lub dwa).

PS. jak policzyłaś hasła powtarzające się.


30 kwi 2016 23:48:38
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 21 lip 2011 8:46:47
Posty: 130
eCzytnik: KoboT,NookST,K3G, KPW2,KPW3,TolV2
Post Re: Słownik języka polskiego
Jak policzyłam hasła – skrótowo, ale jako programista na pewno się połapiesz.
  • Całość w pliku html przeleciałam wyrażeniem regularnym zamieniającym:
    Kod:
    <idx

    na
    Kod:
    \n<idx

  • Potem jeszcze raz:
    Kod:
    <h2

    na
    Kod:
    \n<h2

    Czyli miałam hasła wydzielone w wersach, które zaczynały się od znacznika h2, definicje haseł oraz wszelkie inne elementy (odmiany etc.)
  • Dla przyspieszenia pracy posortowałam plik i wszystko oprócz wersów ze znacznikiem h2 na początku – usunęłam. Zostały hasła i definicje.
  • Zawartość pliku zmieniłam na małe litery (lowercase).
  • Potem
    Kod:
    sort sjp.html | uniq --count >sjp.tmp

    I już miałam plik z numerami, które oznaczały ile razy powtarzały się konkretne wersy.
  • Znowu sortowanie – tym razem po to, aby mieć plik z posortowaną liczbą z przodu.
  • Usunięcie tych wersów, które miały jedynkę z przodu (bo to oznaczało, że taki wers się nie powtarzał – definicja była tylko jedna).
  • Zostały mi tylko dwójki i trójki. Sprawdziłam ile ich jest i dodałam tę informację do postu.

----------------------

Jeszcze w sprawie ADM-u. U mnie nie działa. PW3 5.6.5 JB

Obrazek


01 maja 2016 9:22:58
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
W sprawie odmian z dywizami:

Obrazek Obrazek

Tak więc zostają. W następnej publicznej wersji zrobię to tak, że i u Ciebie zadziałają.


01 maja 2016 11:01:55
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 21 lip 2011 8:46:47
Posty: 130
eCzytnik: KoboT,NookST,K3G, KPW2,KPW3,TolV2
Post Re: Słownik języka polskiego
athame napisał(a):
Tak więc zostają. W następnej publicznej wersji zrobię to tak, że i u Ciebie zadziałają.

Super.

Ale, ale... Znalazłam coś, co może być błędem w mechanizmie słownikowym czytnika, ale warto zbadać.
  • Dla słowa muzyki pokazuje definicję Mużyk.
  • Dla słowa łaski podaje cztery znaczenia: łaski, Łaski, laski, Laski, ale nie podaje formy podstawowej: łaska.
  • Dla słowa leki podaje trzy znaczenia: Łęki, łęki, lęki, ale nie podaje formy podstawowej: lek.
  • Dla słowa kącie podaje znaczenie: kata, ale nie podaje formy podstawowej: kąt.
  • Dla słowa kąta podaje dwa znaczenia: Kata, kata, ale nie podaje formy podstawowej: kąt.

To mój tekst testowy.

Kod:
<h1>Testy słownika</h1>
<p>Bez muzyki ABB-y nie wyobrażamy sobie lat siedemdziesiątych.</p>
<p>Poszłam rano do ADM-u zgłosić kradzież drzwi piwnicznych.</p>
<p>Dziadek podpierał się laską, chodził o lasce.</p>
<p>Nie chcesz, to nie rób! Obejdzie się bez łaski.</p>
<p>Kupiłam w aptece leki, bo w nocy miałam lęki.</p>
<p>Po zażyciu leków, bo w nocy nie mam lęków.</p>
<p>Nalałam benzyny do dwóch baków, przycięłam Pawłowi baki i odganiałam się od bąków.</p>
<p>Poszłam do kąta, gdyż w kącie jest fajnie.</p>
<p>Janek sam, bez żony, wszedł do zony śmierci.</p>


Nie znajduje wcale słów żony i zony.
Przykład z bakiem jest bardzo ciekawy, bo ładnie pokazuje, że przydałoby się rozdzielenie haseł wieloznacznych.


01 maja 2016 11:46:25
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Becky napisał(a):
Ale, ale... Znalazłam coś, co może być błędem w mechanizmie słownikowym czytnika, ale warto zbadać.


To jest prawdopodobnie nie do przeskoczenia. Mechanizm słownikowy bazuje na indeksie, który ignoruje znaki spoza kodowania ISO-* właściwego do używanego języka? Ta część nie bazuje na UTF i dopóki Amazon nie doda oficjalnie polskiego to można sobie co najwyżej patch'ować system. To bynajmniej nie jest ani mały, ani prosty mod.

Mam jeszcze jeden pomysł jak to "oszukać", ale nie wiem czy zadziała. Poza tym troszkę (delikatniukto ujmując) zwiększy rozmiar słownika. Sprawdzę i za kilkanaście minut napiszę jak się sprawy mają.

Część problemów rozwiązana np:

Obrazek

a niektóre pozostałe są kłopotliwe, bo zależą do FW czytnika, a nie pliku słownika.


01 maja 2016 12:37:13
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Admini sjp.pl zmienili wczoraj kodowanie (formatowanie), w związku z czym postanowiłem pobrać całość od nowa. Jutro lub najpóźniej w piątek uaktualnię wpis na blogu.

Mam drobny problem ze skryptem:
- w pliku np. abc.tab mam hasła, które w definicji mają przekierowanie do innego hasła;
- odpuściłem sobie póki co crosslinki;
- zdarza się jednak, że hasło do którego jest odsyłacz nie istnieje, bo nie ma ono definicji i zostało odrzucone w pierwszym "przesiewie";
Czy ktoś wie jak powinien wyglądać skrypt (grep, sed, awk, ostatecznie perl), który sprawdzi czy hasło do którego prowadzi odsyłacz istnieje i jeśli:
a) tak, to zrobi id (kotwicę) oraz link w miejscu odsyłania;
b) nie, to usunie hasło, które odsyła w próżnię?

Aktualnie mam "zaćmienie" i nie bardzo wiem jak do tego podejść.


04 maja 2016 15:21:13
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Podmieniłem na blogu plik MOBI na nowszy (postu nie edytowałem). To już dobra beta, ale jeszcze będę nad tym pracował. Mam już działające skrypty, ale trochę pokraczne, wymagające optymalizacji.


05 maja 2016 15:43:50
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 21 lip 2011 8:46:47
Posty: 130
eCzytnik: KoboT,NookST,K3G, KPW2,KPW3,TolV2
Post Re: Słownik języka polskiego
Jest nieźle.
Poprawiłabym jeszcze
Kod:
&#039;
na ładny apostrof. Kindle ładnie wyszukuje obie formy:
Kod:
<p>c'est la vie – takie jest życie</p>
<p>c’est la vie – takie jest życie</p>
<p>commedia dell'arte</p>
<p>commedia dell’arte</p>
<p>A'Tomek był jedną z głównych postaci…</p>
<p>A’Tomek był jedną z głównych postaci…</p>

Z poprzednich testów u mnie nie działają „leki” i „żony”, ale i tak jest dużo lepiej.
No i są piękne cudzysłowy i półpauzy, co IMHO znacząco polepsza odbiór definicji.


06 maja 2016 8:49:45
Zobacz profil
Użytkownik

Dołączył(a): 13 lut 2012 20:52:18
Posty: 2124
Lokalizacja: Radom
eCzytnik: Kindle Touch, Kindle Voyage
Post Re: Słownik języka polskiego
Apostrof poprawię.

U mnie też nie działają "leki" i "żony", ale nie mam na to pomysłu. Nie ma też "bąka". Tu winę ponosi oprogramowanie Kindle. Obejście jest możliwe tylko przy modyfikacji FW lub modyfikacji słownika i odpowiedniego przygotowania każdego e-book'a (czyli opcja niepraktyczna).

Aktualnie na tapecie inny problem - w słowniku są dwie lub trzy definicje dla kilku haseł (np. bak). Są ładnie widoczne przy przeglądaniu słownika, ale nie ma drugiej (i trzeciej) definicji przy wywołaniu słownika z tekstu książki. Wrzucenie tego pod jedno hasło skutkuje tym co było poprzednio (lista numerowana: 1, 2, 1, 2, 1, 2, 3 itp.). Niestety numerowanie jest w treści haseł na stronie sjp.pl. Ręczna interwencja przy tylu hasłach nie wchodzi w grę. Biorąc pod uwagę, że sama strona jest rozwojowa nie ma też większego sensu tworzenie własnej bazy słów (i aktualizowanie w wolnym czasie). Chyba, że zrezygnuję ze zgodności z sjp.pl. Na chwilę obecną myślę nad wycinaniem numeru i dodawanie po kolei własnych, no ale są problemy techniczne (przez niekonsekwentne formatowanie źródeł).

Druga kwestia to linki do innych haseł. W sumie aktualnie jest ich 2536 (niektóre do więcej niż jednego hasła), z czego ogromna większość przekierowuje w próżnię. Skrypty które to sprawdzają są hmmm... brzydkie. Problemu nie byłoby, gdyby wszystkie hasła na stronie sjp.pl miały definicję, ale tego raczej nie doczekamy się. Ewentualnie zostawię puste definicje, choć początkowo założyłem, że to bezsensowne marnowanie miejsca (nadmuchiwanie rozmiaru słownika).


06 maja 2016 9:53:40
Zobacz profil
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 30 ]  Przejdź na stronę 1, 2  Następna strona


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 1 gość


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron