Zobacz wątek - Proszę o pomoc w dostosowaniu słowników • eKsiążki

Teraz jest 26 kwi 2024 16:21:13

Proszę o pomoc w dostosowaniu słowników

Strona 1 z 2

[ Posty: 19 ]

Przejdź na stronę 1, 2 Następna strona

Drukuj

Poprzedni | Następny

Proszę o pomoc w dostosowaniu słowników

Autor

Wiadomość

Cenzor

Użytkownik

Dołączył(a): 25 kwi 2012 11:14:22
Posty: 8
eCzytnik: BOOX A60

Proszę o pomoc w dostosowaniu słowników

Primo
Jako nowy użytkownik witam wszystkich. Cieszę się, że jest takie miejsce w internecie.
Od niedawna posiadam czytnik Onyx BOOX A 60. Jak na razie sobie chwalę to urządzenie i wgryzam się w jego możliwości.

Secundo
Właśnie takie wgryzanie doprowadziło mnie do problemu jakim jest instalacja słowników rosyjsko-polskiego i polsko-rosyjskiego. Dysponuję takimi słownikami. Każdy z nich ma po trzy pliki z rozszerzeniami .dict .idx .ifo Nie mogę sobie jednak poradzić z konwersją i uruchomieniem ich na czytniku. Nawet jak uda mi się osiągnąć efekt że mam plik .dict.dz to czytnik wprawdzie słownik widzi ale nie odnajduje haseł w nim.
Tu prośba do bardziej obeznanych. Zerknijcie proszę na te pliki i pomóżcie. Czym to konwertować? A może znajdzie się ktoś tak dobry, że to przekonwertuje.
http://dl.dropbox.com/u/4533232/SloRU-PL-RU.zip
Wdzięczny będę za każdą pomoc

Tertio
Pytań oczywiście mam więcej i w różnych kwestiach ale to już w innych wątkach.

25 kwi 2012 11:35:34

T0masz

Użytkownik

Dołączył(a): 05 kwi 2012 10:29:34
Posty: 89
eCzytnik: Onyx Boox

Re: Proszę o pomoc w dostosowaniu słowników

Spróbuj tak:
nie kompresuj słowników za pomocą żadnych programów. Weź po prostu zmień rozszerzenie z .dict na .dict.dz i zgraj te pliki do katalogu dwóch oddzielnych podkatalogów w katalogu /dicts/
Spróbuj z katalogiem /dicts/ w pamięci wewnętrznej.
W części słowników które instalowałem ten sposób pomógł.

_________________
Pozdrawiam Tomasz

25 kwi 2012 14:05:45

Cenzor

Użytkownik

Dołączył(a): 25 kwi 2012 11:14:22
Posty: 8
eCzytnik: BOOX A60

Re: Proszę o pomoc w dostosowaniu słowników

Dzięki za odzew.
No więc taką mam sytuację - słownik rosyjsko-polski w takiej strukturze
KartaSD \dicts\RU-PL\ 3 pliki słownika (niespakowane)
Zmieniłem również ręcznie rozszerzenie jak sugerowałeś z .dict na .dict.dz
Zmieniałem również nazwy plików osuwając z nich spacje myśląc, że to coś da.
Niestety wszystkie te zabiegi nic nie dały. Słownik istnieje na liście słowników ale na tym się kończy jego "funkcjonalność" - nic się nie da w nim znaleźć.
Może problem tkwi w samej strukturze (formie zapisu) pliku słownika .dict
Otóż jak podejrzę ten plik Notepad++ to jego struktura jest czytelna i do złudzenia przypomina jakiś XML (czy coś w tym stylu),


	Kod: <B>-<U>а</U>ктный </B> -aktowy <br><br>Δ <FONT COLOR="#D60052">пяти<U>а</U>ктная др<U>а</U>ма</FONT> dramat pięcioaktowy<B>-амп<U>е</U>рный</B> -amperowy <br><br>Δ <FONT COLOR="#D60052">пятиамп<U>е</U>рный</FONT> pięcioamperowy<B>-арш<U>и</U>нный</B> -arszynowy <br><br>Δ <FONT COLOR="#D60052">семиарш<U>и</U>нный</FONT> siedmioarszynowy<B>-<U>а</U>томный</B> -atomowy <br><br>Δ <FONT COLOR="#D60052">пяти<U>а</U>томный</FONT> pięcioatomowy<B>-<U>а</U>ция</B> -acja <br><br>Δ <FONT COLOR="#D60052">психологиз<U>а</U>ция</FONT> psychologizacja<B>-б<U>а</U>лльный</B><br><br><B>1. </B> -punktowy <br><br>Δ <FONT COLOR="#D60052">десятиб<U>а</U>лльный</FONT> dziesięciopunktowy <br><br><B>2. </B>

a jak podejrzę inny, działający słownik (dal-ru.dict.dz -rosyjsko-rosyjski) to zamiast struktury widzę krzaki


	Kod: ‹ .ĎCČRAÄEŰDdEĄEhBĄBXFâEgFŽG“ACúDF¤D›AÓ9]:ä6@ś56;Ś5Ť4ĂE“GA”=\|?==ŤAgCµHÇHčGH3E=w>?-?ď<{<2>F<í;q:<ş@+JÉGúFuEśF˝E3E1CŽC>EáDŻ?/>zAo=ß?‰Ch?*@=ŢA6D C»D…CCüEEŃCDUEE}EůCDEEšCBëA±BÓBMCÔCĄDËC,A&96=>?M>·?UA\?e>Î>Ŕ=t==¨=“>R?X>ľ=Ç=»=Č=¸>ż=”? ?]>ß@‰FéEĽGFĄCD>Ć=?@—=7?GĄ;®<=)=2@5@GEGÜEĹFzHĚDŠIźHrFŚDÎDÁDŇFňCÖC›DBH`G˘HHůFłC6C7CDëCĆE DŞC×CZDjG_@»B5EmCŘETCGEýCśAÎBĂCmEďD1G»EKDCE%F˛EěF(GsD4G±H=IuHLGąHşEFF6FEłEŐGkIöH

Może jeszcze macie jakieś pomysły

25 kwi 2012 15:31:06

t3d

Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle

Re: Proszę o pomoc w dostosowaniu słowników

Z tego co pamiętam .dz to słownik spakowany gzipem. Może lepiej porównuj po rozpakowaniu tego drugiego

_________________


	Zgred - Rafał Ziemkiewicz napisał(a): Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.

Porównywarka cen ebooków

25 kwi 2012 15:35:09

Cenzor

Użytkownik

Dołączył(a): 25 kwi 2012 11:14:22
Posty: 8
eCzytnik: BOOX A60

Re: Proszę o pomoc w dostosowaniu słowników


	Cytuj: Z tego co pamiętam .dz to słownik spakowany gzipem. Może lepiej porównuj po rozpakowaniu tego drugiego

No właśnie jakiś czas temu wpadłem na to samo - prawie
podgląd informacji o pliku z rozszerzeniem dict.dz w 7-zipie mówi że to typ gzip, ale rozszerzenie .dz mówi że to kompresja metodą DZIP. Znalazłem nawet taki kompresor http://speeddemosarchive.com/dzip/download.html. Muszę się tylko wgryźć w jego polecenia.
Na razie na próbę spakowałem plik Rosyjsko - Polski.dict 7-zipem metotą GZIP i zmieniłem rozszerzenie z .gz na .dz - niestety nic to nie dało

======= EDIT ==========
Idąc dalej tym tropem rozpakowałem prawidłowy słownik z archiwum .dz i otworzyłem czysty plik .dict w Totepad++. I tu również jest pewien trop. Struktura prawidłowego nieskompresowanego pliku .dict


	Kod: <k>11:30, одинадцать тридцать</k> jedenasta trzydzies,ci<k>11:30, пол двенадцатого</k> w pol/ do dwunastej<k>1:45, без пятнадцати два</k> za kwadrans druga<k>1:45, час сорок пять</k> pierwsza czterdzies,ci pie,c'<k>3:15, пятнадцать минут четвертого</k> kwadrans po trzeciej<k>3:15, три пятнадцать</k> trzecia pie,tnas,cie<k>7:13, семь тринадцать</k> siodma trzynas,cie<k>август</k> sierpien'<k>автобус</k> autobus<k>автовокзал</k>

różni się do struktury tych plików .dict które podlinkowałem


	Kod: <B>-<U>а</U>ктный </B> -aktowy <br><br>Δ <FONT COLOR="#D60052">пяти<U>а</U>ктная др<U>а</U>ма</FONT> dramat pięcioaktowy<B>-амп<U>е</U>рный</B> -amperowy <br><br>Δ <FONT COLOR="#D60052">пятиамп<U>е</U>рный</FONT> pięcioamperowy<B>-арш<U>и</U>нный</B> -arszynowy <br><br>Δ <FONT COLOR="#D60052">семиарш<U>и</U>нный</FONT> siedmioarszynowy<B>-<U>а</U>томный</B> -atomowy <br><br>Δ <FONT COLOR="#D60052">пяти<U>а</U>томный</FONT> pięcioatomowy<B>-<U>а</U>ция</B> -acja <br><br>Δ <FONT COLOR="#D60052">психологиз<U>а</U>ция</FONT> psychologizacja<B>-б<U>а</U>лльный</B><br><br><B>1. </B> -punktowy <br><br>Δ <FONT COLOR="#D60052">десятиб<U>а</U>лльный</FONT> dziesięciopunktowy <br><br><B>2. </B>

Jak widać jest tu zbyt wiele różnych znaczników. Wychodzi na to że problem tkwi właśnie w tej strukturze. Tylko co z tym zrobić? Czy ktoś wie co to za język? Czym to przekonwertować?

25 kwi 2012 16:38:12

Robert99

Użytkownik

Dołączył(a): 11 mar 2012 21:23:36
Posty: 50
Lokalizacja: Wrocław

Re: Proszę o pomoc w dostosowaniu słowników

Aby przekonwertować .dict --> dict.dz użyj programu: http://sintegrial.com/dictui/pages/en/index.php
U mnie to działa.
aha, o tym dzipie zapomnij - też to znalazłem i niestety nie sprawdził się.

25 kwi 2012 18:10:58

ksm123

Użytkownik

Dołączył(a): 29 lut 2012 13:41:07
Posty: 20
eCzytnik: Boox M92

Re: Proszę o pomoc w dostosowaniu słowników

Onyx obsługuje słowniki stardict, na słownik składają się trzy lub cztery pliki. Dla ustalenia uwagi powiedzmy, że mamy słownik rupl

W pliku rupl.dict.dz masz definicje haseł. Plik jest spakowany gzipem, możesz zmienić jego nazwę na rupl.dict.gz i rozpakować go, otrzymasz wtedy plik tekstowy rupl.dict
W tym pliku są definicje, mogą one być w jednym z kilku formatów, format h to HTML, ale jest jeszcze język znaczników dostosowany to obsługi słowników (chyba nazywa się xdxf).

W pliku rupl.idx masz listę haseł w słowniku, ułożoną alfabetycznie, po jednym haśle dla jednej definicji, oraz położenie definicji tego hasła w pliku dict. Dodanie choćby jednego znaku do pliku dict rozwala nam index.

W pliku rupl.syn masz listę synonimów, jeśli do definicji jest podłączone kilka haseł, to kolejne hasła znajdą się w tym miejscu.

W pliku rupl.ifo ogólne informacje o słowniku. Jest tam minimalna wersja stardict która może otworzyć słownik (zwykle 2.4.2), liczba słów w indeksie słownika, a zarazem liczba definicji (wordcount), liczba synonimów (synwordcount), wielkość pliku indeksu (idxfilesize), Nazwa słownika wyświetlana przez czytnik (bookname) i sposób zapisu definicji (sametypesequence) tutaj h oznacza HTML.

Ja tworząc słownik generowałem dane w formacie babylon, czyli

haslo|synonim1|synonim2
definicja w HTML łamana znakami lub 

(po definicji przed następnym hasłem jest pusta linia), dla każdego hasła dopuszczalna jest tylko jedna linia z hasłem i synonimami, a następnie dokładnie jedna linia definicji, po ostatnim haśle wymagana jest jedna pusta linia.
A następnie przetwarzałem słownik programem babylon z stardict tools. Na koniec edytowałem plik ifo wprowadzając nazwę słownika i zmieniając typ definicji.
W sieci powinieneś znaleźć instrukcję przetwarzania słowników stardict na babylon

Hasła i definicje powinny być zapisane w UTF-8.

Jest bardzo duży problem z obsługą rosyjskiego słownika w Onyx'ach. Sam nie rozumiałem czemu hasła nie są odnajdywane gdy robiłem własny słownik, uciekłem się do przeczytania sporej części kodu źródłowego słowników w repozytoriach onyx-intl
Okazuje się, program słownika jest zoptymalizowany do obsługi angielskiego, gdy przekazywane jest słowo do tłumaczenia, to najpierw sprawdzane jest czy kończy się na 's' lub 'ed' i obcinana jest końcówka (to załatwia sprawę angielskiej liczby mnogiej i czasu przeszłego. Potem wyszukiwane jest "podobne hasło" w słowniku, ale funkcja określania podobieństwa zupełnie nie radzi sobie z językami fleksyjnymi (czyli na przykład polskim i rosyjskim).
Szybko okazuje się, że słownik bez problemu znajduje hasło gdy klikniemy na mianowniku, czy bezokoliczniku, a gubi się gdy klikniemy na dopełniaczu lub imiesłowie.

Przy okazji mogę powiedzieć, że w moim subiektywnym odczuciu, przy tym samym słowniku rosyjsko polskim, Pocketbook, który do generowania własnego formatu słownika korzysta także z tabel morfologii, radzi sobie znacznie lepiej z dobieraniem słów.

26 kwi 2012 11:40:14

Cenzor

Użytkownik

Dołączył(a): 25 kwi 2012 11:14:22
Posty: 8
eCzytnik: BOOX A60

Re: Proszę o pomoc w dostosowaniu słowników

@Robert99


	Cytuj: Aby przekonwertować .dict --> dict.dz użyj programu: http://sintegrial.com/dictui/pages/en/index.php

Programu już używałem wcześniej ale program żąda pliku w formacie .dsl - takich nie mam (patrz załącznik do pierwszego posta, lub plików w w formacie .dz - tu też jest problem gdyż jak spakuję słownik .dict gzipem do .dict.dz to wprawdzie program plik widzi ale po jego wczytaniu nic nie robi i zwraca status pliku jako "failed(1)". Ten sam komunikat uzyskuję jak wczytam plik .dict nieskompresowany. Reasumując program z tymi plikami co mam nie działa.

@ksm123
Dzięki za tak obszerną porcję wiedzy. Zerknij tylko proszę do załącznika pierwszego mojego postu lub do przykładów dwa posty wyżej i powiedz czy kojarzysz sobie taki język/składnię - co to może być. Plik ten czytelnie i ładnie się wyświetla w przeglądarce internetowej. Widać tam zresztą znaczniki koloru, podkreśleni i pochylenia pisma. Mam wrażenie, że tu jest pies pogrzebany. Jeśli by udami się rozpoznać co to za język/składnia i przekonwertować do jakichś bardziej podatnych dalszej obróbce to było by po sprawie.
Piszesz że informacja w .ifo "h" oznacza że słownik jest zrobiony w HTML. A co oznacza litera "m" - z taka spotkałem się w słowniku rosyjsko-rosyjskim, zresztą działającym (przykład składni dwa posty wyżej, ten ze znacznikami <k> </k>).
W tym niedziałającym i problemowym słowniku plik .ifo zawiera takie dane:


	Kod: StarDict's dict ifo file version=3.0.0 idxoffsetbits=32 wordcount=68127 idxfilesize=1817544 bookname=Rosyjsko - Polski sametypesequence=h

Czy może być sytuacja taka, że słownik nie działa gdyż minimalna obsługująca go wersja to 3.0.0 a tej z kolei nie ma w oprogramowaniu czytnika? Jeśli tak to czy można go jakoś przerobić na starszą wersję? Czy może być tak, że problem stwarza byt duża liczba kodu formatującego (kolor, podkreślenie, pogrubienie czcionki)? Dodam jeszcze że ten niedziałający słownik ma stronę kodową UTF8.

26 kwi 2012 14:46:02

ksm123

Użytkownik

Dołączył(a): 29 lut 2012 13:41:07
Posty: 20
eCzytnik: Boox M92

Re: Proszę o pomoc w dostosowaniu słowników

@Cenzor:
Tutaj znajdziesz informacje o układzie pliku.
'm' to powinien być czysty tekst w UTF-8 zakończony znakiem '\0'.

Znacznik <k></k> oznacza hasło wstawione do definicji.
Jak będę w domu to obejrzę ten słownik i spróbuję przerobić rosyjsko polski do tak był mój M92 go łykał.

26 kwi 2012 15:49:57

Cenzor

Użytkownik

Dołączył(a): 25 kwi 2012 11:14:22
Posty: 8
eCzytnik: BOOX A60

Re: Proszę o pomoc w dostosowaniu słowników


	ksm123 napisał(a): Jak będę w domu to obejrzę ten słownik i spróbuję przerobić rosyjsko polski do tak był mój M92 go łykał.

Jak by ci się udało to bardzo był bym ci wdzięczny. Długo szukałem jakiegoś przyzwoitego słownika RU-PL i nie znalazłem. W większości to jakieś namiastki. Tylko ten się zapowiada dobrze ale jak na złość nie działa. Męczę się już z nim na tyle długo, że tracę już siły. Może ci się uda.

26 kwi 2012 16:12:12

zbigstar

Użytkownik

Dołączył(a): 21 mar 2012 22:24:19
Posty: 7
eCzytnik: Onyx Boox

Re: Proszę o pomoc w dostosowaniu słowników

Mam zatem katalog dicts w pamięci czytnika, a w nim przepisowe 3 pliki: oald.idx, oald.ifo oraz tekst słownika z rozszerzeniem .dict, który otwiera się w dowolnym edytorze tekstu. Ale w Onyxie nic się nie otwiera i brak reakcji. Gdzieś więc popełniłem błąd, ale gdzie?

20 maja 2012 0:51:20

T0masz

Użytkownik

Dołączył(a): 05 kwi 2012 10:29:34
Posty: 89
eCzytnik: Onyx Boox

Re: Proszę o pomoc w dostosowaniu słowników


	zbigstar napisał(a): Mam zatem katalog dicts w pamięci czytnika, a w nim przepisowe 3 pliki: oald.idx, oald.ifo oraz tekst słownika z rozszerzeniem .dict, który otwiera się w dowolnym edytorze tekstu. Ale w Onyxie nic się nie otwiera i brak reakcji. Gdzieś więc popełniłem błąd, ale gdzie?

A spróbuj w katalogu dicts utworzyć podkatalog oald i tam wgrać te pliki. Potem zobacz czy pojawił się taki słownik do wyboru w programie. No i wszystko jeszcze zależy od tego czy masz dobry plik ifo.

_________________
Pozdrawiam Tomasz

20 maja 2012 14:58:38

zbigstar

Użytkownik

Dołączył(a): 21 mar 2012 22:24:19
Posty: 7
eCzytnik: Onyx Boox

Re: Proszę o pomoc w dostosowaniu słowników

Niestety utworzenie podkatalogu nic nie pomogło. Słownik jest z miejsca polecanego na tym forum, więc wydawałoby się, że ma prawidłową strukturę plików.
Nadal więc tkwię w martwym punkcie, jeśli idzie o słowniki w formacie StarDict.

25 maja 2012 12:57:08

walklaw

Użytkownik

Dołączył(a): 13 wrz 2012 14:21:29
Posty: 8
eCzytnik: Onyx i62 Espresso

Re: Proszę o pomoc w dostosowaniu słowników

miałem ten sam problem i trochę nad nim posiedziałem.

Wnioski są dwa:
1) błąd tkwi w formacie pliku .ifo. W kilku ściągniętych słownikach plik ten był zapisany w formacie DOS-a, czyli koniec linii to para znaków o kodach 0x0D i 0x0A. Aby działał poprawnie plik musi być w formacie Unix-a, czyli koniec linii to jeden znak o kodzie 0x0A. Po skonwertowaniu .ifo słowniki były już widoczne w Onyxie

2) słownik oald z miejsca polecanego na tym forum po powyższej operacji był widoczny ale jego wybranie 'wywalało' apikację słownika. Należy ew. poszukać innej wersji tego samego w necie.

Pozdrawiam,
walklaw

19 wrz 2012 20:38:46

walklaw

Użytkownik

Dołączył(a): 13 wrz 2012 14:21:29
Posty: 8
eCzytnik: Onyx i62 Espresso

Re: Proszę o pomoc w dostosowaniu słowników

I mały update odnośnie walki ze słownikami.

Tak się złożyło, że potrzebowałem znaleźć słownik niemiecko-polski i polsko-niemiecki. Po chwili poszukiwań znalazłem pliki w formacie StarDict ale jedynie pliki ze słownikiem i indeks, czyli .dict i .idx.
Oczywiście łatwo skonwertować, jeśli potrzeba, pliki słownika .dict do formy spakowanej .dict.dz za pomocą wspominanego na forum programu DictUI ale pojawił się problem ze stworzeniem pliku .ifo bez którego słownik nie wystartuje.

Poszperałem chwilę i znalazłem doskonały opis struktury plików StarDict => http://code.google.com/p/babiloo/wiki/StarDict_format

I po lekturze tegoż podaję poniżej strukturę pliku .ifo, którego używałem już w wielu słownikach - może się komuś przyda:

StarDict's dict ifo file
bookname=Nazwa widoczna w słownikach
wordcount=liczba słów w pliku .idx/.dict
idxfilesize=rozmiar pliku .idx w bajtach
idxoffsetbits=32
version=3.0.0
sametypesequence=h

Nie zawiera ona wszystkich możliwych parametrów, ale sprawdza mi się dobrze.
Trzy pierwsze linii parametrów trzeba wypełnić odpowiednimi wartościami.
Trzy ostatnie raczej nie muszą być zmienione, aczkolwiek jeśli słownik w wersji 3.0.0 będzie bardzo duży to 'idxoffsetbits' może przyjąć wartość 64.
A jeśli słownik nie będzie poprawnie wyświetlał słów to można zmienić parametr 'sametypesequence' na 'm'.

Pozostaje ustalić wartości parametrów zmiennych dla każdego słownika.
I o ile nie ma problemu z 'bookname' i 'idxfilesize' o tyle z 'wordcount' było ciut trudniej.
Bazując na w/w opisie napisałem małe makro w Excelu, które liczy słowa bazując na zawartości indeksu słów - pliku .idx i w ten sposób uzupełniłem wartość pola 'wordcount'

Jeśli ktoś będzie potrzebował proszę o info - podeślę całe makro lub kod.

No i pamiętajmy, że plik .ifo musi mieć standard nowej linii Unix a nie Windows/Dos przed wgraniem na Onyxa.
A po wgraniu cieszyłem się słownikami niemiecko-polskim i polsko-niemieckim

Pozdrawiam,
walklaw

02 paź 2012 22:02:32

Strona 1 z 2

[ Posty: 19 ]

Przejdź na stronę 1, 2 Następna strona

Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 3 gości

Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:

Lista kanałów
Engine by php BB.
Designed by Vjacheslav Trushkin for Free Forum/DivisionCore