przepraszam, ale naprawdę nie mogę się powstrzymać.
Jako zakompresowany blob binarny z tej bazodanowości nie wiele wynika dla wyszukiwania, chyba że sam fakt że pierwotny format mobi w rozwinięciu nazywa się "Palm DataBase file" no to ok
Taką samą bazodanowośc mają ePub-y w postaci xhtml-i w opakowanych zipem. I te i te trzeba najpierw zdekompresować by coś uzyskać.
Owszem dostęp do metadanych w mobi jest szybszy - bo są podane na tacy.
Co do kodowania, to po co? Dla epub domyślny jest utf-8 - koniec. Sama specyfikacja xhtml zaleca domyślne przyjmowanie utf-8. Chcesz inaczej, sobie definiujesz, co jest raczej i tak złym pomysłem.
Język w jednym miejscu jest spoko, za to możliwość przedefiniowania też jest fajna. (anyway:
<dc:language> An OPF Package Document must include at least one instanceJakieś dzikie wymagania załączania spoza ascii - znowu wynika to z faktu że polska była w bardzo niskim poważaniu więc jej fikuśne literki nie znalazły się w fontach pierwszych czytników*, i w zasadzie dla tej garstki staroci i dla "ładniejszego" wyglądu publikacji stosuje się owe załączanie - a że pliki robią się kobylaste - cóż (a w zasadzie i tak najcześciej dodaje się Liberation obecne na większości czytników, na kilkadziesiąt zakupionych publikacji, kilka miało załączone coś innego**).
Praktycznie wszelkie domyślne serify (andek,linux,windows,adobe) mają już polskie ogonki i załączanie ich nie jest potrzebne.
* a w dodatku bardzo utrudniono podmienienie ich na inne własne pliki.
** dejavu, charissil, texgyreschola, teraz agora dodaje namiętnie apolonie, czasem się trafi jakiś BaskervilleURW