Pokazywanie postów oznaczonych etykietą MOBI. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą MOBI. Pokaż wszystkie posty

środa, 27 września 2017

Moja idea słownika angielsko-polskiego dla Kindle

O co chodzi?

W 2014 roku w Kindle Store pojawił się The Great English-Polish Dictionary (Wielki Słownik Angielsko-Polski) przygotowany głównie przez profesorów Dariusza Jemielniaka i Marcina Miłkowskiego. W 2015 miał konkretną aktualizację. Działanie i możliwości słownika dość obszernie zaprezentował na swoim blogu Vroo (Robert Drózd) we wpisie Porównanie WSAP z BuMato

Skoro już wspomniałem darmową alternatywę to napiszę jeszcze, że wg oficjalnych informacji zawiera on tłumaczenia dla ok. 150 tys. haseł, tymczasem WSAP ma ich 200 tys. (licząc tylko zideksowane hasła, pod którymi może być kilka definicji). W jednym i drugim przypadku to dużo, ale jak się okazuje nie wystarczająco dużo.

Rozgrzewka

Przy normalnych tekstach WSAP radzi sobie bardzo dobrze, ale schodki zaczynają się jak mamy do czynienia z różnymi neologizmami czy slangiem. Tymczasem to właśnie słówka z tej grupy mogą być najmniej zrozumiałe. Parę merytorycznych uwag pojawiło się też w komentarzach pod wpisami na temat tego słownika u Vroo.

Postanowiłem na własny użytek coś z tym zrobić. Szybko przekonałem się, że korzystając z materiałów udostępnionych na wolnych licencjach nie osiągnę zamierzonego celu. Próbowałem użyć wiktionary i jeszcze jakiś otwartych opracowań, ale nie wytrzymały one prób w realnym (niesprzyjającym) środowisku. Ostatecznie treść „pożyczyłem sobie” z serwisu LING.PL, czyli tego związanego z autorami słownika WSAP.

Okazało się że treść umieszczona w serwisie jest bardzo łatwa do analizy – wystarczy podstawowa znajomość grep-a, sed-a, perl-a (nie udało mi się tego uniknąć) i podobnych prostych narzędzi. Sama zawartość zawiera kilka różnych błędów (np. posklejane słowa), ale są one specyficznie formatowane, co pozwala na skorygowanie ich na etapie oczyszczania bazy tekstowej.

Runda wstępna

Vroo zwracał uwagę na kilka nieoczywistych słów. Dla formalności zweryfikowałem je u siebie. Kilka zrzutów poniżej:

W przytoczonym wpisie Vroo pisał:

sporo słów Martin po prostu stworzył, np. „sellsword” jako synonim najemnika i szukanie ich mija się z celem.

Nie bardzo wiem czemu mija się z celem, szczególnie jeśli takie słówko wystąpi odseparowane (np. jako pozycja jakiejś listy), bez kontekstu. Oczywiście na okoliczność właśnie tego typu haseł zdecydowałem się na budowę prywatnego słownika.

W komentarzach pojawiały się natomiast różnego rodzaju pretensje związane z frazami wieloczłonowymi, odmianami itp. U mnie wygląda to tak:

I na koniec przedstawiciel slangu, czyli coś co „przelało czarę goryczy” i ostatecznie przesądziło o stworzeniu tego „potworka”…

Narada przed werdyktem

Robert pisał również:

Natomiast trzeba jeszcze podkreślić, że w tej akurat książce było trochę słów, których nie ma żaden ze słowników na moim Kindle (w tym Oxford i Merriam).

Chciałbym się dowiedzieć jakie to słowa i czy mój słownik sobie z nimi poradzi.


Dalej pisał zaś:

Widać tu wyraźnie różnicę między słownikiem wygenerowanym automatycznie, a takim, który od początku do końca miał opiekę redaktorską.

Częściowo zgadza się. WSAP ma dobrą opiekę redaktorską, zawiera zapis wymowy, ale z drugiej strony przegrywa zasobnością słownictwa.

Werdykt

Wyżej omówiony „słowniczek” ma 445 920 bazowych haseł (1 222 552 lokacji, bez wstępów, przedsłowia, posłowia i innych zbędnych elementów), a licząc wszystkie warianty wychodzi blisko 3 mln słów/zwrotów (być może nawet więcej, liczyłem zgrubnie). Jak doliczymy do tego odmiany to wchodzimy w absurdalne liczby (większe niż oficjalnie podawana ilość słów w języku angielskim). Nadal z pewnością są „luki”, ale teraz WSAP i moja implementacja tworzą kombinację pokrywającą wszystko z czym się spotkałem w jakichkolwiek tekstach.


Może kiedyś doczekamy się WSAP Extended, który będzie miał tak duży zasób słów i profesjonalną obsługę redaktorską? Po uporządkowaniu i dołożeniu wymowy byłby to prawdziwy „potwór”!

czwartek, 12 stycznia 2017

Przez chmurę czy po kablu?

W tym wpisie podejmę temat sposobów dostarczania e-booków na czytniki Kindle.

Podstawowe założenie to skupienie się na formacie KF8 (AZW3) z całkowitym ignorowanie starego formatu MOBI 6. Przyczyny takiego założenia są oczywiste – MOBI 6 (obecny w pliku hybrydowym) i EPUB (niestety też często obecny w pliku hybrydowym) to zwykły balast, całkowicie niewykorzystywany przez czytnik. Dla e-booków, które posłużyły do testów na potrzeby tego artykułu nie ma to dużego znaczenia – pliki są relatywnie małe. Zdarzają się jednak „zawodnicy wagi ciężkiej”, czyli e-booki zajmujące po kilkadziesiąt MB – wtedy balast może dokuczyć.

Poniżej omówię dwie (i pół) metody na wrzucenie książki na czytnik i co wynika z wyboru jednej lub drugiej.

Temat był już podejmowany przez Roberta Drózda – Mailem czy po kablu? Porównanie dwóch metod wrzucania książek na Kindle – jednak wpis ten ma już kilkanaście miesięcy (od ostatniej aktualizacji) i jest tam kilka stwierdzeń, z którymi nie mogę się zgodzić, choćby takie – cytat: „Przesyłanie po kablu może w pewnych sytuacjach dać po prostu ładniejszy wygląd książki”. Jest ono semantycznie prawdziwe, ale przy poprawnym pliku nie ma możliwości by książki wyglądały inaczej, przynajmniej dopóki interesuje nas wersja KF8 (i tylko taka).

Omawiane metody

Przez chmurę, czyli wysyłając na przypisany do czytnika adres mailowy z akceptowanych adresów nadawcy (zdefiniowanych w ustawieniach na koncie w Amazon) lub poprzez aplikację „Send To Kindle”.

Po kablu, kopiując po prostu e-book do katalogu „documents” (może być do podkatalogu w tym katalogu).

Po kablu z wykorzystaniem programu Calibre – nie stosuję, ale dla porządku wspomnę. Szczególnie, że taka metoda jest wskazana dla osób nietechnicznych, a jednocześnie daje przyzwoity rezultat.

Ograniczenia

Czasami nie ma wyboru. Do przesyłki po kablu potrzebujemy… kabla. Zdarza się (jednym rzadko, innym częściej), że akurat nie mamy żadnego „pod ręką”. Z kolei do odebrania książki dostarczonej bezprzewodowo potrzebujemy albo czytnika w wersji z 3G, albo dostępu do sieci WiFi (w warunkach miejskich nie powinno być z tym problemu, ale…). W takich sytuacjach korzystamy z jedynej dostępnej metody.

Co daje wybór wysyłki do chmury?

Przede wszystkim synchronizację pomiędzy różnymi czytnikami i programami Kindle (np. na Androida). Synchronizowane są zarówno notatki i podkreślenia, jak również postęp czytania.

Sam fakt umieszczenia książki w chmurze pozwala na odroczone czytanie, bez „zaśmiecania” pamięci czytnika czymś, co będzie czytane np. za pół roku.

Automatyczna wysyłka na mail może być realizowana bezpośrednio przy zakupach w księgarniach, co pozwala na dostarczenie książki np. wprost ze smartfona, bez udziału komputera.

Pliki jakie trafiają na czytnik z chmury są mniejsze niż takie same wrzucone po kablu – konkretne przykłady w dalszej części tekstu.

Chmura Amazona modyfikuje przesłane pliki, między innymi optymalizując je pod docelowy czytnik i wycinając elementy niezgodne z formatem (np. nieużywane style, skrypty itp.). To dla niektórych wada, ale niezaprzeczalnie tak obrobiony plik jest najlepiej przystosowany do odtwarzania na czytniku.

Co daje wybór kabla?

Złudne poczucie prywatności.

Poza tym: nic. Chyba że…

Przesyłając e-booki po kablu, poprzez program Calibre, można w łatwy sposób zapewnić sobie przyzwoity wygląd tekstu, okładkę (wyświetlaną w Bibliotece czytnika) i numery stron bez dodatkowych kombinacji. Calibre jednak jest dość agresywnym programem i nawet przy tak niewinnym wykorzystaniu dorzuca do pliku informacje o sobie. To małe przewinienie w porównaniu z tym, co robi przy konwersji (Sieczkarnia calibre w akcji. Porównanie do kindlegena.), ale i tak irytujące.

Ofiary… czyli pliki testowe

Do testów wybrałem dwie książki z serwisu Wolne Lektury:

  1. Groźny cień Arthura Conana Doyle'a;
  2. Wehikuł czasu Herberta George'a Wellsa.

Pobrałem pliki MOBI i dla wyrównania szans, na potrzeby przenoszenia po kablu, wypakowałem wersje KF8 narzędziem mobiunpack.py. Do chmury wysyłałem pliki takie jak były pobrane z serwisu WL.

W obu przypadkach wygląd e-booków był identyczny, a przykładowe screeny poniżej:

Czcionki wydawcy i jak widać skład jest elegancki – justowanie, podział wyrazów, polskie zwyczaje typograficzne (np. wcięcie akapitowe o wielkości 1,5 firetu). Dawniej wiele osób miało krytyczny stosunek do plików z Wolnych Lektur (np. TUTAJ), ale to już przeszłość. Dziś WL to jedno z niewielu miejsc w sieci (wliczając księgarnie), z których mogę komfortowo czytać książkę bez „przemielenia” jej choćby narzędziem epubQTools.

Okładki, numery stron…

W skrócie: nie ma. Bez względu na to czy wrzucam pliki AZW3 (wypakowane z hybrydowych MOBI) po kablu, czy pobieram książki z chmury.

Obie te niedogodności poprawiam sobie skryptem Extra Kindle Tools. Podobnie zadziała też ExtractCoverThumbs (tym razem pliki mają fałszywy ASIN wygenerowany w Calibre, ale nie zawsze tak będzie). W przypadku obu tych narzędzi generowanie stron działa bezproblemowo, natomiast generowanie okładek jest bezproblemowe tylko dla wersji wrzuconej po kablu. W przypadku wersji z chmury, aby zobaczyć okładki, potrzebny jest hmmm… patch o którym wspomniałem w poprzednim artykule – bez niego zarówno EKT, jak i ECT okładkę wygenerują, ale czytnik jej nie wyświetli.

Używając eksperymentalnej opcji (--patch-azw3) w nowych wersjach ExtractCoverThumbs, można mieć okładki dla książek z chmury, bez używania powyższego patcha, kosztem synchronizacji – przy używaniu tylko jednego czytnika ma to sens. Osobiście czytam wyłącznie na Voyage, choć sam dostęp do biblioteczki Kindle (pozycji w chmurze) mam jeszcze na trzech innych urządzeniach.

Inne elementy…

Wszystko co jest związane z wyglądem e-booka, przy prawidłowym składzie, działa tak samo, bez względu na drogę dostarczenia na czytnik. Takie elementy jak dzielenie wyrazów, blokowanie „sierotek” czy sposób formatowania akapitów są zdefiniowane w pliku i nie ulegają żadnym zmianom przy wysyłce mailowej.

Skoro więc nie widać różnic, to dlaczego wybieram wyłącznie metodę bezprzewodową? Chodzi o optymalizacje dokonywane w chmurze, które między innymi objawiają się rozmiarem pliku jaki finalnie trafia na czytnik. Dokładne liczby:

Pozycja:      MOBI hybrydowy (z serwisu):      AZW3 z mobiunpack.py:      Plik z chmury:
Groźny cień      847 790 B (828 kB)      597 193 B (583 kB)      457 132 B (446 kB)
Wehikuł czasu      654 992 B (640 kB)      509 793 B (498 kB)      338 836 B (331 kB)
…i dla podkreślenia różnic…
Airport City. Strefa okołotniskowa jako zagadnienie urbanistyczne. Monografia.
     40 800 303 B (38,91 MB)★      21 739 164 B (20,73 MB)      8 348 660 B (7,96 MB)

★ W trakcie pisanie tego artykułu próbowałem pobrać tę pozycję jeszcze raz. Plik MOBI pobrany prosto z księgarni ma rozmiar 18 784 863 B (17.91 MB), ale…
…pliku tego nie można rozpakować skryptem mobiunpack.py, a Kindle Previewer nie wyświetla go – w obu przypadkach komunikat informujący o tym, że wskazany plik nie jest plikiem MOBI, a program file podpowiada, że to… EPUB. Tak więc „poprawili”. Oczywiście upewniłem się co pobieram, więc o przypadkowym kliknięciu nie tam gdzie trzeba nie ma mowy. Tylko dla formalności wspomnę, że oczywiście czytnik nie widzi takiego pliku.

Podsumowanie

Jeszcze niewiele ponad pół roku temu, w czasach wersji FW 5.7.4 czy jakoś tak, używałem niemal wyłącznie metody „po kablu”. Dziś 99% książek wrzucam przez chmurę. Ten brakujący 1% to sytuacje, gdy nie mogę tego zrobić z przyczyn technicznych, czyli w praktyce kiedy jestem przez dłuższy czas (kilka dni) bez dostępu do sieci (WiFi).

Dla przesyłek do chmury istnieje sztywny limit 50 MB na mail, ale Amazon najwyraźniej mnie lubi, bo spokojnie przesłałem (tydzień temu) książkę ważącą 65 MB i doszła bez problemów (oczywiście na czytniku odpowiednio mniejsza). Albo to był jakiś bug, albo ograniczenie nie jest takie sztywne.

poniedziałek, 27 czerwca 2016

Słownik polsko-esperancki

Budowa

Podobnie jak poprzednio, wykorzystując pracę Pana Włodzimierza Dutkiewicza, opracowałem słownik polsko-esperancki. Tu również źródłem był słownik udostępniony na wolnej licencji przez Pana mgr Jerzego Wałaszka (http://eduinf.waw.pl/esp/util/vortaro/index.php). Odmiany zaś pochodzą z serwisu sjp.pl.

Efekt

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 8,2 MB (8 627 064 bajtów);
  • ilość bazowa słów/zwrotów: 128 067 (w tym kilkaset wielowariantowych);
  • działają odmiany;

Link do pobrania

SŁOWNIK

niedziela, 26 czerwca 2016

Nowy słownik esperancko-polski

Budowa

W oparciu o zachętę oraz z wykorzystaniem pracy Pana Włodzimierza Dutkiewicza opracowałem nową wersję słownika esperancko-polskiego. W tej wersji źródłem był słownik udostępniony na wolnej licencji przez Pana mgr Jerzego Wałaszka (http://eduinf.waw.pl/esp/util/vortaro/index.php). Bazę słów udostępnioną przez Pana Włodzimierza potraktowałem swoimi skryptami, które utworzyły bazę odmian (wg mojego zamysłu bliźniaczo podobnego do tego co zrobił Pan Włodzimierz), przeorganizowały trochę hasła (zespojenie kilku takich samych haseł z róznymi definicjami, w jedną z wariantami itp.) oraz zmieniły trochę wygląd znaków specjalnych.

Efekt

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 7,1 MB (7 459 264 bajtów);
  • ilość bazowa słów/zwrotów: 127 838 (w tym kilkaset wielowariantowych);
  • działają odmiany;
  • pokrycie języka literackiego: blisko 100% (sprawdziłem losowo ponad 100 słów – wszystkie znalezione w słowniku).

Link do pobrania

SŁOWNIK

niedziela, 5 czerwca 2016

Słownik esperancko-polski

Budowa

Baza słów i tłumaczeń pochodzi z otwartoźródłowego programu Esperantilo. Z drobną poprawką, dwóch odkrytych błędnych tłumaczeń. Baza odmian to praca własna, wykonana bez głębszej znajomości języka, za to z wskazówkami od internauty używającego nicku "fringel". Przygotowałem ją wykorzystując fakt istnienia jednoznacznych końcówek dla rzeczowników, przymiotników czy czasowników (tu uwzględniłem też imiesłowy), które przy odmianie uwidaczniają się jako przyrostki dołączone do podstawowego morfemu. Takie podejście pozwala na zbudowanie poprawnej i dużej objętościowo bazy odmian. W czasie rozbudowanych testów nie natrafiłem na brak odmiany istniejącego hasła.

Efekt

Krótka charakterystyka:

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 1,1 MB (1 121 064 bajtów);
  • ilość bazowa słów: 30 089;
  • działają odmiany;
  • pokrycie języka literackiego: > 99% (na próbce 1000 kolejnych wyrazów z losowej powieści).

Przykłady działania





Link do pobrania

SŁOWNIK

poniedziałek, 24 sierpnia 2015

Formaty e-book'ów

Bez zbędnych wstępów: formaty e-book'ów podzielę na kategorie:

1. Dokumenty o "sztywnym" wyglądzie (ang. fixed-layout).


To przede wszystkim PDF. Synonim e-book'a. Jako jedyny istniejący format posiada wszystkie cechy – wsparcie dla: DRM (tego nie lubimy), obrazów, tabel, dźwięku, a nawet wideo. Jest formatem interaktywnym (obsługuje hiperłącza). Wspiera reflow (nie zawsze). Jest otwartym standardem. W skrócie same zalety – jedyny problem polega na tym, że czytniki najczęściej mają ekran w rozmiarze 6", a większość PDF-ów jest projektowana pod format A4 (ew. Letter). Kindle bardzo dobrze sobie radzi z tym formatem (więcej w innych wpisach).

DVI – domyślny plik wynikowy LaTeX'a. Można łatwo konwertować do PDF.

PostScript – PS. Pierwowzór PDF. W czytnikach nie ma zastosowania. Można bezproblemowo przekształcić na PDF.

DjVu – format używany w archiwach bibliotek cyfrowych. Wg mnie mało użyteczny. Na dodatek mam osobiste uprzedzenie, bo wszystkie porównania z PDF mające na celu potwierdzenie, że pliki DjVu są mniejsze od PDF, przy tej samej jakości, są po prostu oszustwem – porównywane PDF-y nie były w żaden sposób optymalizowane, zaś DjVu jak najbardziej – po optymalizacjach PDF wyniki są już nieco inne. Można konwertować do PDF.

XPS – format oparty na XML. Kolejny który lepiej przekształcić do PDF. Obecnie otwarty standard nie mający sensownego zastosowania.

1+ Dokumenty obrazkowe.


Comic Book – obrazki JPG lub PNG spakowane w jedno archiwum 7z (CB7), ace (CBA), rar (CBR), tar (CBT) lub zip (CBZ). W celu przeglądania na Kindle wystarczy wypakować i umieścić w jednym wspólnym podkatalogu w katalogu images (jak takiego nie ma, to trzeba samemu stworzyć).

2. Dokumenty o elastycznym wyglądzie (ang. reflowable).


PRC, MOBI – jeden z dwóch współczesnych formatów tzw. czytnikowych. Format stworzony przez MobiPocket (obecnie część Amazon). Oparty na HTML. Domyślny format Kindle dla książek spoza Kindle Store. Obecnie wypierany przez nowsze, lepsze: KF8 i KFX.

EPUB – standardowy format e-książek. Łatwo konwertowalny do formatów natywnych Kindle. Oparty na (X)HTML i CSS.

iBOOK – format książek dla ekosystemu Apple. Zmodyfikowany EPUB. Brak możliwości konwersji, ze względu na trudny do obejścia DRM (Apple FairPlay).

AZW – domyślne rozszerzenie dla książek w Kindle Store. W środku może być MOBI lub plik Topaz (PDF) z dodatkiem DRM. Obecnie wypierany przez nowsze.

AZW3, KF8 – nowszy format Kindle (Kindle Format 8). Ósma rewizja MOBI. Obsługuje podzbiór (X)HTML 5 i CSS 3. Dużo bardziej zaawansowany. Obecnie domyślny.

AZK – format Kindle tylko dla urządzeń Apple. Możliwości podobne do tych z KF8.

KFX – Kindle Format X. Dziesiąta rewizja MOBI. Zaprojektowana od zera. Wspiera inline dzielenie wyrazów, kerning, ligatury i inne elementy typograficzne, dotychczas dostępne tylko w PDF (i pokrewnych).

TXT – po prostu tekst. Ubogo formatowany. Obsługiwany przez Kindle.

(X)HTML – format będący sercem plików EPUB, MOBI i kilku innych. Nie obsługiwany bezpośrednio na Kindle. Możliwa konwersja oficjalnym narzędziem (kindlegen).

DOC, DOCX – pliki Worda. Znane i nielubiane. Do konwersji.

RTF, ODT – tekst bogato formatowany. Wystarczający do ładnego wyświetlenia beletrystyki. Ładnie konwertuje się do MOBI i KF8.

2+ Przestarzałe.


Open eBook (OPF) – protoplasta EPUB-a. Raczej na wymarciu.

Broadband eBooks – BBeB. Znany z pierwszych czytników Sony – pliki LRF i LRX (z DRM). Pojawienie się tego formatu dało pretekst do stworzenia biblioteki libprs500, która ostatecznie przekształciła się w calibre.

FictionBook – FB2 i FB3. Bardzo dobry format oparty na XML. Możliwości podobne do EPUB i KF8 (z wyjątkiem DRM – tu go nie ma). Niesłusznie traci na popularności.

Microsoft LIT – format używany przez Microsoft Reader. Wspiera DRM. Porzucony przez producenta i słusznie.

CHM – kolejny format Microsoft'u. Formalnie skompresowany HTML z DRM.

TomeRaider – TR2 i TR3. Mało popularny, niezbyt zaawansowany format. Bardzo ograniczone możliwości (coś w pół drogi pomiędzy TXT i FB2 lub EPUB).

PDB – to nie jest jeden format, a rozszerzenie używane (w kontekście e-book'ów) przez 2, dawniej bardzo popularne, formaty: Plucker (PalmOS) i iSiloX. Wspierały DRM, z czego ten drugi nie został przełamany. Pierwszy można konwertować. Drugi jest na to odporny.


To oczywiście nie jest pełna lista, szczególnie w podpunkcie o przestarzałych można by dorzucić kilka (lub kilkadziesiąt) pozycji. W przypadku czytników znaczenie mają jedynie EPUB, MOBI (i jego następcy) oraz PDF.