Pokazywanie postów oznaczonych etykietą Słownik. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą Słownik. Pokaż wszystkie posty

środa, 27 września 2017

Moja idea słownika angielsko-polskiego dla Kindle

O co chodzi?

W 2014 roku w Kindle Store pojawił się The Great English-Polish Dictionary (Wielki Słownik Angielsko-Polski) przygotowany głównie przez profesorów Dariusza Jemielniaka i Marcina Miłkowskiego. W 2015 miał konkretną aktualizację. Działanie i możliwości słownika dość obszernie zaprezentował na swoim blogu Vroo (Robert Drózd) we wpisie Porównanie WSAP z BuMato

Skoro już wspomniałem darmową alternatywę to napiszę jeszcze, że wg oficjalnych informacji zawiera on tłumaczenia dla ok. 150 tys. haseł, tymczasem WSAP ma ich 200 tys. (licząc tylko zideksowane hasła, pod którymi może być kilka definicji). W jednym i drugim przypadku to dużo, ale jak się okazuje nie wystarczająco dużo.

Rozgrzewka

Przy normalnych tekstach WSAP radzi sobie bardzo dobrze, ale schodki zaczynają się jak mamy do czynienia z różnymi neologizmami czy slangiem. Tymczasem to właśnie słówka z tej grupy mogą być najmniej zrozumiałe. Parę merytorycznych uwag pojawiło się też w komentarzach pod wpisami na temat tego słownika u Vroo.

Postanowiłem na własny użytek coś z tym zrobić. Szybko przekonałem się, że korzystając z materiałów udostępnionych na wolnych licencjach nie osiągnę zamierzonego celu. Próbowałem użyć wiktionary i jeszcze jakiś otwartych opracowań, ale nie wytrzymały one prób w realnym (niesprzyjającym) środowisku. Ostatecznie treść „pożyczyłem sobie” z serwisu LING.PL, czyli tego związanego z autorami słownika WSAP.

Okazało się że treść umieszczona w serwisie jest bardzo łatwa do analizy – wystarczy podstawowa znajomość grep-a, sed-a, perl-a (nie udało mi się tego uniknąć) i podobnych prostych narzędzi. Sama zawartość zawiera kilka różnych błędów (np. posklejane słowa), ale są one specyficznie formatowane, co pozwala na skorygowanie ich na etapie oczyszczania bazy tekstowej.

Runda wstępna

Vroo zwracał uwagę na kilka nieoczywistych słów. Dla formalności zweryfikowałem je u siebie. Kilka zrzutów poniżej:

W przytoczonym wpisie Vroo pisał:

sporo słów Martin po prostu stworzył, np. „sellsword” jako synonim najemnika i szukanie ich mija się z celem.

Nie bardzo wiem czemu mija się z celem, szczególnie jeśli takie słówko wystąpi odseparowane (np. jako pozycja jakiejś listy), bez kontekstu. Oczywiście na okoliczność właśnie tego typu haseł zdecydowałem się na budowę prywatnego słownika.

W komentarzach pojawiały się natomiast różnego rodzaju pretensje związane z frazami wieloczłonowymi, odmianami itp. U mnie wygląda to tak:

I na koniec przedstawiciel slangu, czyli coś co „przelało czarę goryczy” i ostatecznie przesądziło o stworzeniu tego „potworka”…

Narada przed werdyktem

Robert pisał również:

Natomiast trzeba jeszcze podkreślić, że w tej akurat książce było trochę słów, których nie ma żaden ze słowników na moim Kindle (w tym Oxford i Merriam).

Chciałbym się dowiedzieć jakie to słowa i czy mój słownik sobie z nimi poradzi.


Dalej pisał zaś:

Widać tu wyraźnie różnicę między słownikiem wygenerowanym automatycznie, a takim, który od początku do końca miał opiekę redaktorską.

Częściowo zgadza się. WSAP ma dobrą opiekę redaktorską, zawiera zapis wymowy, ale z drugiej strony przegrywa zasobnością słownictwa.

Werdykt

Wyżej omówiony „słowniczek” ma 445 920 bazowych haseł (1 222 552 lokacji, bez wstępów, przedsłowia, posłowia i innych zbędnych elementów), a licząc wszystkie warianty wychodzi blisko 3 mln słów/zwrotów (być może nawet więcej, liczyłem zgrubnie). Jak doliczymy do tego odmiany to wchodzimy w absurdalne liczby (większe niż oficjalnie podawana ilość słów w języku angielskim). Nadal z pewnością są „luki”, ale teraz WSAP i moja implementacja tworzą kombinację pokrywającą wszystko z czym się spotkałem w jakichkolwiek tekstach.


Może kiedyś doczekamy się WSAP Extended, który będzie miał tak duży zasób słów i profesjonalną obsługę redaktorską? Po uporządkowaniu i dołożeniu wymowy byłby to prawdziwy „potwór”!

poniedziałek, 27 czerwca 2016

Słownik polsko-esperancki

Budowa

Podobnie jak poprzednio, wykorzystując pracę Pana Włodzimierza Dutkiewicza, opracowałem słownik polsko-esperancki. Tu również źródłem był słownik udostępniony na wolnej licencji przez Pana mgr Jerzego Wałaszka (http://eduinf.waw.pl/esp/util/vortaro/index.php). Odmiany zaś pochodzą z serwisu sjp.pl.

Efekt

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 8,2 MB (8 627 064 bajtów);
  • ilość bazowa słów/zwrotów: 128 067 (w tym kilkaset wielowariantowych);
  • działają odmiany;

Link do pobrania

SŁOWNIK

niedziela, 26 czerwca 2016

Nowy słownik esperancko-polski

Budowa

W oparciu o zachętę oraz z wykorzystaniem pracy Pana Włodzimierza Dutkiewicza opracowałem nową wersję słownika esperancko-polskiego. W tej wersji źródłem był słownik udostępniony na wolnej licencji przez Pana mgr Jerzego Wałaszka (http://eduinf.waw.pl/esp/util/vortaro/index.php). Bazę słów udostępnioną przez Pana Włodzimierza potraktowałem swoimi skryptami, które utworzyły bazę odmian (wg mojego zamysłu bliźniaczo podobnego do tego co zrobił Pan Włodzimierz), przeorganizowały trochę hasła (zespojenie kilku takich samych haseł z róznymi definicjami, w jedną z wariantami itp.) oraz zmieniły trochę wygląd znaków specjalnych.

Efekt

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 7,1 MB (7 459 264 bajtów);
  • ilość bazowa słów/zwrotów: 127 838 (w tym kilkaset wielowariantowych);
  • działają odmiany;
  • pokrycie języka literackiego: blisko 100% (sprawdziłem losowo ponad 100 słów – wszystkie znalezione w słowniku).

Link do pobrania

SŁOWNIK

niedziela, 5 czerwca 2016

Słownik esperancko-polski

Budowa

Baza słów i tłumaczeń pochodzi z otwartoźródłowego programu Esperantilo. Z drobną poprawką, dwóch odkrytych błędnych tłumaczeń. Baza odmian to praca własna, wykonana bez głębszej znajomości języka, za to z wskazówkami od internauty używającego nicku "fringel". Przygotowałem ją wykorzystując fakt istnienia jednoznacznych końcówek dla rzeczowników, przymiotników czy czasowników (tu uwzględniłem też imiesłowy), które przy odmianie uwidaczniają się jako przyrostki dołączone do podstawowego morfemu. Takie podejście pozwala na zbudowanie poprawnej i dużej objętościowo bazy odmian. W czasie rozbudowanych testów nie natrafiłem na brak odmiany istniejącego hasła.

Efekt

Krótka charakterystyka:

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 1,1 MB (1 121 064 bajtów);
  • ilość bazowa słów: 30 089;
  • działają odmiany;
  • pokrycie języka literackiego: > 99% (na próbce 1000 kolejnych wyrazów z losowej powieści).

Przykłady działania





Link do pobrania

SŁOWNIK

piątek, 3 czerwca 2016

SJP dla Kobo i PocketBook

Ostrzeżenie!

Słowniki te zbudowane są na bazie strony sjp.pl. Aktualne w chwili pisania tego postu. Ze względu na ograniczenia formatów słowników zarówno dla czytników Kobo, jak i PocketBook, są one zbudowane inaczej niż wersja dla Kindle. Nie posiadam aktualnie żadnego z czytników tych marek, więc nie gwarantuję w 100% poprawnego działania. Nie pogniewam się jeśli będę dostawał jakieś informacje zwrotne na temat funkcjonowania słowników.

Ogólna charakterystyka

122946 haseł, w tym wiele zawiera w sobie więcej niż jedną niezależną definicję. Pochodna budowy słownika na stronach sjp.pl. Osiągnięcie większej estetyki wymaga ręcznych zmian, co przy ciągle "żywym" projekcie (strona sjp.pl zmienia się) jest mało sensowne.

Wersja dla Kobo ma rozmiar 5,4 MB, a dla PocketBook'ów 5 MB. Zawartość taka sama, różnica wynika z innej metody kompresji.

Gotowce do pobrania

Wersja dla Kobo:
Słownik języka polskiego dla czytników Kobo

Wersja dla PocketBook'ów:
Słownik języka polskiego dla czytników PocketBook