środa, 27 września 2017

Moja idea słownika angielsko-polskiego dla Kindle

O co chodzi?

W 2014 roku w Kindle Store pojawił się The Great English-Polish Dictionary (Wielki Słownik Angielsko-Polski) przygotowany głównie przez profesorów Dariusza Jemielniaka i Marcina Miłkowskiego. W 2015 miał konkretną aktualizację. Działanie i możliwości słownika dość obszernie zaprezentował na swoim blogu Vroo (Robert Drózd) we wpisie Porównanie WSAP z BuMato

Skoro już wspomniałem darmową alternatywę to napiszę jeszcze, że wg oficjalnych informacji zawiera on tłumaczenia dla ok. 150 tys. haseł, tymczasem WSAP ma ich 200 tys. (licząc tylko zideksowane hasła, pod którymi może być kilka definicji). W jednym i drugim przypadku to dużo, ale jak się okazuje nie wystarczająco dużo.

Rozgrzewka

Przy normalnych tekstach WSAP radzi sobie bardzo dobrze, ale schodki zaczynają się jak mamy do czynienia z różnymi neologizmami czy slangiem. Tymczasem to właśnie słówka z tej grupy mogą być najmniej zrozumiałe. Parę merytorycznych uwag pojawiło się też w komentarzach pod wpisami na temat tego słownika u Vroo.

Postanowiłem na własny użytek coś z tym zrobić. Szybko przekonałem się, że korzystając z materiałów udostępnionych na wolnych licencjach nie osiągnę zamierzonego celu. Próbowałem użyć wiktionary i jeszcze jakiś otwartych opracowań, ale nie wytrzymały one prób w realnym (niesprzyjającym) środowisku. Ostatecznie treść „pożyczyłem sobie” z serwisu LING.PL, czyli tego związanego z autorami słownika WSAP.

Okazało się że treść umieszczona w serwisie jest bardzo łatwa do analizy – wystarczy podstawowa znajomość grep-a, sed-a, perl-a (nie udało mi się tego uniknąć) i podobnych prostych narzędzi. Sama zawartość zawiera kilka różnych błędów (np. posklejane słowa), ale są one specyficznie formatowane, co pozwala na skorygowanie ich na etapie oczyszczania bazy tekstowej.

Runda wstępna

Vroo zwracał uwagę na kilka nieoczywistych słów. Dla formalności zweryfikowałem je u siebie. Kilka zrzutów poniżej:

W przytoczonym wpisie Vroo pisał:

sporo słów Martin po prostu stworzył, np. „sellsword” jako synonim najemnika i szukanie ich mija się z celem.

Nie bardzo wiem czemu mija się z celem, szczególnie jeśli takie słówko wystąpi odseparowane (np. jako pozycja jakiejś listy), bez kontekstu. Oczywiście na okoliczność właśnie tego typu haseł zdecydowałem się na budowę prywatnego słownika.

W komentarzach pojawiały się natomiast różnego rodzaju pretensje związane z frazami wieloczłonowymi, odmianami itp. U mnie wygląda to tak:

I na koniec przedstawiciel slangu, czyli coś co „przelało czarę goryczy” i ostatecznie przesądziło o stworzeniu tego „potworka”…

Narada przed werdyktem

Robert pisał również:

Natomiast trzeba jeszcze podkreślić, że w tej akurat książce było trochę słów, których nie ma żaden ze słowników na moim Kindle (w tym Oxford i Merriam).

Chciałbym się dowiedzieć jakie to słowa i czy mój słownik sobie z nimi poradzi.


Dalej pisał zaś:

Widać tu wyraźnie różnicę między słownikiem wygenerowanym automatycznie, a takim, który od początku do końca miał opiekę redaktorską.

Częściowo zgadza się. WSAP ma dobrą opiekę redaktorską, zawiera zapis wymowy, ale z drugiej strony przegrywa zasobnością słownictwa.

Werdykt

Wyżej omówiony „słowniczek” ma 445 920 bazowych haseł (1 222 552 lokacji, bez wstępów, przedsłowia, posłowia i innych zbędnych elementów), a licząc wszystkie warianty wychodzi blisko 3 mln słów/zwrotów (być może nawet więcej, liczyłem zgrubnie). Jak doliczymy do tego odmiany to wchodzimy w absurdalne liczby (większe niż oficjalnie podawana ilość słów w języku angielskim). Nadal z pewnością są „luki”, ale teraz WSAP i moja implementacja tworzą kombinację pokrywającą wszystko z czym się spotkałem w jakichkolwiek tekstach.


Może kiedyś doczekamy się WSAP Extended, który będzie miał tak duży zasób słów i profesjonalną obsługę redaktorską? Po uporządkowaniu i dołożeniu wymowy byłby to prawdziwy „potwór”!