środa, 27 września 2017

Moja idea słownika angielsko-polskiego dla Kindle

O co chodzi?

W 2014 roku w Kindle Store pojawił się The Great English-Polish Dictionary (Wielki Słownik Angielsko-Polski) przygotowany głównie przez profesorów Dariusza Jemielniaka i Marcina Miłkowskiego. W 2015 miał konkretną aktualizację. Działanie i możliwości słownika dość obszernie zaprezentował na swoim blogu Vroo (Robert Drózd) we wpisie Porównanie WSAP z BuMato

Skoro już wspomniałem darmową alternatywę to napiszę jeszcze, że wg oficjalnych informacji zawiera on tłumaczenia dla ok. 150 tys. haseł, tymczasem WSAP ma ich 200 tys. (licząc tylko zideksowane hasła, pod którymi może być kilka definicji). W jednym i drugim przypadku to dużo, ale jak się okazuje nie wystarczająco dużo.

Rozgrzewka

Przy normalnych tekstach WSAP radzi sobie bardzo dobrze, ale schodki zaczynają się jak mamy do czynienia z różnymi neologizmami czy slangiem. Tymczasem to właśnie słówka z tej grupy mogą być najmniej zrozumiałe. Parę merytorycznych uwag pojawiło się też w komentarzach pod wpisami na temat tego słownika u Vroo.

Postanowiłem na własny użytek coś z tym zrobić. Szybko przekonałem się, że korzystając z materiałów udostępnionych na wolnych licencjach nie osiągnę zamierzonego celu. Próbowałem użyć wiktionary i jeszcze jakiś otwartych opracowań, ale nie wytrzymały one prób w realnym (niesprzyjającym) środowisku. Ostatecznie treść „pożyczyłem sobie” z serwisu LING.PL, czyli tego związanego z autorami słownika WSAP.

Okazało się że treść umieszczona w serwisie jest bardzo łatwa do analizy – wystarczy podstawowa znajomość grep-a, sed-a, perl-a (nie udało mi się tego uniknąć) i podobnych prostych narzędzi. Sama zawartość zawiera kilka różnych błędów (np. posklejane słowa), ale są one specyficznie formatowane, co pozwala na skorygowanie ich na etapie oczyszczania bazy tekstowej.

Runda wstępna

Vroo zwracał uwagę na kilka nieoczywistych słów. Dla formalności zweryfikowałem je u siebie. Kilka zrzutów poniżej:

W przytoczonym wpisie Vroo pisał:

sporo słów Martin po prostu stworzył, np. „sellsword” jako synonim najemnika i szukanie ich mija się z celem.

Nie bardzo wiem czemu mija się z celem, szczególnie jeśli takie słówko wystąpi odseparowane (np. jako pozycja jakiejś listy), bez kontekstu. Oczywiście na okoliczność właśnie tego typu haseł zdecydowałem się na budowę prywatnego słownika.

W komentarzach pojawiały się natomiast różnego rodzaju pretensje związane z frazami wieloczłonowymi, odmianami itp. U mnie wygląda to tak:

I na koniec przedstawiciel slangu, czyli coś co „przelało czarę goryczy” i ostatecznie przesądziło o stworzeniu tego „potworka”…

Narada przed werdyktem

Robert pisał również:

Natomiast trzeba jeszcze podkreślić, że w tej akurat książce było trochę słów, których nie ma żaden ze słowników na moim Kindle (w tym Oxford i Merriam).

Chciałbym się dowiedzieć jakie to słowa i czy mój słownik sobie z nimi poradzi.


Dalej pisał zaś:

Widać tu wyraźnie różnicę między słownikiem wygenerowanym automatycznie, a takim, który od początku do końca miał opiekę redaktorską.

Częściowo zgadza się. WSAP ma dobrą opiekę redaktorską, zawiera zapis wymowy, ale z drugiej strony przegrywa zasobnością słownictwa.

Werdykt

Wyżej omówiony „słowniczek” ma 445 920 bazowych haseł (1 222 552 lokacji, bez wstępów, przedsłowia, posłowia i innych zbędnych elementów), a licząc wszystkie warianty wychodzi blisko 3 mln słów/zwrotów (być może nawet więcej, liczyłem zgrubnie). Jak doliczymy do tego odmiany to wchodzimy w absurdalne liczby (większe niż oficjalnie podawana ilość słów w języku angielskim). Nadal z pewnością są „luki”, ale teraz WSAP i moja implementacja tworzą kombinację pokrywającą wszystko z czym się spotkałem w jakichkolwiek tekstach.


Może kiedyś doczekamy się WSAP Extended, który będzie miał tak duży zasób słów i profesjonalną obsługę redaktorską? Po uporządkowaniu i dołożeniu wymowy byłby to prawdziwy „potwór”!

6 komentarzy:

  1. "Chciałbym się dowiedzieć jakie to słowa i czy mój słownik sobie z nimi poradzi."

    No, tego nie wynotowałem, ale jak piszę w tamtym artykule: chodziło o 17 rozdział ze „Starcia królów” - tak więc możesz wziąć ten rozdział i sprawdzać słowa których nie rozumiesz. :-)

    OdpowiedzUsuń
    Odpowiedzi
    1. Nie mam tej książki po angielsku i nie czuję się na siłach by czytać w tej wersji językowej, więc raczej nie nabędę. Nie wiem też jak duży jest ten rozdział, ale jeśli taki jak sobie wyobrażam to sprawdzenie wszystkich słów, których nie zrozumiem, może potrwać długie tygodnie. Może jest jednak coś „wrednego” co udało Ci się zapamiętać? Szczególnie interesujące mogą być odmiany bardzo nietypowych słów, bo tutaj czuję że jest jeszcze pole do poprawy.

      Pobrałem próbkę (rozdział 2) – może i tu znajdą się jakieś „perełki”.

      Usuń
  2. Athame, czy Twoja wersja "extended" jest skądś do pobrania? (mam już oryginalną wersję WSAP zakupioną na Amazonie)

    OdpowiedzUsuń
    Odpowiedzi
    1. Jak moja wersja? Poza wczesną betą nie mam jeszcze słownika. Przygotowuję na własny użytek „coś” porządnego, a zanim to się „ugotuje” to minie trochę czasu – inne zajęcia rozpraszają prace. Pozostaje jeszcze kilka problemów, zarówno natury technicznej, jak i dotyczących odmian oraz wymowy dla części slangu i regionalnych dialektów (lub np. nowomowy Martina i jemu podobnych).

      Jeśli miałbym coś udostępnić do pobrania, to najpierw musiałbym oczyścić z treści objętych prawami autorskimi. Nie jest to wykluczone, a i sam słownik merytorycznie „dawałby radę”, ale to ogrom pracy, na którą zwyczajnie nie mam ochoty.

      W niedalekiej przyszłości sporządzę raport z prac nad własnym słownikiem (kwestia kilku tygodni). „Gotowca” tam nie będzie (z oczywistych względów), ale przy odrobinie wiedzy da się odtworzyć od zera mój proces. Wskażę tam kluczową cześć źródeł, nie omieszkując wyrazić swojej dezaprobaty wobec pewnych zagrywek.

      Usuń
  3. Nawet nie wiedziałam, że jest w ogóle opcja tłumaczenia w dla Kidlea, teraz widzę, że jest ale raczej w średniej wersji.

    OdpowiedzUsuń
  4. 59 year-old Engineer I Oates Borghese, hailing from Manitouwadge enjoys watching movies like Divine Horsemen: The Living Gods of Haiti and Water sports. Took a trip to Historic Centre of Salvador de Bahia and drives a Ferrari 250 GT Berlinetta Competizione. przydatne tresci

    OdpowiedzUsuń