niedziela, 5 czerwca 2016

Słownik esperancko – polski

Budowa

Baza słów i tłumaczeń pochodzi z otwartoźródłowego programu Esperantilo. Z drobną poprawką, dwóch odkrytych błędnych tłumaczeń. Baza odmian to praca własna, wykonana bez głębszej znajomości języka, za to z wskazówkami od internauty używającego nicku "fringel". Przygotowałem ją wykorzystując fakt istnienia jednoznacznych końcówek dla rzeczowników, przymiotników czy czasowników (tu uwzględniłem też imiesłowy), które przy odmianie uwidaczniają się jako przyrostki dołączone do podstawowego morfemu. Takie podejście pozwala na zbudowanie poprawnej i dużej objętościowo bazy odmian. W czasie rozbudowanych testów nie natrafiłem na brak odmiany istniejącego hasła.

Efekt

Krótka charakterystyka:

  • format MOBI, poprawnie działający na Kindle – przechodzi wysyłkę mailową;
  • zawiera okładkę;
  • rozmiar: 1,1 MB (1 121 064 bajtów);
  • ilość bazowa słów: 30 089;
  • działają odmiany;
  • pokrycie języka literackiego: > 99% (na próbce 1000 kolejnych wyrazów z losowej powieści).

Przykłady działania





Link do pobrania

SŁOWNIK

5 komentarzy:

  1. Dziękuję za Słownik. Wreszcie się doczekałem, i to całkiem niespodziewanie!
    Drobna uwaga: na zrzutach ekranu słowo "virina" jest błędnie tłumaczone na "męski". Powinno być "kobiecy". Od wyrazów trybu męskiego tworzymy rodzaj żeński przez dodanie przyrostka -in-. Ale podejrzewam, że Esperantilo zawiera w bazie błędne tłumaczenie.
    I jeszcze sugestia od amatora komputerowego. Gdyby była możliwość napisania odpowiedniego skryptu, to trafność wyszukiwań by się jeszcze znacznie zwiększyła. Chodzi o imiesłowy czynne i bierne. Weźmy dla przykładu słowo "legi" (czytać). Istnieje wiele słów pochodnych utworzonych poprzez dodanie przyrostków -ant- albo -at- (imiesłów czynny albo bierny). Np leganto - ten który czyta, czytelnik; leganta - taki, który czyta, czytający; legante - czytając; legata - czytany(a); legita - czytany w przeszłości, przeczytany; legota - mający być czytany w przyszłości;itp. W zasadzie czytelnik znający gramatykę esperanta zainteresowany jest odnalezieniem w słowniku rdzenia wyrazowego "leg-i". Niektóre najczęściej używane imiesłowy w wielu słownikach występują jako oddzielne hasło (lernanto), ale w literaturze czasami spotyka się też inne imiesłowy (np te wymienione wcześniej). Chodzi mi o to, żeby wyszukiwanie uwzględniało występowanie cząstki wyrazowej imiesłowa (-int-, -ant-, -ont-, -it-, -at-, -ot-) a jako wynik zwracało rdzeń wyrazu w bezokoliczniku.
    Być może przez to sam plik słownika by nieco "spuchł" ale skuteczność wyszukiwania znacznie by wzrosła (chociaż już teraz jest zaskakująco wysoka).
    W przypadku pytań jestem gotów do odpowiedzi na wszelkie pytania językowe.
    - Czesław (malpan (at) o2.pl)

    OdpowiedzUsuń
    Odpowiedzi
    1. Wg Esperantilo "virina" to męski, natomiast dopiero "virineca" to kobiecy. Porównałem to z innym źródłami i niestety nie znajduje to potwierdzenia. Moja (nie)znajomość języka nie pozwala na wyłapywanie takich błędów. Jeśli w tej bazie jest ich dużo, to muszę poszukać czegoś solidniejszego. Do tego musi być oparte na wolnej licencji, więc tych źródeł za wiele nie ma.

      Jeśli chodzi o imiesłowy czynne i bierne to problem wynika również z braku dobrej bazy słów. Oczywiście mogę uwzględnić przytoczone konstrukcje jako odmiany dla czasowników, ale muszę dostać więcej informacji o ich konstruowaniu. Czy np. istnieją takie słowa jak "cerbumante" lub "ebliganta"?

      Powstanie nowa lepsza wersja, z tym że nienajwygodniej się przygotowuje słownik w nieznanym języku.

      Usuń
    2. Myślę, że "virina" to wyjątkowy błąd w bazie Esperantilo (vir - mężczyzna + in - samica + a - przymiotnik). Dotychczas nie wyłapałem innego. Gdyby nie został wyeksponowany na zrzucie ekranu, to nie wiedziałbym o jego istnieniu.
      Teraz imiesłowy. Oczywiście podane przykłady istnieją i są poprawne. Cerbumante - główkując (w sensie angażowania swojego mózgu do pracy, ebliganta - umożliwiający. Problem polega na tym, że każdy może samodzielnie utworzyć dowolne wyrażenie stosując zasady słowotwórstwa, a powstałe wyrażenia będą natychmiast zrozumiałe dla odbiorcy. Niestety trudno jest przewidzieć, co będzie utworzone, żeby można było to umieścić w słowniku. Czasami rozumiem znaczenie wyrażenia, ale nie ma odpowiednika w języku polskim (może w jakimś innym egzotycznym). Zasady tworzenia wyrazów sprowadzają się do przyklejania do rdzenia wyrazowego innych cząstek w postaci przedrostków i przyrostków (typowy język aglutynacyjny). Nie ma wyjątków, więc jeśli spotkam "pezajn klabojn" to wiem, że to przymiotnik i rzeczownik w liczbie mnogiej i w bierniku (konkretnie: ciężkie maczugi). Takich przedrostków i przyrostków nie jest wiele, a w sumie cała gramatyka opiera się na 16 zasadach.
      Spotyka się też wyrazy złożone np neĝtavolo (neĝo - śnieg + tavolo - warstwa). Pierwszy rdzeń jest wyrazem określającym, a drugi wyrazem określanym, głównym. Ale mogę też powiedzieć neĝa tavolo. W sumie słowotwórstwo w Esperanto jest bardzo regularne, "komputerowe", raczej przypomina zabawę wyrazami.
      To tyle, nie chcę mieszać nadmiarem informacji. Jestem gotowy wyjaśnić wszelkie wątpliwości.
      Pozwoliłem sobie na informację o projekcie na lernu.net

      Usuń
    3. Skoryguję ręcznie tę "virinę". Imiesłowy też zrobię z nadmiarem (mogą pojawić się nieistniejące słowa). Uaktualnię słownik jeszcze w tym tygodniu. Potem spróbuję uzupełnić słownictwo hasłami z innych źródeł.

      Usuń
  2. Witam.

    Przerobiłem słownik udostępniany przez Pana mgr Jerzy Wałaszek (http://eduinf.waw.pl/esp/util/vortaro/index.php licencja GNU Free Documentation License.) na format mobi, stardict, QuckDic łącznie z odmianami (imiesłowy też są :)). Jeżeli interesują Pana słowniki łącznie ze sposobem przetwarzania proszę o info na adres dutkiw1@poczta.onet.pl.

    Z poważaniem

    Włodzimierz Dutkiewicz

    OdpowiedzUsuń