Lehekülje algusesse

Emakeele Seltsis



Sõnaraamatute teemalist kõnekoosolekut peeti kaks korda: 11. detsembril 2014 Tallinnas ja 22. jaanuaril 2015 Tartus. Mõlemas oli kolm elektroonilisi sõnaraamatuid tutvustavat ettekannet.

Maria Tuulik ja Kristina Koppel esitlesid „Eesti keele põhisõnavara sõnastiku” elektroonilist liidest. Pabersõnastik ilmus 2014. aasta märtsis, veebis on teosele avatud juurdepääs olnud alates oktoobrist. Kesktaset katva sõnaraamatu 5000 märksõna valiku aluseks on olnud sagedus eesti keele tekstikorpustes, raamatu metakeel on võimalikult lihtne ja läbipaistev, tähenduste seletamisel on kasutatud ainult neid sõnu, mis on sõnastikus endas märksõnadena esitatud. Eriliseks teeb sõnastiku asjaolu, et siin on välja toodud kollokatsioonid koos näitelausetega (nt päike paistab), samuti märksõna vajalikud rektsioonid (nt usk kellesse, millesse). Esitatud on ka sünonüümid ja antonüümid ning paronüümid, osal märksõnadest on juures pildilehed või õppekommentaarid, mis annavad lisainfot sõna kasutamise kohta, nt arvsõnade juures. E-versioonis on kättesaadavad ka õppelehed, nt kirjavahemärgid, avaldused jne. Koostajad rõhutavad kaht olulist erijoont: kogu e‑sõnastiku sisu on morfoloogiliselt märgendatud, st iga sõna juures on peidus tema algvorm, kasutatud on lemmasid, samuti on e-sõnastik varundatud heliga ja videoga. 

Jelena Kallas tutvustas oma ettekandes „Korpusleksikograafia väljavaateid eesti keele kollokatsioonisõnastiku näitel” B2- ja C1-taseme keeleõppijale, samuti emakeelsele kõnelejale mõeldud kol-lokatsioonisõnaraamatu projekti, mil-lega alustati Eesti Keele Instituudis 2014. aastal. Olulise uuendusena kasutatakse selle sõnaraamatu puhul esimest korda automaatset koostamist, kus abiks on tarkvaraprogramm Sketch Engine. Plaanitud on 10 000 märksõna, aluseks eesti keele ühendkorpus etTenTen. 

Sõnaraamatu andmebaasi korpuspõhisel automaatsel genereerimisel tekivad järgmised infoüksused: märksõna, sõnaliik, esinemissagedus, kollokaadid, kollokatsioonide koosesinemissagedus ja esilduvuse indeks, näitelaused (alla 11 000 märksõna, grammatilisi suhteid 83 000, kollokaate 494 000, näitelauseid 2,5 mln). Teises etapis toimetatakse andmebaas käsitsi üle ja täiendatakse, samuti luuakse veebiliides. Märksõnastikku kuuluvad substantiivid, verbid, adjektiivid ja mõningal määral adverbe. Iga kollokatsiooni juures on näitelause, mis vastab eesti keele GDEX-i (ingl good dictionary excample) klassifikaatoritele. Kollokatsioonisõnaraamatu eesmärk on aidata õppijal valida õigeid ühendusi, et tekiks loomulik keel (nt ilus naine, allergiline reaktsioon, päikest võtma). Kollokatsioonisõnaraamat muutub kasutajatele nähtavaks etapiviisiliselt ja jääb tõenäoliselt ainult veebisõnastikuks. Mahukas teos peaks valmima 2018. aastal. 

Tõnis Nurk andis ülevaate sõnaraamatute märksõnade tähenduste ühendamisest. Sõnaraamatud erinevad oma struktuurilt ja sisu poolest ning sageli märksõnal tähendus üldse puudub, nt ÕS-is. Sõnaraamatute elektroonilises andmebaasis on võimalik erinevate allikate märksõnade tähendused siduda. Osa tähendusi seotakse automaatselt, kuid osa ettevõtmisest on orienteeritud ühisloomele ja igaühe panus rahva-hankesse on oodatud. Selleks loodud töö-riist asub aadressil www.eki.ee/dict/tab/. Aluseks on koostamisel olev üheköiteline seletav sõnaraamat, täpsemalt selle toimetatud artiklid. Potentsiaalsed alused on Eesti Wordnet (inglise-eesti sõnastiku sidumiseks) ja morfoloogiline andme-baas (nt ÕS-i sidumiseks). Ühendamiseks pakutakse mitme tähendusega märksõnu ja kuvatakse andmebaasis juba märgitud seosed. Prioriteediks on konkreetne vajadus, nt vene vasted põhisõnavara sõnastiku jaoks, mis peaks valmima 2015. aasta lõpuks. Töö käib riikliku keeletehnoloogia programmi projekti „Leksikaalsete ressursside tööriistad (2014–2017)” raames.