Search
|
Est
Back to top

Corpus-based quantitative dialectology

Keywords: Estonian dialects, research methods, dialect corpus, variation studies

 

The article gives an overview of the directions and trends in dialectology with an emphasis on Estonian dialectology. We compare different methods and approaches for studying local language varieties: traditional dialectology based on the historical-comparative method, atlas-based dialectology, variation studies which stem from variationist sociolinguistics, and corpus-based approaches, which have been gaining momentum in recent years thanks to the compilation and development of the Estonian Dialect Corpus. In the article, we give an overview of the type of data and methods these approaches use. While traditional dialectology collected abundant qualitative data, which were based on texts and questionnaires, in order to compile dialect descriptions, dictionaries and atlases, newer, corpus-based methods use frequency data obtained from the corpus for comparing the dialects, model­ing the variation, and examining aggregate distributions of linguistic phenomena in the corpus. The latter means comparing dialects and their linguistic distances on the basis of analysing the distributions of many linguistic features. The methodology used in corpus-based quantitative dialectology is rich and constantly developing, enabling the researcher to account for more and more aspects underlying linguistic variation.

Liina Lindström (b. 1973), PhD, University of Tartu, Institute of Estonian and General Linguistics, Associate Professor of Estonian Language, liina.lindstrom@ut.ee

Maarja-Liisa Pilvik (b. 1989), PhD Student, University of Tartu, Faculty of Arts and Humanities, Institute of Estonian and General Linguistics, Junior Research Fellow, maarja-liisa.pilvik@ut.ee

 

References

Võrguviited

ArchiMob = Archimob corpus of Swiss German, University of Zurich. https://www.spur.uzh.ch/en/departments/research/textgroup/ArchiMob.html (24. VIII 2018).

ASIt = Atlante Sintattico d’Italia, Università di Padova, Università di Venezia. http://asit.maldura.unipd.it (24. VIII 2018).

DynaSAND = Dynamic Syntactic Atlas of the Dutch dialects. Sjef Barbiers jt 2006. Amsterdam: Meertens Institute. http://www.meertens.knaw.nl/sand/ (24. VIII 2018).

EMK = http://www.murre.ut.ee/murdekorpus/ (24. VIII 2018).

EMSA = http://www.murre.ut.ee/arhiiv/ (24. VIII 2018).

EMSUKA = http://emsuka.eki.ee/ (24. VIII 2018).

FRED = Freiburg English Dialect Corpus. Albert-Ludwigs-Universität Freiburg. http://www2.anglistik.uni-freiburg.de/institut/lskortmann/FRED/ (24. VIII 2018).

GDC = Georgian Dialect Corpus. http://corpora.co/ (24. VIII 2018).

Lauseopin arkisto = Turun yliopisto, kieli- ja käännöstieteiden laitos, Kotimaisten kielten keskus, 1985. Lauseopin arkiston murrekorpuksen Helsinki-Korp-versio [tekstikorpus]. Kielipankki. http://urn.fi/urn:nbn:fi:lb-2016040702 (24. VIII 2018).

MKWEB = http://www.murre.ut.ee/mkweb/ (24. VIII 2018).

REDE = Regionalsprache.de. Akademie der Wissenschaften und der Literatur – Mainz. https://www.regionalsprache.de/en/Default.aspx (24. VIII 2018).

RuRaKe = http://rurake.keeleressursid.ee/index.php/dialect-maps/ (24. VIII 2018).

 

Kirjandus

A r i s t e, Paul 1956. Läänemere keelte kujunemine ja vanem arenemisjärk. – Eesti rahva etnilisest ajaloost. Toim Harri Moora. Tallinn: Eesti Riiklik Kirjastus, lk 5–23.

B a a y e n, R. Harald 2008. Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press.

B r e i m a n, Leo, F r i e d m a n, Jerome, O l s h e n, Richard A., S t o n e, Charles J. 1984. Classification and Regression Trees. Belmont, Calif.: Wadsworth.

C a r r i l h o, Ernestina 2010. Tools for dialect syntax: The case of CORDIAL-SIN (An annotated corpus of Portuguese dialects). – Anuario del Seminario de Filología Vasca „Julio de Urquijo”, nr 53, lk 57–70.

C e d e r g r e n, Henrietta J., S a n k o f f, David 1974. Variable rules: Performance as a statistical reflection of competence. – Language, kd 50, nr 2, lk 333–355.

E v e r i t t, Brian S., L a n d a u, Sabine, L e e s e, Morven, S t a h l, Daniel 2011. Cluster Analysis. 5., parandatud ja täiendatud väljaanne. Chichester: Wiley-Black­well.

G o e b l, Hans 2018. Dialectometry. – The Handbook of Dialectology. Toim ­Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 123–142.

G r a f m i l l e r, Jason, S z m r e c s a n y i, Benedikt, R ö t h l i s b e r g e r, Melanie, H e l l e r, Benedikt (toim) 2017. Probabilistic Grammars: Syntactic Variation in a Comparative Perspective. – Special Collection. Glossa: A Journal of General Linguistics. https://www.glossa-journal.org/collections/special/probabilistic-grammars-syntactic-variation/ (24. VIII 2018).

G r e e n a c r e, Michael 2007. Correspondence Analysis in Practice. 2. tr. Boca Raton Fla.: CRC Press.

G r i e s, Stefan Th. 2009. Statistics for Linguistics with R. A Practical Introduction. Berlin: De Gruyter Mouton.

G r i e v e, Jack 2014. A comparison of statistical methods for the aggregation of regional linguistic variation. – Aggregating Dialectology, Typology, and Register Analysis: Linguistic Variation in Text and Speech. Toim Benedikt Szmrecsanyi, Bernhard Wälchli. Berlin: Walter de Gruyter, lk 53–88.

G r i e v e, Jack 2018. Spatial statistics for dialectology. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 415–433.

H e e r i n g a, Wilber, P r o k i ć, Jelena 2018. Computational Dialectology. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 330–347.

H e n n o s t e, Tiit, M u i s c h n e k, Kadri 2000. Eesti kirjakeele korpuse tekstide valiku ja märgendamise põhimõtted ning kahe allkeele võrdluse katse. − Arvutuslingvistikalt inimesele. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1.) Tartu: Tartu Ülikooli Kirjastus, lk 183−317.

H e y, Tony, T a n s l e y, Stewart, T o l l e, Kristin M. 2009. The Fourth Paradigm: Data-Intensive Scientific Discovery. Kd 1. Redmond, WA: Microsoft Research.

H o n k o l a, Terhi 2016. Macro- and Microevolution of Languages: Exploring Linguistic Divergence with Approaches from Evolutionary Biology. (Turun Yliopiston julkaisuja – Annales Universitatis Turkuensis. Ser. C AII.) Turku: Turun yliopisto.

H o y n i n g e n-H u e n e, Paul 2018. The Human Sciences between Quantification and Hermeneutics. – Loeng Tartu Ülikoolis 6. II 2018.

I k o la, Osmo 1960. Perfektin ja pluskvamperfektin synnystä. – Virittäjä, kd 64, lk 364–368.

J a n d a, Laura A. (toim) 2013. Cognitive Linguistics – The Quantitative Turn: The Essential Reader. Walter de Gruyter.

J o h a n n e s s e n, Janne Bondi, P r i e s t l e y, Joel, H a g e n, Kristin, Å f a r l i, Tor Anders, V a n g s n e s, Øystein Alexander 2009. The Nordic Dialect Corpus – an advanced research tool. – Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009. (NEALT Proceedings Series 4.) Toim K. Jokinen, E. Bick. Odense: Northern European Association for Language Technology (NEALT), lk 73–80.

J u h k a m, Evi 2012. Harju-Madise murrak. Toim Mari-Liis Kalvik, Helmi Neetar. Tallinn: Eesti Keele Sihtasutus.

J u h k a m, Evi, S e p p, Aldi 2000. Läänemurde tekstid. (Eesti murded VIII.) Tallinn: Eesti Keele Instituut.

K i t c h i n, Rob 2014. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. Sage.

K l a v a n, Jane, P i l v i k, Maarja-Liisa, U i b o a e d, Kristel 2015. The use of multi­variate statistical classification models for predicting constructional choice in spoken, non-standard varieties of Estonian. – SKY Journal of Linguistics, nr 28, lk 187–224.

K r e t z s c h m a r, William A. 2018. Linguistic Atlases. – The Handbook of Dialectol­ogy. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 57–72.

K r i k m a n n, Arvo, P a j u s a l u, Karl 2000. Kus on keskmurde keskpunkt. – Inter dialectos nominaque. Pühendusteos Mari Mustale 11. novembril 2000. Toim Jüri Viikberg. Tallinn: Eesti Keele Sihtasutus, lk 131–172.

L a a k s o, Johanna 2001. The Finnic languages. – Circum-Baltic Languages, kd I: Past and Present. Toim Östen Dahl, Maria Koptjevskaja-Tamm. Amsterdam–Philadelphia: John Benjamins Publishing Company, lk 179–212.

L a a n e s t, Arvo 1975. Sissejuhatus läänemeresoome keeltesse. Tallinn: Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut.

L e b a r t, Ludovic, S a l e m, André, B e r r y, Lisette 1998. Exploring Textual Data. Dordrecht: Kluwer Academic Publishers.

L e P a g e, R. B. 1997. The evolution of a Sociolinguistic Theory of Language. – The Handbook of Sociolinguistics. Toim Florian Coulmas. Oxford: Blackwell, lk 15–32.

L e v s h i n a, Natalia 2015. How to do Linguistics with R: Data Exploration and Statistical Analysis. Amsterdam–Philadelphia: John Benjamins Publishing Company.

L i n d s t r ö m, Liina 2001. Eesti murrete korpuse iseloomustus argivestlusega võrrelduna. – Keele kannul. Pühendusteos Mati Erelti 60. sünnipäevaks 12. märtsil 2001. (Tartu Ülikooli eesti keele õppetooli toimetised 17.) Tartu: Tartu Ülikooli Kirjastus, lk 212–221.

L i n d s t r ö m, Liina 2015. Ülevaade eesti murrete korpusest seisuga 17.11.2015. https://www.keel.ut.ee/sites/default/files/www_ut/emk_teejuht2015.pdf (18. VIII 2018).

L i n d s t r ö m, Liina 2017. Partitive subjects in Estonian dialects. – ESUKA/JEFUL, kd 8, nr 2, lk 191–231.

L i n d s t r ö m, Liina, K a l m u s, Mervi, K l a u s, Anneliis, B a k h o f f, Liisi, P a j u s a l u, Karl 2009. Ainsuse 1. isikule viitamine eesti murretes. – Emakeele Seltsi aastaraamat 54 (2008). Tallinn: Emakeele Selts, lk 159–185.

L i n d s t r ö m, Liina, L o n n, Varje, M e t s, Mari, P a j u s a l u, Karl, T e r a s, Pire, V e i s m a n n, Ann, V e l s k e r, Eva, V i i k b e r g, Jüri 2001. Eesti murrete korpus ja kolme murde sagedasema sõnavara võrdlus. − Keele kannul: pühendusteos Mati Erelti 60. sünnipäevaks 12. märtsil 2001. (Tartu Ülikooli eesti keele õppetooli toimetised 17.) Tartu: Tartu Ülikooli Kirjastus, lk 186−211.

L i n d s t r ö m, Liina, P i l v i k, Maarja-Liisa, P l a d o, Helen 2018. Nimetamiskonstruktsioonid eesti murretes: murdeerinevused või suuline süntaks? – Mäetagused, nr 70, lk 91−126.

L i n d s t r ö m, Liina, P i l v i k, Maarja-Liisa, R u u t m a, Mirjam, U i b o a e d, Kristel 2015. Mineviku liitaegade kasutusest eesti murretes keelekontaktide valguses. – Aig õdagumeresoomõ keelin. Aeg läänemeresoome keeltes. (Võro Instituudi toimõndusõq 29.) Võro, lk 39−70.

L i n d s t r ö m, Liina, P i l v i k, Maarja-Liisa, R u u t m a, Mirjam, U i b o a e d, Kristel 2018 (ilmumas). On the use of perfect and pluperfect in Estonian dialects: Frequency and language contacts. – Plurilingual Finnic. Change of Finnic languages in a multilinguistic environment. (Uralica Helsingiensia.) Toim Sofia Björklöf, Santra Jantunen. Helsinki: Finno-Ugrian Society.

L i n d s t r ö m, Liina, U i b o a e d, Kristel 2017. Syntactic variation in ‘need’-con­structions in Estonian dialects. – Nordic Journal of Linguistics, kd 40, nr 3, lk 313–349.

L i n d s t r ö m, Liina, U i b o a e d, Kristel, V i h m a n, Virve-Anneli 2014. Varieerumine tarvis-/vaja-konstruktsioonides keelekontaktide valguses. – Keel ja Kirjandus, nr 8–9, lk 609–630.

M c E n e r y, Tony, H a r d i e, Andrew 2013. The history of corpus linguistics. – The Oxford Handbook of the History of Linguistics. Toim Keith Allan. Oxford: Oxford University Press, lk 727–746.

M e t s, Mari 2010. Suhtlusvõrgustikud reaalajas: võru kõnekeele varieerumine kahes Võrumaa külas. (Dissertationes philologiae estonicae Universitatis ­Tartuensis 25.) Tartu: Tartu Ülikooli Kirjastus.

M e t s l a n g, Helle, L i n d s t r ö m, Liina 2017. Chapter 3. The essive in Estonian. – Uralic Essive and the Expression of Impermanent State. (Typological Studies in Language 119.) Toim Casper de Groot. Amsterdam: John Benjamins Publishing Company, lk 57–90.

M e y e r s, Lawrence S., G a m s t, Glenn C., G u a r i n o, Anthony J. 2006. Applied Multivariate Research: Design and Interpretation. Thousand Oaks: Sage Publications.

M u r u m e t s, Sirje 1982. Eesti keeleala murdelisest liigendusest „Väikese murdesõnastiku” põhjal I–II. – Keel ja Kirjandus, nr 1, lk 11–17; 1983, nr 11, lk 615–623.

M u s t, Mari 1987. Kirderannikumurre. Häälikuline ja grammatiline ülevaade. Tallinn: Valgus: Eesti NSV Teaduste Akadeemia, Keele ja Kirjanduse Instituut.

N e e t a r, Helmi 1964. Aluse ja öeldise ühildumist mõjutavatest teguritest eesti murretes. – Emakeele Seltsi aastaraamat X (1964). Tallinn: Eesti NSV Teaduste Akadeemia Emakeele Selts, lk 151–166.

N e e t a r, Helmi 1965a. Aluse ja öeldise ühildumise seaduspärasustest eesti murretes. – Keel ja Kirjandus, nr 1, lk 25–29.

N e e t a r, Helmi 1965b. Aluse (kollektiivsubstantiivi) ja öeldise ühildumisest eesti murretes. – Emakeele Seltsi aastaraamat 11 (1965). Tallinn: Eesti NSV Teaduste Akadeemia Emakeele Selts, lk 185–193.

N e r b o n n e, John, K l e i w e g, Peter 2007. Toward a dialectological yardstick. – Journal of Quantitative Linguistics, kd 14, nr 2–3, lk 148–166.

N e r b o n n e, John, K r e t z s c h m a r Jr., William A. 2013. Dialectometry++. – Liter­ary and Linguistic Computing, kd 28, nr 1, lk 2–12.

N e r b o n n e, John, W i e l i n g, Martijn 2018. Statistics for Aggregate Variationist Analyses. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 400–414.

N i g o l, Salme 1994. Hargla murraku konsonantism. Toim Karl Pajusalu. Tallinn: Eesti TA Eesti Keele Instituut.

N u r k s e, Rein 1937. Adjektiiv-atribuudi kongruentsist eesti keeles. (Akadeemilise Emakeele Seltsi toimetused 30.) Tartu: Akadeemilise Emakeele Seltsi Kirjastus.

P a j u s a l u, Karl, V e l s k e r, Eva, O r g, Ervin 1999. On recent changes in South Estonian: Dynamics in the formation of the inessive. – International journal of the Sociology of Language, kd 139, nr 1, lk 87–104.

P a o l i l l o, John C. 2002. Analyzing Linguistic Variation. Statistical Models and Methods. Stanford: CSLI Publications.

P i l v i k, Maarja-Liisa 2017. Deverbal -mine action nominals in the Estonian dialect corpus. – ESUKA/JEFUL, kd 8, nr 2, lk 295–326.

P l a d o, Helen 2015. des- ja mata-konverbi kasutusest eesti murretes. – Emakeele Seltsi aastaraamat 60 (2014). Tallinn: Teaduste Akadeemia Kirjastus, lk 195–218.

P o o k, Hanna 2018. Pronoomeni kes kasutusest eesti murretes. Magistritöö. Tartu: Tartu Ülikool. http://hdl.handle.net/10062/60630

R a n k i n, Robert L. 2003. The comparative method. – The Handbook of Historical Linguistics. Toim Brian D. Joseph, Richard D. Janda. Oxford: Blackwell, lk 183–212.

R u u t m a, Mirjam 2016. Kaassõnad eesti murretes. Magistritöö. Tartu: Tartu Ülikool. http://hdl.handle.net/10062/51736

R u u t m a, Mirjam, K y r ö l ä i n e n, Aki-Juhani, P i l v i k, Maarja-Liisa, U i b o a e d, Kristel 2016. Ambipositsioonide morfosüntaktilise varieerumise kirjeldusi kvantitatiivsete profiilide abil. – Keel ja Kirjandus, nr 2, lk 92–113.

R ä t s e p, Huno 2003. Tartu ülikooli eesti keele arhiivi saamisloost ja saatusest. – 200 aastat eesti keele ülikooliõpet: 1803 eesti ja soome keele lektoraat Tartu ülikoolis. (Tartu Ülikooli eesti keele õppetooli toimetised 25.) Toim Mati Erelt, Valve-Liivi Kingisepp. Tartu: Tartu Ülikooli Kirjastus, lk 153–170.

S a a r e s t e, Andrus 1938. Eesti murdeatlas. I vihk. Tartu: Eesti Kirjanduse Selts.

S a a r e s t e, Andrus 1941. Eesti murdeatlas. II vihk. Tartu: Eesti Kirjanduse Selts.

S a a r e s t e, Andrus 1955. Petit atlas des parlers estoniens. Väike eesti murde­atlas. Uppsala: Almqvist & Wiksells.

S é g u y, Jean 1973. La dialectométrie dans l’Atlas linguistique de la Gascogne. – Revue de linguistique romane, kd 37, nr 145–146, lk 1–24.

S e r e b r e n n i k o v, B. A. 1959. Pluskvamperfekti ja perfekti päritolu probleemist läänemeresoome keeltes. – Emakeele Seltsi aastaraamat IV (1958). Tallinn: Eesti Riiklik Kirjastus, lk 249–255.

S z m r e c s a n y i, Benedikt 2013. Grammatical Variation in British English Dialects: A Study in Corpus-Based Dialectometry. Cambridge: Cambridge University Press.

S z m r e c s a n y i, Benedikt 2014. Forests, trees, corpora, and dialect grammars. – Aggregating Dialectology, Typology, and Register Analysis: Linguistic Variation in Text and Speech. Toim B. Szmrecsanyi, Bernhard Wälchli. Berlin–Boston: Walter de Gruyter, lk 89–212.

S z m r e c s a n y i, Benedikt, A n d e r w a l d, Lieselotte 2018. Corpus-Based Approa­ches to Dialect Study. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 300–313.

S z m r e c s a n y i, Benedikt, G r a f m i l l e r, Jason, H e l l e r, Benedikt, R ö t h l i s b e r g e r, Melanie 2016. Around the world in three alternations: Modeling syntactic variation in varieties of English. – English World-Wide, kd 37, nr 2, lk 109–137.

S z m r e c s a n y i, Benedikt, G r a f m i l l e r, Jason, B r e s n a n, Joan, R o s e n b a c h, Anette, T a g l i a m o n t e, Sali, T o d d, Simon 2017. Spoken syntax in a compar­ative perspective: The dative and genitive alternation in varieties of English. – Glossa: A Journal of General Linguistics, kd 2, nr 1, artikkel 86. 

S t r o b l, Carolin, M a l l e y, James, T u t z, Gerhard 2009. An introduction to recursive partitioning: Rationale, application and characteristics of classification and regression trees, bagging and random forests. – Psychological Methods, kd 14, nr 4, lk 323–348.

S y r j ä n e n, Kaj, H o n k o l a, Terhi, L e h t i n e n, Jyri, L e i n o, Antti, V e s a k o s k i, Outi 2016. Applying population genetic approaches within languages: Finnish dialects as linguistic populations. – Language Dynamics and Change, kd 6, nr 2, lk 235–283.

T a g l i a m o n t e, Sali A. 2013. Analysing and interpreting variation in the sociolinguistic tradition. – Research Methods in Language Variation and Change. Toim Manfred Krug, Julia Schlüter. Cambridge: University Press, lk 382–401.

T a g l i a m o n t e, Sali A., B a a y e n, R. Harald 2012. Models, forests, and trees of York English: Was/were variation as a case study for statistical practice. – Language Variation & Change, kd 24, nr 2, lk 135–178.

T o o d i n g, Liina-Mai 2015. Andmete analüüs ja tõlgendamine sotsiaalteadustes. Teine, täiendatud väljaanne. Tartu: Tartu Ülikooli Kirjastus.

U i b o a e d, Kristel 2013. Verbiühendid eesti murretes. (Dissertationes philologiae estonicae Universitatis Tartuensis 34). Tartu: Tartu Ülikooli Kirjastus.

U i b o a e d, Kristel, H a s s e l b l a t t, Cornelius, L i n d s t r ö m, Liina, M u i s c h n e k, Kadri, N e r b o n n e, John 2013. Variation of verbal constructions in Estonian dialects. – Literary & Linguistic Computing, kd 28, nr 1, lk 42–62.

U n i v e r e, Aili 1988. Idamurre. – Emakeele Seltsi aastaraamat 32 (1986). Tallinn: Eesti Raamat, lk 59–93.

V e l s k e r, Eva 2000. Inessiivi lõpu varieerumine Vastseliina murrakus. Magistritöö Tartu Ülikooli eesti keele osakonnas.

W a l k e r, James A. 2013. Variation analysis. – Research Methods in Linguistics. Toim Robert J. Podesva, Devyani Sharma. Cambridge: University Press, lk 440–459.

W o l k, Christoph, S z m r e c s a n y i, Benedikt 2016. Top-down and bottom-up advances in corpus-based dialectometry. – The Future of Dialects. Selected papers from Methods in Dialectology XV. Toim Marie-Hélène Côté, Remco Knooihuizen, John Nerbonne. Berlin: Language Science Press, lk 225–244.