Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa Tallinna Ilmari Ivaska ja Kirsti Siitonen
Edistyneiden suomenoppijoiden korpus, TY •Informantit suomen ja sen sukukielten maisteriohjelman opiskelijoita –Seuranta-aika 2–3 vuotta –Kielitaito vahva jo alussa •Monipuolinen tekstilajivalikoima –Tentit, esseet, tutkielmat, katsaukset –1. vaiheessa pääpaino tenttivastauksissa •Rakenteistaminen TY:n Lauseopin arkiston mallin mukaisesti –Morfologinen, syntaktinen, lauserakenteellinen ja virhekoodaus
Korpuksen rakenne Korpus informantti tekstilaji (tentti, essee ym. lajina) teksti (tentti, essee, tutkielma ym.) tekstijakso (vastaus, luku) kappale virke lause sana
1. Sanakirja •Metodi LA:n tutkija Nobufumi Inaban kehittämä •Kaikki aineistossa esiintyvät sanamuodot –Täydentäminen aineiston karttuessa •Morfologinen koodaus ja hakusanoittaminen –Monitulkintaisista sanoista todennäköisin koodiksi ja vaihtoehdot kommentiksi •Vartalovirheiden ym. huomioiminen –Lemmaan tavoiteltu sana, mikäli on tunnistettavissa –Virheiden kommentointi virhetyyppiluokittelua varten (vartalo, av, vokaaliharmonia, sekamuoto ym)
1. Sanakirja (jatkoa) kerran kerro kerron kerrostumaan kerrostumiin kerrotaan kerrottava kerrottiin kertaa kertoa kertoi kertoisi kertomus kertoo kertova kertovat keruu- keruu keruumatkasta keruuttamansa keruutti
2. Syntaktinen koodaus •Valmis sanakirja syötetään takaisin aineistoon –Virkkeet, kappaleet ja tentit rakenteistettu automaattisesti skriptillä, koodausvirheiden korjaus käsin •Kontekstisidonnainen koodaus –Jako lauseisiin ja sanojen syntaktisen roolin koodaus –Sanakirjavaiheen koodausvirheiden korjaus •Virhekoodausta edeltävän tyypittelyn kannalta keskeisin vaihe –Keskeisin virhetaso edistyneillä kielenoppijoilla
2. Syntaktinen koodaus (jatkoa) Suomen astevaihtelun perusperiaatteet Agglutinoiva kielenä suomen sanoihin liimataan taivutuspäätteet, mikä ei muuta sanan luokkaa.
3. Virhetyypittely •Tyypittely muodostetaan koodauksen aikana tehdyn kommentoinnin pohjalta –Takaa aineistolähtöisen luokittelun •Viisiportainen, hierarkkinen luokitus –Joiltakin osin ristikkäinen, monitasoiset virheet –Toimii ainoastaan yhdessä yleiskoodauksen kanssa •Esim. objektin sijavalinnan ongelmat virhekoodauksessa vain sijavalinta-virheinä •Tekninen toteutus kesken –Lauseopin X-arkiston käyttöliittymän mukautettu versio
Virhekoodaus (jatkoa) 1.Virheetön/virheellinen 2.Päätasot a.Sanastollis-johto-opilliset virheet b.Sanastollis-morfologiset virheet c.Morfologiset virheet d.Syntaktiset virheet e.Lauserakenteelliset virheet
Seuraavaksi: •Virhekoodauksen teknisten ratkaisujen luominen •Vertailuaineiston koostaminen –Suomenkielisten opiskelijoiden tenttivastauksia •Tekstilajivalikoiman laajentaminen •Ensimmäiset julkaisut ja tulevia tutkimusaiheita: –Ivaska 2009: Eksistentiaalilause lausetyyppinä edistyneiden suomenoppijoiden kielessä (pro gradu) –Siitonen: Muoto-opillisten virheiden väheneminen, verbivalikoiman monipuolistuminen, infinitiivi- ja partisiippirakenteiden lisääntyminen –Siitonen: alkeisopetuksen vaikutus myöhempään kielitaitoon, oppijansuomen rakenne-erot äidinkielisten suomeen nähden