Yliopistopainon digitointi- ja tekstintunnistuspalvelut

Slides:



Advertisements
Samankaltaiset esitykset
Vihreän liiton kesäpäivät 2006 Panu Laturi
Advertisements

Näkövammaiset ja verkkosivustot Virpi Jylhä
Innovatiivista tekniikkaa Dimplex - esittely. Glen Dimplex Group Irlantilainen omistaja Tehtaita 17:ssa maassa Myynti yli 80:ssa maassa Omia myyntikonttoreita.
Kyselypalautteen kokoamispalvelu Multibase Oy Tämä on kuvaus palvelumallista, jonka avulla voi vaivatta koota asiakaspalautetta, tehdä järjestön jäsentyytyväisyystutkimuksen,
0 Aloitussivu oppaat esittelevät pääosiot 2 Suomen kielen äännemaailma Ali 3 Matematiikka Ubah 1.0 Tietokoneen esittely Mai (audio + kuva) 1.1 Hiiriharjoitukset.
Seija Kulmala Sisällysluetteloiden tallentaminen Oulun yliopiston kirjastossa Sisällönkuvailupäivä
Paint Shop Pro X -kuvankäsittelyä alusta alkaen
Kuntalaispalautteen kokoamispalvelu Multibase Oy Tämä on kuvaus palvelumallista, jonka pohjalta Kauniaisten kaupunki käynnisti pilottiprojektin. palvelumalli:1-3.
Avonet Digilehtiö käyttö
VALOKUVAT VERKKOON Seinäjoen kaupunginkirjasto-maakuntakirjasto
1 Heli Lepomäki Yritysten ja muiden organisaatioiden käyttöön sähköinen työpöytä on jo leviämässä, koska niiden toiminta ja asiakaspalvelu.
© 2010 IBM Corporation1 Sisältö  Uusi sisältö luodaan aina sisällönhallinnassa –Uusi -> Sisältö –Tallenna nimellä olemasta olevasta sisällöstä  Tavallinen.
Kymentaan koulun TVT-STRATEGIA Tämä vuonna 2006 luotu strategia on käytössä toistaiseksi..
Äänikirjat oppimisen tukena Seinäjoki
e-kirjat Ota haltuun Web- kirjasto lukuohjelmat lainaaminen lukeminen
Ohjelmistokehittäminen. Luku 1 – Mitä on ohjelmistokehittäminen?
W w w. h a m k. f i Wiki koulutus Leenakaija Lehto
Kirjaston verkkopalvelu Kirkes-kirjastojen asiakkailla on mahdollisuus käyttää IntroActive-verkkopalvelua internetissä. Verkkopalvelussa voi mm.  uusia.
KAUSIJULKAISUPÄIVÄT ELEKTRONISEN AINEISTON HANKINTA YRITYSTIETOPALVELU – KEMIRA OYJ.
Power Point – esitysgrafiikkaohjelma lyhyesti
Netvibes henkilökohtaisena oppimisympäristönä Kiravo – kirjasto avoimena oppimisympäristönä Biblär – biblioteket som ett öppet lärcentra Krista Auvinen.
Kokeva 2013 – 16. Käsityön taiteen perusopetus aikuisille Vaasa-opistossa ORIENTAATIO. Tekstinkäsittely. M.Tuomivirta
Tekstiasiakirjan kirjoittaminen
Tiedonhankintaprosessin portaat
KUVANKÄSITTELY kuva digitaaliseksi muokkaus, käsittely
Prosessin analysointi ja töiden viimeistely
Puhuvia skannereita, lukevia kyniä ja muita vempaimia
Verkkoympäristöt lähiopetuksen rinnalla/tukena
RefWorks-demo TKK Kirjasto. RefWorks-demon sisältö (1) Kirjautuminen Viitteiden siirto, kun tietokannassa ei ole siirtokuvaketta Viitteiden siirto, kun.
Vapaa aihe Kysymykset.
Netvibes Kiravo – kirjasto avoimena oppimisympäristönä Biblär – biblioteket som ett öppet lärcentra.
Puh PowerPoint-esitys amk-opinnoista ja uudesta hakukäytännöstä sisältää 25 erilaista diaa vaatii.
Väitöskirja on puheenvuoro
Viitelistat tietopalvelusta tilauksesta –kenelle ja miten Leena Koivula HY:n käyttäytymistieteellisen tiedekunnan kirjasto Arja Niskala HY:n oikeustieteellisen.
A SIAKASPALVELUKOULUTUS Antin kalvot M ITEN KEHITTÄÄ ASIAKASPALVELUA ? Kehittämistä voi lähestyä kahdesta suunnasta 1. Organisaation Miten luomme.
Valitse äänikirja, kun tavallinen kirja ei riitä! Seinäjoki Elina Kilpiö.
Metsähallitus MOSS:in käyttöönotto Metsähallituksessa Luonnonvarat-tapaaminen Satu Sorjonen
Kuinka tehdä blogi o365:ssä
TIETOA JA TAITOJA TIEDONHANKINTAAN: Marttaliitto ry:n ja Uudenmaan Marttojen toimiston henkilökunnalle.
Innovatiivista tekniikkaa Dimplex - esittely 2009.
Seurantalojen korjausavustuksen sähköinen haku - pikaohje Sähköisessä hakupalvelussa on kullakin sivulla ohjeita hakemuksen tekemiseen. Joissakin kohdissa.
Käsikirjoitus oppimisaihiotuotantoa varten. Perustiedot Tuotantorenkaan nimi: Koordinaattori: Teema: Tämän teeman oppimisaihioilla tuotettavat opintopisteet:
Työkaluviuhka Autoalalle Kristina Tuori-Nyman
Professori Pekka Kauppi, Bio- ja ympäristötieteiden laitos, HY: Miksi yliopistotutkija tallentaa julkaisuarkistoon? JULKAISIJAN ILTAPÄIVÄ 2007 Julkaisuarkistojen.
Ossi Mäntylahti Yhteiskunnallinen näkemys: tekijänoikeus- lainsäädännön ja käytäntöjen vaikutus suomen kieleen digitaalisella aikakaudella
Julkaisijan iltapäivä Helsingin yliopistossa
ELEKTRA - kotimaisia tieteellisiä artikkeleita sähköisessä muodossa Alustus Vapaa pääsy tieteelliseen tietoon -seminaarissa Jyrki Ilva
OHJEITA TET-RAPORTIN TEKEMISEEN
Tietokanta vanhojen suomalaisten aikakauslehtien sisällysluetteloista
MITÄ ESTEETÖN OPPIMISYMPÄRISTÖ MINULLE TARKOITTAA Leevi Alahäivälä
Huomautus: Tämä esite on suunniteltu tulostettavaksi. Ennen kuin ryhdyt tulostamaan korttikartongille, tee koetulostus tavalliselle paperille ja varmista,
Kirjaston tiedonhaku - yläkoulu
Monikielinen kirjasto
Oman alan lehdet (1) Käy lainaamassa oppilaitoksen kirjastosta oman alan lehti. Pohdi ja kirjoita blogiisi (tee oma sivu nimeltään ”Oman alan lehdet”)
Oman alan kirja Käy lainaamassa Myllytullin kirjastosta oman alan kirja. Pohdi ja kirjoita blogiisi (tee uusi artikkeli nimeltään ”Oman alan kirja”) ylös.
E-aineistojen saavutettavuus Mitä sisällöntuottajien pitäisi tietää?
Tekijänoikeudet opetuksessa Ylöjärvellä
Aineistotyyppi työpaja
Selkokieli.
Oman alan lehdet (1) Käy lainaamassa oppilaitoksen kirjastosta oman alan lehti. Pohdi ja kirjoita blogiisi (tee oma sivu nimeltään ”Oman alan lehdet”)
Uusi Celianet ja Celian muuttuneet käytännöt kirjastoissa
Kokeile uutta Celianetiä testiympäristössä
Kysely yleisille kirjastoille 2013
E-aineistot OUTI-kirjastoissa E-kirjat ja e-lehdet
Minna Katela, Celia Marjo Kauttonen, Celia
Celian palvelut kirjastosta
Kooste työpajan kysymyksista
Kirjaston tiedonhaku – yläkoulu ja lukio
Oulun YLIOPISTON KIRJASTO
Madetojan musiikkilukion Veso-päivä
Esityksen transkriptio:

Yliopistopainon digitointi- ja tekstintunnistuspalvelut Jorma Ahlqvist Erikoiskirjastopäivä 19.11.2008

Yliopistopaino pähkinänkuoressa Perustettu 1972 Liikevaihto 7,1 Meur 2007 Henkilökuntaa 60 Kirjapainoteollisuuden laatusertifikaatti Pohjoismainen ympäristömerkki Painopalvelujen Hansel-puitesopimustoimittaja Omistaja Helsingin yliopisto Tulosyksiköt ja toiminnot Julkaisupalvelut (graafinen suunnittelu, taitto, verkkopalvelut) Kirjapaino Digipaino Kampuspikapainot Kirjamyynti Asiakirjapalvelut (kopiointi ja tulostus)

Yliopistopainon digitointi- ja tekstintunnistuspalvelut Osa monipuolisia julkaisupalveluitamme Tekstimateriaalin digitointi ja tunnistaminen Kuvamateriaalin digitointi (skannaus ja kuvankäsittely)

Yliopistopainon palvelun tavoite Auttaa asiakasta toteuttamaan erityyppisiä julkaisu- tai verkkopalveluprojektejaan: Esimerkiksi: Verkkopalveluiden rakentaminen ja laajentaminen Uusintapainokset vanhoista julkaisuista Keskeneräiset käsikirjoitukset julkaisuiksi Erityistarpeet

Verkkopalveluiden rakentaminen ja laajentaminen Esimerkiksi: Kirjastojen aineistokokoelmat Yritysten esite- ja tuotetietomateriaalit (esim. verkkokauppaa perustettaessa) Tutkimustiedon kokoaminen esim. tutkimusverkoston käyttöön Verkkokurssien rakentaminen Kuvien skannaus ja verkkokelpoisiksi käsittely

Uusintapainokset vanhoista julkaisuista Ei ole enää tallessa tiedostoa tai tiedosto on tehty vanhentuneella tekniikalla Kustantajat Laitokset Yksityishenkilöt

Keskeneräiset käsikirjoitukset julkaisuksi Tekstit luotu niin kauan sitten, ettei ole olemassa mitään tiedostoa tai sopivaa tiedostoa Muistelmien kirjoittajat Pöytälaatikkokirjailijat Sukututkimusten tekijät Tutkimusmateriaali, joka koottu ennen tietokoneaikaa Yms.

Erityistarpeet Painetun julkaisun muuntaminen Sähkökirjaksi Äänikirjaksi Pistekirjaksi

Kenelle tarkoitettu? kirjan tekijöille - vanhastakin materiaalista on helppo tehdä uusia, korjattuja painoksia verkkokurssin suunnittelijoille ja opettajille - digitoimalla saa painetun tekstin sujuvasti verkkoon kustannustoimittajille - vanhoista loppuunmyydyistä kirjoista uusintapainos kirjastojen suunnittelijoille - aineisto yhä useampien saataville arkistojen suunnittelijoille - vanhat, arvokkaat tekstit kaikkien käytettäviksi tutkijoille

OCR OCR eli tekstintunnistus tarkoittaa painetun, tulostetun tai koneella kirjoitetun tekstin muuttamista sähköiseen muotoon merkeiksi. Paperille painettu originaali skannataan ja optinen tekstintunnistusohjelma (OCR, Optical Character Recognition) tekee siitä tekstitiedoston. Tämän jälkeen tekstiä voi muokata esim. Wordissa.

Tunnistuksen jälkeen teksti painetaan sellaisenaan tai korjattuna teksti taitetaan ja muotoillaan uudestaan painettavaan muotoon tehdään alkuperäisen näköinen pdf-dokumentti, johon voi tehdä hakuja tehdään html-tiedosto verkkoon tehdään sähkökirja tehdään tiedosto puhesyntetisaattoria varten tehdään pistekirjoituskirja viedään teksti tietokantaan

Case 1 – Opiskelijakirjasto: Kurssikirjat Kurssivaatimuksena olevista kirjoista on joko painos loppu tai tenttikautena niitä ei kirjastosta löydy Kirjat skannattiin ja kirjasta tehtiin näköispainoksia Skannatuille sivukuville tehtiin OCR, teksti oikoluettiin ja niistä tehtiin pdf-tiedostoja, joihin pystyy tekemään hakuja. Opiskelijakirjasto ”paketoi” pdf:t sähkökirja-muotoon ja lainaa niitä opiskelijoille verkossa.

Case 2 – Suomen Vakuutusalan Koulutus ja Case 2 – Suomen Vakuutusalan Koulutus ja Kustannus Oy: Vakuutusalan suomi-ruotsi- englanti -sanakirja Sanakirja oli vanhentunut ja painos loppunut. Haluttiin myös sähköinen CD-rom. Kirja skannattiin ja tunnistettiin suoraan Excel-taulukkomuotoon. Asiakas lisäsi Excel-tiedostoon uudet sanat. Kirja taitettiin Corel Venturalla, johon aineisto tuotiin suoraan Excel-muodossa. Excel-tiedostosta tehtiin myös CD-rom.

Case 3 – Eduskunta: Valtiopäivien avajaispuheet Eduskunta 100 vuotta: Valtiopäivien avajaispuheet haluttiin koota yhdeksi julkaisuksi. Aineisto toimitettiin A4-kopioina. Niihin oli merkitty kohdat, jotka haluttiin tekstimuotoon. Aineisto suomeksi ja ruotsiksi. Aineisto toimitettiin asiakkaalle word-tiedostoina käsikirjoituksen pohjaksi. Toimittaja editoi. Taitettiin kirjaksi ja painettiin.

Case 4 – Celia – Näkövammaisten kirjasto: Kurssikirjat Kurssivaatimuksena olevat kirjat pitää saada sähköiseen muotoon pistekirjoituskirjaa varten. Aiemmin ladottu käsin. Kirjat skannattiin ja tunnistettiin ja toimitettiin tyylitettynä tekstitiedostona kirjastolle. Celiassa tiedosto muunnettiin pistekirjoitukselle tai äänikirjaksi.

Case 5 – HKKK: Tutkimusaineistoa Helsingin kauppakorkeakoulun tutkimus, jossa tutkittiin sijoittamisen psykologiaa. Lähdeaineistoina yli 6000 kpl A3-kokoista sanomalehden sivua, 1300-sivuinen kirja, 900 sivua A4-kopioita. Aineisto tunnistettiin ja tallennettiin pdf- ja txt-muotoon. Sanomalehden sivut skannattiin skannerin lasilta käsin, kirjan sivut syöttöalustalta, tunnistusohjelma pyöri öisin.

Case 6 – Kirjastotiede- ja informatiikka sekä Informaatio-tutkimus-lehtien vuosikerrat 1981-1/2002 Lehdet haluttiin saada julkaistuksi verkossa sekä sisältö tallennetuksi XML-muodossa tietokantaan. Aineisto tunnistettiin ja tallennettiin pdf-tiedostoiksi ja UTF-8 -tiedostoiksi. Lehden sivut skannattiin skannerin lasilta käsin. PDF-tiedostojen kuvien resoluutiota laskettiin paremmin verkkoon sopivaksi.

Case 7 – SKS: Lönnrotin kirjeet Elias Lönnrotin kirjoittamat kirjeet halutaan sähköiseen muotoon tutkijoiden käyttöön Osa aineistosta on julkaistu kirjoina, osa on translitteroitu kirjoituskoneella. Kirjojen selät leikataan auki ja sivut skannataan automaattisesti syöttöalustalta, konekirjoitusliuskat skannataan käsin. Tunnistettu teksti toimitetaan tunnistusohjelman tiedostoina oikoluettavaksi. Oikoluvun jälkeen tiedostot tulevat takaisin Yliopistopainoon tiedostojen muokkaukseen verkkojulkaisua varten.

OCR-työn vaiheet Aineistoon tutustuminen, esim. muutama sivu kopioina Tarjous (hintaan vaikuttaa aineiston laatu, terävyys) Skannatun aineiston esikäsittely: merkintöjen poisto, kirjan selän aukileikkaus jne. Skannauksen esivalmistelut Skannaus lasilta ja/tai syöttölaitteelta Skannattujen sivujen läpikäynti, suoritus, muu käsittely Skannattujen sivujen siirto skannausohjelmasta

OCR-työn vaiheet OCR-batchin perustaminen Kuvien sisäänluku OCR-ohjelmaan Tunnistettavien alueiden merkitseminen Tekstintunnistus eli varsinainen OCR Tunnistetun tekstin läpikäynti ja tunnistusvirheiden korjaaminen Tekstin tallennus pdf-, txt-, Excel- tai Word-muotoon Tekstin tyylitys ja läpikäynti Wordissa Toimitus (DVD, CD tai sähköposti)

Palvelutasot Skannaus Skannausjäljen käsittely OCR Sävykuvat myös erikseen skannattuna Skannausjäljen käsittely Alleviivausten ja merkintöjen poisto OCR Tunnistetun tekstin läpikäynti Suttuinen/epätarkka originaali Erikoismerkkejä, symboleita tai kaavoja Murteista tekstiä, erikoissanastoa, lyhenteitä Tallennus tekstitiedostoksi Tallennus tyylitetyksi tekstitiedostoksi Tallennus pdf-tiedostoksi Tallennus pdf-tiedostoksi, johon on liitetty erikseen skannatut sävykuvat Lisäksi: Graafinen suunnittelu, taitto, painaminen…..

Miksi Yliopistopainosta? OCR-ohjelmana venäläinen ABBYY Fine Reader Digipainon tehokkaat DigiPath-skannerit ja ohjelmistot Skannaus ja skannausjäljen käsittely Realistinen hinnoittelu erilaisille palvelutasoille Pystymme myös helposti osoittamaan, mitkä ovat prosessin vaiheet ja mihin hinta perustuu Kokemusta jo vuodesta 2002

Ota yhteyttä! Jorma Ahlqvist Tuotepäällikkö, verkkopalvelut jorma.ahlqvist@yliopistopaino.fi Puhelin 09 7010 2317, 040 704 2008 Kerron mielelläni lisää kahvitauolla. Jätä käyntikortti — otamme yhteyttä!