Yliopistopainon digitointi- ja tekstintunnistuspalvelut Jorma Ahlqvist Erikoiskirjastopäivä 19.11.2008
Yliopistopaino pähkinänkuoressa Perustettu 1972 Liikevaihto 7,1 Meur 2007 Henkilökuntaa 60 Kirjapainoteollisuuden laatusertifikaatti Pohjoismainen ympäristömerkki Painopalvelujen Hansel-puitesopimustoimittaja Omistaja Helsingin yliopisto Tulosyksiköt ja toiminnot Julkaisupalvelut (graafinen suunnittelu, taitto, verkkopalvelut) Kirjapaino Digipaino Kampuspikapainot Kirjamyynti Asiakirjapalvelut (kopiointi ja tulostus)
Yliopistopainon digitointi- ja tekstintunnistuspalvelut Osa monipuolisia julkaisupalveluitamme Tekstimateriaalin digitointi ja tunnistaminen Kuvamateriaalin digitointi (skannaus ja kuvankäsittely)
Yliopistopainon palvelun tavoite Auttaa asiakasta toteuttamaan erityyppisiä julkaisu- tai verkkopalveluprojektejaan: Esimerkiksi: Verkkopalveluiden rakentaminen ja laajentaminen Uusintapainokset vanhoista julkaisuista Keskeneräiset käsikirjoitukset julkaisuiksi Erityistarpeet
Verkkopalveluiden rakentaminen ja laajentaminen Esimerkiksi: Kirjastojen aineistokokoelmat Yritysten esite- ja tuotetietomateriaalit (esim. verkkokauppaa perustettaessa) Tutkimustiedon kokoaminen esim. tutkimusverkoston käyttöön Verkkokurssien rakentaminen Kuvien skannaus ja verkkokelpoisiksi käsittely
Uusintapainokset vanhoista julkaisuista Ei ole enää tallessa tiedostoa tai tiedosto on tehty vanhentuneella tekniikalla Kustantajat Laitokset Yksityishenkilöt
Keskeneräiset käsikirjoitukset julkaisuksi Tekstit luotu niin kauan sitten, ettei ole olemassa mitään tiedostoa tai sopivaa tiedostoa Muistelmien kirjoittajat Pöytälaatikkokirjailijat Sukututkimusten tekijät Tutkimusmateriaali, joka koottu ennen tietokoneaikaa Yms.
Erityistarpeet Painetun julkaisun muuntaminen Sähkökirjaksi Äänikirjaksi Pistekirjaksi
Kenelle tarkoitettu? kirjan tekijöille - vanhastakin materiaalista on helppo tehdä uusia, korjattuja painoksia verkkokurssin suunnittelijoille ja opettajille - digitoimalla saa painetun tekstin sujuvasti verkkoon kustannustoimittajille - vanhoista loppuunmyydyistä kirjoista uusintapainos kirjastojen suunnittelijoille - aineisto yhä useampien saataville arkistojen suunnittelijoille - vanhat, arvokkaat tekstit kaikkien käytettäviksi tutkijoille
OCR OCR eli tekstintunnistus tarkoittaa painetun, tulostetun tai koneella kirjoitetun tekstin muuttamista sähköiseen muotoon merkeiksi. Paperille painettu originaali skannataan ja optinen tekstintunnistusohjelma (OCR, Optical Character Recognition) tekee siitä tekstitiedoston. Tämän jälkeen tekstiä voi muokata esim. Wordissa.
Tunnistuksen jälkeen teksti painetaan sellaisenaan tai korjattuna teksti taitetaan ja muotoillaan uudestaan painettavaan muotoon tehdään alkuperäisen näköinen pdf-dokumentti, johon voi tehdä hakuja tehdään html-tiedosto verkkoon tehdään sähkökirja tehdään tiedosto puhesyntetisaattoria varten tehdään pistekirjoituskirja viedään teksti tietokantaan
Case 1 – Opiskelijakirjasto: Kurssikirjat Kurssivaatimuksena olevista kirjoista on joko painos loppu tai tenttikautena niitä ei kirjastosta löydy Kirjat skannattiin ja kirjasta tehtiin näköispainoksia Skannatuille sivukuville tehtiin OCR, teksti oikoluettiin ja niistä tehtiin pdf-tiedostoja, joihin pystyy tekemään hakuja. Opiskelijakirjasto ”paketoi” pdf:t sähkökirja-muotoon ja lainaa niitä opiskelijoille verkossa.
Case 2 – Suomen Vakuutusalan Koulutus ja Case 2 – Suomen Vakuutusalan Koulutus ja Kustannus Oy: Vakuutusalan suomi-ruotsi- englanti -sanakirja Sanakirja oli vanhentunut ja painos loppunut. Haluttiin myös sähköinen CD-rom. Kirja skannattiin ja tunnistettiin suoraan Excel-taulukkomuotoon. Asiakas lisäsi Excel-tiedostoon uudet sanat. Kirja taitettiin Corel Venturalla, johon aineisto tuotiin suoraan Excel-muodossa. Excel-tiedostosta tehtiin myös CD-rom.
Case 3 – Eduskunta: Valtiopäivien avajaispuheet Eduskunta 100 vuotta: Valtiopäivien avajaispuheet haluttiin koota yhdeksi julkaisuksi. Aineisto toimitettiin A4-kopioina. Niihin oli merkitty kohdat, jotka haluttiin tekstimuotoon. Aineisto suomeksi ja ruotsiksi. Aineisto toimitettiin asiakkaalle word-tiedostoina käsikirjoituksen pohjaksi. Toimittaja editoi. Taitettiin kirjaksi ja painettiin.
Case 4 – Celia – Näkövammaisten kirjasto: Kurssikirjat Kurssivaatimuksena olevat kirjat pitää saada sähköiseen muotoon pistekirjoituskirjaa varten. Aiemmin ladottu käsin. Kirjat skannattiin ja tunnistettiin ja toimitettiin tyylitettynä tekstitiedostona kirjastolle. Celiassa tiedosto muunnettiin pistekirjoitukselle tai äänikirjaksi.
Case 5 – HKKK: Tutkimusaineistoa Helsingin kauppakorkeakoulun tutkimus, jossa tutkittiin sijoittamisen psykologiaa. Lähdeaineistoina yli 6000 kpl A3-kokoista sanomalehden sivua, 1300-sivuinen kirja, 900 sivua A4-kopioita. Aineisto tunnistettiin ja tallennettiin pdf- ja txt-muotoon. Sanomalehden sivut skannattiin skannerin lasilta käsin, kirjan sivut syöttöalustalta, tunnistusohjelma pyöri öisin.
Case 6 – Kirjastotiede- ja informatiikka sekä Informaatio-tutkimus-lehtien vuosikerrat 1981-1/2002 Lehdet haluttiin saada julkaistuksi verkossa sekä sisältö tallennetuksi XML-muodossa tietokantaan. Aineisto tunnistettiin ja tallennettiin pdf-tiedostoiksi ja UTF-8 -tiedostoiksi. Lehden sivut skannattiin skannerin lasilta käsin. PDF-tiedostojen kuvien resoluutiota laskettiin paremmin verkkoon sopivaksi.
Case 7 – SKS: Lönnrotin kirjeet Elias Lönnrotin kirjoittamat kirjeet halutaan sähköiseen muotoon tutkijoiden käyttöön Osa aineistosta on julkaistu kirjoina, osa on translitteroitu kirjoituskoneella. Kirjojen selät leikataan auki ja sivut skannataan automaattisesti syöttöalustalta, konekirjoitusliuskat skannataan käsin. Tunnistettu teksti toimitetaan tunnistusohjelman tiedostoina oikoluettavaksi. Oikoluvun jälkeen tiedostot tulevat takaisin Yliopistopainoon tiedostojen muokkaukseen verkkojulkaisua varten.
OCR-työn vaiheet Aineistoon tutustuminen, esim. muutama sivu kopioina Tarjous (hintaan vaikuttaa aineiston laatu, terävyys) Skannatun aineiston esikäsittely: merkintöjen poisto, kirjan selän aukileikkaus jne. Skannauksen esivalmistelut Skannaus lasilta ja/tai syöttölaitteelta Skannattujen sivujen läpikäynti, suoritus, muu käsittely Skannattujen sivujen siirto skannausohjelmasta
OCR-työn vaiheet OCR-batchin perustaminen Kuvien sisäänluku OCR-ohjelmaan Tunnistettavien alueiden merkitseminen Tekstintunnistus eli varsinainen OCR Tunnistetun tekstin läpikäynti ja tunnistusvirheiden korjaaminen Tekstin tallennus pdf-, txt-, Excel- tai Word-muotoon Tekstin tyylitys ja läpikäynti Wordissa Toimitus (DVD, CD tai sähköposti)
Palvelutasot Skannaus Skannausjäljen käsittely OCR Sävykuvat myös erikseen skannattuna Skannausjäljen käsittely Alleviivausten ja merkintöjen poisto OCR Tunnistetun tekstin läpikäynti Suttuinen/epätarkka originaali Erikoismerkkejä, symboleita tai kaavoja Murteista tekstiä, erikoissanastoa, lyhenteitä Tallennus tekstitiedostoksi Tallennus tyylitetyksi tekstitiedostoksi Tallennus pdf-tiedostoksi Tallennus pdf-tiedostoksi, johon on liitetty erikseen skannatut sävykuvat Lisäksi: Graafinen suunnittelu, taitto, painaminen…..
Miksi Yliopistopainosta? OCR-ohjelmana venäläinen ABBYY Fine Reader Digipainon tehokkaat DigiPath-skannerit ja ohjelmistot Skannaus ja skannausjäljen käsittely Realistinen hinnoittelu erilaisille palvelutasoille Pystymme myös helposti osoittamaan, mitkä ovat prosessin vaiheet ja mihin hinta perustuu Kokemusta jo vuodesta 2002
Ota yhteyttä! Jorma Ahlqvist Tuotepäällikkö, verkkopalvelut jorma.ahlqvist@yliopistopaino.fi Puhelin 09 7010 2317, 040 704 2008 Kerron mielelläni lisää kahvitauolla. Jätä käyntikortti — otamme yhteyttä!