Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Yliopistopainon digitointi- ja tekstintunnistuspalvelut

Samankaltaiset esitykset


Esitys aiheesta: "Yliopistopainon digitointi- ja tekstintunnistuspalvelut"— Esityksen transkriptio:

1 Yliopistopainon digitointi- ja tekstintunnistuspalvelut
Jorma Ahlqvist Erikoiskirjastopäivä

2 Yliopistopaino pähkinänkuoressa
Perustettu 1972 Liikevaihto 7,1 Meur 2007 Henkilökuntaa 60 Kirjapainoteollisuuden laatusertifikaatti Pohjoismainen ympäristömerkki Painopalvelujen Hansel-puitesopimustoimittaja Omistaja Helsingin yliopisto Tulosyksiköt ja toiminnot Julkaisupalvelut (graafinen suunnittelu, taitto, verkkopalvelut) Kirjapaino Digipaino Kampuspikapainot Kirjamyynti Asiakirjapalvelut (kopiointi ja tulostus)

3 Yliopistopainon digitointi- ja tekstintunnistuspalvelut
Osa monipuolisia julkaisupalveluitamme Tekstimateriaalin digitointi ja tunnistaminen Kuvamateriaalin digitointi (skannaus ja kuvankäsittely)

4 Yliopistopainon palvelun tavoite
Auttaa asiakasta toteuttamaan erityyppisiä julkaisu- tai verkkopalveluprojektejaan: Esimerkiksi: Verkkopalveluiden rakentaminen ja laajentaminen Uusintapainokset vanhoista julkaisuista Keskeneräiset käsikirjoitukset julkaisuiksi Erityistarpeet

5 Verkkopalveluiden rakentaminen ja laajentaminen
Esimerkiksi: Kirjastojen aineistokokoelmat Yritysten esite- ja tuotetietomateriaalit (esim. verkkokauppaa perustettaessa) Tutkimustiedon kokoaminen esim. tutkimusverkoston käyttöön Verkkokurssien rakentaminen Kuvien skannaus ja verkkokelpoisiksi käsittely

6 Uusintapainokset vanhoista julkaisuista
Ei ole enää tallessa tiedostoa tai tiedosto on tehty vanhentuneella tekniikalla Kustantajat Laitokset Yksityishenkilöt

7 Keskeneräiset käsikirjoitukset julkaisuksi
Tekstit luotu niin kauan sitten, ettei ole olemassa mitään tiedostoa tai sopivaa tiedostoa Muistelmien kirjoittajat Pöytälaatikkokirjailijat Sukututkimusten tekijät Tutkimusmateriaali, joka koottu ennen tietokoneaikaa Yms.

8 Erityistarpeet Painetun julkaisun muuntaminen Sähkökirjaksi
Äänikirjaksi Pistekirjaksi

9 Kenelle tarkoitettu? kirjan tekijöille - vanhastakin materiaalista on helppo tehdä uusia, korjattuja painoksia verkkokurssin suunnittelijoille ja opettajille - digitoimalla saa painetun tekstin sujuvasti verkkoon kustannustoimittajille - vanhoista loppuunmyydyistä kirjoista uusintapainos kirjastojen suunnittelijoille - aineisto yhä useampien saataville arkistojen suunnittelijoille - vanhat, arvokkaat tekstit kaikkien käytettäviksi tutkijoille

10 OCR OCR eli tekstintunnistus tarkoittaa painetun, tulostetun tai koneella kirjoitetun tekstin muuttamista sähköiseen muotoon merkeiksi. Paperille painettu originaali skannataan ja optinen tekstintunnistusohjelma (OCR, Optical Character Recognition) tekee siitä tekstitiedoston. Tämän jälkeen tekstiä voi muokata esim. Wordissa.

11 Tunnistuksen jälkeen teksti painetaan sellaisenaan tai korjattuna
teksti taitetaan ja muotoillaan uudestaan painettavaan muotoon tehdään alkuperäisen näköinen pdf-dokumentti, johon voi tehdä hakuja tehdään html-tiedosto verkkoon tehdään sähkökirja tehdään tiedosto puhesyntetisaattoria varten tehdään pistekirjoituskirja viedään teksti tietokantaan

12 Case 1 – Opiskelijakirjasto: Kurssikirjat
Kurssivaatimuksena olevista kirjoista on joko painos loppu tai tenttikautena niitä ei kirjastosta löydy Kirjat skannattiin ja kirjasta tehtiin näköispainoksia Skannatuille sivukuville tehtiin OCR, teksti oikoluettiin ja niistä tehtiin pdf-tiedostoja, joihin pystyy tekemään hakuja. Opiskelijakirjasto ”paketoi” pdf:t sähkökirja-muotoon ja lainaa niitä opiskelijoille verkossa.

13 Case 2 – Suomen Vakuutusalan Koulutus ja
Case 2 – Suomen Vakuutusalan Koulutus ja Kustannus Oy: Vakuutusalan suomi-ruotsi- englanti -sanakirja Sanakirja oli vanhentunut ja painos loppunut. Haluttiin myös sähköinen CD-rom. Kirja skannattiin ja tunnistettiin suoraan Excel-taulukkomuotoon. Asiakas lisäsi Excel-tiedostoon uudet sanat. Kirja taitettiin Corel Venturalla, johon aineisto tuotiin suoraan Excel-muodossa. Excel-tiedostosta tehtiin myös CD-rom.

14 Case 3 – Eduskunta: Valtiopäivien avajaispuheet
Eduskunta 100 vuotta: Valtiopäivien avajaispuheet haluttiin koota yhdeksi julkaisuksi. Aineisto toimitettiin A4-kopioina. Niihin oli merkitty kohdat, jotka haluttiin tekstimuotoon. Aineisto suomeksi ja ruotsiksi. Aineisto toimitettiin asiakkaalle word-tiedostoina käsikirjoituksen pohjaksi. Toimittaja editoi. Taitettiin kirjaksi ja painettiin.

15 Case 4 – Celia – Näkövammaisten kirjasto: Kurssikirjat
Kurssivaatimuksena olevat kirjat pitää saada sähköiseen muotoon pistekirjoituskirjaa varten. Aiemmin ladottu käsin. Kirjat skannattiin ja tunnistettiin ja toimitettiin tyylitettynä tekstitiedostona kirjastolle. Celiassa tiedosto muunnettiin pistekirjoitukselle tai äänikirjaksi.

16 Case 5 – HKKK: Tutkimusaineistoa
Helsingin kauppakorkeakoulun tutkimus, jossa tutkittiin sijoittamisen psykologiaa. Lähdeaineistoina yli 6000 kpl A3-kokoista sanomalehden sivua, 1300-sivuinen kirja, 900 sivua A4-kopioita. Aineisto tunnistettiin ja tallennettiin pdf- ja txt-muotoon. Sanomalehden sivut skannattiin skannerin lasilta käsin, kirjan sivut syöttöalustalta, tunnistusohjelma pyöri öisin.

17 Case 6 – Kirjastotiede- ja informatiikka sekä Informaatio-tutkimus-lehtien vuosikerrat 1981-1/2002
Lehdet haluttiin saada julkaistuksi verkossa sekä sisältö tallennetuksi XML-muodossa tietokantaan. Aineisto tunnistettiin ja tallennettiin pdf-tiedostoiksi ja UTF-8 -tiedostoiksi. Lehden sivut skannattiin skannerin lasilta käsin. PDF-tiedostojen kuvien resoluutiota laskettiin paremmin verkkoon sopivaksi.

18 Case 7 – SKS: Lönnrotin kirjeet
Elias Lönnrotin kirjoittamat kirjeet halutaan sähköiseen muotoon tutkijoiden käyttöön Osa aineistosta on julkaistu kirjoina, osa on translitteroitu kirjoituskoneella. Kirjojen selät leikataan auki ja sivut skannataan automaattisesti syöttöalustalta, konekirjoitusliuskat skannataan käsin. Tunnistettu teksti toimitetaan tunnistusohjelman tiedostoina oikoluettavaksi. Oikoluvun jälkeen tiedostot tulevat takaisin Yliopistopainoon tiedostojen muokkaukseen verkkojulkaisua varten.

19 OCR-työn vaiheet Aineistoon tutustuminen, esim. muutama sivu kopioina
Tarjous (hintaan vaikuttaa aineiston laatu, terävyys) Skannatun aineiston esikäsittely: merkintöjen poisto, kirjan selän aukileikkaus jne. Skannauksen esivalmistelut Skannaus lasilta ja/tai syöttölaitteelta Skannattujen sivujen läpikäynti, suoritus, muu käsittely Skannattujen sivujen siirto skannausohjelmasta

20 OCR-työn vaiheet OCR-batchin perustaminen
Kuvien sisäänluku OCR-ohjelmaan Tunnistettavien alueiden merkitseminen Tekstintunnistus eli varsinainen OCR Tunnistetun tekstin läpikäynti ja tunnistusvirheiden korjaaminen Tekstin tallennus pdf-, txt-, Excel- tai Word-muotoon Tekstin tyylitys ja läpikäynti Wordissa Toimitus (DVD, CD tai sähköposti)

21 Palvelutasot Skannaus Skannausjäljen käsittely OCR
Sävykuvat myös erikseen skannattuna Skannausjäljen käsittely Alleviivausten ja merkintöjen poisto OCR Tunnistetun tekstin läpikäynti Suttuinen/epätarkka originaali Erikoismerkkejä, symboleita tai kaavoja Murteista tekstiä, erikoissanastoa, lyhenteitä Tallennus tekstitiedostoksi Tallennus tyylitetyksi tekstitiedostoksi Tallennus pdf-tiedostoksi Tallennus pdf-tiedostoksi, johon on liitetty erikseen skannatut sävykuvat Lisäksi: Graafinen suunnittelu, taitto, painaminen…..

22 Miksi Yliopistopainosta?
OCR-ohjelmana venäläinen ABBYY Fine Reader Digipainon tehokkaat DigiPath-skannerit ja ohjelmistot Skannaus ja skannausjäljen käsittely Realistinen hinnoittelu erilaisille palvelutasoille Pystymme myös helposti osoittamaan, mitkä ovat prosessin vaiheet ja mihin hinta perustuu Kokemusta jo vuodesta 2002

23 Ota yhteyttä! Jorma Ahlqvist Tuotepäällikkö, verkkopalvelut
Puhelin , Kerron mielelläni lisää kahvitauolla. Jätä käyntikortti — otamme yhteyttä!


Lataa ppt "Yliopistopainon digitointi- ja tekstintunnistuspalvelut"

Samankaltaiset esitykset


Iklan oleh Google