Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Harri Lehtinen (harri.lehtinen@stat.fi) Dissemination of Statistical Data, Publications and Metadata - Process Based on Common Structure of Statistical.

Samankaltaiset esitykset


Esitys aiheesta: "Harri Lehtinen (harri.lehtinen@stat.fi) Dissemination of Statistical Data, Publications and Metadata - Process Based on Common Structure of Statistical."— Esityksen transkriptio:

1 Harri Lehtinen (harri.lehtinen@stat.fi)
Dissemination of Statistical Data, Publications and Metadata - Process Based on Common Structure of Statistical Information (CoSSI) Harri Lehtinen

2 CoSSI: (Common Structure of Statistical Information)
The point of departure in the CoSSI was an (infological) analysis of the information being considered. The conclusion from the analysis was that although in practice the definition of statistical information has varied according to a given situation and application, in reality statistical information has a certain simplifiable and acceptable universal structure. The CoSSI describes the general structure that is not dependent on the situation of the statistical information presented in differing formats. => CoSSI defines the structures of statistical data, metadata and publications. Harri Lehtinen

3 XML based dissemination - CoSSI
Modules: Document metadata Statistical metadata Processing metadata Publications DATA: Matrices (XDF) Tables (CALS) Sparse matrix (KEYS) CoSSI – ( Harri Lehtinen

4 Implementation Modular DTD system Document Type Definitions
Use of standards CALS, XDF, Dublin-Core... Statistical matrix (statinfo_xdf.dtd): statmeta.dtd, docmeta.dtd, xdf.dtd Statistical table (statinfo_cals.dtd): statmeta.dtd, docmeta.dtd, cals.dtd Publications and documents (publication.dtd): docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd... XML One XML-file -> data and metadata Multi-lingual documents Harri Lehtinen

5 Metadata Statistical metadata
Information vital for the interpretation of numerical statistical information Document metadata Information about: The producer of document Document’s content Processing metadata Information for a software to process data Harri Lehtinen

6 Content model of statistical metadata
Document metadata Statistical metadata Variable name Concept definition Operational definition Description Calculation formula Measurement unit Classification ID Type Author Date Values Figure Harri Lehtinen

7 Content model of document metadata
Creator Person Subject Keywords Content description Publisher Organisation Contributor Person Date Published, modified Type Format Language Main and other language Document information SVT and Category Identifier URN, URL, ISBN, ISSN, DOI, Number Rights Coverage Relations Source Harri Lehtinen

8 Content model of statistical data matrix
Title Document metadata Statistical metadata Processing metadata Statistical data matrix x np nj n2 n1 . ip ij i2 i1 2p 2j 22 21 1p 1j 12 11 p j 2 1 a n i Variable Statistical unit XDF Variables Class values Statistical units Footnotes Harri Lehtinen

9 Content model of statistical table
Statistical metadata Content model of statistical table Table title Document metadata Processing metadata Statistical table CALS Column headings Row headings Numerical data Table footnotes Harri Lehtinen

10 Documents and publications
Document metadata Document main title Ingress Introduction Abstract Headnote Product specification Chapters Title Sections Title Paragraphs Summary Footnotes Bibliography Appendix Definition lists Harri Lehtinen

11 Paragraph Paragraph List (unordered / ordered) Statistical table
Figure Link Footnote reference Bibliographical reference Emphasis Harri Lehtinen

12 Implementation to the PC-Axis
Need for the XML format for the PC-Axis CoSSI-matrix-format is close to the PC-Axis data format and supports also multi-lingual data Processing metadata for the PC-Axis (pxmeta) Mapping of PC-Axis metadata to the CoSSI-model statistical, document and processing metadata Three data formats Matrix (XDF) Table (CALS) Keys (PC-Axis) => but the same metadata for all formats! Allows more metadata than the original PC-Axis format Automatical conversion between data formats Harri Lehtinen

13 CoSSI for the PC-Axis Matrix Docmeta Procmeta Statmeta Data -> XDF
Table Data -> CALS Keys Data -> Keys Data part is in different formats but everything else stays the same Information is the same in all formats! Harri Lehtinen

14 Automatical publishing Publication production
/ Dissemination process –Office97 .PX PX-Edit manual or batch processing - checking - edit metadata Automatical publishing -Timer controlled Database services .PX .PX PC- Axis - tables PX-Web PX-Edit or PC-Axis manual or batch processing - exclusion - save as: Excel or txt Statistical application Web-site FastWeb -Timer controlled PX-Edit Publication production (Monthly & quarterly publ, publication tables...) SuperStar to PX SAS to PX HTML Publication editor Metadata: - statistical metadata - classifications - processing metadata FastWeb: - Conversion to XHTML Conversion to PDF XLS Word, Excel, ... PX-templates PDF Harri Lehtinen

15 What we need: More and better metadata Validation Language versions
All information in a single file Archiving Automatical conversion to different dissemination channels Structured searches SVG Vendor free solution To add new dissemination channels Harri Lehtinen

16 SuperStar -> PX&CoSSI PX-Edit -> PX&CoSSI
/ XML based dissemination process – XML and PC-Axis Publishing and preview PX-Web: PC-Axis tables .PX .PX Database services .PX .PX PX-Web Statistical application SAS -> PX&CoSSI SuperStar -> PX&CoSSI PX-Edit -> PX&CoSSI FastWeb-XML Conversion Publication editor Arbortext Monthly & quarterly publ, publication tables...) Dissemination database HTML HTML Web-site eXist, XML- database Metadata: - statistical metadata - classifications - processing metadata eXist, XML- database PDF PDF Printing house RSS, SDMX RSS, SDMX PDF Harri Lehtinen

17 / XML based dissemination process – integration completed
FastWeb-XML Database services Publishing and preview PX-Web Statistical application SAS -> PX&CoSSI SuperStar -> PX&CoSSI PX-Edit -> PX&CoSSI PX-Web: matrices (PXML) .xml .xml Conversion Publication editor Arbortext Monthly & quarterly publ, publication tables...) Dissemination database HTML HTML Web-site eXist, XML- database Metadata: - statistical metadata - classifications - processing metadata eXist, XML- database PDF PDF Printing house RSS, SDMX RSS, SDMX PDF Harri Lehtinen

18 XML Database and Statistical Information
Harri Lehtinen

19 eXist XML database Statistical metadata Statistical publications
Statistics Statistical tables XML-output taulukointivälineistä SAS: Tekniset ongelmat, joilla CoSSI-mallin mukaiset taulukot ja matriisit voidaan tuottaa SAS:lla, on pääosin ratkaistu. Systeemin testaus on kuitenkin kesken ja käyttöliittymä on vielä kehitteillä. SuperStar: Space Time Research on luvannut tuottaa CoSSI-mallin mukaisen CALS-taulukko-XML-outputin ensi vuoden alussa julkaistavaan versioon. PX-Edit: CoSSI-mallin matriisi-XML-tulostus on toteutettu. CALS-taulukoiden tulostus toteutetaan seuraavaksi. PC-Axis: Implementointityö on alkamassa. XML-tietokanta (eXist) eXist on asennettu ja testikäytössä. Alussa on tarkoitus tallentaa sinne tilastolliset metatiedot ja jatkossa taulukot, matriisit ja julkaisut. Epic editoriin on rakennettu toiminnallisuus, jolla tilastollisia metatietoja voidaan hakea tietokannasta ja tuottaa tietokantaan uusia tilastollisia metatietodokumentteja. Epic-julkaisueditori: Epiciin on toteutettu tarvittava toiminnallisuus tilastojulkaisujen, taulukoiden ja metatietojen tuottamiseksi ja käsittelemiseksi. Käyttöliittymää jatkokehitetään käyttäjäpalautteen perusteella. Muunnokset: XML2HTML: Toiminnassa XML2PDF: Vielä hiomista, mutta tekniset ongelmat ratkaistu Harri Lehtinen

20 Statistical publication in the Arbortext editor
XML-output taulukointivälineistä SAS: Tekniset ongelmat, joilla CoSSI-mallin mukaiset taulukot ja matriisit voidaan tuottaa SAS:lla, on pääosin ratkaistu. Systeemin testaus on kuitenkin kesken ja käyttöliittymä on vielä kehitteillä. SuperStar: Space Time Research on luvannut tuottaa CoSSI-mallin mukaisen CALS-taulukko-XML-outputin ensi vuoden alussa julkaistavaan versioon. PX-Edit: CoSSI-mallin matriisi-XML-tulostus on toteutettu. CALS-taulukoiden tulostus toteutetaan seuraavaksi. PC-Axis: Implementointityö on alkamassa. XML-tietokanta (eXist) eXist on asennettu ja testikäytössä. Alussa on tarkoitus tallentaa sinne tilastolliset metatiedot ja jatkossa taulukot, matriisit ja julkaisut. Epic editoriin on rakennettu toiminnallisuus, jolla tilastollisia metatietoja voidaan hakea tietokannasta ja tuottaa tietokantaan uusia tilastollisia metatietodokumentteja. Epic-julkaisueditori: Epiciin on toteutettu tarvittava toiminnallisuus tilastojulkaisujen, taulukoiden ja metatietojen tuottamiseksi ja käsittelemiseksi. Käyttöliittymää jatkokehitetään käyttäjäpalautteen perusteella. Muunnokset: XML2HTML: Toiminnassa XML2PDF: Vielä hiomista, mutta tekniset ongelmat ratkaistu Harri Lehtinen

21 Statistical metadata for a variable in a table
Statistical metadata for a variable ”Disposable income” XML-output taulukointivälineistä SAS: Tekniset ongelmat, joilla CoSSI-mallin mukaiset taulukot ja matriisit voidaan tuottaa SAS:lla, on pääosin ratkaistu. Systeemin testaus on kuitenkin kesken ja käyttöliittymä on vielä kehitteillä. SuperStar: Space Time Research on luvannut tuottaa CoSSI-mallin mukaisen CALS-taulukko-XML-outputin ensi vuoden alussa julkaistavaan versioon. PX-Edit: CoSSI-mallin matriisi-XML-tulostus on toteutettu. CALS-taulukoiden tulostus toteutetaan seuraavaksi. PC-Axis: Implementointityö on alkamassa. XML-tietokanta (eXist) eXist on asennettu ja testikäytössä. Alussa on tarkoitus tallentaa sinne tilastolliset metatiedot ja jatkossa taulukot, matriisit ja julkaisut. Epic editoriin on rakennettu toiminnallisuus, jolla tilastollisia metatietoja voidaan hakea tietokannasta ja tuottaa tietokantaan uusia tilastollisia metatietodokumentteja. Epic-julkaisueditori: Epiciin on toteutettu tarvittava toiminnallisuus tilastojulkaisujen, taulukoiden ja metatietojen tuottamiseksi ja käsittelemiseksi. Käyttöliittymää jatkokehitetään käyttäjäpalautteen perusteella. Muunnokset: XML2HTML: Toiminnassa XML2PDF: Vielä hiomista, mutta tekniset ongelmat ratkaistu Harri Lehtinen

22 HTML output of a statistical publication with statistical metadata
XML-output taulukointivälineistä SAS: Tekniset ongelmat, joilla CoSSI-mallin mukaiset taulukot ja matriisit voidaan tuottaa SAS:lla, on pääosin ratkaistu. Systeemin testaus on kuitenkin kesken ja käyttöliittymä on vielä kehitteillä. SuperStar: Space Time Research on luvannut tuottaa CoSSI-mallin mukaisen CALS-taulukko-XML-outputin ensi vuoden alussa julkaistavaan versioon. PX-Edit: CoSSI-mallin matriisi-XML-tulostus on toteutettu. CALS-taulukoiden tulostus toteutetaan seuraavaksi. PC-Axis: Implementointityö on alkamassa. XML-tietokanta (eXist) eXist on asennettu ja testikäytössä. Alussa on tarkoitus tallentaa sinne tilastolliset metatiedot ja jatkossa taulukot, matriisit ja julkaisut. Epic editoriin on rakennettu toiminnallisuus, jolla tilastollisia metatietoja voidaan hakea tietokannasta ja tuottaa tietokantaan uusia tilastollisia metatietodokumentteja. Epic-julkaisueditori: Epiciin on toteutettu tarvittava toiminnallisuus tilastojulkaisujen, taulukoiden ja metatietojen tuottamiseksi ja käsittelemiseksi. Käyttöliittymää jatkokehitetään käyttäjäpalautteen perusteella. Muunnokset: XML2HTML: Toiminnassa XML2PDF: Vielä hiomista, mutta tekniset ongelmat ratkaistu Link to the statistical metadata Harri Lehtinen

23 User interface for publishing and preview
XML-output taulukointivälineistä SAS: Tekniset ongelmat, joilla CoSSI-mallin mukaiset taulukot ja matriisit voidaan tuottaa SAS:lla, on pääosin ratkaistu. Systeemin testaus on kuitenkin kesken ja käyttöliittymä on vielä kehitteillä. SuperStar: Space Time Research on luvannut tuottaa CoSSI-mallin mukaisen CALS-taulukko-XML-outputin ensi vuoden alussa julkaistavaan versioon. PX-Edit: CoSSI-mallin matriisi-XML-tulostus on toteutettu. CALS-taulukoiden tulostus toteutetaan seuraavaksi. PC-Axis: Implementointityö on alkamassa. XML-tietokanta (eXist) eXist on asennettu ja testikäytössä. Alussa on tarkoitus tallentaa sinne tilastolliset metatiedot ja jatkossa taulukot, matriisit ja julkaisut. Epic editoriin on rakennettu toiminnallisuus, jolla tilastollisia metatietoja voidaan hakea tietokannasta ja tuottaa tietokantaan uusia tilastollisia metatietodokumentteja. Epic-julkaisueditori: Epiciin on toteutettu tarvittava toiminnallisuus tilastojulkaisujen, taulukoiden ja metatietojen tuottamiseksi ja käsittelemiseksi. Käyttöliittymää jatkokehitetään käyttäjäpalautteen perusteella. Muunnokset: XML2HTML: Toiminnassa XML2PDF: Vielä hiomista, mutta tekniset ongelmat ratkaistu Harri Lehtinen


Lataa ppt "Harri Lehtinen (harri.lehtinen@stat.fi) Dissemination of Statistical Data, Publications and Metadata - Process Based on Common Structure of Statistical."

Samankaltaiset esitykset


Iklan oleh Google