Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

SAS EG tilastontekemisen välineenä

Samankaltaiset esitykset


Esitys aiheesta: "SAS EG tilastontekemisen välineenä"— Esityksen transkriptio:

1 SAS EG tilastontekemisen välineenä
Heikki Rouhuvirta, Tilastollinen t&k yksikkö

2 Komponenttiarkkitehtuuri
Heikki Rouhuvirta

3 Tiers in the SAS Architecture
SAS® 9.1 Intelligence Architecture: Planning and Administration Guide SAS® 9.1 Intelligence Architecture: Planning and Administration Guide Heikki Rouhuvirta

4 SAS Workspace Manager ratkaisut
Heikki Rouhuvirta Heikki Rouhuvirta 4

5 SAS Workspace arkkitehtuuri I
Using IOM to Develop Applications OM Scenario The Workspace Manager can create a SAS Workspace in one of three ways: Through local COM if the SAS Server runs on the same machine as the client Through DCOM if the SAS Server runs on another machine that supports DCOM Through the IOM Bridge for COM (SASComb.dll) if the SAS Server runs on another machine that does not support COM/DCOM functionality (UNIX [Solaris, HP/UX, AIX] or z/OS) With the Workspace Manager, you can perform the following tasks: Launch SAS Workspaces Select between running SAS Workspaces Share IWorkspace pointers within a process Access a Workspace from within Web pages Use ADO within a SAS Workspace Store and retrieve definitions using LDAP or a flat file The Workspace Manager can be used from Visual Basic, C, C++, and VBScript (with the help of Scripto). COM Heikki Rouhuvirta Heikki Rouhuvirta 5 5

6 SAS Workspace arkkitehtuuri II
IOM Servers The Integrated Object Model (IOM) in SAS Integration Technologies provides distributed object interfaces to SAS software features. To call these interfaces, clients can use industry-standard languages, programming tools, and communication protocols. The interfaces are built into SAS and are available to clients whenever SAS is executed as an object server. An IOM server is an object server that is launched in order to fulfill client requests for IOM services. There are four types of IOM servers: SAS Workspace Server is provided with SAS Integration Technologies and is accessed through the IOM workspace interface. This interface provides access to Foundation SAS software features such as the SAS language, SAS libraries, the server file system, results content, and formatting services. A SAS workspace represents a session with the SAS System, and is functionally equivalent to a SAS Display Manager session or the execution of the SAS System as a batch job. SAS Stored Process Server is a multi-user server that is provided with SAS Integration Technologies and is used to execute SAS Stored Processes and deliver the results. A SAS Stored Process is a SAS program that is stored on a server and can be called by client applications. SAS Stored Processes enable clients to execute parameterized SAS programs without having to know the SAS language. SAS OLAP Server delivers pre-summarized "cubes" of data to OLAP clients like SAS Enterprise Guide using OLE DB for OLAP. Cubes are logical sets of data that are organized and structured in a hierarchical, multidimensional arrangement. You can query cubes using the multidimensional expression (MDX) language. The SAS OLAP Server, which is provided with SAS Intelligent Storage products, is designed to reduce the load on traditional back-end storage systems by delivering summarized views of data to business intelligence applications, irrespective of the amount of data underlying these summaries. SAS Metadata Server is a multi-user server, provided with SAS Foundation, that enables users to read metadata from or write metadata to one or more SAS Metadata Repositories. SAS Metadata Repositories contain metadata that represents items such as SAS application servers (including SAS Workspace Servers, SAS OLAP Servers, and SAS Stored Process Servers), users in the metadata environment, libraries, tables, stored processes, and cubes. Connecting Clients to IOM Servers For SAS Integration Technologies 9, the information that is needed to connect to an IOM server can now be obtained from a SAS Metadata Server. SAS Integration Technologies 9 supports additional SAS software features by enabling Java and Windows clients to to connect to and request objects from various types of IOM servers including other SAS Metadata Servers, SAS OLAP Servers, SAS Stored Process Servers, and SAS Workspace Servers. Note: If you are using an LDAP directory server as your metadata repository, then you can only access workspace servers. SAS Integration Technologies facilitates client/server communication across multiple vendor architectures by supporting multiple client/server interoperability standards. The chart below shows the different ways that clients and IOM servers can communicate. Prev | Next | ContentsTechnical OverviewIOM Servers The Integrated Object Model (IOM) in SAS Integration Technologies provides distributed object interfaces to SAS software features. To call these interfaces, clients can use industry-standard languages, programming tools, and communication protocols. The interfaces are built into SAS and are available to clients whenever SAS is executed as an object server. An IOM server is an object server that is launched in order to fulfill client requests for IOM services. There are four types of IOM servers: Configuring and Using IOM Servers You can use the SAS Configuration Wizard to plan, install, and define the configurations for your IOM servers. Detailed documentation is provided to help you perform these tasks either with or without the wizard. Documentation is also provided to help you manage and administer your server configurations after installation, and to assist you in developing application programs that use the IOM servers.The following table provides information about the documentation that is available for IOM servers:Server TypeType of InformationDocumentation Linkall IOM server typesusing SAS Configuration Manager to plan and configure SAS Intelligence Platform: Installation Guide securingSAS Intelligence Platform: Security Administration Guide Security in the SAS Integration Technologies: Server Administrator's Guide starting Starting Servers in the SAS Integration Technologies: Server Administrator's Guidedeveloping applicationsIOM Scenario in this overviewconnecting a client applicationConnecting Clients to IOM Servers in this overview Using the Java Connection Factory and Using the SAS Object Manager in the SAS Integration Technologies: Developer's Guide implementing distributed security for clientsJava Client Security and Windows Client Security in the SAS Integration Technologies: Developer's Guide SAS Workspace Server planning and configuring without SAS Configuration ManagerSAS Integration Technologies: Server Administrator's Guide modifying and administering the configuration after installation SAS Integration Technologies: Server Administrator's Guide SAS Intelligence Platform: Application Server Administration Guide (if the SAS Intelligence Platform is installed) modifying the configuration to improve the performance of SAS business intelligence applicationsReconfiguring or Clustering Workspace Servers or Stored Process Servers in the SAS Intelligence Platform: Application Server Administration Guide client developmentWorkspace Object Hierarchy in this overview Developing Java Clients and Developing Windows Clients in the SAS Integration Technologies: Developer's Guide SAS Stored Process Serverplanning and configuring without SAS Configuration ManagerSAS Integration Technologies: Server Administrator's Guide modifying and administering the configuration after installation SAS Integration Technologies: Server Administrator's Guide SAS Intelligence Platform: Application Server Administration Guide (if the SAS Intelligence Platform is installed) modifying the configuration to improve the performance of SAS business intelligence applicationsReconfiguring or Clustering Workspace Servers or Stored Process Servers in the SAS Intelligence Platform: Application Server Administration Guide client developmentSAS Stored Processes and Developing Java Clients in the SAS Integration Technologies: Developer's Guide SAS OLAP Servermodifying and administering the configuration after installation Administering SAS OLAP Servers in the SAS Intelligence Platform: Application Server Administration Guideconfiguring COM connections forSetting Up a COM/DCOM Connection in the SAS Integration Technologies: Server Administrator's Guide SAS Metadata Servermodifying and administering the configuration after installation SAS Intelligence Platform: System Administration Guide configuring COM connection for Setting Up a COM/DCOM Connection in the SAS Integration Technologies: Server Administrator's Guide client developmentGetting Started with the SAS Open Metadata Interface and the SAS Open Metadata Interface: User's Guide Connecting Clients to IOM Servers For SAS Integration Technologies 9, the information that is needed to connect to an IOM server can now be obtained from a SAS Metadata Server. SAS Integration Technologies 9 supports additional SAS software features by enabling Java and Windows clients to to connect to and request objects from various types of IOM servers including other SAS Metadata Servers, SAS OLAP Servers, SAS Stored Process Servers, and SAS Workspace Servers.Note: If you are using an LDAP directory server as your metadata repository, then you can only access workspace servers.SAS Integration Technologies facilitates client/server communication across multiple vendor architectures by supporting multiple client/server interoperability standards. The chart below shows the different ways that clients and IOM servers can communicate. Windows Clients As shown in the illustration, Windows clients that are written in languages such as Visual Basic or Visual C++ access IOM servers running in the Windows operating environment using Microsoft's Component Object Model (COM/DCOM). Windows client interfaces provided in SAS Integration Technologies support two leading industry standards: ActiveX Data Objects (ADO) and Object Linked Embedding for Databases (OLE DB). Windows clients accessing IOM servers on non-Windows server platforms use the IOM Bridge for COM. This bridge allows you to develop native COM/DCOM applications that access server data, for example, on UNIX and mainframe platforms. This transparency is a key feature of SAS Integration Technologies. It enables application developers to have full access to the architectural elements available in the Windows environment, even when their clients communicate with servers in other operating environments. The bridge makes other operating environments appear to be extensions of the client's native operating environment. With SAS Integration Technologies 9, Windows clients can use the Windows Object Manager to connect to IOM servers. Note: SAS Integration Technologies 9 still supports the Version 8 interface for using the Windows Workspace Manager. However, it is recommended that you use the Windows Object Manager interface in order to take advantage of the new features. Java Clients Java clients that access IOM servers use the Common Object Request Broker Architecture (CORBA). CORBA is an architecture for an open software bus on which objects can interoperate across networks and operating systems. The Object Request Broker (ORB) is the key element of CORBA. It provides the infrastructure for distributed object computing by enabling software components (objects) on one machine to locate and communicate with components on other machines. This infrastructure enables you, as an application developer, to focus on implementing your business logic instead of worrying about all the underlying technology. SAS Integration Technologies provides an ORB called the IOM bridge for Java. This ORB implements the standard CORBA ORB interface defined by the Object Management Group (OMG). It uses a proprietary inter-orb protocol (called the IOM Bridge protocol) to communicate with the IOM server. With SAS Integration Technologies 9, Java clients can use the Java Connection Factory to connect to IOM servers. Note: SAS Integration Technologies 9 still supports the Version 8 interface for using the Java Workspace Factory. However, it is recommended that you use the Connection Factory interface in order to take advantage of the new features. Heikki Rouhuvirta Heikki Rouhuvirta 6 6

7 SAS Workspace – käyttöliittymä näyttö
G:\EG testitDokit\TVKI_SAS_Imputointi_2.jpg SAS:n dll:iin SAS.dll, SASIOMCommon.dll ja SASWorkspaceManager.dll. Voidaan liittää mihin tahansa .NET-sovellukseen. Käytännössä suurin osa .NET-sovellusten SAS-kutsuista on toteutettu tämän komponentin avulla. Tässä lyhyt kuvaus NET-komponenteista, joita meillä toteutettu SAS:n ympärille - SAS-komentoriviwrapper Kapseloi komentorivipohjaisest SAS-kutsut vahvasti tyypitetyn luokkarakenteen taakse. Käytännössä mahdollistaa siis SAS-makrojen suorittamisen SAS-komentoriviohjelman kautta ja lokitietojen ohjaamisen komentoriviparametrien mukaisesti. Ei tarvitse välttämättä työasema-asennusta SAS:sta, mikäli sas.exe verkkolevyllä. - SAS-manager Komentoriviwrapperia vastaava kilke mutta toteutettu käyttäen SAS:n luokkakirjastoja. Tarvitsee tuekseen SAS-asennuksen työasemaan. - SAS-lokitietojen parseri Käyttöliittymäkomponentti, joka parsii SAS-lokin kolmeen osaan: information, warnings ja errors. Paikattavan muuttujan valinta Heikki Rouhuvirta Heikki Rouhuvirta 7 7

8 SAS ympäristön laajennus - SAS XML
Heikki Rouhuvirta Heikki Rouhuvirta 8

9 Heikki Rouhuvirta Heikki Rouhuvirta 9

10 SAS EG arkkitehtuuri käytännössä
Heikki Rouhuvirta

11 Lukuoikeudet kaikilla
eXist-tietokanta DB tilastot Collection Instanssi New Collection Yht. n. 200… Tilaston Public Kirjoitusoikeudet tilastolla Salatut kansiot Lukuoikeudet kaikilla Julkaisut Taulukot Aineisto-kuvaukset Tilaston Tilaston yht. n. 200… Statmeta Procmeta SAS Julkaisut, taulukot ja statmeta Julkaisut , taulukot ja statmeta Filtteröinti Käyttöoikeudet (näkymä) Rakenteinen haku Validointi Skaalautuvuus Heikki Rouhuvirta Heikki Rouhuvirta 11 11

12 Tilastotuotanto Heikki Rouhuvirta Heikki Rouhuvirta 10.3.2009
12

13 Tilaston tuotantoprosessi
Heikki Rouhuvirta Heikki Rouhuvirta 13

14 Tiedon menetelmällinen käsittely ja data
Miksi tarvitaan terminologiaa ja vieläpä yhteistä sellaista? - missä sitä voidaan sitten hyödyntää ja - millä tavalla - käsitteistön monimuotoisuudesta ja näkökulmariippuvaisuuden tuomasta vaihtelusta pitäisi vakiinnuttaa parhaimmin tilastollista informaatiota käsitteellistävä terminologia ja - tuotannollisia tarpeita varten terminologia joka parhaimmin kuvaa tilastollisen aineiston käsittelyä eli sitä mitä datalle tässä käsittelyssä tapahtuu Huomautukset: - haalinnan sijalla ei voi käyttää termiä koonti koska se ymmärretään koontitiedostojärjestelmään liittyväksi - raw data - final data - aggregointi Heikki Rouhuvirta

15 Käytännön esimerkkejä
Heikki Rouhuvirta Heikki Rouhuvirta 15

16 Tilastotuotannon SAS-ajovirta
Heikki Rouhuvirta Heikki Rouhuvirta 16

17 SAS-ajovirtaa EG 4.2:ssa Heikki Rouhuvirta

18 Optimoitua SAS-ajovirtaa EG 4.2:ssa
Heikki Rouhuvirta Heikki Rouhuvirta 18

19 Tavoitteet 1. Käyttöliittymä 2. Opasteet ja ohjeet
3. Prosessin hallinta 4. Kontrollistulosteet Heikki Rouhuvirta

20 Datan inventointi - Aineistotyökalu
Heikki Rouhuvirta Heikki Rouhuvirta 20

21 Aineistovaatimukset (I) - Aineistossa tulee olla mukana
-aineistossa muuttujatyypit on määritelty oikein muuttujan ominaisuuksia vastaavasti (luokittelumuuttuja (categorical variable)/char tai jatkuva muuttuja (continuous variable) /num) -muuttujien varsinaiset selväkieliset nimet (Label) -luokittelumuuttujien luokka-arvojen selväkieliset nimet (formaatteina) -otosaineistoissa aineistomuuttuja (erottelee kadon jne.) -otosaineistossa on sekä painokerroinmuuttuja (Painokerroin) että frekvenssimuuttuja (Frequential); painokeroin on havaintoon liittyvä todellinen muuttuja ja frekvenssimuuttuja systeemimuuttuja, joka saa kaikilla havainnoilla arvon 1 Heikki Rouhuvirta Heikki Rouhuvirta 21

22 Aineistovaatimukset (II) - Aineiston tulee olla menetelmällisesti loppuu asti käsiteltyä
-puuttuvan tiedon oikea merkintä -virheenkorjaukset -paikkaukset (imputoinnit) Heikki Rouhuvirta Heikki Rouhuvirta 22

23 Käynnistys EG- valikosta
Heikki Rouhuvirta Heikki Rouhuvirta 23

24 (1) Aineiston valinta Heikki Rouhuvirta Heikki Rouhuvirta 10.3.2009
24

25 (2) Aineistokuvauskantaan kirjoittautuminen
Heikki Rouhuvirta Heikki Rouhuvirta 25

26 (3) Aineistolle tehtävät toimenpiteet
-valinnat Heikki Rouhuvirta Heikki Rouhuvirta 26

27 (3a) Johdettujen muuttujien muodostaminen
Heikki Rouhuvirta Heikki Rouhuvirta 27

28 (3b) Aineiston rajaus Heikki Rouhuvirta Heikki Rouhuvirta 10.3.2009
28

29 (3c) Aineiston järjestäminen
Heikki Rouhuvirta Heikki Rouhuvirta 29

30 Aineistotyökalu - tulos EG-projektina
Heikki Rouhuvirta Heikki Rouhuvirta 30

31 (1) koodi Heikki Rouhuvirta Heikki Rouhuvirta 31

32 (2) SAS dataset Heikki Rouhuvirta Heikki Rouhuvirta 10.3.2009
32

33 (3) Muuttuja Heikki Rouhuvirta

34 (4) Metatietojen siirto
Heikki Rouhuvirta Heikki Rouhuvirta 34

35 (5) Aineiston inventointi - raportti
Heikki Rouhuvirta

36 Editointi. (1) Aineiston alkuanalyysi. (2) Tarkistukset
Editointi (1) Aineiston alkuanalyysi (2) Tarkistukset (3) Johdettujen muuttujien muodostaminen (4) Paikkaaminen (5) Estimointi Heikki Rouhuvirta Heikki Rouhuvirta 36

37 Banff BANFF - Generalized Edit and Imputation System
Banff proseduurit - aineiston käsittelyn loogiset vaiheet Heikki Rouhuvirta Heikki Rouhuvirta 37

38 Käynnistys EG-valikosta (tai SAS koodista)
Heikki Rouhuvirta Heikki Rouhuvirta 38

39 Editointiprojekti Banff / EG
Heikki Rouhuvirta Heikki Rouhuvirta 39

40 Taulukointityökalu Heikki Rouhuvirta Heikki Rouhuvirta 10.3.2009
40

41 käytetty aineisto =>
Taulukointi ja sen moninaiset muodot ja vaihtoehdot ”Tuotantokanta” ”Tulostustiedot-taulu” RDB ”Kuvaustietokanta” Aineisto: – havaintoyksikkö-rakenne –havaintoyksikkö-periodi -rakenne Johdetut muuttujat SAS dataset Johdettujen muuttujien kuvaukset XMLDB Taulukointi asetelma => Perustaulukot, aineisto tn Kuutiot, aineisto tn Muutostaulukot, aineisto tn, tn-1 Kuutiot, aineisto tn, tn-1 Aikasarjat, aineisto tni käytetty aineisto => Joka tasolla pitäisi olla toteutettuna eräitä aineiston hyödyntämisen kannalta olennaisia standardi/vakioratkaisuja joita voidaan kutsua arkkitehtuurin kulmakiviksi Tämä koskee sekä aineistoja että taulukoinnin tuloksia Nyt nämä kulmakivet on määritelty XML määrityksinä. Tätä tietoa tulee komponenttien lukea ja kirjoittaa ja ”ymmärtää” ja siirtää tietoa sitä hukkaamatta TAULUKOINNISTA - jokainen proseduuri asetelmissa tekee aineistot joko eksplisiittisesti tai implisiittisesti - siis pitäisi löytää formaatit ja komponentit ettei ”tilapäisiä” välituloksia tarvitsisi tuottaa aina uudelleen ja rinnakkaisina (=erillisillä tai kopioiduilla koodeilla) - ja taulukkomuotoiset tulosteet tulisi tuottaa ja järjestää siten, etteivät ne sisältäisi toistoina toinen toisiaan - ei ole järkevää tuottaa joka kerran aineistoa uudelleen, ja mahdollisesti vieläpä uudella koodilla, kun taulukkoasetelmaa muutetaan - esimerkkinä muutostaulukot ja SAS – ymmärtääkö proseduurin optiot vain ”solutason” vertailun?? JA LOPUKSI – ONKO KENELLÄKÄÄN IDEOITA TARVITTAVISTA KOMPONENTEISTA – – NYT OLISI OSTORAHAA TEKEMISEEN !!!! Taulukointi on ainesiton (yksikkötason ainesiton) aggregointia risitiintaulukoimalla ja tässä yhteydessä erilaisten ryhmökohtaisten tilstolliseten tunnuslukujen laskentaa. Taulukointi ei ole taulukoista tietojen poimintaa crt pcaxis ja pxedit. Nämä välineet oteuttavat taulukoideún tiedon järjestämisen työvalineinä Huomioitavaa: – edellisen tuotantovaiheen tietosisältö pitäisi tyhjentää seuraavaan eikä hukata informaatiota – taulukointiasetelmien moninaisuus ei saisi johtaa rinnakkaisuuksiin ja päällekkäisyyksiin (samaa tietoa prosessoidaan toisistaan erillisinä prosesseina – virhemahdollisuudet, kuten tarkistuksetkin, vain kertautuvat) => ratkaisuna komponenttien/työkalujen ja aineiston hallinnan kehittäminen (muuta tietä ei ole – vai onko?) Heikki Rouhuvirta

42 Taulukkotuotannon SAS/EG käyttöliittymä
CoSSI spesifikaatio CoSSIn metadataspesifikaatio CoSSI ja metatiedon mallintaminen Common Structure of Statistical Information – CoSSI -covers different ways of statistical data organization (statistical data matrix and statistical table) -includes a model to define contentual information in statistics -Includes a model to define the methodology used in statistics (e.g. measuring and classification) -manages the complexity of statistical information (e.g. nested variables structure) -includes definitions for all types of the statistical information, data, metadata for files, statistical metadata, quality declarations, charts -the main objective was to organise statistical data so that they also contain statistical metadata (describing both the structure and logic of statistical metadata at the same time) Heikki Rouhuvirta

43 Rivi- ja sarakeulottuvuudet
Taulukkoasetelman määrittely Puurakenne (I) Rivi- ja sarakeulottuvuudet Heikki Rouhuvirta

44 KOTITALOUDEN SOSIOEKONOMINEN ASEMA
Taulukkoasetelman määrittely Puurakenne (II) 1. Kotitalouksien lukumäärä sosioekonomisen aseman mukaan maakunnittain vuonna 1998 KOTITALOUDEN SOSIOEKONOMINEN ASEMA 1 2 3 Maakunta 28548 270530 313212 67288 210730 557527 51866 100664 322806 4 35506 125036 303742 Heikki Rouhuvirta

45 KOTITALOUDEN SOSIOEKONOMINEN ASEMA
Puurakenne (III) 4. Kotitalouksien alkoholiin käyttämä keskimääräinen rahamäärä (€) kotitalouden sosioekonomisen aseman mukaan vuonna 1998 KOTITALOUDEN SOSIOEKONOMINEN ASEMA Keskimäärin 1 2 3 ALKOHOLIJUOMAT 2893 2830 2019 2326 Perusjoukon lukumäärät 183209 706960 Heikki Rouhuvirta

46 Puurakenne (IV) Heikki Rouhuvirta

47 Käyttäjän määriteltävät asiat
Ympäristö taulukon nimi taulukon taltiotiedot tulostushakemisto Asetelma aineiston valinta (tehdään SAS EG:n puolella) aineiston rajaus muuttujan valinta ja sijoitus asetelmaan muuttujan tyypin tarkistus/määrittely asetelmassa (luokitusmuuttuja/tutkimusmuuttuja) taulukoitavan tunnusluvun määrittely/valinta muuttujalle Heikki Rouhuvirta Heikki Rouhuvirta 47

48 Käynnistys EG-valikosta
Heikki Rouhuvirta Heikki Rouhuvirta 48

49 (1) Taulukkoasetelman määrittely
Heikki Rouhuvirta Heikki Rouhuvirta 49

50 (2a) Taulukkotiedoston kuvaustietojen syöttölomake
Heikki Rouhuvirta Heikki Rouhuvirta 50

51 (2b) Taulukkotiedoston kuvaustietojen syöttölomake
Heikki Rouhuvirta Heikki Rouhuvirta 51

52 (3) Taulukon otsikkotietojen syöttölomake
Heikki Rouhuvirta Heikki Rouhuvirta 52

53 (4) Aineiston rajausehtojen määrittely
Heikki Rouhuvirta Heikki Rouhuvirta 53

54 (5) Taulukkoasetelman määrittely – muuttujat ja tunnusluvut
Heikki Rouhuvirta Heikki Rouhuvirta 54

55 (6a) Muuttujan sisältökuvauksen tarkistus
Heikki Rouhuvirta Heikki Rouhuvirta 55

56 (6b) Muuttujan sisältökuvauksen tarkistus
Heikki Rouhuvirta Heikki Rouhuvirta 56

57 (7) HTML taulukkotulosteen näyttö SAS/EG:ssä
Heikki Rouhuvirta Heikki Rouhuvirta 57

58 (8) SAS ODS - Sähköinen XML taulukko-originaali
CALS XDF Heikki Rouhuvirta

59 Kiitokset! Heikki Rouhuvirta


Lataa ppt "SAS EG tilastontekemisen välineenä"

Samankaltaiset esitykset


Iklan oleh Google