Show simple item record

dc.contributor.advisorΚαραγρηγορίου, Αλέξανδροςel_GR
dc.contributor.authorSpitieris, Michaelen_US
dc.contributor.authorΣπητιέρης, Μιχάληςel_GR
dc.coverage.spatialΣάμοςel_GR
dc.date.accessioned2018-04-17T12:52:19Z
dc.date.available2018-04-17T12:52:19Z
dc.date.issued2018-02-20
dc.identifier.urihttp://hdl.handle.net/11610/18305
dc.description.abstractΟ σκοπός αυτής της διπλωματικής εργασίας είναι η παρουσίαση τεχνικών Πολυμεταβλητής Ανάλυσης και ιδιαίτερα αλγορίθμων συσταδοποίησης (clustering). Θα περιγράψουμε μεθόδους για Ελλιπή Δεδομένα και θα εξετάσουμε πως αυτά επηρεάζουν τις στατιστικές διαδικασίες. Στο τέλος της εργασίας αυτής θα αναπτύξουμε δύο νέες μεθόδους υποκατάστασης ελλιπών δεδομένων, οι οποίες ονομάζονται Partition Mean Imputation και Partition Regression Imputation. Στο Κεφάλαιο 1 θα δώσουμε τη σημειογραφία των πολυμεταβητών δεδομένων, θα περιγράψουμε πολυμεταβλητές κατανομές όπως η πολυμεταβλητή κανονική κατανομή, η Whishart και η t-τετράγωνο του Hotelling. Στο Κεφάλαιο 2 θα δούμε τρεις τεχνικές πολυμεταβλητής ανάλυσης, την Ανάλυση Κυρίων Συνιστωσών (Principal Component Analysis ) η οποία χρησιμοποιείται για μείωση διάστασης, την Γραμμική Διαχωριστική Ανάλυση ( Linear Discriminant Analysis ) και τη Συσταδοποίηση (Clustering). Στο Κεφάλαιο 3 θα περιγράψουμε μεθόδους για Ελλιπή Δεδομένα και τους μηχανισμούς που τα δημιουργούν. Το ενδιαφέρον μας θα επικεντρωθεί στις Μεθόδους Υποκατάστασης (Imputation Methods) . Στο Κεφάλιο 4 θα αναλύσουμε τρεις αλγορίθμους ευφυούς συσταδοποίησης (Intelligent Clustering Algorithms), οι οποίοι βελτιώνουν την ακρίβεια της τελικής διαμέρισης χρησιμοποιώντας εξωτερικές πηγές πληροφορίας. Αυτοί οι αλγόριθμοι αποτελούν τροποποιήσεις του διάσημου K-means αλγόριθμου με τέτοιο τρόπο ώστε να ενσωματώνουν στη ρουτίνα τους περιορισμούς. Τα είδη αυτά των περιορισμών χωρίζονται στις κατηγορίες Hard Constraints και Soft Constraints. Ένας σημαντικός αλγόριθμος που θα περιγράψουμε στο κεφάλαιο αυτό έιναι ο KSC algorithm ο οποίος μπορεί να χρησιμοποιηθεί σε δεδομένα τα οποία περιέχουν Ελλείπουσες Τιμές. Ο κώδικας του αλγόριθμου αυτού δημιουργήθηκε στη γλώσσα προγραμματισμού R για τους σκοπούς της διπλωματικής αυτής. Στο Κεφάλαιο 5 θα αναπτύξουμε μία νέα μεθοδολογία η οποία βελτιώνει τις ήδη υπάρχουσες Μεθόδους Υποκατάστασης Ελλιπών Δεδομένων. Με τη χρήση της μεθοδολογίας αυτής θα δημιουργήσουμε δύο νέες μεθόδους για τις οποίες επίσης δημιουργήθηκε ο κώδικας στη γλώσσα προγραμματισμού R.el_GR
dc.description.abstractThe purpose of this Thesis is to illustrate Multivariate Analysis Techniques, and specifically intelligent clustering algorithms. We will describe methods for missing data and see how missing values affect the statistical procedures. At the end of this Thesis we will develop two new imputation methods, named Partition Means imputation and Partition Regression imputation. In Chapter 1 we will give the notation of multivariate data, we will describe multivariate distributions such as multivariate Normal distribution, Wishart distribution and the HotellingT 2 distribution. In Chapter 2 we will see three multivariate analysis techniques, Principal Component Analysis (PCA) which used for dimension reduction, Linear Discriminant Analysis (LDA) that is a supervised method used for classification and Clustering which belongs to the family of unsupervised methods. In Chapter 3 we will briefly describe missing data methods. We will describe the mechanisms that generate missing data, Missing Completely at Random (MCAR), Missing at Random (MAR) and Not Missing at Random (NMAR). Furthermore we will describe the following methods: Complete case Analysis, Weighting Procedures, Imputation Methods and Model-Based methods. Specifically we will focus our interest on the imputation techniques. In Chapter 4 we will illustrate three intelligent clustering methods which improve the accuracy of the final partition using external sources of information. These methods modify the K-means in a way such that the original algorithm accommodates a set of constraints. COP Kmeans accommodates a set of Hard constraints, SCOP Kmeans accommodates a set of Soft Constraints and KSC algorithm, a modified Kmeans which can deal with missing data. For the purposes of this Thesis, the code for the last algorithm has been developed in R. In Chapter 5 we will develop two new imputation methods. These new approaches divide the data set into k homogeneous subsets, where each subset is treated as an individual data set. In each subset we will perform mean imputation and regression imputation.en_US
dc.format.extent93 σ.el_GR
dc.language.isoen_USen_US
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΠολυμεταβλητή ανάλυσηel_GR
dc.subjectΕλλειπή δεδομέναel_GR
dc.subjectΜέθοδοι υποκατάστασης ελλειπών δεδομένωνel_GR
dc.subjectΑλγόριθμοι συσταδοποίησηςel_GR
dc.subjectConstraint clusteringen_US
dc.subjectSemi-supervised learningen_US
dc.subjectMissing dataen_US
dc.subjectImputation methodsen_US
dc.subjectPartition mean imputationen_US
dc.subjectPartition regression imputationen_US
dc.subject.lcshMultivariate analysis (URL: http://id.loc.gov/authorities/subjects/sh85088390)en_US
dc.subject.lcshMissing observations (Statistics) (URL: http://id.loc.gov/authorities/subjects/sh85086013)en_US
dc.subject.lcshCluster analysis (URL: http://id.loc.gov/authorities/subjects/sh85027250)en_US
dc.subject.lcshAlgorithms (URL: http://id.loc.gov/authorities/subjects/sh85003487)en_US
dc.titleMultivariate Analysis Techniques & Methods for Missing Dataen_US
dcterms.accessRightsfreeel_GR
dcterms.rightsΠλήρες Κείμενο - Ελεύθερη Δημοσίευσηel_GR
heal.typemasterThesisel_GR
heal.recordProvideraegeanel_GR
heal.committeeMemberNameΞανθόπουλος, Στέλιοςel_GR
heal.committeeMemberNameΧατζησπύρος, Σπύροςel_GR
heal.academicPublisherΠανεπιστήμιο Αιγαίου - Σχολή Θετικών Επιστημών - Τμήμα Μαθηματικώνel_GR
heal.academicPublisherIDaegeanel_GR
heal.fullTextAvailabilitytrue
dc.contributor.departmentΣτατιστική και Αναλογιστικά - Χρηματοοικονομικά Μαθηματικάel_GR


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές