dc.contributor.advisor | Καραγρηγορίου, Αλέξανδρος | el_GR |
dc.contributor.author | Spitieris, Michael | en_US |
dc.contributor.author | Σπητιέρης, Μιχάλης | el_GR |
dc.coverage.spatial | Σάμος | el_GR |
dc.date.accessioned | 2018-04-17T12:52:19Z | |
dc.date.available | 2018-04-17T12:52:19Z | |
dc.date.issued | 2018-02-20 | |
dc.identifier.uri | http://hdl.handle.net/11610/18305 | |
dc.description.abstract | Ο σκοπός αυτής της διπλωματικής εργασίας είναι η παρουσίαση τεχνικών Πολυμεταβλητής Ανάλυσης και ιδιαίτερα αλγορίθμων συσταδοποίησης (clustering). Θα περιγράψουμε μεθόδους για Ελλιπή Δεδομένα και θα εξετάσουμε πως αυτά επηρεάζουν τις στατιστικές διαδικασίες. Στο τέλος της εργασίας αυτής θα αναπτύξουμε δύο νέες μεθόδους υποκατάστασης ελλιπών δεδομένων, οι οποίες ονομάζονται Partition Mean Imputation και Partition Regression Imputation.
Στο Κεφάλαιο 1 θα δώσουμε τη σημειογραφία των πολυμεταβητών δεδομένων, θα περιγράψουμε πολυμεταβλητές κατανομές όπως η πολυμεταβλητή κανονική κατανομή, η Whishart και η t-τετράγωνο του Hotelling.
Στο Κεφάλαιο 2 θα δούμε τρεις τεχνικές πολυμεταβλητής ανάλυσης, την Ανάλυση Κυρίων Συνιστωσών (Principal Component Analysis ) η οποία χρησιμοποιείται για μείωση διάστασης, την Γραμμική Διαχωριστική Ανάλυση ( Linear Discriminant Analysis ) και τη Συσταδοποίηση (Clustering).
Στο Κεφάλαιο 3 θα περιγράψουμε μεθόδους για Ελλιπή Δεδομένα και τους μηχανισμούς που τα δημιουργούν. Το ενδιαφέρον μας θα επικεντρωθεί στις Μεθόδους Υποκατάστασης (Imputation Methods) .
Στο Κεφάλιο 4 θα αναλύσουμε τρεις αλγορίθμους ευφυούς συσταδοποίησης (Intelligent Clustering Algorithms), οι οποίοι βελτιώνουν την ακρίβεια της τελικής διαμέρισης χρησιμοποιώντας εξωτερικές πηγές πληροφορίας. Αυτοί οι αλγόριθμοι αποτελούν τροποποιήσεις του διάσημου K-means αλγόριθμου με τέτοιο τρόπο ώστε να ενσωματώνουν στη ρουτίνα τους περιορισμούς. Τα είδη αυτά των περιορισμών χωρίζονται στις κατηγορίες Hard Constraints και Soft Constraints. Ένας σημαντικός αλγόριθμος που θα περιγράψουμε στο κεφάλαιο αυτό έιναι ο KSC algorithm ο οποίος μπορεί να χρησιμοποιηθεί σε δεδομένα τα οποία περιέχουν Ελλείπουσες Τιμές. Ο κώδικας του αλγόριθμου αυτού δημιουργήθηκε στη γλώσσα προγραμματισμού R για τους σκοπούς της διπλωματικής αυτής.
Στο Κεφάλαιο 5 θα αναπτύξουμε μία νέα μεθοδολογία η οποία βελτιώνει τις ήδη υπάρχουσες Μεθόδους Υποκατάστασης Ελλιπών Δεδομένων. Με τη χρήση της μεθοδολογίας αυτής θα δημιουργήσουμε δύο νέες μεθόδους για τις οποίες επίσης δημιουργήθηκε ο κώδικας στη γλώσσα προγραμματισμού R. | el_GR |
dc.description.abstract | The purpose of this Thesis is to illustrate Multivariate Analysis Techniques, and specifically intelligent clustering algorithms. We will describe methods for missing data and see how missing values affect the statistical procedures. At the end of this Thesis we will develop two new imputation methods, named Partition Means imputation and Partition Regression imputation. In Chapter 1 we will give the notation of multivariate data, we will describe multivariate distributions such as multivariate Normal distribution, Wishart distribution and the HotellingT 2 distribution. In Chapter 2 we will see three multivariate analysis techniques, Principal Component Analysis (PCA) which used for dimension reduction, Linear Discriminant Analysis (LDA) that is a supervised method used for classification and Clustering which belongs to the family of unsupervised methods. In Chapter 3 we will briefly describe missing data methods. We will describe the mechanisms that generate missing data, Missing Completely at Random (MCAR), Missing at Random (MAR) and Not Missing at Random (NMAR). Furthermore we will describe the following methods: Complete case Analysis, Weighting Procedures, Imputation Methods and Model-Based methods. Specifically we will focus our interest on the imputation techniques. In Chapter 4 we will illustrate three intelligent clustering methods which improve the accuracy of the final partition using external sources of information. These methods modify the K-means in a way such that the original algorithm accommodates a set of constraints. COP Kmeans accommodates a set of Hard constraints, SCOP Kmeans accommodates a set of Soft Constraints and KSC algorithm, a modified Kmeans which can deal with missing data. For the purposes of this Thesis, the code for the last algorithm has been developed in R. In Chapter 5 we will develop two new imputation methods. These new approaches divide the data set into k homogeneous subsets, where each subset is treated as an individual data set. In each subset we will perform mean imputation and regression imputation. | en_US |
dc.format.extent | 93 σ. | el_GR |
dc.language.iso | en_US | en_US |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Πολυμεταβλητή ανάλυση | el_GR |
dc.subject | Ελλειπή δεδομένα | el_GR |
dc.subject | Μέθοδοι υποκατάστασης ελλειπών δεδομένων | el_GR |
dc.subject | Αλγόριθμοι συσταδοποίησης | el_GR |
dc.subject | Constraint clustering | en_US |
dc.subject | Semi-supervised learning | en_US |
dc.subject | Missing data | en_US |
dc.subject | Imputation methods | en_US |
dc.subject | Partition mean imputation | en_US |
dc.subject | Partition regression imputation | en_US |
dc.subject.lcsh | Multivariate analysis (URL: http://id.loc.gov/authorities/subjects/sh85088390) | en_US |
dc.subject.lcsh | Missing observations (Statistics) (URL: http://id.loc.gov/authorities/subjects/sh85086013) | en_US |
dc.subject.lcsh | Cluster analysis (URL: http://id.loc.gov/authorities/subjects/sh85027250) | en_US |
dc.subject.lcsh | Algorithms (URL: http://id.loc.gov/authorities/subjects/sh85003487) | en_US |
dc.title | Multivariate Analysis Techniques & Methods for Missing Data | en_US |
dcterms.accessRights | free | el_GR |
dcterms.rights | Πλήρες Κείμενο - Ελεύθερη Δημοσίευση | el_GR |
heal.type | masterThesis | el_GR |
heal.recordProvider | aegean | el_GR |
heal.committeeMemberName | Ξανθόπουλος, Στέλιος | el_GR |
heal.committeeMemberName | Χατζησπύρος, Σπύρος | el_GR |
heal.academicPublisher | Πανεπιστήμιο Αιγαίου - Σχολή Θετικών Επιστημών - Τμήμα Μαθηματικών | el_GR |
heal.academicPublisherID | aegean | el_GR |
heal.fullTextAvailability | true | |
dc.contributor.department | Στατιστική και Αναλογιστικά - Χρηματοοικονομικά Μαθηματικά | el_GR |