dc.contributor.advisor | Τσιμήκας, Τζων | el_GR |
dc.contributor.author | Baika, Alexia Artemis | en_US |
dc.contributor.author | Βαΐκα, Αλεξία Άρτεμις | el_GR |
dc.coverage.spatial | Σάμος | el_GR |
dc.date.accessioned | 2019-10-30T08:57:19Z | |
dc.date.available | 2019-10-30T08:57:19Z | |
dc.date.issued | 2019-10-07 | |
dc.identifier.uri | http://hdl.handle.net/11610/19523 | |
dc.description.abstract | The data that will be analyzed in this thesis is a Liver Cancer data set which was collected at Shanghai Cang-zheng Hospital in China. The data set includes 145 subjects, of which 54 patients have hepatoma, 39 patients have hepatitis and hepatocirrhosis - chronic liver disease and 52 individuals are healthy. To each subject corespondents 236 Markers. For simplicity, we create two types of groups. The first group consists of healthy individuals and the second group consists of diseased patients.
The goal is to correctly classify a subject in one of the two classes, diseased-non-diseased. For this classification task we use two supervised classification methods: Logistic Regression and Support Vector Machines. Logistic Regression was developed by David Cox in 1958 and is one of the most traditional parametric classification methods. Support Vector Machines was created by Vladimir Vapnik (1995). It can efficiently perform a non-linear classification using what is called the kernel trick, by mapping the inputs into a high-dimensional feature spaces.
In many cases the goal is to develop a model which can explain the relationship between the features and the dependent variable. A severe mathematical problem is when the dimension of the data is greater than the number of the available data points. For this purpose we will describe methods for feature selection and regularization, including subset selection and lasso. | en_US |
dc.description.abstract | Στην παρούσα εργασία έγινε ανάλυση δεδομένων καρκίνου στο συκώτι. Τα δεδομένα συλλέχθηκαν σε νοσοκομείο της πολης Shanghai Cangzheng της Κίνας. Τα δεδομένα αποτελούντούσαν απο 145 άτομα εκ των οποίων 93 είχαν την αρρώστια και 52 ήταν υγειής. Ο στόχος της εργασίας είναι με την χρήση στατιστικού μοντέλου να γίνει σωστή ταξινόμηση των ατόμων σε μια απο τις δυο ομάδες, υγειής-άρρωστος. Για τον σκοπό αυτο χρισημοποιήθηκαν δύο μέθοδοι: Λογιστική παλινδρόμηση και Support Vector Machines. Η Λογιστική παλινδρόμηση είναι μια απο τις πιο δημοφιλές παραμετρικές μεθόδους και το Support Vector Machines έχει την ιδιότητα να ταξινομεί μη γραμμικά δεδομένα με την χρήση των Kernel. Στην περίπτωση που ο αριθμός των ανεξάρτητων μεταβλητών είναι μεγαλύτερος απο τον αριθμό των δεδομένων είναι απαραίτητη η χρήση μεθόδων (όπως subset selection και Lasso) που μειώνουν τον αριθμό των ανεξάρτητων μεταβλητών. | el_GR |
dc.format.extent | 102 σ. | el_GR |
dc.language.iso | en | en_US |
dc.rights | Default License | |
dc.subject | Classification | en_US |
dc.subject | SVM | en_US |
dc.subject | Lasso | en_US |
dc.subject | Tαξινόμηση | el_GR |
dc.subject | λογιστική παλινδρόμηση | el_GR |
dc.subject | μείωση ανεξάρτητων μεταβλητών | el_GR |
dc.subject.lcsh | Logistic regression analysis | en_US |
dc.subject.lcsh | Medicine--Research--Statistical methods | en_US |
dc.subject.lcsh | Machine learning | en_US |
dc.title | Combining multiple diagnostic tests for classification | en_US |
dcterms.accessRights | free | el_GR |
dcterms.rights | Πλήρες Κείμενο - Ελεύθερη Δημοσίευση | el_GR |
heal.type | masterThesis | el_GR |
heal.recordProvider | aegean | el_GR |
heal.committeeMemberName | Χατζησπύρος, Σπύρος | el_GR |
heal.committeeMemberName | Μπαντής, Λεωνίδας | el_GR |
heal.committeeMemberName | Τσιμήκας, Τζων | el_GR |
heal.academicPublisher | Πανεπιστήμιο Αιγαίου - Σχολή Θετικών Επιστημών - Τμήμα Σ.Α.Χ.Μ. | el_GR |
heal.academicPublisherID | aegean | el_GR |
heal.fullTextAvailability | true | el_GR |
dc.contributor.department | Στατιστική και Αναλογιστικά - Χρηματοοικονομικά Μαθηματικά | el_GR |