Show simple item record

Ανάλυση κειμένου και ταξινόμηση με χρήση μηχανικής μάθησης των καταθέσεων κατηγορουμένων στο ελληνικό δικαστήριο με σκοπό τη δημιουργία του γλωσσικού προφίλ τους

dc.contributor.advisorΦραντζή, Αικατερίνηel_GR
dc.contributor.authorΚατρανίδου, Αναστασίαel_GR
dc.coverage.spatialΡόδοςel_GR
dc.date.accessioned2022-04-04T08:00:29Z
dc.date.available2022-04-04T08:00:29Z
dc.date.issued2022-01-12
dc.identifier.urihttp://hdl.handle.net/11610/23462
dc.description.abstractΗ δικανική ή εγκληματολογική γλωσσολογία επιχειρεί να αναλύσει τη γλώσσα που σχετίζεται με το νόμο, είτε στην περίπτωση που η γλώσσα αποτελεί κάποιο αποδεικτικό στοιχείο μιας εγκληματικής πράξης είτε στην περίπτωση της γλώσσας ως νομικoύ λόγου. Η γλώσσα ως νομικός λόγος περιλαμβάνει, μεταξύ άλλων, το λόγο μέσα στη δικαστική αίθουσα. Το εγκληματικό προφίλ, το οποίο στη διεθνή βιβλιογραφία καταγράφεται και ως προφίλ του παραβάτη/δράστη, είναι ένας από τους σημαντικότερους τομείς έρευνας στην εγκληματολογική γλωσσολογία και θα έπρεπε να είναι και από τα κύρια καθήκοντά του, καθώς εξετάζοντας μια εγκληματική συμπεριφορά μπορεί κανείς να αξιολογήσει ή ακόμη και να προβλέψει μελλοντικές εγκληματικές ενέργειες. Για να προσδιοριστούν συγκεκριμένα χαρακτηριστικά του ατόμου που διαπράττει ένα έγκλημα, απαιτείται μια διεξοδική και συστηματική διαδικασία παρατήρησης και ανάλυσης της σκηνής του εγκλήματος, του θύματος, των αποδεικτικών στοιχείων και των γεγονότων του εγκλήματος. Σε αυτήν τη διατριβή, χρησιμοποιώντας τεχνικές ανάλυσης φυσικής γλώσσας από το ερευνητικό πεδίο της δημιουργίας προφίλ του συγγραφέα (author profiling), όπου μπορεί κανείς να εξάγει πληροφορίες σχετικά με την ηλικία, την εκπαίδευση, το φύλο κ.α. του συγγραφέα ενός συγκεκριμένου κειμένου, επιχειρούμε να καθορίσουμε το γλωσσικό προφίλ μιας συγκεκριμένης κατηγορίας εγκληματιών, αυτής των ανθρωποκτόνων και, σε μεταγενέστερο στάδιο, να αναπτύξουμε ένα μοντέλο κατηγοριοποίησης ή ταξινόμησης (classifier) μηχανικής μάθησης που θα προβλέπει εάν ένα κείμενο ανήκει σε αυτήν την κατηγορία των εγκληματιών ή όχι, δηλαδή αν έχει γραφτεί ή ειπωθεί από έναν ανθρωποκτόνο ή όχι. Αρχικά, δημιουργήσαμε τρία σώματα κειμένου (corpora) από κείμενα που προήλθαν εξ ολοκλήρου από καταθέσεις που έγιναν σε πραγματικές δίκες σε αίθουσες των ελληνικών δικαστηρίων από τις αντίστοιχες δικογραφίες. Το πρώτο σώμα κειμένου που κατασκευάσαμε αφορά σε απολογίες κατηγορουμένων που κατηγορούνταν για ανθρωποκτονία, το δεύτερο δημιουργήθηκε από καταθέσεις μαρτύρων που κατέθεταν στις ίδιες δικαστικές υποθέσεις των κατηγορουμένων, και το τελευταίο αποτελείται από καταθέσεις των κατηγορουμένων στον ανακριτή, κατά την προανακριτική διαδικασία, πριν ακόμα παραπεμφθούν σε δίκη. Είναι προφανές ότι η δημιουργία αυτής της διατριβής δε θα ήταν εφικτή χωρίς την κατοχή αυτών των δικογραφιών, στις οποίες η πρόσβαση ήταν δύσκολη και η απόκτησή τους ήταν μια διαδικασία χρονοβόρα και απαιτητική. Το τελευταίο είναι ο κύριος λόγος που μέχρι στιγμής δεν έχει γίνει αντίστοιχη έρευνα στην Ελλάδα. Έχοντας δημιουργήσει τα παραπάνω σώματα κειμένων από τις δικογραφίες, ποσοτικοποιήσαμε τον τρόπο με τον οποίο οι κατηγορούμενοι μιλούν μέσα σε μια ελληνική δικαστική αίθουσα κατά τη διάρκεια της απολογίας τους, μελετώντας τα κυριότερα υφολογικά χαρακτηριστικά της γλώσσας που χρησιμοποιούν και συγκρίνοντάς τα με την καθομιλουμένη γλώσσα και τη γλώσσα των μαρτύρων που καταθέτουν στις ίδιες δικαστικές υποθέσεις. Ως εκ τούτου, καταφέραμε να εξάγουμε ορισμένα γλωσσικά μοτίβα που χρησιμοποιούν οι ανθρωποκτόνοι στις καταθέσεις τους. Επιπλέον, μερικά από τα προαναφερθέντα υφολογικά χαρακτηριστικά αποδείχτηκαν πιο καθοριστικά, από κάποια άλλα, όσον αφορά στην ικανότητα τους να μπορούν να περιγράψουν το γλωσσικό προφίλ του ομιλητή μιας κατάθεσης. Τα αποτελέσματα από την ποσοτική ανάλυση που εξήγαμε αναφορικά με το γλωσσικό προφίλ των ανθρωποκτόνων και γνωρίζοντας ότι οι δικαστικές διαδικασίες και οι αστυνομικές έρευνες στην Ελλάδα δε διαθέτουν κατάλληλα και εύχρηστα εργαλεία που να μπορούν να δώσουν μια επιπλέον βοήθεια στην αξιολόγηση των καταθέσεων των κατηγορουμένων, μας οδήγησαν στην ιδέα της κατασκευής ενός αυτοματοποιημένου μοντέλου ταξινόμησης κειμένων, χρησιμοποιώντας για δεδομένα εκπαίδευσης τα πιο χρήσιμα υφολογικά χαρακτηριστικά που εξήγαμε από τις καταθέσεις των κατηγορουμένων. Η αυτοματοποιημένη ταξινόμηση κειμένου έχει θεωρηθεί ως μια μέθοδος ζωτικής σημασίας για τη διαχείριση τεράστιου αριθμού εγγράφων που βρίσκονται σε ψηφιακή μορφή, καθώς στόχος της είναι η κατασκευή ενός μοντέλου ταξινόμησης που να είναι σε θέση να εκχωρεί αυτόματα ετικέτες σε ηλεκτρονικά κείμενα μαθαίνοντας από συγκεκριμένα χαρακτηριστικά της κάθε κατηγορίας. Σε κάθε περίπτωση, η στατιστική αφορά περισσότερο στη δοκιμή υποθέσεων, ενώ η μηχανική μάθηση έχοντας ως δεδομένο πιθανές υποθέσεις, προσπαθεί να διαμορφώσει μια διαδικασία γενίκευσης. Επομένως, παρουσιάζουμε ένα μοντέλο μηχανικής μάθησης ταξινόμησης κειμένων, το μοντέλο ταξινόμησης GDCT, το οποίο εκπαιδεύτηκε χρησιμοποιώντας τα κατάλληλα, όπως αποδείχτηκαν από τη μελέτη μας, υφολογικά χαρακτηριστικά από τη γλώσσα που χρησιμοποιούν οι ανθρωποκτόνοι και οι μάρτυρες στις καταθέσεις τους. Τα αποτελέσματα από τα πειράματα που έγιναν στα σώματα κειμένων μας, τα οποία αποτελούνται από τις μαρτυρίες 269 κατηγορουμένων και μαρτύρων συνολικά, επιβεβαιώνουν την αποτελεσματικότητα της μεθόδου μας. Συγκεκριμένα, αποδεικνύουμε ότι το μοντέλο ταξινόμησης GCDT μπορεί να χαρακτηρίσει ένα άτομο που καταθέτει, ως ένοχο ή όχι, με ακρίβεια 93%. Το μοντέλο μας δεν επιδιώκει σε καμία περίπτωση να αντικαταστήσει το ρόλο ενός δικαστή ή ανακριτή, αλλά μπορεί να προσφέρει στη δικαστική διαδικασία ένα επιπλέον εργαλείο για την αξιολόγηση της κατάθεσης ενός δολοφόνου. Η συγκεκριμένη έρευνα αποτελεί μια πρωτοπόρα μέθοδο τόσο για την ελληνική δικανική γλωσσολογία όσο και για την ελληνική δικαστική διαδικασία.el_GR
dc.description.abstractForensic Linguistics attempts to analyze the language that relates to the law, either as evidence or as legal discourse. Language as legal discourse includes, among others, the discourse inside the court room. Crime profiling, or offender profiling, is one of the most important areas of research in Forensic Linguistics and should be its fundamental task, since by examining a criminal behavior one can evaluate or even predict future criminal actions. The identification of specific characteristics of an individual committing a crime is achieved by a thorough systematic observational process and an analysis of the crime scene, the victim, the forensic evidence, and the known facts of the crime. In this dissertation, using natural language analysis techniques from the field of author profiling, where one can extract information about the age, education, sex, etc., of the author of a given text, we attempt to define the linguistic profile of a criminals’ category (that of the murderers) and, at a later stage, to develop a machine learning classifier which would predict whether a text belongs to that category, i.e., it has been written or said by a murderer or not. First, we created three corpora from text data that we derived from real trial briefs of a Greek court. The first one concerned testimonies of defendants accused of murder, the second one was constructed from testimonies of witnesses and the last one consisted of testimonies of the defendants in their interrogation phase before their trial. It is obvious that the creation of this research would not have been possible without the possession of these trial briefs, which were difficult to get access to and required a time-consuming procedure. Τhe latter is the main reason that no corresponding research has been done so far in Greece. Having created these corpora, we quantified the way defendants of murder speak inside a Greek courtroom during their testimony, by studying several stylometric features of their language and comparing them with both the general language and the language of the witnesses. As a result, we have been able to extract some linguistic patterns used by murders in their testimonies. Moreover, some of these features proved to be more crucial, than others, in being able to describe the language profile of the speaker of a testimony. The results we extracted of the quantitative analysis and knowing that the court proceedings and police investigations in Greece do not have appropriate and easy-to-use tools that can provide additional assistance in evaluating the statements of the accused, led us to the idea of constructing an automated text classifier using as training data the most useful stylometric features of the defendants’ testimonies. Automated text classification has been considered as a vital method to manage a vast number of documents in digital form since its goal is the construction of a classification model (classifier) that is able to automatically assign labels to electronic texts by learning specific features of each category. In any case, statistics has been more concerned with testing hypotheses, whereas machine learning has been more concerned with formulating the process of generalization as a search through possible hypotheses. Hence, we present a text classification machine learning model, the GDCT classifier, which was trained using the appropriate stylometric features, as demonstrated in our study. The experimental results of our corpora, covering the testimonies of 269 defendants and witnesses in total, verify the effectiveness of our method. Specifically, we prove that GCDT classifier can characterize a person who testifies, as guilty or not, with 93% accuracy. Our model does not seek to replace any judge or investigator but can offer to the trial procedure an additional tool in evaluating a murderer’s testimony. This research is a pioneering method both in Greek Forensic Linguistics and in the Greek judicial process.en_US
dc.format.extent170 σ.el_GR
dc.language.isoenen_US
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectδικανική γλωσσολογίαel_GR
dc.subjectμηχανική μάθησηel_GR
dc.subjectυπολογιστική γλωσσολογίαel_GR
dc.subjectσώματα κειμένωνel_GR
dc.subjectανάλυση κειμένουel_GR
dc.subjectυφομετρίαel_GR
dc.subjectταξινόμηση κειμένουel_GR
dc.subjectforensic linguisticsen_US
dc.subjectcomputational linguisticsen_US
dc.subjectmachine learningen_US
dc.subjectcorporaen_US
dc.subjecttext analysisen_US
dc.subjectstylometryen_US
dc.subjecttext classificationen_US
dc.subject.lcshText data miningen_US
dc.subject.lcshMachine learningen_US
dc.subject.lcshCorpora (Linguistics)en_US
dc.subject.lcshTrialsen_US
dc.subject.lcshCourtsen_US
dc.subject.lcshCriminal profilersen_US
dc.titleText analysis and machine learning classification of defendants’ testimonies in greek courtroom in order to create their linguistic profileen_US
dc.titleΑνάλυση κειμένου και ταξινόμηση με χρήση μηχανικής μάθησης των καταθέσεων κατηγορουμένων στο ελληνικό δικαστήριο με σκοπό τη δημιουργία του γλωσσικού προφίλ τουςel_GR
dcterms.accessRightsfreeel_GR
dcterms.rightsΠλήρες Κείμενο - Ελεύθερη Δημοσίευσηel_GR
heal.typedoctoralThesisel_GR
heal.recordProvideraegeanel_GR
heal.committeeMemberNameΦραντζή, Αικατερίνηel_GR
heal.committeeMemberNameΣταματάτος, Ευστάθιοςel_GR
heal.committeeMemberNameΣτριμπής, Ιωάννηςel_GR
heal.committeeMemberNameΜαγκλιβέρας, Κωνσταντίνοςel_GR
heal.committeeMemberNameΠαναρέτου, Ελένηel_GR
heal.committeeMemberNameΑλεξανδρή, Χριστίναel_GR
heal.committeeMemberNameΦεσάκης, Γεώργιοςel_GR
heal.academicPublisherΠανεπιστήμιο Αιγαίου - Σχολή Ανθρωπιστικών Επιστημών - Τμήμα Μεσογειακών Σπουδώνel_GR
heal.academicPublisherIDaegeanel_GR
heal.fullTextAvailabilitytrueel_GR
dc.contributor.departmentotherel_GR


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές