Cross-domain authorship attribution using pre-trained language models

Δια-τομεακή αναγνώριση συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων

dc.contributor.advisor	Ευστάθιος, Σταματάτος	el_GR
dc.contributor.author	Μπάρλας, Γεώργιος	el_GR
dc.coverage.spatial	Σάμος	el_GR
dc.date.accessioned	2021-02-10T13:25:47Z
dc.date.available	2021-02-10T13:25:47Z
dc.date.issued	2020-06
dc.identifier.uri	http://hdl.handle.net/11610/21473
dc.description.abstract	Η δια-τομεακή αναγνώριση συγγραφέα είναι μια κατηγορία ρεαλιστικών προβλημάτων αναγνώρισης συγγραφέων με όρους εφαρμογών κυρίως στην εγκληματολογία. Στα δια-τομεακά σενάρια τα κείμενα με γνωστό συγγραφέα (σετ εκπαίδευσης) είναι σε διαφορετικό τομέα (δια-τομεακή) από τα κείμενα αγνώστου συγγραφέα (σετ δοκιμών). Η χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων σε διάφορα καθήκοντα επεξεργασίας φυσικής γλώσσας μας ενέπνευσε να διερευνήσουμε τις δυνατότητές τους στο πρόβλημα της αναγνώρισης του συγγραφέα. Σε αυτή την εργασία, πειραματιζόμαστε με τέσσερα διαφορετικής αρχιτεκτονικής προ-εκπαιδευμένα γλωσσικά μοντέλα (BERT, ELMo, GPT-2 και ULMFiT). Η προτεινόμενη μέθοδος είναι μια τροποποίηση μιας επιτυχούς προσέγγισης επαλήθευσης συγγραφέα, που βασίζεται σε ένα μοντέλο γλώσσας νευρωνικών δικτύων πολλαπλών κεφαλών για να συνδυαστεί με τα προ-εκπαιδευμένα γλωσσικά μοντέλα. Αξιολογήσαμε την προτεινόμενη μέθοδο σε δύο συλλογές κειμένων (CMCC, PAN18) σε τρία δια-τομεακά σενάρια. Τα επιτευχθέντα αποτελέσματα είναι πολύ ελπιδοφόρα και καταδεικνύουν την κρίσιμη επίδραση του σετ κανονικοποίησης στην δια-τομεακή αναγνώριση συγγραφέα.	el_GR
dc.format.extent	35 σ.	el_GR
dc.language.iso	en_US	en_US
dc.rights	CC0 1.0 Παγκόσμια	*
dc.rights.uri	http://creativecommons.org/publicdomain/zero/1.0/	*
dc.subject	αναγνώριση συγγραφέα	el_GR
dc.subject	προ-εκπαιδευμένα γλωσσικά μοντέλα	el_GR
dc.subject	νευρωνικά δίκτυα	el_GR
dc.subject	authorship attribution	en_US
dc.subject	pre-trained language models	en_US
dc.subject	neural networks	en_US
dc.subject.lcsh	Authorship, Disputed	en_US
dc.subject.lcsh	Neural networks (Computer science)	en_US
dc.subject.lcsh	Natural language processing (Computer science)	en_US
dc.title	Cross-domain authorship attribution using pre-trained language models	en_US
dc.title	Δια-τομεακή αναγνώριση συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων	el_GR
dcterms.accessRights	free	el_GR
dcterms.rights	Πλήρες Κείμενο - Ελεύθερη Δημοσίευση	el_GR
heal.type	masterThesis	el_GR
heal.recordProvider	aegean	el_GR
heal.academicPublisher	Πανεπιστήμιο Αιγαίου - Πολυτεχνική Σχολή - Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων	el_GR
heal.academicPublisherID	aegean	el_GR
heal.fullTextAvailability	true	el_GR
dc.contributor.department	Πληροφοριακά και Επικοινωνιακά Συστήματα	el_GR