Cross-domain authorship attribution using pre-trained language models
Δια-τομεακή αναγνώριση συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων
dc.contributor.advisor | Ευστάθιος, Σταματάτος | el_GR |
dc.contributor.author | Μπάρλας, Γεώργιος | el_GR |
dc.coverage.spatial | Σάμος | el_GR |
dc.date.accessioned | 2021-02-10T13:25:47Z | |
dc.date.available | 2021-02-10T13:25:47Z | |
dc.date.issued | 2020-06 | |
dc.identifier.uri | http://hdl.handle.net/11610/21473 | |
dc.description.abstract | Η δια-τομεακή αναγνώριση συγγραφέα είναι μια κατηγορία ρεαλιστικών προβλημάτων αναγνώρισης συγγραφέων με όρους εφαρμογών κυρίως στην εγκληματολογία. Στα δια-τομεακά σενάρια τα κείμενα με γνωστό συγγραφέα (σετ εκπαίδευσης) είναι σε διαφορετικό τομέα (δια-τομεακή) από τα κείμενα αγνώστου συγγραφέα (σετ δοκιμών). Η χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων σε διάφορα καθήκοντα επεξεργασίας φυσικής γλώσσας μας ενέπνευσε να διερευνήσουμε τις δυνατότητές τους στο πρόβλημα της αναγνώρισης του συγγραφέα. Σε αυτή την εργασία, πειραματιζόμαστε με τέσσερα διαφορετικής αρχιτεκτονικής προ-εκπαιδευμένα γλωσσικά μοντέλα (BERT, ELMo, GPT-2 και ULMFiT). Η προτεινόμενη μέθοδος είναι μια τροποποίηση μιας επιτυχούς προσέγγισης επαλήθευσης συγγραφέα, που βασίζεται σε ένα μοντέλο γλώσσας νευρωνικών δικτύων πολλαπλών κεφαλών για να συνδυαστεί με τα προ-εκπαιδευμένα γλωσσικά μοντέλα. Αξιολογήσαμε την προτεινόμενη μέθοδο σε δύο συλλογές κειμένων (CMCC, PAN18) σε τρία δια-τομεακά σενάρια. Τα επιτευχθέντα αποτελέσματα είναι πολύ ελπιδοφόρα και καταδεικνύουν την κρίσιμη επίδραση του σετ κανονικοποίησης στην δια-τομεακή αναγνώριση συγγραφέα. | el_GR |
dc.format.extent | 35 σ. | el_GR |
dc.language.iso | en_US | en_US |
dc.rights | CC0 1.0 Παγκόσμια | * |
dc.rights.uri | http://creativecommons.org/publicdomain/zero/1.0/ | * |
dc.subject | αναγνώριση συγγραφέα | el_GR |
dc.subject | προ-εκπαιδευμένα γλωσσικά μοντέλα | el_GR |
dc.subject | νευρωνικά δίκτυα | el_GR |
dc.subject | authorship attribution | en_US |
dc.subject | pre-trained language models | en_US |
dc.subject | neural networks | en_US |
dc.subject.lcsh | Authorship, Disputed | en_US |
dc.subject.lcsh | Neural networks (Computer science) | en_US |
dc.subject.lcsh | Natural language processing (Computer science) | en_US |
dc.title | Cross-domain authorship attribution using pre-trained language models | en_US |
dc.title | Δια-τομεακή αναγνώριση συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων | el_GR |
dcterms.accessRights | free | el_GR |
dcterms.rights | Πλήρες Κείμενο - Ελεύθερη Δημοσίευση | el_GR |
heal.type | masterThesis | el_GR |
heal.recordProvider | aegean | el_GR |
heal.academicPublisher | Πανεπιστήμιο Αιγαίου - Πολυτεχνική Σχολή - Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων | el_GR |
heal.academicPublisherID | aegean | el_GR |
heal.fullTextAvailability | true | el_GR |
dc.contributor.department | Πληροφοριακά και Επικοινωνιακά Συστήματα | el_GR |