Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing
Επιτήρηση της αγοράς μέσα από τις κριτικές προϊόντων, με τη χρήση μέτρων σημασιολογικής ομοιότητας, των μοντέλων BERT και VADER και Επεξεργασία Φυσικής Γλώσσας
dc.contributor.advisor | Συμεωνίδης, Παναγιώτης | el_GR |
dc.contributor.author | Θεοχαρίδης, Θεοχάρης | el_GR |
dc.contributor.author | Theocharidis, Theocharis | en_US |
dc.coverage.spatial | Σάμος | el_GR |
dc.date.accessioned | 2024-07-31T09:57:33Z | |
dc.date.available | 2024-07-31T09:57:33Z | |
dc.date.issued | 2024-07-24 | |
dc.identifier.uri | http://hdl.handle.net/11610/26694 | |
dc.description.abstract | Στο δυναμικό τοπίο των ψηφιακών πληροφοριών, η αποτελεσματική επεξεργασία και η εξαγωγή ουσιαστικών πληροφοριών από σύνολα δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία. Η παρούσα διπλωματική ασχολείται με την αποτελεσματικότητα της εποπτείας της αγοράς μέσω της ανάλυσης των αξιολογήσεων των χρηστών, του συνδυασμού μέτρων Σημασιολογικής Ομοιότητας (ΣΟ) με τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) και της απόδοσης των προτεινόμενων αλγορίθμων σε σενάρια πραγματικού κόσμου. Διερευνά την ανάπτυξη και εφαρμογή αλγορίθμων που αξιοποιούν μέτρα ΣΟ και τεχνικές NLP για την ανάλυση δεδομέ-νων κειμένου, ιδίως κριτικές χρηστών και αξιολογήσεις προϊόντων. Με την ποσοτικοποίηση της ΣΟ μεταξύ λέξεων και φράσεων, τα μέτρα αυτά επιτρέπουν μια βαθύτερη σημασιολογική κατανόηση, διευκολύνοντας την εξαγωγή συμπερασμάτων που είναι κρίσιμης σημασίας για την αξιολόγηση της ασφάλειας και της καταλληλό-τητας των προϊόντων με βάση τα σχόλια των χρηστών. Παρουσιάζεται μια ολοκληρωμένη μεθοδολογία, από τη συλλογή και προεπεξεργασία δεδομένων, έως την εφαρμογή μέτρων ΣΟ μέσω προτεινόμενων αλγορίθμων. Η αποτελεσματικότητα αυτών των αλγορίθμων αποδεικνύεται μέσω πειραμάτων, τόσο σε συνθετικά όσο και σε πραγματικά σύνολα δεδομένων, συγκεκριμένα σε κριτικές προϊόντων Amazon στην κατηγορία "Toys and Games". Επιπλέον, αυτή η μελέτη ενσωματώνει τη χρήση προηγμένων μοντέλων NLP, όπως BERT και VADER, παρέχοντας μια συγκριτική ανάλυση της απόδοσής τους σε σύγκριση με τους προτεινόμενους αλγορίθμους. Προτείνονται μελλοντικές κατευθύνσεις για την ενίσχυση των αλγορίθμων και την επέκταση της εφαρμογής τους σε άλλους τομείς, όπως η ενσωμάτωση προηγμένων LLM και της τεχνικής Retrieval-Augmented Generation (RAG) για τη βελτίωση της ακρίβειας και της συνάφειας της ανάλυσης κειμένου. | el_GR |
dc.description.abstract | This dissertation addresses the effectiveness of market surveillance through user review analysis, the combination of semantic similarity (SemSim) measures with Natural Language Processing (NLP) techniques, and the performance of the proposed algorithms in real-world scenarios. It explores the development and application of algorithms leveraging semantic similarity measures and NLP techniques to analyze textual data, particularly user reviews and product evaluations. By quantifying the SemSim between words and phrases, these measures enable a deeper semantic understanding, facilitating the drawing of conclusions, crucial for evaluating product safety and suitability based on user feedback. This dissertation presents a comprehensive methodology, from data collection and preprocessing to the application of semantic similarity measures through proposed algorithms. The effectiveness of these algorithms is demonstrated through experiments on both synthetic and real-world datasets, specifically Amazon product reviews in the category 'Toys and Games'. The results reveal the strengths and limitations of different semantic similarity measures in categorizing and interpreting user reviews. Additionally, this study incorporates the use of advanced NLP models such as BERT and VADER, providing a comparative analysis of their performance alongside the proposed algorithms. Future directions for enhancing the algorithms and expanding their applicability to other domains are also outlined, including the integration of advanced Large Language Models (LLMs) and the Retrieval-Augmented Generation (RAG) technique to improve the accuracy and relevance of textual analysis. | en_US |
dc.format.extent | 95 σ. | el_GR |
dc.language.iso | en | en_US |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές | |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/4.0/ | |
dc.subject | σημασιολογική ομοιότητα | el_GR |
dc.subject | μέτρα σημασιολογικής ομοιότητας | el_GR |
dc.subject | επιτήρηση αγοράς | el_GR |
dc.subject | ασφάλεια προϊόντων | el_GR |
dc.subject | επεξεργασία φυσικής γλώσσας | el_GR |
dc.subject | μεγάλα γλωσσικά μοντέλα | el_GR |
dc.subject | semantic similarity | en_US |
dc.subject | semantic similarity measures | en_US |
dc.subject | BERT | en_US |
dc.subject | VADER | en_US |
dc.subject | natural language processing (NLP) | en_US |
dc.subject | market surveillance | en_US |
dc.subject | user reviews | en_US |
dc.subject | product safety | en_US |
dc.subject | large language models | en_US |
dc.subject | retrieval-augmented generation | en_US |
dc.subject.lcsh | Natural language processing (Computer science) | en_US |
dc.subject.lcsh | Semantic computing | en_US |
dc.subject.lcsh | Machine learning | en_US |
dc.subject.lcsh | Artificial intelligence | en_US |
dc.subject.lcsh | Product safety | en_US |
dc.title | Market surveillance from product's reviews using semantic similarity measures, BERT, VADER, and Natural Language Processing | en_US |
dc.title | Επιτήρηση της αγοράς μέσα από τις κριτικές προϊόντων, με τη χρήση μέτρων σημασιολογικής ομοιότητας, των μοντέλων BERT και VADER και Επεξεργασία Φυσικής Γλώσσας | el_GR |
dcterms.accessRights | free | el_GR |
dcterms.rights | Πλήρες Κείμενο - Ελεύθερη Δημοσίευση | el_GR |
heal.type | masterThesis | el_GR |
heal.recordProvider | aegean | el_GR |
heal.committeeMemberName | Σταματάτος, Ευστάθιος | el_GR |
heal.committeeMemberName | Καπόρης, Αλέξιος | el_GR |
heal.academicPublisher | Πανεπιστήμιο Αιγαίου - Πολυτεχνική Σχολή - Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων | el_GR |
heal.academicPublisherID | aegean | el_GR |
heal.fullTextAvailability | true | el_GR |
dc.contributor.department | Διαδίκτυο των Πραγμάτων: Ευφυή Περιβάλλοντα σε Δίκτυα Νέας Γενιά | el_GR |