dc.description.abstract | Ο ρόλος των πληροφοριακών συστημάτων που βασίζονται σε οντολογίες, στις δημόσιες και ιδιωτικές εφαρμογές αυξάνεται όλο και περισσότερο. Μεγάλες εταιρίες όπως η IBM και η ORACLE επενδύουν μεγάλα ποσά στις τεχνολογίες αυτές υποδεικνύοντας την δυναμική τους. Μια οντολογία είναι ένα μοντέλο το οποίο καθορίζει με τυπικό τρόπο και με σαφήνεια μια συγκεκριμένη αντίληψη της πραγματικότητας (γνώση) χρησιμοποιώντας ένα λεξικό όρων και ένα σύνολο αξιωμάτων που περιορίζουν το επιδιωκόμενο νόημα των όρων αυτών. Όμως η γνώση που περιέχεται σε μια οντολογία δεν παραμένει αμετάβλητη. Το χαρακτηριστικό αυτό της οντολογίας αποτελεί σοβαρό πρόβλημα σε δυναμικά και εξελισσόμενα πλαίσια εφαρμογών, όπου ο δυναμικός, εξελικτικός και αυξητικός χαρακτήρας της γνώσης που περιέχεται σε αυτή είναι έντονος. Η οντολογία πρέπει να αντικατοπτρίζει επικαιροποιημένη γνώση. Επομένως, η συντήρηση των οντολογιών (ontology maintenance) είναι επιτακτική. Οι σύγχρονες μεθοδολογίες μηχανικής οντολογιών (ontology engineering) χαρακτηρίζουν τις οντολογίες ως «ζωντανές», υπογραμμίζουν την ανάγκη δυναμικής ανάπτυξης και εξέλιξής τους καθ’ όλη τη διάρκεια του κύκλου ζωής τους και ενσωματώνουν διαδικασίες συντήρησής τους. Η παρούσα διατριβή ερευνά την πληθυσμιακή ενημέρωσή (ontology population) μιας οντολογίας από σώμα κειμένων, στα πλαίσια της συντήρησης της με πραγματώσεις εννοιών (concept instances) και των μεταξύ τους συσχετίσεων (relationships), έτσι ώστε να μη δημιουργούνται σημασιολογικές και λογικές ασάφειες καθώς και επαναλαμβανόμενη πληροφορία (information redundancy). Προτείνεται λοιπόν μια μεθοδολογική προσέγγιση της πληθυσμιακής ενημέρωσης μιας οντολογίας, δίνοντας τα στάδια που πρέπει να ακολουθούνται μαζί με τους στόχους και τις απαιτήσεις που πρέπει να ικανοποιούνται σε καθένα από αυτά. Στη συνέχεια η έρευνά μας επικεντρώνεται στην υλοποίηση μίας πρωτότυπης μεθόδου πληθυσμιακής ενημέρωσης που ακολουθεί την προτεινόμενη μεθοδολογία, χρησιμοποιώντας ως αρχική υποστηρικτική γνώση (background knowledge) μόνο την ίδια την προς ενημέρωση οντολογία. Πραγματοποιήθηκαν εκτενή πειράματα σε δύο θεματικές περιοχές οι οποίες χαρακτηρίζονται από διαφορετικού τύπου κείμενα. Κατά την εκτέλεση των πειραμάτων αυτών διερευνάται η αποτελεσματικότητα της μεθόδου, κατά την προοδευτική εφαρμογή της, στον εντοπισμό τιμών χαρακτηριστικών εννοιών πάνω στο σώμα κειμένων (σημασιολογική επισημείωση), στην συσχέτιση των τιμών αυτών για την δημιουργία μοναδικών πραγματώσεων, στην συσχέτιση των πραγματώσεων αυτών και τέλος στην πληθυσμιακή ενημέρωση της οντολογίας με τις πραγματώσεις αυτές. Επίσης, διερευνάται η αποτελεσματικότητα των επιμέρους μεθόδων και τεχνικών που χρησιμοποιούνται κατά την εφαρμογή της προτεινόμενης μεθόδου. Ιδιαίτερη έμφαση δίνεται στην έρευνα του συνδυασμού δύο συστημάτων εξαγωγής πληροφορίας τα οποία χρησιμοποιούνται στον εντοπισμό τιμών χαρακτηριστικών εννοιών στο σώμα κειμένων: ενός συστήματος που δημιουργείται με την προσέγγιση της μηχανικής γνώσης και ενός άλλου που δημιουργείται με την προσέγγιση της αυτόματης εκπαίδευσης, χρησιμοποιώντας ως δεδομένα εκπαίδευσης τις τιμές των χαρακτηριστικών που προήλθαν από το πρώτο σύστημα. Σε αυτήν αναδεικνύεται ότι ο πρωτότυπος συνδυασμός των μεθόδων αυτών οδηγεί σε καλύτερα αποτελέσματα δίνοντας σωστότερα δεδομένα εκπαίδευσης, ως προς την ακρίβεια, για την επαναληπτική εκπαίδευση του συστήματος εξαγωγής πληροφορίας. Επιπλέον, η χρήση της γνώσης που υπάρχει στην οντολογία, για την αυτοδύναμη εκκίνηση (bootstrapping) της μεθόδου καθώς και την επαναληπτική εφαρμογή της, αποδεικνύεται ικανοποιητική αφού καταφέρνει να εκπαιδεύσει το σύστημα εξαγωγής πληροφορίας για την αποτελεσματική αποκάλυψη νέων τιμών χαρακτηριστικών εννοιών. Η αυτοδύναμη αυτή τεχνική αποδεικνύεται ικανή να δημιουργήσει γρήγορα και αποτελεσματικά δεδομένα εκπαίδευσης έτσι ώστε να μπορέσει το σύστημα εξαγωγής πληροφορίας, που βασίζεται στην μηχανική μάθηση, να προσαρμοστεί στη δομή παρουσίασης των δεδομένων καθώς και στον τύπο αυτών. Τέλος, η παρούσα διατριβή διαπιστώνοντας την έλλειψη σαφούς ορισμού του προβλήματος της πληθυσμιακής ενημέρωσης μιας οντολογίας δίνει με σαφήνεια τον ορισμό viii του προβλήματος και το διαχωρίζει σε υπο-προβλήματα με διακριτούς στόχους. Κάνει έτσι δυνατή την σύγκριση των διαφόρων υπαρχουσών προσεγγίσεων δίνοντας σημαντική ώθηση στο ερευνητικό αυτό πεδίο. Επιπλέον, η διάκριση αυτή δίνει τη δυνατότητα συσχέτισης του προβλήματος με τα προβλήματα της εξαγωγής πληροφορίας από σώμα κείμενων και της σημασιολογικής επισημείωσης σώματος κειμένων. Η διατριβή αυτή συνεισφέρει στην ημι-αυτόματη και αυξητική πληθυσμιακή ενημέρωση μιας οντολογίας από σώμα κειμένων με έγκυρη και επίκαιρη γνώση. Επίσης, συνεισφέρει στην κατεύθυνση της εκπλήρωσης του οράματος του σημασιολογικού ιστού για την δημιουργία σημασιολογικά επισημειωμένου περιεχομένου, κατανοήσιμο από τις υπολογιστικές μηχανές, αφού σημαντικό στάδιο της προτεινόμενης μεθόδου αποτελεί η σημασιολογική επισημείωση του σώματος κειμένου. | el_GR |