Υλοποίηση λογισμικού αράχνης για αναζήτηση πολιτιστικού περιεχομένου στον παγκόσμιο ιστό

dc.contributor.advisor	Γαβαλάς, Δαμιανός	el_GR
dc.contributor.author	Φίλιος, Στέφανος	el_GR
dc.coverage.spatial	Μυτιλήνη	el_GR
dc.date.accessioned	2015-11-17T10:38:53Z
dc.date.available	2015-11-17T10:38:53Z
dc.date.issued	2008	el_GR
dc.identifier.other	https://catalog.lib.aegean.gr/iguana/www.main.cls?surl=search&p=ed763fb5-024d-4d04-a952-e71cbf110eaa#recordId=1.1927	el_GR
dc.identifier.uri	http://hdl.handle.net/11610/10646
dc.description.abstract	Το World Wide Web είναι η πιο διαδεδομένη και η πιο γρήγορα αναπτυσσόμενη, υπηρεσία του διαδικτύου. Οι χρήστες του έχουν πρόσβαση σε δισεκατομμύρια ιστοσελίδες, που περιλαμβάνουν πλούσιες πληροφορίες για μια ευρεία γκάμα θεμάτων. Αυτός ο τεράστιος όγκος πληροφοριών σε συνδυασμό με την αναρχία που επικρατεί στο διαδίκτυο, δημιούργησαν την επιτακτική ανάγκη για την ύπαρξη ενός μηχανισμού που θα έδινε μια πιο δομημένη μορφή, οργανώνοντας την διάσπαρτη πληροφορία. Αυτό τον ρόλο, ανέλαβαν οι μηχανές αναζήτησης, επιτρέποντας τον χρήστη να αναζητάει και να βρίσκει τις ιστοσελίδες με τα θέματα που τον ενδιαφέρουν. Υπάρχουν δυο είδη μηχανών, ανάλογα με τον αν αναζητούν πληροφορία για μια συγκεκριμένη θεματική ενότητα, ή όχι. Έτσι τις διαχωρίζουμε σε στοχευμένες μηχανές αναζητησης και σε γενικού σκοπού. Στην εργασία αυτή, γίνεται η προσπάθεια παρουσίασης όλου του θεωρητικού υπόβαθρου που είναι απαραίτητο, για την όσο είναι το δυνατόν, καλύτερη κατανόηση της λειτουργίας και του τρόπου κατασκευής των μηχανών αναζήτησης. Ο κύριος στόχος της ήταν η κατασκευή ενός στοχευμένου λογισμικού αράχνης για πολιτιστικό περιεχόμενο. Τα λογισμικά αράχνης στην ουσία, είναι οι ανιχνευτές των μηχανών αναζήτησης. Ο βασικός τους στόχος, είναι να εντοπίζουν και να ανακτούν ιστοσελίδες στο διαδίκτυο και εν συνεχεία, να τις μεταβιβάζουν για αποθήκευση στο ευρετήριο της υπηρεσίας αναζήτησης. Προτού δημιουργήσουμε την αράχνη, επειδή θέλαμε να γνωρίζουμε και να προσδιορίζουμε εκ των προτέρων τις ιστοσελίδες στις οποίες θα αναζητήσει πληροφορία, φτιάξαμε ένα πρόγραμμα αυτοματοποιημένης δημιουργίας ιστοσελίδων. Το πρόγραμμα αυτό αντλεί λέξεις από δυο αρχεία κειμένου. Το πρώτο αρχείο περιέχει κοινότυπες λέξεις, ενώ το δεύτερο λέξεις πολιτιστικού περιεχομένου. Προγραμματίστηκε με τέτοιο τρόπο, ώστε ο χρήστης να μπορεί να ορίσει τον συγκεκριμένο αριθμό εγγράφων που επιθυμεί να δημιουργηθούν, την ποσότητα των λέξεων που θα περιέχει η κάθε ιστοσελίδα, καθώς και το συνολικό ποσοστό περιεχομένου σε πολιτιστικούς όρους, αντλώντας το πάντα από το πρώτο λεξικό. Μετά την δημιουργία των επιθυμητών τόσο σε αριθμό, όσο και σε περιεχόμενο ιστοσελίδων, ακολούθησε το «ανέβασμα» τους σε διακομιστή. Για την αναζήτηση πολιτιστικής πληροφορίας σε όλες αυτές τις ιστοσελίδες, προγραμματίστηκε το λογισμικό της στοχευμένης αράχνης. Αρχικά είναι απαραίτητο να τοποθετηθεί (μέσω φόρμας) το αρχικό URL από το οποίο θα ξεκινήσει να αναζητά πληροφορία, καθώς και ο μέγιστος αριθμός ιστοσελίδων που θα επισκεφθεί, ακολουθώντας τους υπέρ-συνδέσμους τους. Η κύρια διεργασία της, είναι η καταγραφή και η σύγκριση των λέξεων που βρίσκει σε κάθε ιστοσελίδα, με τις λέξεις πολιτιστικού ενδιαφέροντος, που έχουμε ήδη φτιάξει και τοποθετήσει σε ένα txt αρχείο. Παρουσιάζοντας στο τέλος, με την ολοκλήρωση της αναζήτησης σε φθίνουσα σειρά, τα ποσοστά σχετικότητας της κάθε ιστοσελίδας σε σχέση με την θεματική που μας ενδιαφέρει.	el_GR
dc.language.iso	el	el_GR
dc.subject	Αράχνη	el_GR
dc.subject	Spider	en_US
dc.subject	Λογισμικό αράχνης	el_GR
dc.subject	Web crawler	en_US
dc.subject	Μηχανη αναζήτησης	el_GR
dc.subject	Search engine	en_US
dc.subject	Crawling	en_US
dc.subject	Parsing	en_US
dc.subject	Indexing	en_US
dc.title	Υλοποίηση λογισμικού αράχνης για αναζήτηση πολιτιστικού περιεχομένου στον παγκόσμιο ιστό	el_GR
dcterms.accessRights	free	el_GR
dcterms.rights	Πλήρες Κείμενο - Ελεύθερη Δημοσίευση Κλειδωμένη η δυνατότητα αντιγραφής	el_GR
heal.type	bachelorThesis	el_GR
heal.committeeMemberName	Τσεκούρας, Γεώργιος	el_GR
heal.academicPublisher	Πανεπιστήμιο Αιγαίου. Σχολή Κοινωνικών Επιστημών. Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας.	el_GR
heal.academicPublisherID	aegean	el_GR
heal.fullTextAvailability	true	el_GR
heal.committeeMemberName.moreinfo	Τσεκούρας, Γεώργιος - gtsek@ct.aegean.gr	el_GR

Files in this item

Name:: file0.pdf
Size:: 981.3Kb
Format:: application/
Description:: Πτυχιακή εργασία

View/Open

This item appears in the following Collection(s)

Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας [180]

Show simple item record

Υλοποίηση λογισμικού αράχνης για αναζήτηση πολιτιστικού περιεχομένου στον παγκόσμιο ιστό

Files in this item

This item appears in the following Collection(s)

Browse

My Account

Statistics

Πρόσθετα