dc.description.abstract | Το World Wide Web είναι η πιο διαδεδομένη και η πιο γρήγορα αναπτυσσόμενη, υπηρεσία του διαδικτύου. Οι χρήστες του έχουν πρόσβαση σε δισεκατομμύρια ιστοσελίδες, που περιλαμβάνουν πλούσιες πληροφορίες για μια ευρεία γκάμα θεμάτων. Αυτός ο τεράστιος όγκος πληροφοριών σε συνδυασμό με την αναρχία που επικρατεί στο διαδίκτυο, δημιούργησαν την επιτακτική ανάγκη για την ύπαρξη ενός μηχανισμού που θα έδινε μια πιο δομημένη μορφή, οργανώνοντας την διάσπαρτη πληροφορία. Αυτό τον ρόλο, ανέλαβαν οι μηχανές αναζήτησης, επιτρέποντας τον χρήστη να αναζητάει και να βρίσκει τις ιστοσελίδες με τα θέματα που τον ενδιαφέρουν. Υπάρχουν δυο είδη μηχανών, ανάλογα με τον αν αναζητούν πληροφορία για μια συγκεκριμένη θεματική ενότητα, ή όχι. Έτσι τις διαχωρίζουμε σε στοχευμένες μηχανές αναζητησης και σε γενικού σκοπού. Στην εργασία αυτή, γίνεται η προσπάθεια παρουσίασης όλου του θεωρητικού υπόβαθρου που είναι απαραίτητο, για την όσο είναι το δυνατόν, καλύτερη κατανόηση της λειτουργίας και του τρόπου κατασκευής των μηχανών αναζήτησης. Ο κύριος στόχος της ήταν η κατασκευή ενός στοχευμένου λογισμικού αράχνης για πολιτιστικό περιεχόμενο. Τα λογισμικά αράχνης στην ουσία, είναι οι ανιχνευτές των μηχανών αναζήτησης. Ο βασικός τους στόχος, είναι να εντοπίζουν και να ανακτούν ιστοσελίδες στο διαδίκτυο και εν συνεχεία, να τις μεταβιβάζουν για αποθήκευση στο ευρετήριο της υπηρεσίας αναζήτησης. Προτού δημιουργήσουμε την αράχνη, επειδή θέλαμε να γνωρίζουμε και να προσδιορίζουμε εκ των προτέρων τις ιστοσελίδες στις οποίες θα αναζητήσει πληροφορία, φτιάξαμε ένα πρόγραμμα αυτοματοποιημένης δημιουργίας ιστοσελίδων. Το πρόγραμμα αυτό αντλεί λέξεις από δυο αρχεία κειμένου. Το πρώτο αρχείο περιέχει κοινότυπες λέξεις, ενώ το δεύτερο λέξεις πολιτιστικού περιεχομένου. Προγραμματίστηκε με τέτοιο τρόπο, ώστε ο χρήστης να μπορεί να ορίσει τον συγκεκριμένο αριθμό εγγράφων που επιθυμεί να δημιουργηθούν, την ποσότητα των λέξεων που θα περιέχει η κάθε ιστοσελίδα, καθώς και το συνολικό ποσοστό περιεχομένου σε πολιτιστικούς όρους, αντλώντας το πάντα από το πρώτο λεξικό. Μετά την δημιουργία των επιθυμητών τόσο σε αριθμό, όσο και σε περιεχόμενο ιστοσελίδων, ακολούθησε το «ανέβασμα» τους σε διακομιστή. Για την αναζήτηση πολιτιστικής πληροφορίας σε όλες αυτές τις ιστοσελίδες, προγραμματίστηκε το λογισμικό της στοχευμένης αράχνης. Αρχικά είναι απαραίτητο να τοποθετηθεί (μέσω φόρμας) το αρχικό URL από το οποίο θα ξεκινήσει να αναζητά πληροφορία, καθώς και ο μέγιστος αριθμός ιστοσελίδων που θα επισκεφθεί, ακολουθώντας τους υπέρ-συνδέσμους τους. Η κύρια διεργασία της, είναι η καταγραφή και η σύγκριση των λέξεων που βρίσκει σε κάθε ιστοσελίδα, με τις λέξεις πολιτιστικού ενδιαφέροντος, που έχουμε ήδη φτιάξει και τοποθετήσει σε ένα txt αρχείο. Παρουσιάζοντας στο τέλος, με την ολοκλήρωση της αναζήτησης σε φθίνουσα σειρά, τα ποσοστά σχετικότητας της κάθε ιστοσελίδας σε σχέση με την θεματική που μας ενδιαφέρει. | el_GR |