σε ,

Σύστημα Τεχνητής Νοημοσύνης για την αποκατάσταση και συμπλήρωση αρχαίων Ελληνικών κειμένων

Η DeepMind έφτιαξε ένα σύστημα που βοηθά στην ανακατασκευή δυσανάγνωστων ή κατεστραμμένων κειμένων!

11 4

Από τους: Γιάννη Ασσαέλ*, Thea Sommerschield*, Jonathan Prag

Affiliations: DeepMind, University of Oxford

Συμπλήρωση και αποκατάσταση αρχαίων κειμένων

Οι ιστορικοί στηρίζονται σε διάφορες πηγές για την κατανόηση της σκέψης, της κοινωνίας και της ιστορίας των αρχαίων πολιτισμών. Πολλές από αυτές τις πηγές είναι βασισμένες σε κείμενα – γραμμένα σε πάπυρους ή χαραγμένα σε πέτρα – και τα διατηρημένα αρχεία του παρελθόντος βοηθούν να κατανοήσουμε καλύτερα τις αρχαίες κοινωνίες. Ωστόσο, αυτά τα αρχεία της αρχαίας πολιτιστικής μας κληρονομιάς έχουν συχνά υποστεί φθορές λόγω σκόπιμης καταστροφής ή διάβρωσης και κατακερματισμού με την πάροδο του χρόνου. Τέτοια είναι η περίπτωση των επιγραφών: κείμενα γραμμένα σε μια ανθεκτική επιφάνεια (όπως πέτρα, κεραμικό, μέταλλο) από άτομα, ομάδες και ιδρύματα του παρελθόντος και τα οποία αποτελούν το επίκεντρο της επιστήμης της Επιγραφικής. Χιλιάδες επιγραφές έχουν διασωθεί μέχρι σήμερα, αλλά η πλειοψηφία τους έχει υποστεί ζημιές κατά τη πάροδο των αιώνων και τμήματα των κειμένου είναι δυσανάγνωστα ή κατεστραμμένα (Εικόνα 1). Η ανακατασκευή (“αποκατάσταση”) αυτών των κειμένων είναι σύνθετη και χρονοβόρα, αλλά απαραίτητη για μια βαθύτερη κατανόηση των αρχαίων πολιτισμών.

Ένα από τα προβλήματα στην κατανόηση εννοιών από ατελή κομμάτια ενός κειμένου είναι ότι συχνά υπάρχουν πολλές πιθανές λύσεις. Σε πολλά παιχνίδια λέξεων, οι παίκτες μαντεύουν γράμματα για να συμπληρώσουν μια λέξη ή φράση – όσο περισσότερα είναι οι γράμματα που καθορίζονται, τόσο πιο περιορισμένες είναι οι πιθανές λύσεις. Αντίθετα με αυτά τα παιχνίδια όπου οι παίκτες μαντεύουν μεμονωμένες φράσεις, οι ιστορικοί που αποκαθιστούν μία επιγραφή μπορούν να εκτιμήσουν την πιθανότητα διαφορετικών δυνατών λύσεων που βασιζόμενοι σε άλλες ενδείξεις – όπως είναι γλωσσική μελέτη, η διάταξη και η μορφή, παρόμοια κείμενα και γενικότερο το ιστορικό πλαίσιο. Με την χρήση ενός καινοτόμου συστήματος τεχνητής νοημοσύνης που έχει “εκπαιδευτεί” σε αρχαία κείμενα, επιστήμονες από την DeepMind και το πανεπιστήμιο της Οξφόρδης δημιούργησαν ένα σύστημα που μπορεί να παρέχει μια λίστα με τις πιθανές αποκαταστάσεις και το επίπεδο εμπιστοσύνης για την κάθε μια. Οι επιστήμονες πιστεύουν ότι με την χρήση της του βοηθητικού εργαλείου τεχνητής νοημοσύνης θα διευκολύνουν  το έργο των ιστορικών και θα διευκολύνουν την κατανόηση των κειμένων.

11 4

Εικόνα 1: Επιγραφή που έχει υποστεί φθορές: διάταγμα της Αθηναϊκής Συνέλευσης σχετικά με τη διαχείριση της Ακρόπολης (485/4 Π.Χ.). IG I3 4B. (CC BY-SA 3.0, WikiMedia)

Το σύστημα τεχνητής νοημοσύνης Πυθία

Η Πυθία – που το όνομα της προέρχεται από την Πρωθιέρεια του Θεού Απόλλωνα στο Μαντείο των Δελφών – είναι το πρώτο σύστημα τεχνητής νοημοσύνης που βοηθά στην συμπλήρωση και αποκατάσταση αρχαίων κειμένων με την χρήση νευρωνικών δικτύων.  Η διεπιστημονική προσέγγιση του προβλήματος φέρνει κοντά τον κλάδο της Αρχαίας Ιστορίας με την Τεχνητή Νοημοσύνη δημιουργώντας ένα καινοτόμο εργαλείο για να βοηθήσει την επιστήμη της Επιγραφικής, προσφέροντας πολλαπλές “υποθέσεις” για τα σημεία του κειμένου που έχουν υποστεί φθορά.

Η Πυθία, δέχεται ως είσοδο τα γράμματα ενός αρχαίου Ελληνικού κειμένου που έχει υποστεί φθορές, και προβλέπει μια λίστα από πιθανές αποκαταστάσεις για τα φθαρμένα μέρη (οι επιγραφές προέρχονται από τον 5ο με 7ο αιώνα Π.Χ.). Η αρχιτεκτονική του συστήματος έχει φτιαχτεί έτσι ώστε να δέχεται ώς είσοδο μεμονωμένα γράμματα αλλά και λέξεις. Έτσι το σύστημα μπορεί πιο εύκολα να καταλάβει το γενικό πλαίσιο από τα συμφραζόμενα, τις μακροπρόθεσμες εξαρτήσεις, και αποδοτικά να αντιμετωπίσει λέξεις που έχουν υποστεί μερική φθορά (Εικόνα 2). Γι αυτούς τους λόγους το ίδιο μοντέλο θα μπορούσε να χρησιμοποιηθεί σε άλλους τομείς της αρχαίας ιστορίας (φιλολογία, παπυρολογία, κωδικολογία) και σε οποιαδήποτε γλώσσα (αρχαία ή νέα).

12 5

Εικόνα 2: Η Πυθία επεξεργάζεται το γνωστό απόφθεγμα μηδέν ἄγαν, από τον ναό του Απόλλωνος στους Δελφούς. Τα γράμματα “γα” έχουν αντικατασταθεί με ερωτηματικά “?” προκειμένου το σύστημα να τα προβλέψει. Ως αποτέλεσμα το “ἄ??ν” δεν αποτελεί μια ολοκληρωμένη λέξη και γι αυτό το μοντέλο την αναπαριστά ως άγνωστη λέξη (“unk”). Τέλος η Πυθία προβλέπει σωστά τα γράμματα “γα”.

Πειραματική αξιολόγηση

Για να εκπαιδεύσουν το νευρωνικό δίκτυο, οι επιστήμονες χρειάστηκε να γράψουν πολύπλοκες διαδικασίες προκειμένου να μετατρέψουν το μεγαλύτερο ψηφιακό αρχείο αρχαίων Ελληνικών επιγραφών (PHI Greek Inscriptions) σε μορφή “αναγνώσιμη” από την Πυθία. Το σύνολο των κειμένων αποτέλεσμα αυτής της επεξεργασίας ονομάζεται PHI-ML.

Όπως φαίνεται στον Πίνακα 1, οι προβλέψεις της Πυθίας επιτυγχάνουν ποσοστό σφάλματος χαρακτήρων (χαμηλότερο είναι καλύτερο) 30,1%, σε σύγκριση με το 57,3% των αρχαίων ιστορικών (διδακτορικοί από το πανεπιστήμιο της Οξφόρδης). Επιπλέον, στο 73,5% των περιπτώσεων η σωστή αλληλουχία συγκαταλέγεται μεταξύ των Top-20 υποθέσεων του μοντέλου. Τα αποτελέσματα αυτά υποδεικνύουν την χρησιμότητα του syst;hmatow ως βοηθητικό εργαλείο στον κλάδο της ψηφιακής επιγραφικής, και θέτουν ένα νέο πρότυπο στην απόδοση της συμπλήρωσης και αποκατάστασης αρχαίων κειμένων.

13 4

Πίνακας 1: Πειραματική αξιολόγηση του μοντέλου τεχνητής νοημοσύνης στις επιγραφές του PHI-ML.

Επόμενα βήματα

Τέλος, η διεπιστημονική προσέγγιση του προβλήματος μπορεί να ρίξει φως σε νέους τρόπους μελέτης των αρχαίων κειμένων και του κλάδου της επιγραφικής. Γι αυτό τον λόγο, οι επιστήμονες έχουν δημοσιεύσει τον πηγαίο κώδικα της εργασίας στον ακόλουθο σύνδεσμο:

Το άρθρο “Restoring ancient text using deep learning: a case study on Greek epigraphy” θα παρουσιαστεί στο συνέδριο EMNLP 2019. Σύνδεσμος για την επιστημονική προδημοσίευση.

*ΔΕΙΤΕ ΕΠΙΣΗΣ

Τι φέρνει το 5G: Άνθρωπους ολογράμματα και επαυξημένη πραγματικότητα!

Ακολουθήστε τα Μικροπράγματα στο Google News, για άρθρα και κουίζ που θα σας φτιάχνουν τη μερα.
0 Comments
Ενσωματωμένα σχόλια
Δείτε όλα τα σχόλια

Τα Μικροπράγματα στο inbox σου!