Τεχνητή νοημοσύνη - Πώς να μετρήσετε την απόδοση - Ακρίβεια, ακρίβεια, Ανάκληση, F1, ROC, RMSE, F-Test και R-Squared

Σήμερα βλέπουμε πολλούς αλγόριθμους AI να δημιουργούνται, αλλά πώς μπορούμε να μετρήσουμε πραγματικά την απόδοση αυτών των μοντέλων; Ποιους είναι οι όροι που πρέπει να εξετάσουμε για να εντοπίσουμε αυτό;

Αυτές είναι οι ερωτήσεις που θα ήθελα να αντιμετωπίσω σε αυτό το άρθρο. Ξεκινώντας από τα "μοντέλα ταξινόμησης", όπου θα εξετάσουμε μετρήσεις όπως η ακρίβεια, η ακρίβεια, η ανάκληση, η βαθμολογία F1 και η καμπύλη ROC προς τα "μοντέλα παλινδρόμησης", όπου θα αντιμετωπίσουμε τις μεθόδους Frog-Mean Squared Error, F-Test και R-Squared.

Απόδοση σε μοντέλα ταξινόμησης

Συχνά, όταν διαβάζουμε μέσω χαρτιού στο διαδίκτυο, βλέπουμε ένα τραπέζι που εμφανίζεται και μοιάζει με αυτό:

Σημείωση: Οι αριθμοί που λαμβάνονται από τις διαφάνειες Web2Text.

Αλλά τι σημαίνουν πραγματικά αυτά; Ας ρίξουμε μια βαθύτερη ματιά στους διαφορετικούς όρους, ξεκινώντας με την εισαγωγή του "Matrix Confusion".

Matrix σύγχυσης

Μια βασική ιδέα που πρέπει να γνωρίζουμε πριν μπορέσουμε να εξηγήσουμε τις μετρήσεις απόδοσης είναι ο πίνακας συγχύσεων.

Ορισμός: Ο πίνακας συγχύσεων είναι ένας πίνακας που χρησιμοποιείται συχνά για να περιγράψει την απόδοση ενός μοντέλου ταξινόμησης (ή "ταξινομητή") σε ένα σύνολο δεδομένων δοκιμών για τα οποία είναι γνωστές οι πραγματικές τιμές.

Μια μήτρα συγχύσεων θα μοιάζει με αυτό:

Τα παραπάνω μπορεί να φαίνονται "συγκεχυμένα", αλλά στην πραγματικότητα είναι αρκετά απλά. Η κορυφαία γραμμή υπαγορεύει την "πραγματική τιμή (= αλήθεια)" ενώ στην αριστερή πλευρά εμφανίζεται η "πρόβλεψη".

Θα μπορούσαμε να το εξετάσουμε με την έννοια ότι κάθε φορά που προβλέπουμε σωστά θα δούμε "Αληθινό", ενώ όπως προβλέπουμε λάθος θα δούμε "Ψεύτικο" συσχετισμένο με την πραγματική τιμή Θετική ή Αρνητική

Χαρτογράφηση αυτό στους όρους που συμπληρώθηκαν:

  • Αληθινή Θετική: Πρόβλεψη = Αλήθεια, Αλήθεια = Αληθινή
  • False Θετικό: Πρόβλεψη = Αλήθεια, Αλήθεια = Λάθος
  • Ψευδές αρνητικό: Πρόβλεψη = ψευδές, αλήθεια = αληθινό
  • Αληθινή Αρνητική: Πρόβλεψη = Λάθος, Αλήθεια = Λάθος

Ας δούμε ένα παράδειγμα για να το καταστήσουμε πιο ξεκάθαρο.

Παράδειγμα: "Θέλουμε να δείξουμε τη μήτρα σύγχυσης για έναν ταξινομητή που ταξινομεί αν ένα μοντέλο αναγνώρισης αντικειμένων ανίχνευσε ένα αντικείμενο ως αυτοκίνητο ή όχι". Τότε θα μπορούσαμε να δούμε τον ακόλουθο πίνακα συγχύσεων για 1.000 περιπτώσεις δοκιμών:

Δείχνοντας ότι εντοπίσαμε σωστά ένα αυτοκίνητο σε 330 περιπτώσεις, ανίχνευσε λάθος ένα αυτοκίνητο 2 φορές, σωστά προέβλεψε ότι δεν ήταν αυτοκίνητο 661 φορές και προέβλεψε λανθασμένα ότι δεν ήταν αυτοκίνητο 7 φορές.

Ή με άλλα λόγια: Σφάλσαμε 9 φορές και διορθώσαμε 991 φορές (επίσης γνωστή ως ακρίβεια, αλλά περισσότερα γι 'αυτό αργότερα).

Ακρίβεια

Με λίγα λόγια: Η ακρίβεια είναι πόσο καλά εκτελείται το μοντέλο

Τύπος: (TP + TN) / (TP + TN + FP + FN) ή #CORRECT_PREDICTIONS / #TOTAL

Ακρίβεια

Με λίγα λόγια: Πόσο συχνά διορθώνουμε τη θετική πρόβλεψή μας;

Τύπος: (TP) / (TP + FP) ή #CORRECT_POSITIVE_PREDICTIONS / #POSITIVE_SAMPLES

Με την ακρίβεια θέλουμε να διασφαλίσουμε ότι μπορούμε να πούμε με ακρίβεια πότε πρέπει να είναι θετική. Π.χ. στο παραπάνω παράδειγμα θέλουμε να βεβαιωθούμε ότι όταν λέμε ότι είναι αυτοκίνητο, είναι πραγματικά αυτοκίνητο και όχι κάποιο άλλο αντικείμενο. Αυτό είναι σημαντικό, δεδομένου ότι συχνά θα αναλάβουμε δράση με βάση τις ανιχνεύσεις μας (π.χ. σε ένα αυτοκαταστροφικό αυτοκίνητο θα μπορούσαμε να αλλάξουμε την ταχύτητα με βάση αυτό).

Ανάκληση

Με λίγα λόγια: Πόσο συχνά κατατάξαμε εσφαλμένα κάτι ως αληθινό (= ψευδές);

Τύπος: (TP) / (TP + FN) ή #CORRECT_POSITIVE_PREDICTIONS / #TRUE_TRUTH_VALUES

Η ανάκληση υπογραμμίζει το κόστος της πρόβλεψης κάτι λανθασμένα. Παραδείγματος χάριν στο παράδειγμα του αυτοκινήτου, όταν αναγνωρίζουμε εσφαλμένα ότι δεν είναι αυτοκίνητο, ίσως καταλήξουμε να χτυπήσουμε το αυτοκίνητο.

F1 Βαθμολογία

Με λίγα λόγια: Χρησιμοποιήστε την ακρίβεια και την ανάκληση για να δημιουργήσετε την ακρίβεια της δοκιμής μέσω του "αρμονικού μέσου". Εστιάζει στο αριστερό κάτω προς τα δεξιά διαγώνιο στο Matrix Confusion.

Φόρμουλα: 2 * ((Ακρίβεια * Ανάκληση) / (Ακρίβεια + Ανάκληση))

Εξετάζοντας τους ορισμούς της ακρίβειας και της ανάκλησης, μπορούμε να δούμε ότι και οι δύο επικεντρώνονται σε περιπτώσεις υψηλού αντίκτυπου (π.χ. δεν θέλουμε να καταρρεύσουμε αυτοκίνητα όταν εντοπίσαμε εσφαλμένα ότι δεν είναι αυτοκίνητο (= FN) και δεν θέλουμε να πούμε ότι είναι ένα αυτοκίνητο αν δεν είναι (= FP)). Αυτό είναι το αποτέλεσμα της βαθμολογίας F1, θα επικεντρωθεί σε αυτό που επηρεάζει την επιχείρησή μας περισσότερο σε σύγκριση με το σκορ ακρίβειας.

Με άλλα λόγια, μπορούμε να πούμε ότι η βαθμολογία F1 επικεντρώνεται στην αριστερή κάτω-προς-δεξιά διαγώνιο.

Καμπύλη ROC

Εν ολίγοις: Αυτή η καμπύλη μας επιτρέπει να επιλέξουμε το βέλτιστο μοντέλο και να απορρίψουμε τα βέλτιστα μοντέλα.

Τύπος: Ψευδής θετικός ρυθμός (FPR) = Άξονας X και πραγματικός θετικός ρυθμός (TPR) = Άξονας Y

  • FPR: TP / (ΤΡ + ΡΝ)
  • TPR: FP / (ΡΡ + ΤΝ)

Η καμπύλη ROC (= Χαρακτηριστικό λειτουργίας δέκτη) δείχνει την απόδοση, ενώ η μέτρηση απόδοσης "AUC (= Περιοχή κάτω από την καμπύλη)" μας επιτρέπει να το περιγράψουμε ως τιμή μέτρησης της απόδοσης των μοντέλων ταξινόμησης.

Κάθε φορά που ταξινομούμε ένα σημείο, παίρνουμε την πιθανότητα να επιστρέψουμε στην κατάσταση αν ταιριάζει ή ταξινομητής ή όχι (π.χ. είναι ένα αυτοκίνητο ή όχι). Αλλά για να μπορέσουμε να επιστρέψουμε αλήθεια ή ψευδής, πρέπει τώρα να εισαγάγουμε ένα όριο που θα μετατρέψει αυτή την πιθανότητα σε μια ταξινόμηση.

Με βάση το επιλεγμένο όριο, θα μπορέσουμε να κατασκευάσουμε μια μήτρα συγχύσεων.

Τώρα θα διακριτοποιήσουμε το εύρος της τιμής κατωφλίου μας (π.χ. κάνουμε το φάσμα μας από [0, 1] έως [0.0, 0.1, 0.2, ..., 0.9, 1.0]) που μπορούμε τώρα να δημιουργήσουμε για τις αντίστοιχες μήτρες σύγχυσης. Με αυτές τις μήτρες σύγχυσης θα υπολογίσουμε τώρα τον Αληθινό Θετικό Ρυθμό (TPR) μέσω του τύπου TPR = TP / (FP + TN) και του False Positive Rate (FPR) μέσω FPR = TP / (TP + FN) .

Αυτό τελικά θα οδηγήσει σε κάτι όπως αυτό:

Σημείωση: Προσπαθούμε να έχουμε ένα μοντέλο που έχει υψηλή τιμή AUC ή καμπύλη ROC που δείχνει όσο το δυνατόν περισσότερο στην αριστερή κορυφή.

Απόδοση στα μοντέλα παλινδρόμησης

Για να υπολογίσουμε την απόδοση των μοντέλων παλινδρόμησης, χρησιμοποιούμε μαθηματικούς τύπους που θα συγκρίνουν τη γραφική παράσταση με τα σημεία που προβλέπουμε.

Ένα καλό μοντέλο παλινδρόμησης πρέπει να επικεντρώνεται στην ελαχιστοποίηση της διαφοράς μεταξύ της παρατήρησης και της προβλεπόμενης τιμής, ενώ είναι αμερόληπτη. (Το αμερόληπτο σημαίνει ότι προσπαθούμε να βρούμε μια ισορροπία μεταξύ της υπερεκτίμησης και της υποεκτίμησης)

Μέσο τετράγωνο σφάλμα ρίζας (RMSE)

Αυτή είναι απλώς η ρίζα του μέσου τετραγώνου σφάλματος:

Το οποίο μεταφράζεται στην απόσπαση της απόστασης μεταξύ του πραγματικού σημείου και του προβλεπόμενου σημείου, τετραγωνίζοντας αυτό και στη συνέχεια διαιρώντας με τον αριθμό των σημείων που έχουμε για τον μέσο όρο.

Γραφικά αυτή η εμφάνιση είναι όπως:

F-Test

Εν συντομία: Το F-Test χρησιμοποιείται για να συγκρίνει τα στατιστικά μοντέλα που τοποθετήθηκαν σε ένα σύνολο δεδομένων, μας επιτρέπει να προσδιορίσουμε το μοντέλο που ταιριάζει καλύτερα στον πληθυσμό.

Τύπος:

Επεξήγηση Απόκλισης:

Ανεξήγητη απόκλιση:

Που:

  • K = αριθμός ομάδων
  • N = Συνολικό μέγεθος δείγματος
  • YijYij = j-th παρατήρηση στην i-th από τις ομάδες Κ
  • Ymean = Συνολικός μέσος όρος των δεδομένων

R-Squared

Με λίγα λόγια: Το R-Squared περιγράφει πόσο καλά προσαρμόζεται ένα μοντέλο για ένα μοντέλο γραμμικής παλινδρόμησης. Όσο υψηλότερη R, τόσο καλύτερη είναι η τοποθέτηση.

Τύπος:

Η παρακάτω εικόνα απεικονίζει:

  • SStot: κόκκινο
  • SSres: μπλε

Το R-Squared (ή ονομάζεται επίσης "Συντελεστής προσδιορισμού") θα δείξει πόσο κοντά είναι τα δεδομένα στην προσαρμοσμένη γραμμή παλινδρόμησης. Ή με άλλα λόγια, Δείχνει το ποσοστό της διακύμανσης στην εξαρτημένη μεταβλητή που οι ανεξάρτητες μεταβλητές εξηγούν συλλογικά.

Αυτή είναι μια ενδιαφέρουσα μέτρηση, διότι μας επιτρέπει να κατανοήσουμε καλύτερα εάν το μοντέλο μας είναι υπερτιμημένο ή όχι.