Δοκιμή A / B: Πώς να υπολογίσετε το μέγεθος δείγματος πριν ξεκινήσετε τη δοκιμή σας

Ας υποθέσουμε ότι εκτελείτε μια δοκιμασία A / B για μια εβδομάδα τώρα και κάθε μέρα σας ζητείται από τους ενδιαφερόμενους της επιχείρησής σας: "Πόσο καιρό σκοπεύουμε να εκτελέσουμε το τεστ; Έχουμε ακόμα μια σημασία; ". Αυτό δεν είναι μια ασυνήθιστη κατάσταση. Στην πραγματικότητα, όλοι οι διαχειριστές προϊόντων αντιμετωπίζουν αυτό το ζήτημα. Εκτός από ότι πολλές φορές δεν έχουμε ιδέα για πόσο καιρό θα πρέπει να τρέξουμε τη δοκιμή, έτσι κοιτάμε τα αποτελέσματα με μια ελπίδα ότι φτάνουμε στο νόημα. Η προβληματική ένωση αν κάνετε μια δοκιμή, αλλά δεν αναμένετε καμία ανάκαμψη - Αυτό θα μπορούσε είτε να οφείλεται σε αισθητικούς λόγους ή τα έσοδα ανάποδα. Πόσο καιρό θα έπρεπε να το εκτελέσετε; Το δύσκολο δεν είναι;

Στην ιδανική περίπτωση δεν πρέπει να ξεκινήσουμε ποτέ μια δοκιμή χωρίς να γνωρίζουμε πόσα δείγματα θα συλλέξουμε. Γιατί; Διαφορετικά, θα εξετάζετε τα δεδομένα και θα καταλήξετε να κάνετε "Data Peeking", η οποία σταματά τη δοκιμασία μόλις αποκτήσετε σημασία. Εδώ είναι ένα παράδειγμα - Ας υποθέσουμε ότι έχετε ένα νόμισμα και η υπόθεσή σας είναι ότι είναι δίκαιο. Πώς το αποδεικνύετε αυτό; Απλό - πετάξτε το 100 φορές. Τι γίνεται όμως αν το πετάξετε 10 φορές και δείτε τις ουρές 10 φορές. Φαίνεται στατιστικά σημαντικό να σταματήσουμε τη δοκιμή σε αυτό το χρονικό σημείο και να απορρίψουμε την υπόθεση Null - ότι το κέρμα είναι δίκαιο. Τι πήγε στραβά? Σταματήσατε τη δοκιμή λίγο πολύ σύντομα. Δεν είχατε ιδέα να ξεκινήσετε με πόσο καιρό θα έπρεπε να εκτελέσετε τη δοκιμή. Το άλλο πρόβλημα που μπορεί να αντιμετωπίσετε εάν δεν έχετε υπολογίσει το μέγεθος του δείγματος είναι ότι δεν θα έχετε τη δυνατότητα να πείτε με βεβαιότητα πόσο καιρό θα εκτελέσετε τη δοκιμή.

Πώς λοιπόν πλησιάζουμε αυτό;

Ακολουθήστε τον πρώτο κανόνα διαχείρισης προϊόντων - Αγκαλιάστε την ασάφεια αλλά αποφύγετε την αβεβαιότητα.

Με αυτόν τον τρόπο μπορούμε να προσεγγίσουμε τον υπολογισμό του μεγέθους του δείγματος: Ας υποθέσουμε ότι εκτελούμε μια δοκιμή A / B όπου: Το τρέχον ποσοστό μετατροπής μας για ένα γεγονός όπως το% των χρηστών που εγγράφονται στο ηλεκτρονικό ταχυδρομείο είναι 10% και αναμένουμε αύξηση κατά 10% μετατροπή εάν η θεραπεία κερδίσει. Επειτα,

Μετατροπή της γραμμής βάσης: P1 = 20%

Αύξηση στη μετατροπή: 10% (Αυτό εκτιμήσατε ως αναμενόμενο αντίκτυπο της αλλαγής σας). Ως μέρος της ομάδας ανάπτυξης, συνήθως στοχεύουμε για αύξηση 20%, αλλά ακόμη και το 10% θα μπορούσε να είναι μεγάλο, ανάλογα με το πόσο ώριμο είναι το προϊόν σας. Όσο υψηλότερη είναι η ανύψωση όσο πιο γρήγορα φτάνετε στη σημασία.

Αναμενόμενη μετατροπή της ομάδας θεραπείας: Ρ2 = 20% * (1 + 10%) = 22%

Σημασιακό επίπεδο: Αυτή είναι η πιθανότητα ενός ψεύτικου θετικού, δηλ. Σε επίπεδο σημασίας 5%, ποια είναι η πιθανότητα να απορρίψουμε τη μηδενική υπόθεση όταν ήταν στην πραγματικότητα (κάτι που δεν θα ξέρατε ποτέ) ήταν αλήθεια. Φυσικά, θέλουμε να ελαχιστοποιήσουμε αυτό το σφάλμα, ώστε να επιλέξουμε το 5%. Αν έχετε λιγότερη κίνηση, τότε ίσως θέλετε να το αυξήσετε στο 10% ή ακόμα και στο 20%.

False Positive: Σφάλμα τύπου I - Απόρριψη της μηδενικής υπόθεσης όταν είναι αληθής

Στατιστική εξουσία: Αυτή είναι η πιθανότητα ότι θα πάρετε μια ψευδή αρνητική. Φτου! Η δύναμη (= 1 - Σφάλμα τύπου ΙΙ) είναι η πιθανότητα να αποφευχθεί ένα σφάλμα Τύπου ΙΙ ή με άλλα λόγια Ισχύς είναι η πιθανότητα η δοκιμή να ανιχνεύσει μια απόκλιση από την μηδενική υπόθεση εάν υπάρχει τέτοια απόκλιση. Συνήθως το ορίζουμε στο 80%.

False Negative: Σφάλμα Τύπου ΙΙ - Μην απορρίπτετε την μηδενική υπόθεση όταν είναι ψευδής

Τώρα έχουμε ό, τι μπορούμε πραγματικά να προχωρήσουμε και να υπολογίσουμε το μέγεθος του δείγματος που απαιτείται. Μπορούμε είτε να χρησιμοποιήσουμε μια ηλεκτρονική αριθμομηχανή, το εργαλείο ηλεκτρικού ρεύματος G ή το R. Ανάλογα με το εργαλείο που χρησιμοποιείτε μπορεί να δείτε ελαφρώς διαφορετικούς αριθμούς αλλά αυτό είναι εντάξει.

Ας δούμε το καθένα από αυτά ένα προς ένα:

α) Ηλεκτρονική αριθμομηχανή όπως αυτή εδώ

β) Χρησιμοποιήστε το εργαλείο G * Power: Κάντε λήψη του εργαλείου από εδώ. Πηγαίνετε στις δοκιμές Z της οικογένειας δοκιμών, στις στατιστικές δοκιμές ως "Αναλογίες: Διαφορά μεταξύ δύο ανεξάρτητων αναλογιών" και προσθέστε τα P1, P2, Alpha (στατιστική σημασία), Power = 0,8.

Αναμενόμενη έξοδος:

γ) R: Η λειτουργία που πρόκειται να χρησιμοποιήσουμε είναι power.prop.test (man page).

power.prop.test (n = NULL, p1 = NULL, p2 = NULL, sig.level = 0,05, power = NULL, εναλλακτική = c ("

Μεταβείτε σε οποιονδήποτε ηλεκτρονικό μεταγλωττιστή R όπως εδώ και πληκτρολογήστε την ακόλουθη εντολή με το n set σε NULL.

power.prop.test (n = NULL, ρ1 = 0,2, ρ2 = 0,22, ισχύ = 0,8, εναλλακτική = 'δύο πλευρές', sig.level = 0,05)

Αυτή είναι η έξοδος που θα πάρετε στο R

Δύο δείγματα σύγκρισης υπολογισμού υπολογισμού ισχύος 
             n = 6509.467 ρ1 = 0.2 ρ2 = 0.22 sig.level = 0.05 δύναμη = 0.8 εναλλακτική = δυο πλευρές
ΣΗΜΕΙΩΣΗ: n είναι ο αριθμός στην * κάθε * ομάδα

Αυτό σημαίνει ότι θα χρειαζόμασταν περίπου 6510 δείγματα σε κάθε ομάδα. Αυτό σημαίνει ότι θα χρειαζόταν 13020 κίνηση.

Τώρα υποθέστε ότι γνωρίζετε ιστορικά ότι η επισκεψιμότητα του ιστότοπού σας είναι 2000 επισκέπτες, τότε γνωρίζετε ότι πρέπει να εκτελέσετε τις δοκιμές υποθέσεων για 6,51 ημέρες ή 7 ημέρες.

Σημείο μπόνους: Είναι πάντα καλή ιδέα να καλύψετε όλες τις ημέρες της εβδομάδας, καθώς οι περισσότερες από τις επιχειρήσεις έχουν «εβδομαδιαία» ζήτηση.

Την επόμενη φορά που πρόκειται να εκτελέσετε τη δοκιμή A / B, υπολογίστε εκ των προτέρων το απαιτούμενο μέγεθος δείγματος, ώστε να μπορείτε να ορίσετε τις σωστές προσδοκίες στους ενδιαφερόμενους της επιχείρησής σας.

Ακριβώς σε περίπτωση που βρεθεί το μέγεθος δείγματος πολύ μεγαλύτερο που δεν νομίζετε ότι θα πάρετε τη σημασία δεδομένης της κυκλοφορίας που έχει ο ιστοχώρος σας, μην ανησυχείτε, σε άλλη θέση θα μοιραστώ μερικά δροσερά κόλπα για το πώς να τρέξει A / B δοκιμάστε όταν δεν έχετε αρκετή επισκεψιμότητα. Μέχρι τότε, ευτυχισμένος έλεγχος A / B.