Το AlphaGo το αρχικό είχε εκπαιδευτεί πάνω σε ένα σύνολο απο ήδη παιγμένα ματς, μεταξύ ανθρώπων σε διάφορα επίπεδα ικανοτήτων. Προσπαθούσε ουσιαστικά απο όοοολο αυτο το human-generated ιστορικό να βρεί ποιες κινήσεις (και συνδυασμός κινήσεων σε βάθος χρόνου) ήταν πιο πιθανός να οδηγήσει σε νίκη.
Το AlphaGo Zero δοκίμαζε κάτι διαφορετικό - αντί να βασίζεται σε ενα training dataset απο ιστορικά (ολοκληρωμένα) παιχνίδια, έπαιζε ενάντια του εαυτού του χωρίς κανένα πρότερο training, μαθαίνοντας αποκλειστικά απο το αποτέλεσμα αυτών των παιχνιδιών. Αρχικά δηλαδή έκανε παντελώς τυχαίες κινήσεις, τελείως κουτουρού. Αλλά μπόρεσε να παίξει τόσο γρήγορα τόσο πολλά παιχνίδια, τα οποία γινόντουσαν όλο και λιγότερο τυχαία καθώς -στα τυφλά- εύρισκε τι δουλεύει και τι όχι, που στο τέλος έμαθε να παίζει πολυ καλύτερα απο το αρχικό μοντέλο.
Προφανώς και στις 2 περιπτώσεις, αλλά ειδικά σε αυτη του Zero, το μοντέλο έχει λάβει γνώση των κανόνων του παιχνιδιού (ειδάλλως δε θα μπορούσε να αντιληφθεί πότε τελειώνει μια παρτίδα και ποιος νίκησε, ή τι είναι μια valid κίνηση, αφού έπαιζε και μάθαινε εναντίων του εαυτού του και μόνο).