Η Πρότυπη Βιβλιοθήκη της Python
Η Πρότυπη Βιβλιοθήκη της Python παρέχει πλούσιες δυνατότητες για την επεξεργασία κειμένου/δυαδικών δεδομένων, μαθηματικών, προγραμματισμού με λειτουργικό ύφος, πρόσβαση σε αρχεία/καταλόγους, διατήρηση δεδομένων, συμπίεση/αρχειοθέτηση δεδομένων, κρυπτογραφία, υπηρεσίες λειτουργικού συστήματος, ταυτόχρονο προγραμματισμό, επικοινωνία μεταξύ διεργασιών, πρωτόκολλα δικτύου, μορφές δεδομένων JSON/XML/άλλων που χρησιμοποιούνται στο διαδίκτυο, πολυμέσα, διεθνοποίηση, γραφικό περιβάλλον χρήστη (GUI), αποσφαλμάτωση και πολλά άλλα. Ο παρακάτω πίνακας περιλαμβάνει κάποια από τα αρθρώματα της Πρότυπης Βιβλιοθήκης της Python που χρησιμοποιούμε σε παραδείγματα.
Μερικές απο τις ενότητες της Πρότυπης Βιβλιοθήκης της Python που χρησιμοποιούμε:
- collections – Επιπρόσθετες δομές δεδομένων πέρα από λίστες, πλειάδες, λεξικά και σύνολα.
- csv – Επεξεργασία αρχείων με τιμές που χωρίζονται με κόμμα (Comma-Separated Values).
- datetime, time – Υπολογισμοί ημερομηνίας και ώρας.
- decimal – Αριθμητική ακρίβεια με σταθερή τεκμηρίωση και αριθμητικές πράξεις με κινητή υποδιαστολή, συμπεριλαμβανομένων χρηματιστηριακών υπολογισμών.
- doctest – Απλή μονάδα δοκιμών μέσω επικύρωσης δοκιμών και αναμενόμενων αποτελεσμάτων που ενσωματώνονται στα docstrings.
- json – Επεξεργασία JSON (JavaScript Object Notation) για χρήση με υπηρεσίες web και βάσεις δεδομένων NoSQL.
- math – Κοινές μαθηματικές σταθερές και πράξεις.
- os – Αλληλεπίδραση με το λειτουργικό σύστημα.
- queue – Δομή δεδομένων πρώτος μπήκε, πρώτος βγήκε (FIFO).
- random – Υποδείγματα ψευδοτυχαίων αριθμών.
- re – Κανονικές εκφράσεις για την αντιστοίχιση προτύπων.
- sqlite3 – Πρόσβαση σε βάση δεδομένων SQLite.
- statistics – Μαθηματικές συναρτήσεις στατιστικής, όπως μέση τιμή, διάμεσος, τύπος και διακύμανση.
- string – Επεξεργασία συμβολοσειρών.
- sys – Επεξεργασία παραμέτρων γραμμής εντολών, τυπική είσοδος, τυπική έξοδο και τυπική ροή σφαλμάτων.
- timeit – Ανάλυση απόδοσης.
Η χρήση αυτών των ενοτητων στην Python σας επιτρέπει να επιτελέσετε διάφορες λειτουργίες και εργασίες μέσα στη γλώσσα προγραμματισμού.
Βιβλιοθήκες για την Επιστήμη των Δεδομένων
Η Python διαθέτει μια τεράστια και ταχέως αυξανόμενη κοινότητα ανοικτού κώδικα προγραμματιστών σε πολλούς τομείς. Ένας από τους κύριους λόγους για τη δημοφιλία της Python είναι το εξαιρετικά ευρύ φάσμα από βιβλιοθήκες ανοικτού κώδικα που έχουν αναπτυχθεί από την ανοικτή κοινότητα. Ένα από τα στοιχεία στα οποία επικεντρωνόμαστε είναι η δημιουργία παραδειγμάτων και μελετών υλοποίησης που θα σας προσφέρουν μια ενδιαφέρουσα, προκλητική και ψυχαγωγική εισαγωγή στον προγραμματισμό με τη Python, ενώ σας εμπλέκουμε επίσης στην πρακτική της επιστήμης των δεδομένων, βασικές βιβλιοθήκες της επιστήμης των δεδομένων και πολλά ακόμη. Θα εκπλαγείτε από τα σημαντικά καθήκοντα που μπορείτε να εκτελέσετε με μόλις λίγες γραμμές κώδικα. Ο παρακάτω πίνακας περιλαμβάνει διάφορες δημοφιλείς βιβλιοθήκες για την επιστήμη των δεδομένων. Θα χρησιμοποιήσετε πολλές από αυτές καθώς εργάζεστε με τα παραδείγματα της επιστήμης των δεδομένων μας. Για οπτικοποίηση, θα χρησιμοποιήσουμε τις βιβλιοθήκες Matplotlib, Seaborn και Folium, αλλά υπάρχουν πολλές άλλες επιλογές.
Επιστημονικός Υπολογισμός και Στατιστική
- NumPy (Numerical Python): Η Python δεν περιλαμβάνει ενσωματωμένη δομή δεδομένων πίνακα. Αντ’ αυτού, χρησιμοποιεί λίστες, οι οποίες, ενώ είναι βολικές, είναι σχετικά αργές. Το NumPy προσφέρει την υψηλής απόδοσης δομή δεδομένων ndarray για την αναπαράσταση λιστών και πινάκων και παρέχει επίσης ρουτίνες για την επεξεργασία τέτοιων δομών δεδομένων.
- SciPy (Scientific Python): Το SciPy, που βασίζεται στο NumPy, προσθέτει ρουτίνες για επιστημονική επεξεργασία, όπως ολοκληρώσεις, διαφορικές εξισώσεις, επιπλέον επεξεργασία πινάκων και πολλά άλλα. Το SciPy και το NumPy διαχειρίζονται στην ιστοσελίδα scipy.org.
- StatsModels: Η βιβλιοθήκη StatsModels παρέχει υποστήριξη για τις εκτιμήσεις στατιστικών μοντέλων, στατιστικές δοκιμές και εξερεύνηση στατιστικών δεδομένων.
Επεξεργασία και Ανάλυση Δεδομένων
- Pandas – Το Pandas είναι ένα από τα πιο δημοφιλή αρθρώματα για τη διαχείριση και ανάλυση δεδομένων. Χρησιμοποιεί εκτενώς την δομή ndarray του NumPy. Οι δύο κύριες δομές δεδομένων που προσφέρει είναι η Series (μονοδιάστατη) και τα DataFrames (δισδιάστατα).
Οπτικοποίηση
- Matplotlib – Μια υψηλά προσαρμόσιμη βιβλιοθήκη για οπτικοποίηση και σχεδιασμό γραφημάτων. Υποστηρίζει διάφορα είδη γραφημάτων, όπως τα κανονικά, διασκορπισμένα, ράβδοι, καμπύλες, πίτες, διανύσματα, πλέγματα, πολικούς άξονες, τρισδιάστατα και κείμενο.
- Seaborn – Μια υψηλότερου επιπέδου βιβλιοθήκη οπτικοποίησης που βασίζεται στο Matplotlib. Το Seaborn προσφέρει μια πιο ελκυστική εμφάνιση και αίσθηση, προσθέτει επιπλέον τύπους γραφημάτων και σας επιτρέπει να δημιουργήσετε οπτικοποιήσεις με λιγότερο κώδικα.
Μηχανική Μάθηση, Βαθιά Μάθηση και Ενίσχυση Μάθηση
- scikit-learn – Η κορυφαία βιβλιοθήκη μηχανικής μάθησης. Η μηχανική μάθηση είναι μια υποκατηγορία της τεχνητής νοημοσύνης (ΤΝ). Η βαθιά μάθηση αποτελεί υποκατηγορία της μηχανικής μάθησης που επικεντρώνεται στα νευρωνικά δίκτυα.
- Keras – Ένα από τα πιο εύκολα στη χρήση βιβλιοθήκες βαθιάς μάθησης. Το Keras τρέχει επάνω από το TensorFlow (της Google), το CNTK (το εργαλείο της Microsoft για τη βαθιά μάθηση) ή το Theano (του Πανεπιστημίου του Μόντρεαλ).
- TensorFlow – Από τη Google, αυτή είναι η πιο ευρέως χρησιμοποιούμενη βιβλιοθήκη βαθιάς μάθησης. Το TensorFlow λειτουργεί με GPUs (μονάδες επεξεργασίας γραφικών) ή τα προσαρμοσμένα TPUs (μονάδες επεξεργασίας τανυστών) της Google για απόδοση. Το TensorFlow είναι σημαντικό στην τεχνητή νοημοσύνη και την ανάλυση μεγάλων δεδομένων – όπου οι απαιτήσεις επεξεργασίας είναι τεράστιες. Θα χρησιμοποιήσετε την έκδοση του Keras που ενσωματώνεται στο TensorFlow.
- OpenAI Gym – Μια βιβλιοθήκη και περιβάλλον για την ανάπτυξη, δοκιμή και σύγκριση αλγορίθμων ενίσχυσης μάθησης.
Επεξεργασία Φυσικής Γλώσσας (NLP)
- NLTK (Natural Language Toolkit) – Χρησιμοποιείται για εργασίες επεξεργασίας φυσικής γλώσσας (NLP).
- TextBlob – Μια αντικειμενοστραφής βιβλιοθήκη επεξεργασίας κειμένου για NLP, χτισμένη πάνω στα αρθρώματα NLTK και pattern NLP. Το TextBlob απλοποιεί πολλές εργασίες NLP.
- Gensim – Παρόμοιο με το NLTK. Χρησιμοποιείται συχνά για τη δημιουργία ενός ευρετηρίου για μια συλλογή εγγράφων και στη συνέχεια για τον προσδιορισμό πόσο παρόμοιο είναι ένα άλλο έγγραφο με κάθε ένα από αυτά που υπάρχουν στο ευρετήριο.