Λειτουργίες Αρχιτεκτονικών Επιπέδων Αναφοράς Μεγάλων Δεδομένων

Λειτουργίες Αρχιτεκτονικών Επιπέδων Αναφοράς Μεγάλων Δεδομένων

Στην τελευταία μου ανάρτηση , συζητήσαμε για την ανάλυση του επιχειρηματικού προβλήματος και τα βασικά βήματα για το σχεδιασμό της Αρχιτεκτονικής Big Data. Σήμερα, θα μιλήσω για διαφορετικά επίπεδα στην Αρχιτεκτονική Μεγάλων Δεδομένων και τις λειτουργίες τους.

Λογικά Επίπεδα Αρχιτεκτονικής Αναφοράς Μεγάλων Δεδομένων

Πίσω από την αρχιτεκτονική μεγάλων δεδομένων, η βασική ιδέα είναι να τεκμηριωθεί μια σωστή βάση αρχιτεκτονικής, υποδομής και εφαρμογών. Κατά συνέπεια, αυτό επιτρέπει στις επιχειρήσεις να χρησιμοποιούν πιο αποτελεσματικά μεγάλα δεδομένα σε καθημερινή βάση.

Δημιουργείται από σχεδιαστές/αρχιτέκτονες μεγάλων δεδομένων πριν από τη φυσική εφαρμογή μιας λύσης. Η δημιουργία αρχιτεκτονικής μεγάλων δεδομένων απαιτεί γενικά κατανόηση της επιχείρησης/οργανισμού και των αναγκών της σε μεγάλα δεδομένα. Συνήθως, οι αρχιτεκτονικές μεγάλων δεδομένων περιγράφουν τα στοιχεία υλικού και λογισμικού που είναι απαραίτητα για την εκπλήρωση της λύσης μεγάλων δεδομένων. Τα έγγραφα αρχιτεκτονικής μεγάλων δεδομένων μπορεί επίσης να περιγράφουν πρωτόκολλα για κοινή χρήση δεδομένων, ενοποιήσεις εφαρμογών και ασφάλεια πληροφοριών.

Περισσότερες πληροφορίες:  Ένας οδηγός για αρχάριους για την ανάλυση μεγάλων δεδομένων

Συνεπάγεται επίσης τη διασύνδεση και την οργάνωση υφιστάμενων πόρων για την εξυπηρέτηση των αναγκών μεγάλων δεδομένων.

Τα λογικά επίπεδα της αρχιτεκτονικής αναφοράς είναι τα παρακάτω:

  • Αναγνώριση πηγής δεδομένων: Γνωρίζοντας από πού προέρχονται αυτά τα δεδομένα.

Το προφίλ πηγής είναι ένα από τα πιο σημαντικά βήματα για να αποφασίσετε την αρχιτεκτονική ή τα μεγάλα δεδομένα. Περιλαμβάνει τον εντοπισμό διαφορετικών συστημάτων πηγών και την κατηγοριοποίησή τους, με βάση τη φύση και τον τύπο τους.

Σημεία που πρέπει να λαμβάνονται υπόψη κατά τη δημιουργία προφίλ πηγών δεδομένων:

  1. Προσδιορίστε συστήματα εσωτερικών και εξωτερικών πηγών.
  2. Υπόθεση υψηλού επιπέδου για τον όγκο των δεδομένων που λαμβάνονται από κάθε πηγή
  3. Προσδιορίστε τον μηχανισμό που χρησιμοποιείται για τη λήψη δεδομένων – σπρώξτε ή τραβήξτε
  4. Προσδιορίστε τον τύπο της πηγής δεδομένων – Βάση δεδομένων, Αρχείο, υπηρεσία web, ροές κ.λπ.
  5. Προσδιορίστε τον τύπο των δεδομένων – δομημένων, ημιδομημένων ή μη
  • Στρατηγική και απόκτηση απορρόφησης δεδομένων : Διαδικασία εισαγωγής δεδομένων στο σύστημα.

Η απορρόφηση δεδομένων αφορά την εξαγωγή των δεδομένων από τις προαναφερθείσες πηγές. Αυτά τα δεδομένα αποθηκεύονται στο χώρο αποθήκευσης και μετά μετατρέπονται για περαιτέρω επεξεργασία σε αυτό.

Σημεία που πρέπει να ληφθούν υπόψη:

  1. Προσδιορίστε τη συχνότητα με την οποία θα λαμβάνονται δεδομένα από κάθε πηγή
  2. Υπάρχει ανάγκη αλλαγής της σημασιολογίας των δεδομένων;
  3. Απαιτείται επικύρωση ή μετατροπή δεδομένων πριν από την κατάποση (Προεπεξεργασία);
  4. Διαχωρίστε τις πηγές δεδομένων με βάση τον τρόπο απορρόφησης - Μαζική ή σε πραγματικό χρόνο
  • Αποθήκευση δεδομένων : Η εγκατάσταση όπου θα αποθηκευτούν πραγματικά μεγάλα δεδομένα.

Κάποιος θα πρέπει να μπορεί να αποθηκεύει μεγάλες ποσότητες δεδομένων οποιουδήποτε τύπου και θα πρέπει να μπορεί να κλιμακώνεται ανάλογα με τις ανάγκες. Θα πρέπει επίσης να λάβουμε υπόψη τον αριθμό των IOPS (Λειτουργίες εισόδου εξόδου ανά δευτερόλεπτο) που μπορεί να παρέχει. Το κατανεμημένο σύστημα αρχείων Hadoop είναι το πιο συχνά χρησιμοποιούμενο πλαίσιο αποθήκευσης στον κόσμο των Big Data, άλλα είναι τα καταστήματα δεδομένων NoSQL – MongoDB, HBase, Cassandra κ.λπ.

Πράγματα που πρέπει να λάβετε υπόψη κατά τον σχεδιασμό της μεθοδολογίας αποθήκευσης:

  1. Τύπος δεδομένων (Ιστορικό ή Αυξητικό)
  2. Μορφή δεδομένων (δομημένο, ημιδομημένο και αδόμητο)
  3. Απαιτήσεις συμπίεσης
  4. Συχνότητα εισερχόμενων δεδομένων
  5. Μοτίβο ερωτήματος στα δεδομένα
  6. Οι καταναλωτές των δεδομένων
  • Επεξεργασία Δεδομένων : Εργαλεία που παρέχουν ανάλυση σε μεγάλα δεδομένα.

Όχι μόνο ο όγκος των δεδομένων που αποθηκεύονται, αλλά και η επεξεργασία έχει επίσης πολλαπλασιαστεί.

Παλαιότερα δεδομένα με συχνή πρόσβαση αποθηκεύονταν σε Dynamic RAM. Τώρα, όμως, αποθηκεύεται σε πολλούς δίσκους σε έναν αριθμό μηχανημάτων συνδεδεμένων μέσω δικτύου λόγω του τεράστιου όγκου. Επομένως, αντί να συλλέγονται κομμάτια δεδομένων για επεξεργασία, οι μονάδες επεξεργασίας μεταφέρονται στα μεγάλα δεδομένα. Έτσι, μειώνεται σημαντικά το δίκτυο I/O. Η μεθοδολογία Επεξεργασίας βασίζεται στις επιχειρηματικές απαιτήσεις. Μπορεί να κατηγοριοποιηθεί σε Batch, σε πραγματικό χρόνο ή σε Hybrid με βάση το SLA.

  1. Επεξεργασία παρτίδας  – Η παρτίδα συλλέγει τα δεδομένα εισόδου για ένα καθορισμένο χρονικό διάστημα και εκτελεί μετασχηματισμούς σε αυτό με προγραμματισμένο τρόπο. Το ιστορικό φορτίο δεδομένων είναι μια τυπική λειτουργία παρτίδας
  2. Επεξεργασία σε πραγματικό χρόνο – Η επεξεργασία σε πραγματικό χρόνο περιλαμβάνει την εκτέλεση μετασχηματισμών όπως και όταν λαμβάνονται δεδομένα.
  3. Υβριδική επεξεργασία – Είναι ένας συνδυασμός αναγκών επεξεργασίας τόσο κατά παρτίδες όσο και σε πραγματικό χρόνο.
  • Κατανάλωση/χρήση δεδομένων : Χρήστες/υπηρεσίες που χρησιμοποιούν τα δεδομένα που αναλύθηκαν.

Αυτό το επίπεδο καταναλώνει την έξοδο που παρέχεται από το επίπεδο επεξεργασίας. Διαφορετικοί χρήστες, όπως διαχειριστής, επιχειρησιακοί χρήστες, προμηθευτής, συνεργάτες κ.λπ. μπορούν να καταναλώνουν δεδομένα σε διαφορετική μορφή. Το αποτέλεσμα της ανάλυσης μπορεί να καταναλωθεί από τη μηχανή συστάσεων ή οι επιχειρηματικές διαδικασίες μπορούν να ενεργοποιηθούν με βάση την ανάλυση.

Οι διάφορες μορφές κατανάλωσης δεδομένων είναι:

  1. Εξαγωγή συνόλων δεδομένων Μπορεί να υπάρχουν απαιτήσεις για τη δημιουργία συνόλων δεδομένων τρίτων. Τα σύνολα δεδομένων μπορούν να δημιουργηθούν χρησιμοποιώντας εξαγωγή κυψέλης ή απευθείας από το HDFS.
  2. Αναφορά και οπτικοποίηση – Διαφορετική σάρωση του εργαλείου αναφοράς και οπτικοποίησης συνδέεται στο Hadoop χρησιμοποιώντας συνδεσιμότητα JDBC/ODBC για την κυψέλη.
  3. Εξερεύνηση δεδομένων – Ο επιστήμονας δεδομένων μπορεί να δημιουργήσει μοντέλα και να πραγματοποιήσει βαθιά εξερεύνηση σε περιβάλλον sandbox. Το Sandbox μπορεί να είναι ένα ξεχωριστό σύμπλεγμα (Συνιστώμενη προσέγγιση) ή ένα ξεχωριστό σχήμα μέσα στο ίδιο σύμπλεγμα που περιέχει υποσύνολο πραγματικών δεδομένων.
  4. Adhoc Querying – Η αναζήτηση Adhoc ή Interactive μπορεί να υποστηριχθεί χρησιμοποιώντας Hive, Impala ή spark SQL.

Διαβάστε επίσης:  Big Data: Ένας μελλοντικός εφιάλτης;

Λειτουργικά επίπεδα της αρχιτεκτονικής μεγάλων δεδομένων:

Θα μπορούσε να υπάρχει ένας ακόμη τρόπος ορισμού της αρχιτεκτονικής, δηλαδή μέσω της διαίρεσης λειτουργικότητας. Αλλά οι κατηγορίες λειτουργικότητας θα μπορούσαν να ομαδοποιηθούν στο λογικό επίπεδο της αρχιτεκτονικής αναφοράς, επομένως, η προτιμώμενη Αρχιτεκτονική γίνεται με χρήση Λογικών Επιπέδων.

Η διαστρωμάτωση με βάση τις Λειτουργίες είναι η παρακάτω:

  1. Πηγές δεδομένων:

Η ανάλυση όλων των πηγών από τις οποίες ένας οργανισμός λαμβάνει δεδομένα και οι οποίες θα μπορούσαν να βοηθήσουν τον οργανισμό στη λήψη των μελλοντικών του αποφάσεων θα πρέπει να παρατίθεται σε αυτήν την κατηγορία. Οι πηγές δεδομένων που παρατίθενται εδώ είναι ανεξάρτητα από το αν τα δεδομένα είναι δομημένα, αδόμητα ή ημιδομημένα.

  1. Εξαγωγή δεδομένων:

Για να μπορέσετε να αποθηκεύσετε, να αναλύσετε ή να οπτικοποιήσετε τα δεδομένα σας, πρέπει να έχετε μερικά. Η εξαγωγή δεδομένων αφορά τη λήψη κάτι που δεν είναι δομημένο, όπως μια ιστοσελίδα, και τη μετατροπή του σε δομημένο πίνακα. Αφού το δομήσετε, μπορείτε να το χειριστείτε με διάφορους τρόπους, χρησιμοποιώντας τα εργαλεία που περιγράφονται παρακάτω, για να βρείτε πληροφορίες.

  1. Αποθήκευση δεδομένων:

Η βασική αναγκαιότητα κατά την εργασία με μεγάλα δεδομένα είναι να σκεφτείτε πώς να αποθηκεύσετε αυτά τα δεδομένα. Μέρος του τρόπου με τον οποίο τα Μεγάλα Δεδομένα έλαβαν τη διάκριση ως "ΜΕΓΑΛΟ" είναι ότι έγιναν υπερβολικά πολλά για τα παραδοσιακά συστήματα. Ένας καλός πάροχος αποθήκευσης δεδομένων θα πρέπει να σας προσφέρει μια υποδομή για την εκτέλεση όλων των άλλων εργαλείων ανάλυσης, καθώς και ένα μέρος για να αποθηκεύσετε και να υποβάλετε ερωτήματα στα δεδομένα σας.

  1. Καθαρισμός δεδομένων:

Ένα προαπαιτούμενο βήμα πριν αρχίσουμε πραγματικά να εξορύξουμε τα δεδομένα για πληροφορίες. Είναι πάντα καλή πρακτική να δημιουργείτε ένα καθαρό, καλά δομημένο σύνολο δεδομένων. Τα σύνολα δεδομένων μπορούν να έχουν όλα τα σχήματα και μεγέθη, ειδικά όταν προέρχονται από τον ιστό. Επιλέξτε ένα εργαλείο σύμφωνα με τις απαιτήσεις δεδομένων σας.

  1. Εξόρυξη δεδομένων:

Η εξόρυξη δεδομένων είναι η διαδικασία ανακάλυψης πληροφοριών μέσα σε μια βάση δεδομένων. Ο στόχος της εξόρυξης δεδομένων είναι να λαμβάνεις αποφάσεις και προβλέψεις για τα δεδομένα που έχεις στη διάθεσή σου. Επιλέξτε ένα λογισμικό που σας δίνει τις καλύτερες προβλέψεις για όλους τους τύπους δεδομένων και σας επιτρέπει να δημιουργήσετε τους δικούς σας αλγόριθμους για την εξόρυξη των δεδομένων.

  1. Αναλύσεις δεδομένων:

Ενώ η εξόρυξη δεδομένων έχει να κάνει με το κοσκίνισμα των δεδομένων σας σε αναζήτηση προηγουμένως μη αναγνωρισμένων μοτίβων, η ανάλυση δεδομένων αφορά τη διάσπαση αυτών των δεδομένων και την αξιολόγηση του αντίκτυπου αυτών των μοτίβων υπερωριών. Το Analytics αφορά την υποβολή συγκεκριμένων ερωτήσεων και την εύρεση των απαντήσεων στα δεδομένα. Μπορείτε ακόμη και να κάνετε ερωτήσεις για το τι θα συμβεί στο μέλλον!

  1. Οπτικοποίηση δεδομένων:

Οι οπτικοποιήσεις είναι ένας φωτεινός και εύκολος τρόπος για τη μετάδοση σύνθετων πληροφοριών δεδομένων. Και το καλύτερο είναι ότι τα περισσότερα από αυτά δεν απαιτούν κωδικοποίηση. Οι εταιρείες οπτικοποίησης δεδομένων θα κάνουν τα δεδομένα σας να ζωντανέψουν. Μέρος της πρόκλησης για κάθε επιστήμονα δεδομένων είναι να μεταφέρει τις γνώσεις από αυτά τα δεδομένα στην υπόλοιπη εταιρεία σας. Τα εργαλεία θα μπορούσαν να σας βοηθήσουν να δημιουργήσετε γραφήματα, χάρτες και άλλα τέτοια γραφικά από τις πληροφορίες δεδομένων σας.

  1. Ενοποίηση δεδομένων:

Οι πλατφόρμες ενοποίησης δεδομένων είναι η κόλλα μεταξύ κάθε προγράμματος. Συνδέουν τα διάφορα συμπεράσματα των εργαλείων με άλλα Λογισμικά. Θα μπορούσατε να μοιραστείτε τα αποτελέσματα των εργαλείων οπτικοποίησης απευθείας στο Facebook μέσω αυτών των εργαλείων.

  1. Γλώσσες δεδομένων:

Θα υπάρξουν στιγμές στην καριέρα σας στα δεδομένα που ένα εργαλείο απλά δεν θα το κόψει. Ενώ τα σημερινά εργαλεία γίνονται πιο ισχυρά και ευκολότερα στη χρήση, μερικές φορές είναι απλώς καλύτερο να τα κωδικοποιήσετε μόνοι σας. Υπάρχουν διαφορετικές γλώσσες που σας βοηθούν σε διάφορες πτυχές, όπως οι στατιστικοί υπολογιστές και τα γραφικά. Αυτές οι γλώσσες θα μπορούσαν να λειτουργήσουν ως συμπλήρωμα για την εξόρυξη δεδομένων και τα στατιστικά Λογισμικά.

Λειτουργίες Αρχιτεκτονικών Επιπέδων Αναφοράς Μεγάλων Δεδομένων

Το βασικό πράγμα που πρέπει να θυμάστε στο σχεδιασμό της Αρχιτεκτονικής Big Data είναι:

  • Δυναμική χρήσης : Υπάρχουν διάφορα σενάρια όπως απεικονίζονται στο άρθρο που πρέπει να ληφθούν υπόψη κατά το σχεδιασμό της αρχιτεκτονικής – μορφή και συχνότητα δεδομένων, Τύπος δεδομένων, Τύπος επεξεργασίας και απαιτούμενα αναλυτικά στοιχεία.
  • Μυριάδες τεχνολογίες: Ο  πολλαπλασιασμός των εργαλείων στην αγορά έχει οδηγήσει σε μεγάλη σύγχυση σχετικά με το τι πρέπει να χρησιμοποιηθεί και πότε, υπάρχουν πολλές τεχνολογίες που προσφέρουν παρόμοια χαρακτηριστικά και ισχυρίζονται ότι είναι καλύτερες από τις άλλες.

Ξέρω ότι θα σκεφτόσασταν διαφορετικά εργαλεία που θα χρησιμοποιήσετε για να δημιουργήσετε μια ολοκληρωμένη λύση Big Data Solution. Λοιπόν, στις επερχόμενες αναρτήσεις μου στο Big Data, θα κάλυψα μερικά καλύτερα εργαλεία για την επίτευξη διαφορετικών εργασιών στην αρχιτεκτονική μεγάλων δεδομένων .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Η Τεχνητή Νοημοσύνη δεν είναι στο μέλλον, είναι εδώ ακριβώς στο παρόν Σε αυτό το blog Διαβάστε πώς οι εφαρμογές Τεχνητής Νοημοσύνης έχουν επηρεάσει διάφορους τομείς.

Επιθέσεις DDOS: Μια σύντομη επισκόπηση

Επιθέσεις DDOS: Μια σύντομη επισκόπηση

Είστε επίσης θύμα των επιθέσεων DDOS και έχετε μπερδευτεί σχετικά με τις μεθόδους πρόληψης; Διαβάστε αυτό το άρθρο για να λύσετε τις απορίες σας.

Έχετε αναρωτηθεί ποτέ πώς κερδίζουν χρήματα οι χάκερ;

Έχετε αναρωτηθεί ποτέ πώς κερδίζουν χρήματα οι χάκερ;

Μπορεί να έχετε ακούσει ότι οι χάκερ κερδίζουν πολλά χρήματα, αλλά έχετε αναρωτηθεί ποτέ πώς κερδίζουν τέτοια χρήματα; ας συζητήσουμε.

Επαναστατικές εφευρέσεις από την Google που θα σας φέρουν εύκολη στη ζωή.

Επαναστατικές εφευρέσεις από την Google που θα σας φέρουν εύκολη στη ζωή.

Θέλετε να δείτε επαναστατικές εφευρέσεις της Google και πώς αυτές οι εφευρέσεις άλλαξαν τη ζωή κάθε ανθρώπου σήμερα; Στη συνέχεια, διαβάστε στο blog για να δείτε τις εφευρέσεις της Google.

Friday Essential: Τι συνέβη με τα αυτοκίνητα που κινούνται με AI;

Friday Essential: Τι συνέβη με τα αυτοκίνητα που κινούνται με AI;

Η ιδέα των αυτοκινούμενων αυτοκινήτων να βγαίνουν στους δρόμους με τη βοήθεια της τεχνητής νοημοσύνης είναι ένα όνειρο που έχουμε εδώ και καιρό. Όμως, παρά τις πολλές υποσχέσεις, δεν φαίνονται πουθενά. Διαβάστε αυτό το blog για να μάθετε περισσότερα…

Τεχνολογική μοναδικότητα: Ένα μακρινό μέλλον του ανθρώπινου πολιτισμού;

Τεχνολογική μοναδικότητα: Ένα μακρινό μέλλον του ανθρώπινου πολιτισμού;

Καθώς η Επιστήμη εξελίσσεται με γρήγορους ρυθμούς, αναλαμβάνοντας πολλές από τις προσπάθειές μας, αυξάνονται και οι κίνδυνοι να υποβάλλουμε τον εαυτό μας σε μια ανεξήγητη Ιδιότητα. Διαβάστε τι σημαίνει η μοναδικότητα για εμάς.

Εξέλιξη της αποθήκευσης δεδομένων – Infographic

Εξέλιξη της αποθήκευσης δεδομένων – Infographic

Οι μέθοδοι αποθήκευσης των δεδομένων εξελίσσονται μπορεί να είναι από τη γέννηση των Δεδομένων. Αυτό το ιστολόγιο καλύπτει την εξέλιξη της αποθήκευσης δεδομένων με βάση ένα infographic.

Λειτουργίες Αρχιτεκτονικών Επιπέδων Αναφοράς Μεγάλων Δεδομένων

Λειτουργίες Αρχιτεκτονικών Επιπέδων Αναφοράς Μεγάλων Δεδομένων

Διαβάστε το ιστολόγιο για να μάθετε διαφορετικά επίπεδα στην Αρχιτεκτονική Μεγάλων Δεδομένων και τις λειτουργίες τους με τον απλούστερο τρόπο.

6 εκπληκτικά οφέλη από την ύπαρξη έξυπνων οικιακών συσκευών στη ζωή μας

6 εκπληκτικά οφέλη από την ύπαρξη έξυπνων οικιακών συσκευών στη ζωή μας

Σε αυτόν τον ψηφιακό κόσμο, οι έξυπνες οικιακές συσκευές έχουν γίνει κρίσιμο μέρος της ζωής. Ακολουθούν μερικά εκπληκτικά οφέλη των έξυπνων οικιακών συσκευών σχετικά με το πώς κάνουν τη ζωή μας να αξίζει και να απλοποιείται.

Η ενημέρωση του συμπληρώματος macOS Catalina 10.15.4 προκαλεί περισσότερα προβλήματα από την επίλυση

Η ενημέρωση του συμπληρώματος macOS Catalina 10.15.4 προκαλεί περισσότερα προβλήματα από την επίλυση

Πρόσφατα, η Apple κυκλοφόρησε το macOS Catalina 10.15.4 μια συμπληρωματική ενημέρωση για την επιδιόρθωση προβλημάτων, αλλά φαίνεται ότι η ενημέρωση προκαλεί περισσότερα προβλήματα που οδηγούν σε bricking των μηχανών mac. Διαβάστε αυτό το άρθρο για να μάθετε περισσότερα