Big Datan referenssiarkkitehtuurikerrosten toiminnot

Big Datan referenssiarkkitehtuurikerrosten toiminnot

Edellisessä viestissäni keskustelimme liiketoimintaongelman analysoinnista ja Big Data -arkkitehtuurin suunnittelun perusvaiheista. Tänään aion puhua Big Data -arkkitehtuurin eri kerroksista ja niiden toiminnoista.

Big Datan referenssiarkkitehtuurin loogiset kerrokset

Big data -arkkitehtuurin takana ydinajatuksena on dokumentoida arkkitehtuurin, infrastruktuurin ja sovellusten oikea perusta. Näin yritykset voivat käyttää big dataa tehokkaammin joka päivä.

Big datan suunnittelijat/arkkitehdit luovat sen ennen ratkaisun fyysistä toteuttamista. Big data -arkkitehtuurin luominen vaatii yleensä yrityksen/organisaation ja sen big datan tarpeiden ymmärtämistä. Tyypillisesti big data -arkkitehtuurit määrittelevät laitteisto- ja ohjelmistokomponentit, joita tarvitaan big data -ratkaisun toteuttamiseen. Big data -arkkitehtuuridokumentit voivat myös kuvata protokollia tiedon jakamiseen, sovellusintegraatioihin ja tietoturvaan.

Lisätietoja:  Big Data Analyticsin aloittelijan opas

Se edellyttää myös olemassa olevien resurssien yhdistämistä ja järjestämistä palvelemaan big datan tarpeita.

Viitearkkitehtuurin loogiset kerrokset ovat seuraavat:

  • Tietolähteen tunnistus: Tietää, mistä nämä tiedot ovat peräisin.

Lähdeprofilointi on yksi tärkeimmistä vaiheista päätettäessä arkkitehtuurista tai big datasta. Se sisältää erilaisten lähdejärjestelmien tunnistamisen ja luokittelun niiden luonteen ja tyypin perusteella.

Tietolähteitä profiloitaessa huomioitavia seikkoja:

  1. Tunnista sisäiset ja ulkoiset lähdejärjestelmät.
  2. Korkean tason oletus kustakin lähteestä syötetyn tiedon määrästä
  3. Tunnista tiedon saamiseen käytetty mekanismi – työnnä tai vedä
  4. Määritä tietolähteen tyyppi – tietokanta, tiedosto, verkkopalvelu, streamit jne.
  5. Määritä tiedon tyyppi – jäsennelty, puolirakenteinen vai jäsentämätön
  • Tiedonottostrategia ja -hankinta : Prosessi tietojen syöttämiseksi järjestelmään.

Tietojen keräämisessä on kyse tietojen poimimisesta yllä mainituista lähteistä. Nämä tiedot tallennetaan muistiin ja muunnetaan sen jälkeen jatkokäsittelyä varten.

Huomioon otettavat seikat:

  1. Määritä, kuinka usein dataa haetaan kustakin lähteestä
  2. Onko tiedon semantiikkaa tarpeen muuttaa?
  3. Vaaditaanko tietojen validointia tai muuntamista ennen tietojen käsittelyä (esikäsittely)?
  4. Erottele tietolähteet käsittelytavan mukaan – erä tai reaaliaikainen
  • Data Storage : Laite, johon suuri data todella tallennetaan.

Pitäisi pystyä tallentamaan suuria määriä kaikenlaista dataa ja skaalaamaan tarpeen mukaan. Meidän tulisi myös harkita sen tarjoamien IOPS-toimintojen (Input output operations per second) määrää. Hadoop-hajautettu tiedostojärjestelmä on yleisimmin käytetty tallennuskehys Big Data -maailmassa, muut ovat NoSQL-tietovarastot - MongoDB, HBase, Cassandra jne.

Ota huomioon varastointimenetelmiä suunnitellessa:

  1. Tietotyyppi (historiallinen tai inkrementaalinen)
  2. Tietojen muoto (strukturoitu, puolistrukturoitu ja jäsentämätön)
  3. Pakkausvaatimukset
  4. Saapuvien tietojen tiheys
  5. Kyselymalli tiedoista
  6. Tietojen kuluttajat
  • Tietojenkäsittely : työkalut, jotka tarjoavat analyysin isosta datasta.

Tallennetun datan määrän lisäksi myös käsittely on moninkertaistunut.

Aikaisemmin usein käytetty data tallennettiin dynaamisiin RAM-muistiin. Mutta nyt sitä tallennetaan useille levyille useilla koneilla, jotka on kytketty verkon kautta pelkän volyymin vuoksi. Siksi käsittelymoduulit siirretään suurdataan sen sijaan, että kerättäisiin datapaloja käsittelyä varten. Tämä vähentää merkittävästi verkon I/O:ta. Käsittelymenetelmää ohjaavat liiketoiminnan vaatimukset. Se voidaan luokitella eräksi, reaaliaikaiseksi tai hybridiksi SLA:n perusteella.

  1. Erä Processing  - Erä kerää panos tietyn aikajakson ajan ja käynnissä muunnokset sen aikataulun tavalla. Historiallisten tietojen lataus on tyypillinen erätoiminto
  2. Reaaliaikainen käsittely – Reaaliaikainen käsittely sisältää muunnosten suorittamisen sitä mukaa kun dataa hankitaan.
  3. Hybridikäsittely – Se on yhdistelmä sekä erä- että reaaliaikaisia ​​käsittelytarpeita.
  • Tietojen kulutus/käyttö : Käyttäjät/palvelut, jotka käyttävät analysoitua dataa.

Tämä kerros kuluttaa käsittelykerroksen tuottamaa tulosta. Eri käyttäjät, kuten järjestelmänvalvojat, yrityskäyttäjät, toimittajat, kumppanit jne., voivat käyttää tietoja eri muodossa. Analyysin tulos voidaan kuluttaa suositusmoottoriin tai liiketoimintaprosessit voidaan käynnistää analyysin perusteella.

Erilaisia ​​tiedonkulutuksen muotoja ovat:

  1. Vie tietojoukot Kolmannen osapuolen tietojoukon luomiselle voi olla vaatimuksia. Tietojoukot voidaan luoda käyttämällä pesävientiä tai suoraan HDFS:stä.
  2. Raportointi ja visualisointi – Eri raportointi- ja visualisointityökalujen skannaus muodostaa yhteyden Hadooppiin JDBC/ODBC-yhteyden avulla.
  3. Data Exploration – Tietotieteilijä voi rakentaa malleja ja suorittaa syvätutkimuksia hiekkalaatikkoympäristössä. Hiekkalaatikko voi olla erillinen klusteri (suositeltu lähestymistapa) tai erillinen skeema samassa klusterissa, joka sisältää todellisen tiedon osajoukon.
  4. Adhoc- kysely – Adhoc- tai interaktiivista kyselyä voidaan tukea käyttämällä Hivea, Impalaa tai spark SQL:ää.

Lue myös:  Big Data: tulevaisuuden painajainen?

Big Data -arkkitehtuurin toiminnalliset kerrokset:

Arkkitehtuuria voisi määritellä vielä yksi tapa eli toiminnallisuusjaon kautta. Mutta toiminnallisuusluokat voitaisiin ryhmitellä viitearkkitehtuurin loogiseen kerrokseen, joten ensisijainen arkkitehtuuri tehdään käyttämällä loogisia kerroksia.

Toiminnallisuuksiin perustuva kerros on seuraava:

  1. Tietolähteet:

Tähän luokkaan tulee luetella kaikki lähteet, joista organisaatio saa tiedot ja jotka voivat auttaa organisaatiota tulevien päätösten tekemisessä. Tässä luetellut tietolähteet ovat riippumatta siitä, onko data jäsenneltyä, jäsentämätöntä vai puolirakenteista.

  1. Tietojen purkaminen:

Ennen kuin voit tallentaa, analysoida tai visualisoida tietojasi, sinulla on oltava joitain. Tietojen poiminnassa on kyse jonkin jäsentämättömän sisällön, kuten verkkosivun, ottamisesta ja sen muuttamisesta jäsennellyksi taulukoksi. Kun olet jäsennellyt sen, voit muokata sitä monella eri tavalla käyttämällä alla kuvattuja työkaluja saadaksesi oivalluksia.

  1. Tietovarasto:

Suurin datan parissa työskennellessä perusedellytys on miettiä, kuinka data tallennetaan. Osa siitä, miten Big Data sai eron "BIG", on se, että siitä tuli liikaa perinteisille järjestelmille. Hyvän tiedontallennuspalvelun tarjoajan tulisi tarjota sinulle infrastruktuuri, jossa voit käyttää kaikkia muita analytiikkatyökalujasi, sekä paikka tietojen tallentamiseen ja kyselyihin.

  1. Tietojen puhdistus:

Tämä on välttämätön vaihe ennen kuin alamme louhia tietoja oivalluksia varten. On aina hyvä käytäntö luoda puhdas, hyvin jäsennelty tietojoukko. Tietojoukot voivat olla kaikenmuotoisia ja -kokoisia, varsinkin kun ne tulevat verkosta. Valitse työkalu tietovaatimustesi mukaan.

  1. Tiedonlouhinta:

Tiedonlouhinta on prosessi, jossa haetaan oivalluksia tietokannasta. Tiedonlouhinnan tavoitteena on tehdä päätöksiä ja ennusteita käsilläsi olevan datan perusteella. Valitse ohjelmisto, joka antaa sinulle parhaat ennusteet kaikentyyppisille tiedoille ja antaa sinun luoda omia algoritmeja tiedon louhintaan.

  1. Dataanalyysi:

Vaikka tiedon louhinnassa on kyse tietojesi seulomisesta aiemmin tunnistamattomien kuvioiden etsimiseksi, data-analyysissä on kyse tietojen hajottamisesta ja näiden mallien vaikutusten arvioinnista ylitöiden aikana. Analyticsissa on kyse tiettyjen kysymysten esittämisestä ja vastausten löytämisestä tiedoista. Voit jopa kysyä, mitä tulevaisuudessa tapahtuu!

  1. Tietojen visualisointi:

Visualisoinnit ovat kirkas ja helppo tapa välittää monimutkaisia ​​tietoja. Ja mikä parasta, useimmat niistä eivät vaadi koodausta. Datan visualisointiyritykset saavat tietosi eloon. Osa jokaisen datatieteilijän haasteesta on välittää tiedoista saadut oivallukset muulle yrityksellesi. Työkalujen avulla voit luoda kaavioita, karttoja ja muuta vastaavaa grafiikkaa tietosi perusteella.

  1. Tietojen integrointi:

Tietojen integrointialustat ovat liimaa jokaisen ohjelman välillä. Ne yhdistävät työkalujen erilaiset päätelmät muihin ohjelmistoihin. Voit jakaa visualisointityökalujesi tulokset suoraan Facebookissa näiden työkalujen kautta.

  1. Tietojen kielet:

Tietourallasi tulee aikoja, jolloin työkalu ei yksinkertaisesti leikkaa sitä. Vaikka nykyiset työkalut ovat yhä tehokkaampia ja helpompia käyttää, joskus on parempi koodata se itse. On olemassa erilaisia ​​kieliä, jotka auttavat sinua erilaisissa asioissa, kuten tilastolaskennassa ja grafiikassa. Nämä kielet voisivat toimia täydennyksenä tiedon louhinta- ja tilastoohjelmistoille.

Big Datan referenssiarkkitehtuurikerrosten toiminnot

Tärkeimmät muistettavat asiat Big Data Architecturea suunnitellessa ovat:

  • Käytön dynamiikka : On olemassa useita artikkelissa kuvattuja skenaarioita, jotka on otettava huomioon arkkitehtuuria suunniteltaessa – tietojen muoto ja tiheys, tietotyyppi, käsittelytyyppi ja vaadittu analytiikka.
  • Lukemattomia teknologioita:  Työkalujen leviäminen markkinoilla on johtanut suureen sekaannukseen siitä, mitä ja milloin käyttää. On olemassa useita teknologioita, jotka tarjoavat samanlaisia ​​ominaisuuksia ja väittävät olevansa parempia kuin muut.

Tiedän, että harkitset erilaisia ​​työkaluja täydellisen Big Data -ratkaisun tekemiseen. No, tulevissa Big Dataa koskevissa viesteissäni käsittelen joitain parhaita työkaluja erilaisten tehtävien suorittamiseen big data -arkkitehtuurissa .


Koneiden nousu: tekoälyn todelliset sovellukset

Koneiden nousu: tekoälyn todelliset sovellukset

Tekoäly ei ole tulevaisuudessa, se tässä nykyisyydessä Tässä blogissa Lue kuinka tekoälysovellukset ovat vaikuttaneet eri sektoreihin.

DDOS-hyökkäykset: lyhyt katsaus

DDOS-hyökkäykset: lyhyt katsaus

Oletko myös DDOS-hyökkäysten uhri ja hämmentynyt ehkäisymenetelmistä? Lue tämä artikkeli ratkaistaksesi kysymyksesi.

Oletko koskaan miettinyt, kuinka hakkerit ansaitsevat rahaa?

Oletko koskaan miettinyt, kuinka hakkerit ansaitsevat rahaa?

Olet ehkä kuullut, että hakkerit ansaitsevat paljon rahaa, mutta oletko koskaan miettinyt, kuinka he ansaitsevat tuollaista rahaa? keskustellaan.

Googlen vallankumouksellisia keksintöjä, jotka helpottavat elämääsi.

Googlen vallankumouksellisia keksintöjä, jotka helpottavat elämääsi.

Haluatko nähdä Googlen vallankumouksellisia keksintöjä ja kuinka nämä keksinnöt muuttivat jokaisen ihmisen elämää nykyään? Lue sitten blogia nähdäksesi Googlen keksinnöt.

Essential perjantai: Mitä tekoäly-ohjatuille autoille tapahtui?

Essential perjantai: Mitä tekoäly-ohjatuille autoille tapahtui?

Konsepti itseohjautuvista autoista lähteä tielle tekoälyn avulla on ollut haaveena jo jonkin aikaa. Mutta useista lupauksista huolimatta niitä ei näy missään. Lue tämä blogi saadaksesi lisätietoja…

Teknologinen singulaarisuus: ihmissivilisaation kaukainen tulevaisuus?

Teknologinen singulaarisuus: ihmissivilisaation kaukainen tulevaisuus?

Kun tiede kehittyy nopeasti ja ottaa haltuunsa suuren osan ponnisteluistamme, myös riskit altistaa itsemme selittämättömälle singulariteetille kasvavat. Lue, mitä singulaarisuus voisi tarkoittaa meille.

Tietojen tallennuksen evoluutio – Infografiikka

Tietojen tallennuksen evoluutio – Infografiikka

Tietojen säilytystavat ovat kehittyneet mahdollisesti Datan syntymästä lähtien. Tämä blogi käsittelee tiedon tallennuksen kehitystä infografian pohjalta.

Big Datan referenssiarkkitehtuurikerrosten toiminnot

Big Datan referenssiarkkitehtuurikerrosten toiminnot

Blogista saat tietää Big Data -arkkitehtuurin eri kerroksista ja niiden toiminnoista yksinkertaisimmalla tavalla.

6 uskomatonta etua älykkäiden kotilaitteiden käyttämisestä elämässämme

6 uskomatonta etua älykkäiden kotilaitteiden käyttämisestä elämässämme

Tässä digitaalisessa maailmassa kodin älylaitteista on tullut tärkeä osa elämää. Tässä on muutamia älykkäiden kodin laitteiden hämmästyttäviä etuja, joiden avulla ne tekevät elämästämme elämisen arvoista ja yksinkertaisempaa.

macOS Catalina 10.15.4 -täydennyspäivitys aiheuttaa enemmän ongelmia kuin ratkaiseminen

macOS Catalina 10.15.4 -täydennyspäivitys aiheuttaa enemmän ongelmia kuin ratkaiseminen

Apple julkaisi äskettäin macOS Catalina 10.15.4 -lisäpäivityksen ongelmien korjaamiseksi, mutta näyttää siltä, ​​että päivitys aiheuttaa lisää ongelmia, jotka johtavat mac-koneiden tiilikaamiseen. Lue tämä artikkeli saadaksesi lisätietoja