Lielo datu atsauces arhitektūras slāņu funkcijas

Lielo datu atsauces arhitektūras slāņu funkcijas

Manā pēdējā ierakstā mēs apspriedām biznesa problēmas analīzi un galvenos soļus, lai izstrādātu lielo datu arhitektūru. Šodien es runāšu par dažādiem lielo datu arhitektūras slāņiem un to funkcijām.

Lielo datu atsauces arhitektūras loģiskie slāņi

Lielo datu arhitektūras galvenā ideja ir dokumentēt pareizu arhitektūras, infrastruktūras un lietojumprogrammu pamatu. Līdz ar to tas ļauj uzņēmumiem efektīvāk izmantot lielos datus ikdienā.

Pirms risinājuma fiziskas ieviešanas to izveido lielo datu dizaineri/arhitekti. Lai izveidotu lielo datu arhitektūru, parasti ir jāsaprot bizness/organizācija un tās lielo datu vajadzības. Parasti lielo datu arhitektūras iezīmē aparatūras un programmatūras komponentus, kas nepieciešami lielo datu risinājuma izpildei. Lielo datu arhitektūras dokumentos var aprakstīt arī datu koplietošanas, lietojumprogrammu integrācijas un informācijas drošības protokolus.

Plašāka informācija:  Lielo datu analīzes rokasgrāmata iesācējiem

Tas ietver arī esošo resursu savstarpēju savienošanu un organizēšanu, lai apmierinātu lielo datu vajadzības.

Atsauces arhitektūras loģiskie slāņi ir šādi:

  • Datu avota identifikācija: zināt, no kurienes šie dati ir iegūti.

Avota profilēšana ir viens no svarīgākajiem soļiem, lemjot par arhitektūru vai lielajiem datiem. Tas ietver dažādu avotu sistēmu identificēšanu un to iedalīšanu kategorijās, pamatojoties uz to raksturu un veidu.

Punkti, kas jāņem vērā, profilējot datu avotus:

  1. Identificēt iekšējo un ārējo avotu sistēmas.
  2. Augsta līmeņa pieņēmums par no katra avota saņemto datu apjomu
  3. Identificējiet mehānismu, kas tiek izmantots datu iegūšanai — push vai pull
  4. Nosakiet datu avota veidu — datu bāze, fails, tīmekļa pakalpojums, straumes utt.
  5. Nosakiet datu veidu – strukturēti, daļēji strukturēti vai nestrukturēti
  • Datu ievadīšanas stratēģija un iegūšana : process datu ievadīšanai sistēmā.

Datu pārņemšana ir saistīta ar datu ieguvi no iepriekš minētajiem avotiem. Šie dati tiek glabāti krātuvē un pēc tam tiek pārveidoti turpmākai apstrādei.

Punkti, kas jāņem vērā:

  1. Nosakiet, cik bieži dati tiktu uzņemti no katra avota
  2. Vai ir jāmaina datu semantika?
  3. Vai pirms ievadīšanas ir nepieciešama datu validācija vai pārveidošana (priekšapstrāde)?
  4. Atdaliet datu avotus atkarībā no ievades veida — pakešu vai reāllaika
  • Datu glabāšana : iekārta, kurā faktiski tiks glabāti lielie dati.

Jābūt iespējai uzglabāt lielu daudzumu jebkura veida datu un jāspēj mērogot pēc vajadzības. Jāņem vērā arī IOPS (ievades izvades operāciju sekundē) skaits, ko tas var nodrošināt. Hadoop izplatītā failu sistēma ir visbiežāk izmantotā uzglabāšanas sistēma lielo datu pasaulē, citi ir NoSQL datu krātuves – MongoDB, HBase, Cassandra utt.

Lietas, kas jāņem vērā, plānojot uzglabāšanas metodiku:

  1. Datu veids (vēsturisks vai pakāpenisks)
  2. Datu formāts (strukturēts, daļēji strukturēts un nestrukturēts)
  3. Kompresijas prasības
  4. Ienākošo datu biežums
  5. Datu vaicājuma modelis
  6. Datu patērētāji
  • Datu apstrāde : rīki, kas nodrošina lielu datu analīzi.

Daudzkārt palielinājies ne tikai glabājamo datu apjoms, bet arī apstrāde.

Iepriekš bieži pieejamie dati tika glabāti dinamiskajā operatīvajā atmiņā. Taču tagad milzīgā apjoma dēļ tas tiek glabāts vairākos diskos vairākās iekārtās, kas savienotas caur tīklu. Tāpēc tā vietā, lai apkopotu datu gabalus apstrādei, apstrādes moduļi tiek novirzīti uz lielajiem datiem. Tādējādi ievērojami samazinot tīkla I/O. Apstrādes metodoloģiju nosaka biznesa prasības. Pamatojoties uz SLA, to var iedalīt grupās, reāllaikā vai hibrīdā.

  1. Partijas apstrāde  - Partijas ir savākt ievadi uz noteiktu laika intervālā un darbojas transformācijas par to plānotajā veidā. Vēsturisko datu ielāde ir tipiska pakešu darbība
  2. Reāllaika apstrāde — reāllaika apstrāde ietver transformāciju izpildi, kad un kad tiek iegūti dati.
  3. Hibrīda apstrāde — tā ir gan pakešu, gan reāllaika apstrādes vajadzību kombinācija.
  • Datu patēriņš/izmantošana : lietotāji/pakalpojumi, kas izmanto analizētos datus.

Šis slānis patērē apstrādes slāņa nodrošināto izvadi. Dažādi lietotāji, piemēram, administratori, biznesa lietotāji, pārdevējs, partneri utt., var patērēt datus dažādos formātos. Analīzes rezultātus var patērēt ieteikumu dzinējs vai, pamatojoties uz analīzi, var aktivizēt biznesa procesus.

Ir dažādi datu patēriņa veidi:

  1. Eksportēt datu kopas var būt prasības trešās puses datu kopu ģenerēšanai. Datu kopas var ģenerēt, izmantojot stropu eksportu vai tieši no HDFS.
  2. Pārskati un vizualizācija — dažādu atskaišu un vizualizācijas rīku skenēšana savieno ar Hadoop, izmantojot JDBC/ODBC savienojumu ar stropu.
  3. Datu izpēte — datu zinātnieks var veidot modeļus un veikt padziļinātu izpēti smilškastes vidē. Smilškaste var būt atsevišķs klasteris (ieteicamā pieeja) vai atsevišķa shēma tajā pašā klasterī, kas satur faktisko datu apakškopu.
  4. Adhoc vaicājumi — Adhoc vai interaktīvo vaicājumu var atbalstīt, izmantojot Hive, Impala vai spark SQL.

Lasiet arī:  Lielie dati: nākotnes murgs?

Lielo datu arhitektūras funkcionālie slāņi:

Varētu būt vēl viens veids, kā definēt arhitektūru, ti, izmantojot funkcionalitātes sadalījumu. Taču funkcionalitātes kategorijas var sagrupēt atsauces arhitektūras loģiskajā slānī, tāpēc vēlamā arhitektūra tiek veidota, izmantojot loģiskos slāņus.

Slāņojums, pamatojoties uz funkcijām, ir šāds:

  1. Datu avoti:

Šajā kategorijā ir jānorāda visi avoti, no kuriem organizācija saņem datus un kas varētu palīdzēt organizācijai pieņemt turpmākos lēmumus. Šeit uzskaitītie datu avoti ir neatkarīgi no tā, vai dati ir strukturēti, nestrukturēti vai daļēji strukturēti.

  1. Datu ieguve:

Lai varētu uzglabāt, analizēt vai vizualizēt savus datus, jums tie ir jāiegūst. Datu ieguve ir saistīta ar kaut ko, kas nav strukturēts, piemēram, tīmekļa lapu, un pārvērš to par strukturētu tabulu. Kad tas ir strukturēts, varat ar to manipulēt dažādos veidos, izmantojot tālāk aprakstītos rīkus, lai gūtu ieskatu.

  1. Datu glabāšana:

Strādājot ar lielajiem datiem, galvenā nepieciešamība ir domāt, kā šos datus uzglabāt. Daļa no tā, kā lielie dati ieguva atšķirību kā “LIELI”, ir tas, ka tradicionālajām sistēmām tie kļuva pārāk daudz. Labam datu krātuves nodrošinātājam ir jāpiedāvā infrastruktūra, kurā darbināt visus citus analīzes rīkus, kā arī vieta, kur uzglabāt un vaicāt datus.

  1. Datu tīrīšana:

Iepriekš nepieciešams solis, pirms mēs faktiski sākam iegūt datus, lai gūtu ieskatu. Vienmēr ir laba prakse izveidot tīru, labi strukturētu datu kopu. Datu kopas var būt dažādu formu un izmēru, it īpaši no tīmekļa. Izvēlieties rīku atbilstoši datu prasībām.

  1. Datu ieguve:

Datu ieguve ir process, kurā tiek atklāti ieskati datu bāzē. Datu ieguves mērķis ir pieņemt lēmumus un pieņemt prognozes par jūsu rīcībā esošajiem datiem. Izvēlieties programmatūru, kas sniedz vislabākās prognozes visu veidu datiem un ļauj izveidot savus algoritmus datu ieguvei.

  1. Datu analīze:

Lai gan datu ieguve ir saistīta ar datu izsijāšanu, meklējot iepriekš neatpazītus modeļus, datu analīze ir šo datu sadalīšana un šo modeļu ietekmes novērtēšana virsstundu laikā. Analytics mērķis ir uzdot konkrētus jautājumus un atrast atbildes datos. Jūs pat varat uzdot jautājumus par to, kas notiks nākotnē!

  1. Datu vizualizācija:

Vizualizācijas ir spilgts un vienkāršs veids, kā nodot sarežģītu datu ieskatu. Un labākais ir tas, ka lielākajai daļai no tiem nav nepieciešama kodēšana. Datu vizualizācijas uzņēmumi atdzīvinās jūsu datus. Daļa no jebkura datu zinātnieka izaicinājuma ir sniegt šo datu ieskatu pārējam uzņēmumam. Rīki var palīdzēt jums izveidot diagrammas, kartes un citus līdzīgus grafikus, izmantojot jūsu datu ieskatus.

  1. Datu integrācija:

Datu integrācijas platformas ir līme starp katru programmu. Tie savieno dažādus rīku secinājumus ar citu programmatūru. Izmantojot šos rīkus, varat kopīgot savu vizualizācijas rīku rezultātus tieši Facebook.

  1. Datu valodas:

Datu karjerā būs reizes, kad kāds rīks tos vienkārši neizjauks. Lai gan mūsdienu rīki kļūst arvien jaudīgāki un vieglāk lietojami, dažreiz ir labāk tos kodēt pašam. Ir dažādas valodas, kas jums palīdz dažādos aspektos, piemēram, statistikas skaitļošanā un grafikā. Šīs valodas varētu darboties kā datu ieguves un statistikas programmatūras papildinājums.

Lielo datu atsauces arhitektūras slāņu funkcijas

Galvenās lietas, kas jāatceras, veidojot lielo datu arhitektūru, ir:

  • Lietošanas dinamika : ir vairāki rakstā ilustrēti scenāriji, kas jāņem vērā, veidojot arhitektūru – datu forma un biežums, datu veids, apstrādes veids un nepieciešamā analīze.
  • Neskaitāmas tehnoloģijas:  rīku izplatība tirgū ir radījusi daudz neskaidrību par to, ko un kad lietot, jo ir vairākas tehnoloģijas, kas piedāvā līdzīgas funkcijas un apgalvo, ka tās ir labākas par citām.

Es zinu, ka jūs domājat par dažādiem rīkiem, ko izmantot, lai izveidotu pilnīgu pierādījumu lielu datu risinājumu. Savās gaidāmajās ziņās par lielajiem datiem es aplūkošu dažus labākos rīkus dažādu uzdevumu veikšanai lielo datu arhitektūrā .


Mašīnu pieaugums: AI reālās pasaules lietojumi

Mašīnu pieaugums: AI reālās pasaules lietojumi

Mākslīgais intelekts nav nākotnē, tas ir šeit, tagadnē. Šajā emuārā lasiet, kā mākslīgā intelekta lietojumprogrammas ir ietekmējušas dažādas nozares.

DDOS uzbrukumi: īss pārskats

DDOS uzbrukumi: īss pārskats

Vai arī jūs esat DDOS uzbrukumu upuris un esat neizpratnē par profilakses metodēm? Izlasiet šo rakstu, lai atrisinātu savus jautājumus.

Vai esat kādreiz domājis, kā hakeri pelna naudu?

Vai esat kādreiz domājis, kā hakeri pelna naudu?

Iespējams, esat dzirdējuši, ka hakeri pelna daudz naudas, bet vai esat kādreiz domājuši, kā viņi nopelna šādu naudu? pārrunāsim.

Google revolucionāri izgudrojumi, kas atvieglos jūsu dzīvi.

Google revolucionāri izgudrojumi, kas atvieglos jūsu dzīvi.

Vai vēlaties redzēt revolucionārus Google izgudrojumus un to, kā šie izgudrojumi mainīja katra cilvēka dzīvi mūsdienās? Pēc tam lasiet emuārā, lai redzētu Google izgudrojumus.

Piektdiena: kas notika ar AI vadītām automašīnām?

Piektdiena: kas notika ar AI vadītām automašīnām?

Pašpiedziņas automobiļu koncepcija izbraukt uz ceļiem ar mākslīgā intelekta palīdzību ir mūsu sapnis jau kādu laiku. Bet, neskatoties uz vairākiem solījumiem, tie nekur nav redzami. Lasiet šo emuāru, lai uzzinātu vairāk…

Tehnoloģiskā singularitāte: cilvēces civilizācijas tāla nākotne?

Tehnoloģiskā singularitāte: cilvēces civilizācijas tāla nākotne?

Zinātnei strauji attīstoties, pārņemot lielu daļu mūsu pūļu, palielinās arī risks pakļaut sevi neizskaidrojamai singularitātei. Izlasiet, ko singularitāte varētu nozīmēt mums.

Datu glabāšanas evolūcija – infografika

Datu glabāšanas evolūcija – infografika

Datu uzglabāšanas metodes ir attīstījušās kopš datu dzimšanas. Šajā emuārā ir aprakstīta datu uzglabāšanas attīstība, pamatojoties uz infografiku.

Lielo datu atsauces arhitektūras slāņu funkcijas

Lielo datu atsauces arhitektūras slāņu funkcijas

Lasiet emuāru, lai vienkāršākā veidā uzzinātu dažādus lielo datu arhitektūras slāņus un to funkcijas.

6 brīnišķīgas priekšrocības, ko sniedz viedo mājas ierīču izmantošana mūsu dzīvē

6 brīnišķīgas priekšrocības, ko sniedz viedo mājas ierīču izmantošana mūsu dzīvē

Šajā digitālajā pasaulē viedās mājas ierīces ir kļuvušas par būtisku dzīves sastāvdaļu. Šeit ir daži pārsteidzoši viedo mājas ierīču ieguvumi, lai padarītu mūsu dzīvi dzīves vērtu un vienkāršāku.

MacOS Catalina 10.15.4 papildinājuma atjauninājums rada vairāk problēmu nekā to risināšana

MacOS Catalina 10.15.4 papildinājuma atjauninājums rada vairāk problēmu nekā to risināšana

Nesen Apple izlaida macOS Catalina 10.15.4 papildinājuma atjauninājumu, lai novērstu problēmas, taču šķiet, ka atjauninājums rada vairāk problēmu, kas izraisa Mac datoru bloķēšanu. Izlasiet šo rakstu, lai uzzinātu vairāk