Funktioner för Big Data Reference Architecture Layers

Funktioner för Big Data Reference Architecture Layers

I mitt förra inlägg diskuterade vi om att analysera affärsproblemet och grundläggande steg för att designa Big Data Architecture. Idag ska jag prata om olika lager i Big Data Architecture och deras funktionalitet.

Logiska lager av Big Data Referensarkitektur

Bakom big data-arkitektur är kärnidén att dokumentera en rätt grund för arkitektur, infrastruktur och applikationer. Följaktligen tillåter detta företag att använda big data mer effektivt på en vardaglig basis.

Det skapas av big data designers/arkitekter innan en lösning implementeras fysiskt. Att skapa big data-arkitektur kräver generellt att man förstår verksamheten/organisationen och dess big data-behov. Vanligtvis beskriver big data-arkitekturer de hårdvaru- och mjukvarukomponenter som är nödvändiga för att uppfylla big data-lösningar. Big data-arkitekturdokument kan också beskriva protokoll för datadelning, applikationsintegrationer och informationssäkerhet.

Mer information:  En nybörjarguide till Big Data Analytics

Det innebär också att sammankoppla och organisera befintliga resurser för att tillgodose big data-behov.

De logiska lagren i referensarkitekturen är som nedan:

  • Identifiering av datakälla: Att veta var denna data kommer ifrån.

Källprofilering är ett av de viktigaste stegen för att bestämma arkitekturen eller big data. Det handlar om att identifiera olika källsystem och kategorisera dem, baserat på deras natur och typ.

Punkter att tänka på vid profilering av datakällor:

  1. Identifiera interna och externa källsystem.
  2. Högnivåantagande för mängden data som tas in från varje källa
  3. Identifiera mekanism som används för att hämta data – push eller pull
  4. Bestäm typen av datakälla – databas, fil, webbtjänst, strömmar etc.
  5. Bestäm typen av data – strukturerad, semistrukturerad eller ostrukturerad
  • Dataintagsstrategi och -insamling : Process för att mata in data i systemet.

Dataintag handlar om att extrahera data från ovan nämnda källor. Dessa data lagras i lagringen och omvandlas sedan för vidare bearbetning på den.

Punkter att tänka på:

  1. Bestäm den frekvens med vilken data ska tas in från varje källa
  2. Finns det ett behov av att ändra datasemantik?
  3. Krävs det någon datavalidering eller transformation före intag (förbehandling)?
  4. Segregera datakällorna baserat på intagssätt – batch eller realtid
  • Datalagring : Anläggningen där big data faktiskt kommer att lagras.

Man bör kunna lagra stora mängder data av vilken typ som helst och bör kunna skala efter behov. Vi bör också överväga antalet IOPS (Input output operations per second) som den kan ge. Hadoop distribuerade filsystem är det mest använda lagringsramverket i Big Data-världen, andra är NoSQL-datalagren – MongoDB, HBase, Cassandra etc.

Saker att tänka på när du planerar lagringsmetodik:

  1. Typ av data (historisk eller inkrementell)
  2. Dataformat (strukturerad, semistrukturerad och ostrukturerad)
  3. Kompressionskrav
  4. Frekvens av inkommande data
  5. Frågemönster på data
  6. Konsumenter av data
  • Databearbetning : Verktyg som tillhandahåller analys över big data.

Inte bara mängden data som lagras utan behandlingen har också ökat mångfaldigt.

Tidigare ofta åtkomliga data lagrades i dynamiska RAM-minnen. Men nu lagras det på flera diskar på ett antal maskiner anslutna via nätverk på grund av ren volym. Därför, istället för att samla databitar för bearbetning, tas bearbetningsmoduler till big data. Således minskar nätverkets I/O avsevärt. Processmetoden drivs av affärskrav. Det kan kategoriseras i batch, realtid eller hybrid baserat på SLA.

  1. Batch Processing  - Batch samlar ingången för en viss tidsintervall och köra transformationer på den i en schemalagd sätt. Historisk dataladdning är en typisk batchoperation
  2. Bearbetning i realtid – Bearbetning i realtid innebär att köra transformationer när och när data samlas in.
  3. Hybridbearbetning – Det är en kombination av både batch- och realtidsbearbetningsbehov.
  • Dataförbrukning/användning : Användare/tjänster som använder den analyserade datan.

Detta lager förbrukar utdata som tillhandahålls av behandlingslagret. Olika användare som administratör, företagsanvändare, leverantör, partners etc. kan konsumera data i olika format. Utdata från analys kan konsumeras av rekommendationsmotor eller affärsprocesser kan triggas baserat på analysen.

Olika former av datakonsumtion är:

  1. Exportera datamängder Det kan finnas krav på generering av tredje parts datamängder. Datauppsättningar kan genereras med hjälp av bikupexport eller direkt från HDFS.
  2. Rapportering och visualisering – Olika rapporterings- och visualiseringsverktyg skannar ansluta till Hadoop med JDBC/ODBC-anslutning för att hive.
  3. Datautforskning – Dataforskare kan bygga modeller och utföra djupgående utforskningar i en sandlådemiljö. Sandbox kan vara ett separat kluster (rekommenderat tillvägagångssätt) eller ett separat schema inom samma kluster som innehåller delmängder av faktiska data.
  4. Adhoc-fråga – Adhoc- eller interaktiv sökning kan stödjas genom att använda Hive, Impala eller spark SQL.

Läs också:  Big Data: A Future Nightmare?

Funktionella lager av Big Data-arkitekturen:

Det kan finnas ytterligare ett sätt att definiera arkitekturen, dvs är genom funktionalitetsuppdelningen. Men funktionskategorierna kan grupperas i det logiska lagret av referensarkitektur, så den föredragna arkitekturen är en som görs med hjälp av logiska lager.

Skiktningen baserat på funktionerna är enligt nedan:

  1. Datakällor:

Analys av alla källor från vilka en organisation får data och som kan hjälpa organisationen att fatta sina framtida beslut bör listas i denna kategori. Datakällorna som listas här är oberoende av om uppgifterna är strukturerade, ostrukturerade eller semistrukturerade.

  1. Dataextraktion:

Innan du kan lagra, analysera eller visualisera dina data måste du ha några. Dataextraktion handlar om att ta något som är ostrukturerat, som en webbsida, och förvandla det till en strukturerad tabell. När du har fått det strukturerat kan du manipulera det på alla möjliga sätt, med hjälp av verktygen som beskrivs nedan, för att hitta insikter.

  1. Datalagring:

Den grundläggande nödvändigheten när man arbetar med big data är att tänka på hur man lagrar den datan. En del av hur Big Data fick utmärkelsen som "BIG" är att det blev för mycket för de traditionella systemen att hantera. En bra datalagringsleverantör bör erbjuda dig en infrastruktur för att köra alla dina andra analysverktyg samt en plats att lagra och fråga efter dina data.

  1. Datarensning:

Ett nödvändigt steg innan vi faktiskt börjar bryta data för insikter. Det är alltid bra att skapa en ren, välstrukturerad datamängd. Datauppsättningar kan komma i alla former och storlekar, särskilt när de kommer från webben. Välj ett verktyg enligt dina datakrav.

  1. Data Mining:

Data mining är processen att upptäcka insikter i en databas. Syftet med datautvinning är att fatta beslut och förutsäga den data du har till hands. Välj en programvara som ger dig de bästa förutsägelserna för alla typer av data och som låter dig skapa dina egna algoritmer för att utvinna data.

  1. Dataanalys:

Medan datautvinning handlar om att sålla igenom din data på jakt efter tidigare okända mönster, handlar dataanalys om att bryta ner denna data och bedöma effekten av dessa mönster övertid. Analytics handlar om att ställa specifika frågor och hitta svaren i data. Du kan till och med ställa frågor om vad som kommer att hända i framtiden!

  1. Datavisualisering:

Visualiseringar är ett ljust och enkelt sätt att förmedla komplexa datainsikter. Och det bästa är att de flesta av dem inte kräver någon kodning. Datavisualiseringsföretag kommer att göra din data levande. En del av utmaningen för alla datavetare är att förmedla insikterna från dessa data till resten av ditt företag. Verktyg kan hjälpa dig att skapa diagram, kartor och annan sådan grafik utifrån dina datainsikter.

  1. Dataintegration:

Dataintegrationsplattformar är limmet mellan varje program. De kopplar samman verktygens olika slutsatser med andra programvaror. Du kan dela resultaten av dina visualiseringsverktyg direkt på Facebook genom dessa verktyg.

  1. Dataspråk:

Det kommer att finnas tillfällen i din datakarriär när ett verktyg helt enkelt inte klipper det. Medan dagens verktyg blir kraftfullare och enklare att använda, ibland är det bara bättre att koda det själv. Det finns olika språk som hjälper dig i olika aspekter som statistisk beräkning och grafik. Dessa språk kan fungera som ett komplement för datautvinning och statistisk programvara.

Funktioner för Big Data Reference Architecture Layers

Det viktigaste att komma ihåg när du designar Big Data Architecture är:

  • Användningsdynamik : Det finns ett antal scenarier som illustreras i artikeln som måste beaktas vid utformningen av arkitekturen – form och frekvens av data, typ av data, typ av bearbetning och analys som krävs.
  • Myriad av teknologier:  Utbredningen av verktyg på marknaden har lett till mycket förvirring kring vad man ska använda och när, det finns flera tekniker som erbjuder liknande funktioner och påstår sig vara bättre än de andra.

Jag vet att du skulle fundera på olika verktyg att använda för att göra en fullständigt bevisad Big Data-lösning. Tja, i mina kommande inlägg om Big Data, skulle jag täcka några bästa verktyg för att uppnå olika uppgifter inom big data-arkitektur .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Artificiell intelligens är inte i framtiden, det är här i nuet I den här bloggen Läs hur Artificiell intelligens-applikationer har påverkat olika sektorer.

DDOS-attacker: En kort översikt

DDOS-attacker: En kort översikt

Är du också ett offer för DDOS-attacker och förvirrad över de förebyggande metoderna? Läs den här artikeln för att lösa dina frågor.

Har du någonsin undrat hur hackare tjänar pengar?

Har du någonsin undrat hur hackare tjänar pengar?

Du kanske har hört att hackare tjänar mycket pengar, men har du någonsin undrat hur de tjänar den typen av pengar? låt oss diskutera.

Revolutionerande uppfinningar från Google som gör ditt liv lätt.

Revolutionerande uppfinningar från Google som gör ditt liv lätt.

Vill du se revolutionerande uppfinningar av Google och hur dessa uppfinningar förändrade livet för varje människa idag? Läs sedan till bloggen för att se uppfinningar av Google.

Fredag ​​Essential: Vad hände med AI-drivna bilar?

Fredag ​​Essential: Vad hände med AI-drivna bilar?

Konceptet med att självkörande bilar ska ut på vägarna med hjälp av artificiell intelligens är en dröm vi har ett tag nu. Men trots flera löften finns de ingenstans att se. Läs den här bloggen för att lära dig mer...

Technological Singularity: A Distant Future of Human Civilization?

Technological Singularity: A Distant Future of Human Civilization?

När vetenskapen utvecklas i snabb takt och tar över en hel del av våra ansträngningar, ökar också riskerna för att utsätta oss för en oförklarlig singularitet. Läs, vad singularitet kan betyda för oss.

Utveckling av datalagring – Infographic

Utveckling av datalagring – Infographic

Lagringsmetoderna för data har utvecklats kan vara sedan födelsen av data. Den här bloggen tar upp utvecklingen av datalagring på basis av en infografik.

Funktioner för Big Data Reference Architecture Layers

Funktioner för Big Data Reference Architecture Layers

Läs bloggen för att känna till olika lager i Big Data Architecture och deras funktionaliteter på enklaste sätt.

6 fantastiska fördelar med att ha smarta hemenheter i våra liv

6 fantastiska fördelar med att ha smarta hemenheter i våra liv

I denna digitala värld har smarta hemenheter blivit en avgörande del av livet. Här är några fantastiska fördelar med smarta hemenheter om hur de gör vårt liv värt att leva och enklare.

macOS Catalina 10.15.4 tilläggsuppdatering orsakar fler problem än att lösa

macOS Catalina 10.15.4 tilläggsuppdatering orsakar fler problem än att lösa

Nyligen släppte Apple macOS Catalina 10.15.4, en tilläggsuppdatering för att åtgärda problem, men det verkar som om uppdateringen orsakar fler problem som leder till att mac-datorer blir murade. Läs den här artikeln för att lära dig mer