Big Data i skladišta podataka – buvljak i ljekarna – sve što biste morali znati o ovim pojmovima

Fotografija članka: Big Data i skladišta podataka – buvljak i ljekarna – sve što biste morali znati o ovim pojmovima

S obzirom da se sve češće suočavamo s nedoumicama klijenata o razlikama big data inicijativa i inicijativa tradicionalnih skladišta podataka, reci koji slijede pokušat će zorno dočarati ove razlike, kao i uloge oba koncepta u ukupnoj paradigmi upravljanja informacijama.

Oglas

Za vas koji se prvi put susrećete s njim, big data je pojam koji se odnosi na fenomen enormnog  povećanja količine podataka uslijed sveopće internetizacije, doprinosa društvenih mreža, mobilnih tehnologija te milijardi senzora diljem svijeta. Big data obilježava i tehnologije obrade tako nastalih velikih količina podataka iz heterogenih izvora, neovisno o tome da li su strukturirani poput transakcijskih baza ili se nalaze u nestrukturiranim oblicima poput slika ili videa. Takve tehnologije se temelje na posebnim repozitorijima koji omogućavaju  spremanje različitih tipova datoteka u njihovim izvornim formatima te na principima masivne paralelne obrade podataka.
image

U odnosu na skladišta podataka, big data rješenja imaju podatke koji su “jeftini” po terabajtu pohrane. Oni su nepročišćeni, nestandardizirani, bez rječnika, raspršeni u različitim formatima. “Jeftini” su i zbog znatno manjeg napora njihovog uvođenja u repozitorije temeljene na tehnologijama poput Apache Hadoopa (koji je sam po sebi projekt otvorenog koda), ali i zbog relativno jeftinih procesorskih jedinica i sustava za pohranu koji se oslanjaju na tehnologiju distribuiranih obrada na klasteru s relativno visokom tolerancijom na greške. Kod data warehousea (DWH)  imamo “skupe” podatke jer prolaze znatne kontrole, čišćenja i standardizaciju prije no što će uopće zakucati na vrata dobro posloženog skladišta. Skladište podataka u odnosu na podatke pohranjene na big data klasteru je poput ljekarne u odnosu na trgovinu sa živežnim namirnicama. Zapravo, čak je i spomen trgovine previše pretenciozan, govorimo o odnosima ljekarne i nečeg bez strukture i standardiziranog sadržaja – poput buvljaka ili staretinarnice. Mjesto u koje ćemo ući nakon ljekarne (pandam data warehousea) će biti s raznolikim artiklima dobavljenih po niskim ulaznim cijenama, bez skupocjenog sustavnog lanca logistike, bez slijedivosti i komplicirane regulative. Međutim, na takvom mjestu znalci mogu pronaći iznenađujuće lukrativne ishode,… baš poput podatkovnih meštara kod analize golemih količina raznolikih big data podataka. Od certificiranih prodavača (magistara farmacije), preko certificiranih proizvoda (lijekova) do certificiranih mjesta prodaje (ljekarne dobivaju dozvolu po gustoći naseljenosti), ljekarne su skupa mjesta po jedinici proizvoda. U njih ulazimo s receptom (ili nam tvrde da će se isti pojaviti u IT sustavu ljekarne) te s točno jasnim motivima (npr. prestanak boli). S druge strane, u staretinarnicama se struktura gubi. Ulazimo u njih rijetko s posebnom nakanom. Osim toga, u uobičajeno jeftinije opremljenim prostorima, možemo naći štošta – od umjetnina i knjiga preko posuđa ili korisnih sitnica koje više nikome ne trebaju, do predmeta iz davne prošlosti. Za razliku od ljekarni, najčešće nećete unaprijed znati ni prirodu ishoda vaše kupovine. Možda u rukama imate nešto doista vrijedno. Možda, uz dodatno istraživanje, shvatite da slika koju ste kupili zapravo vrijedi pravo bogatstvo i da možda više ne trebate igrati loto. Nikada više!

IBM Big Data 02

Vaš izlazak iz ljekarne jamačno nikada neće završiti idejom o prestanku igranja lota, niti zatvaranja privatnog biznisa. Takvi su otprilike i ishodi iz tradicionalnog skladišta podataka – dosadni. S rijetkim iznimkama na stranu, ali DWH se u principu gradi s unaprijed poznatim ishodima. Korisnicima preostaje potražiti odnose, uočiti trendove, prepoznati ekstreme. Rijetko će to biti put u nepoznato, kombiniranje nespojivog i koreliranje udaljenog. Taj dio posla ostavljamo big dati.

Da na brzinu, pokušamo još jednom, uvelike generalizirajući, usporediti neke aspekte tradicionalnog skladišta podataka i big data rješenja. Implementacija same tehnologije načelno ide na stranu big date. Za izgradnju repozitorija nije potrebno do u detalje isplanirati shemu pohrane i prirediti mjesto za svaki pojedini bajt podataka. Logistika dobave podataka (ETL) je ponovno znatno kompliciranija kod DWH. Administracija je slična, kao i ciklus učenja u prihvaćanju tehnologije.

Kod DWH za (već pripremljenu) analitiku nisu potrebni eksperti. Podacima spakiranim u predefinirane sintakse i gotove analitičke procese se igraju poslovnjaci, znanstvenici, analitičari,… Kod big date ovaj je dio znatno kompliciraniji. Dovedeno more podataka treba znati filtrirati da bi se došlo do vrijednosti koje u njemu leže, a česti scenariji korištenja su upravo takvi da se uvijek iznova “žvaču” novi podaci. Treba razaznati važno od nevažnog, slučajnost od pravila. Treba poznavati tehnike filtriranja i modeliranja, poznavati alate koji će na slici prepoznati lice ili natpis,… Big data je zbog svoje nepročišćene prirode u ovoj fazi znatno “skuplja”.

I još za kraj, malo razočaranje svima onima kojima je dosadilo neprestano optimiranje modela skladišta podataka, silan posao kod promjena ili dodavanja, briga o nestašnim izvodima podataka i nadogradnjama aplikacija. Big data i DWH su tu da ostanu zajedno jedan pored drugoga, svatko u svojoj ulozi, upravo poput ljekarne i staretinarnice.

Piše:

Oglas
Pretplatite se na BESPLATNE
Tjedni pregled najzanimljivijih tehnoloških informacija
Poveznica se otvara u novom prozoru
Sigurnosna provjera: Upišite rezultat  7+4=

KOMENTARI


Neprimjerene komentare, poveznice, reklamiranje/promoviranje i komentare koji tematski nisu vezani uz vijest odmah ćemo ukloniti.