Biashara nyingi zinaelekea kwenye matumizi ya maziwa ya data kusaidia katika kudhibiti viwango vinavyoongezeka vya habari. Hazina kubwa kama hizo huruhusu mashirika kukusanya na kuhifadhi data iliyopangwa na isiyo na muundo kabla ya kuikabidhi kwa usimamizi na usindikaji zaidi wa data katika ghala la data, hifadhidata, matumizi ya biashara, au kwa wanasayansi wa data na uchanganuzi na zana za akili bandia (AI). Na, kwa kuzingatia uwezekano mkubwa wa data inayotumika na hitaji la kuongeza biashara kadri biashara inavyokua, mashirika mengi yanatazama wingu kama eneo la ziwa la data. Ziwa la data ni nini? Maziwa ya data yana data ghafi. Kutoka kwa ziwa la data, data husafiri chini ya mkondo – kwa ujumla kwa usindikaji zaidi au kwa hifadhidata au programu ya biashara. Ziwa la data ni mahali ambapo mitiririko mbalimbali ya data ya biashara inakusanywa, iwe kutoka kwa ugavi, wateja, uuzaji, orodha au data ya kitambuzi kutoka kwa mitambo au mashine. Data katika ziwa la data inaweza kuwa na muundo, isiyo na muundo au nusu-muundo. Makampuni yanaweza kutumia uwekaji tagi wa metadata ili kusaidia kupata vipengee, lakini dhana ni kwamba data itapita kwenye programu maalum, au kufanyiwa kazi na wanasayansi na wasanidi wa data. Amazon Web Services (AWS) inatoa ufafanuzi mzuri wa kufanya kazi – ziwa la data ni “hazina iliyo katikati ambayo inakuruhusu kuhifadhi data yako yote iliyopangwa na isiyo na muundo kwa kiwango chochote. Unaweza kuhifadhi data yako kama ilivyo, bila kulazimika kuunda data kwanza”. Hii inatofautiana na ghala la data, ambapo taarifa huhifadhiwa kwenye hifadhidata, ambazo wafanyakazi na programu za biashara zinaweza kufikia. Maziwa ya data ya wingu: vipengele muhimu Sifa muhimu ya ziwa la data ya wingu ni ukubwa wake, ikifuatiwa kwa karibu na urahisi wa usimamizi. Maziwa ya data ya watoa huduma wa wingu ya hali ya juu huendesha uhifadhi wa kitu, na haya hutoa uwezo usio na kikomo. Kizuizi pekee kinaweza kuwa bajeti ya uhifadhi wa data ya biashara. Kama ilivyo kwa teknolojia zingine za uhifadhi wa wingu, maziwa ya data ya wingu yanaweza kupanda na kushuka, ili kuruhusu wateja kurekebisha uwezo na kwa hivyo gharama, kulingana na mahitaji ya biashara. Hyperscaler ina jukumu la kuongeza uwezo, matengenezo ya maunzi na programu, upunguzaji wa kazi na usalama, na hivyo kuondoa mzigo huo kwa timu ya sayansi ya data. “Huduma za ziwa za data zinazodhibitiwa kutoka kwa viboreshaji vya data vya wingu huruhusu timu za uhandisi wa data kuzingatia uchanganuzi wa biashara, kuwakomboa kutoka kwa kazi zinazochukua muda za kudumisha miundombinu ya ziwa la data kwenye tovuti,” anasema Srivatsa Nori, mtaalam wa data katika PA Consulting. “Utegemezi wa hali ya juu, upatikanaji na teknolojia ya kisasa inayotolewa na waendeshaji wa mtandao wa wingu hufanya miundomsingi ya ziwa la data inayodhibitiwa kuwa maarufu, kwani wanahakikisha utendakazi thabiti na wakati mdogo wa kupumzika.” Watoa huduma za wingu pia hutoa vidhibiti vya kisasa vya ufikiaji na ukaguzi, anaongeza, pamoja na utozaji ulioratibiwa kupitia zana kama vile kuweka lebo kwenye rasilimali. Na, ingawa maziwa ya data na maghala ya data hadi sasa yametenganishwa kwa kiasi kikubwa, yanasonga karibu zaidi, ama yanaendeshwa kwenye jukwaa moja au kama “ghala la data”. “Katika usanifu wa kisasa wa data, kuna mahali pa ziwa la data na ghala la data kwani hutumikia madhumuni ya kuridhisha,” anasema Nori. “Wingu hutoa mazingira yenye nguvu ya kuunganisha njia zote mbili.” Faida na hasara za maziwa ya data ya wingu Faida nyingi za hifadhi ya wingu ya kiwango kikubwa hutumika kwa usawa kwenye maziwa ya data ya wingu, ikijumuisha ukubwa, kunyumbulika na urahisi wa usimamizi. Mashirika pia huepuka hitaji la matumizi ya awali ya mtaji, na muda mrefu wa kuongoza unaotokana na ujenzi wa kituo cha data na usakinishaji wa maunzi. Kinyume na hili, mashirika yanahitaji kuzingatia upotezaji wa udhibiti unaowezekana, haswa juu ya gharama. Hali ya kunyumbulika ya hifadhi ya wingu inaweza kumaanisha kupanda kwa gharama ikiwa ziwa la data litatumika zaidi ya ilivyotarajiwa. Timu za data pia zinahitaji kuzingatia egress na gharama zinazowezekana za kipimo data, haswa wanapohamisha data “chini” kwenye hifadhidata na programu zingine. Usalama, usiri na uhuru wa data bado ni vikwazo kwa baadhi ya mashirika. Kanuni zinaweza kuweka kikomo mahali ambapo mashirika yanashikilia data, na data mbichi ambayo haijachakatwa inaweza kuwa nyeti sana. Vipimo vya hali ya juu sasa vinatoa maeneo ya upatikanaji na vikomo vya kijiografia ambapo vinashikilia data ya wateja. CIOs na CDOs zinahitaji kuhakikisha kwamba mipaka hiyo inakidhi mahitaji ya biashara. Utendaji, ingawa kwa kawaida si kikwazo kwa miradi mikubwa ya data ya ziwa kwa sababu usindikaji wa wajibu mzito hufanyika chini ya mkondo. Utendaji ni muhimu zaidi katika kiwango cha ghala la data, ambapo uhifadhi wa block – ama katika wingu au kwenye majengo – hutumiwa kwa hifadhi ya hifadhidata. Data ya matoleo ya ziwa ya Hyperscalers Kwa biashara zinazounda maziwa ya data kwenye wingu, Microsoft inatoa Hifadhi ya Ziwa ya Azure (ADLS), pamoja na Azure Synapse kwa uchanganuzi, na Azure Purview kwa usimamizi wa data. ADLS Gen2 inachanganya ADLS Gen1 na hifadhi ya Azure Blob, huku Synapse inafanya kazi na data iliyopangwa na isiyo na muundo, kwa hifadhi za data. AWS hutoa AWS Lake Formation, kujenga maziwa ya data kwenye hifadhi ya S3. Hii inachanganya na Athena, Redshift Spectrum na SageMaker kwa ufikiaji wa data, uchanganuzi na ujifunzaji wa mashine. Google inachukua mbinu tofauti kidogo, kuchanganya Hifadhi ya Wingu la Google na zana huria, BigQuery na VertexAI. Google pia inatoa BigLake, ambayo inaweza kuchanganya hifadhi kwenye GCP, S3 na Azure na vile vile kuunda usanifu uliounganishwa wa maziwa ya data na maghala ya data, na kile ambacho Google hukiita “maziwa ya muundo wazi”.