Viime blogissani kerroin, miten Microsoftin uusi data- ja analytiikka-alusta Fabric kokoaa yhteen kaikki yrityksen tarvitsemat data- ja analytiikkatyökalut sekä punnitsin keskitetyn data-alustan hyötyjä. Tässä blogissa sukellan hieman syvemmälle siihen, mitä kaikkea Fabric kätkee sisälleen ja mikä on kunkin työkalun rooli yrityksen datanhallinnassa.
OneLake voidaan jakaa Workspace-käsitteen avulla eri työtiloihin. Kukin työtila voi olla omistettu esimerkiksi tietylle liiketoiminta-alueelle, jolloin tiedon omistajuutta ja käyttöoikeuksia on helpompi hallita. Workspacen sisälle voidaan muodostaa erilaisia tietovarastoja: joko perinteisiä Data Warehouse tai moderneja Data Lakehouse -tietovarastoja:
Data Factoryn tehtävä on noutaa dataa OneLakeen mistä tahansa tietolähteestä sekä muuntaa ja valmistella se varastointia varten. Data Factory sisältää yli 100 valmista connectoria esimerkiksi Microsoftin omiin pilvipalveluihin, eri tietokantamoottoreihin ja muihin yritysjärjestelmiin, kuten SAP:iin. Data Factoryn avulla organisaatiot voivat yksinkertaistaa monimutkaisia integraatioprosesseja ja parantaa tiedon laatua.
Data Factory jakautuu kahteen eri pääkomponenttiin:
Synapse Data Engineering ja Synapse Data Warehousing ovat molemmat työkaluja, joilla luodaan tietovarastoja OneLakeen.
Synapse Data Engineering mahdollistaa modernien Data Lakehouse -tietovarastojen rakentamisen OneLakeen. Sen avulla yritysten data- ja analytiikkatiimit voivat prosessoida ja muuntaa dataa tarpeenmukaiseen muotoon. Tämän jälkeen data tallennetaan Lakehouse-tietovarastoon, josta se on helposti hyödynnettävissä eri sovelluksissa ja analyyseissä.
Datan muokkaus onnistuu käyttämällä Spark-notebookkeja, jotka tarjoavat joustavan ja tehokkaan tavan käsitellä tietoja. Datan kyselyyn ja lukemiseen voidaan käyttää Sparkin ja T-SQL:n kyselykieliä, jotka tukevat niin strukturoidun kuin ei-strukturoidun datan hallintaa. Kaikki tiedot tallennetaan Delta Lake -formaattiin, joka on optimoitu suurten datamäärien käsittelyyn.
Synapse Data Engineering -työkalun käyttö soveltuu organisaatioille, joilla on omaa data engineering ja data science -osaamista sekä kokemusta Spark-pohjaisten ratkaisujen kehittämisestä.
Synapse Data Warehousing sen sijaan mahdollistaa perinteisten Data Warehouse -tietovarastojen rakentamisen OneLakeen. Työkalun avulla tietoa voidaan kysellä, päivittää, lisätä ja poistaa SQL-kyselykielen avulla. Data Warehouse -tietovarastot tukevat vain rakenteellista dataa, ja tieto varastoidaan tietokannoista tuttuihin rakenteisiin – tietokantoihin, skeemoihin ja tauluihin. Sen toteutus perustuu deltatauluihin.
Synapse Data Warehousing on ihanteellinen työkalu yrityksille, jotka ovat jo investoineet Data Warehouse -ratkaisuihin ja joilla on asiantuntemusta SQL-kyselykielen käytössä.
Yritysten liiketoiminnan synnyttämä tieto tarjoaa mahdollisuuden paitsi analysoida mennyttä myös ennustaa tulevaisuutta. Tähän tarvitaan kehittyneitä tekoälytyökaluja, ja Fabricin sisältämä Synapse Data Science sisältääkin työkalut koneoppimismallien kehittämiselle ja käyttämiselle.
Synapse Data Sciencen avulla yritykset voivat kouluttaa omia koneoppimismallejaan OneLakessa sijaitsevalla datalla ja analysoida niiden avulla suuria datamassoja tehokkaasti. Prosessin lopputuloksena voidaan muodostaa esimerkiksi entistä laadukkaampia ennusteita tai tunnistaa liiketoiminnan kannalta merkittäviä poikkeamia.
Koneoppimismallien lisäksi Fabric tarjoaa mahdollisuuden hyödyntää yrityksen omaa dataa Open AI -kielimallin kouluttamiseen. Tämän avulla esimerkiksi asiakaspalautteita voidaan käsitellä ja kategorisoida automaattisesti, ja niistä voidaan kysellä tietoa luonnollisella kielellä.
Synapse Real Time Analytics mahdollistaa yritysten datan reaaliaikaisen käsittelyn ja analysoinnin. Työkalu on erityisen hyödyllinen silloin, kun käsiteltävänä on suuria datamääriä, jotka vaativat nopeaa ja jatkuvaa prosessointia, kuten IoT-laitteiden sensoridata tai tietoturvaa koskevat tiedot.
Synapse Real Time Analytics on suunniteltu tukemaan monenlaisia sovelluksia, kuten logistiikan varastonhallintaa ja laitteiden kunnonvalvontaa, mahdollistaen ennakoivan huollon ja vikojen ennakoinnin. Synapse Real Time Analyticsin ytimessä on Kusto-tietokantamoottori, joka on optimoitu suurten datamassojen nopeaan kyselyyn ja analysointiin, palauttaen vastaukset millisekuntien kuluessa.
Data voidaan tuoda Kusto-tietokantaan useista eri lähteistä, kuten Event Stream -palvelusta, ja sitä kysellään käyttäen KQL-kyselykieltä (Kusto Query Language). KQL on suunniteltu erityisesti nopeaan ja tehokkaaseen datan käsittelyyn. Tämä mahdollistaa yrityksille reaaliaikaisen näkymän toimintaansa ja nopeat päätökset datan perusteella.
Power BI on visuaalisen datan analysointityökalu, ja Fabricin työkaluista se on loppu viimein ainut näkyvä työkalu organisaatioiden loppukäyttäjille. Se on ollut saatavilla itsenäisenä tuotteena jo pitkään, mutta on nyt integroitu osaksi myös Fabricia. Power BI -raportit itsessään näyttävät samoilta kuin aina ennenkin, mutta Fabricin myötä käytettävä data saadaan muodostettua hyödyntäen kattavan data-alustan kaikki mahdollisuudet – esimerkiksi ennustavan analytiikan.
Power BI:n käyttöliittymät on suunniteltu eri käyttäjäryhmille:
Näiden työkalujen avulla käyttäjät voivat visualisoida ja jakaa tietoa tehokkaasti, mikä tukee parempia liiketoimintapäätöksiä.
Data Activator on työkalu, joka auttaa organisaatioita reagoimaan nopeasti datan muutoksiin. Se seuraa Power BI -raportteja ja EventStreamia ja tunnistaa määriteltyjen raja-arvojen ylitykset. Kun raja-arvo ylittyy, Data Activator voi esimerkiksi lähettää automaattisesti ilmoituksen, kuten sähköpostin tai Teams-viestin, tai aktivoida Power Automate -työnkulun, jotta organisaatio voi vastata tilanteeseen asianmukaisesti.
Käyttötapauksia ovat esimerkiksi asiakastukipyynnön käsittelyajan ylittäminen, budjetin ylitys tai poikkeavuudet IoT-datassa. Data Activator on kirjoitushetkellä vielä esikatseluvaiheessa, mikä tarkoittaa, että se on testikäytössä ja sitä kehitetään edelleen.
Copilot on tekoälypohjainen avustaja, joka auttaa Fabricin käyttäjiä automatisoimaan ennestään manuaalisia prosesseja – esimerkiksi kehittämään Power BI -raportteja. Loppukäyttäjät voivat esimerkiksi pyytää Copilotia luomaan raportteja valitsemiensa dimensioiden ja mittareiden mukaan. He voivat myös pyytää Copilotia analysoimaan dataa ja ehdottamaan raportteja, jotka se katsoo datan perusteella parhaiksi.
Copilot on käytettävissä Power BI:n lisäksi myös Synapse Data Factoryssa, Data Engineeringissä ja Data Sciencessä. Tämä mahdollistaa kehittäjille Copilotin hyödyntämisen ratkaisujen kehittämisessä ja ongelmien ratkaisemisessa. Tämän blogin kirjoitushetkellä työkalu on vielä esikatseluvaiheessa, ja sen käyttö edellyttää vähintään F64-tason ympäristöä.
Yhdessä kaikki esittelemäni työkalut – OneLakesta Copiloteihin – muodostavat kattavan data- ja analytiikkaratkaisun, joka palvelee organisaatioiden tarpeita pitkälle tulevaisuuteen.
Microsoft Fabric ei ole pelkästään vanhojen työkalujen uudelleenpakkaus; se on ekosysteemi, joka yhdistää olemassa olevat ratkaisut toisiinsa, tarjoaa synergiaetuja ja tuo käyttöön täysin uusia innovaatioita, kuten tekoälyn, parantaen näin yrityksen kykyä hyödyntää dataa strategisesti. Todennäköisesti se on myös yksi Microsoftin vauhdikkaimmin kehittyviä palveluja, jonka mahdollisuuksista kannattaa pysyä kuulolla.