ACES Direct levert alleen aan zakelijke klanten

Wat is big data?

Hoewel veel bedrijven al wel weten naar welke informatie ze op zoek zijn, hebben ze vaak geen idee hoe ze deze aan de oppervlakte kunnen krijgen. De hoeveelheid data is vaak zeer groot, de data verschillen in formaat en komen niet altijd in hetzelfde tempo beschikbaar. Dus waar moet u beginnen? En niet minder belangrijk: welke informatie wilt u uit die grote berg data halen, hoe wilt u er analyses op loslaten en ze vertalen naar concrete verbeteringen voor uw bedrijf?

Voordat Big Data geschikt is voor analyse, is het belangrijk om een onderscheid te maken tussen verschillende databronnen. Deze zijn onder te verdelen in drie hoofdcategorieën:

1. Transactionele data
Transactionele data worden gecreëerd door werknemers en vervolgens gestructureerd. De data kunnen vaak volgens een voorspelbare structuur worden verwerkt. Het verwerkingsproces verloopt meestal als volgt: de data worden uit bronsystemen uitgelezen, getransformeerd op basis van operationele behoeften en geladen in een datawarehousesysteem. Dit noemen we een ‘Extract, Transform and Load’-proces (ETL).

2. Ongestructureerde content
Ongestructureerde content wordt gecreëerd door gebruikers. Dit gebeurt bijvoorbeeld door het gebruik van Content Management Systemen (CMS), het internet of via sociale media. Kenmerkend voor dit type content is dat de tekst vaak inhoudelijk moet worden beoordeeld om de inhoud en de waarde hiervan te bepalen. Hierbij is het vooral belangrijk om de irrelevante data te scheiden van de relevante data.

3. Streaming
Dit type data – bijvoorbeeld temperatuur, luchtvochtigheid en geluidsniveau – wordt gecreëerd door sensoren. De data ‘stromen binnen’ en vertellen vaak iets over een apparaat, machine of omgeving. Kenmerkend is dat deze data snel veroudert en dat alleen de actuele status of de ongebruikelijke veranderingen interessant zijn. Deze categorie is gerelateerd aan ‘Internet of Things’.

Het moge duidelijk zijn: iedere soort data heeft eigen karakteristieken en moet op zijn eigen manier worden verwerkt. De manier van verwerken noemen we een werklast (workload). Volgens onze visie levert het grote voordelen op als we de verschillende werklasten op gespecialiseerde platformen verwerken. Het kan zeer waardevol zijn om de data uit de drie genoemde bronnen met elkaar te combineren. Hierbij geldt dat we de aard van de werklast moeten kennen voordat een passende bedrijfsspecifieke oplossing kan worden gekozen.

Voorbeeld: epidemie uitbraak

Denk als voorbeeld aan de uitbraak van een epidemie. Door het analyseren van informatiebronnen als social media kunnen we patronen analyseren. Op social media komen er bijvoorbeeld termen voorbij als: “in bed met koorts”, “vreemde vlekken op mijn huid”. Via zoekmachines gaan mensen zoeken naar eventuele kuren tegen dit ziektebeeld. Dit soort informatiebronnen kunnen worden uitgelezen en de data kunnen worden verzameld om vervolgens te worden hergebruikt door gezondheidsinstellingen, die hierdoor sneller een epidemie kunnen ontdekken. Wellicht kan het tevens bijdragen aan het direct informeren van doctoren, ziekenhuizen en vervolgens te checken of er genoeg vaccinaties op voorraad zijn tegen deze epidemie. Na vergelijking van deze data met officiële rapporten inclusief de patronen van nu en in het verleden kan de voorspellingscapaciteit en reactiesnelheid verfijnd en significant versneld worden.
Feedback