BI en Textual ETL, the next ‘big’ thing?
Stel je voor: Je hebt heel veel data en je wilt hier aan betekenis geven, maar er is geen structuur in de gegevens verborgen. Wat doe je dan?
Enige tijd geleden, 21 mei, was ik bij Bill Inmon en hij introduceerde textual ETL. Niet op bezoek. Hij gaf een training. Voor mij een volledig nieuw concept.
Nu denk je misschien, Inmon, die is toch mega oud en achterhaalt op BI gebied. Eerlijk gezegd ging ik ook wat sceptisch, maar ja, de kans om de grondlegger van mijn vak ‘live’ te ontmoeten kon ik toch niet weerstaan. Daarbij opgeteld dat het was georganiseerd door BI-Podium, moest het toch wel leuk worden. Wat schetst mijn verbazing: 6 mensen en Bill dus. 6! Oeff dat had ik niet verwacht. Zat ik gewoon naast Bill Inmon, voor een hele dag.
En wat voor een dag. Hij mag dan wel oud zijn, maar wat een slimme man is dat zeg. Respect. En wat hij met zijn team heeft uitgevonden kan wel eens ‘the next ‘big’ thing zijn. Terwijl iedereen is nog aan het bijkomen van het ‘instant’ succes van big data en hadoop en zo, heeft hij het echt begrepen.
Want, even in een notedop, wat doet bijvoorbeeld hadoop in ‘mensen taal’? Het scant data, veel data, en vindt hierin structuren die niet expliciet zijn. Deze worden op de rest van de data losgelaten en hierdoor kan een enorme dataset toch gelezen worden alsof het een soort database is. Natuurlijk is het technisch allemaal veel ingewikkelder, maar ja, dat legt niet zo snel en makkelijk uit, dus ik laat het hier even bij.
Het nadeel hiervan is dat je vooral kunt kijken naar zogenaamde procesdata. Dus logfiles, errorfiles en zo. Want daarin zijn die ‘verborgen’ structuren te vinden. Mooi kunstje natuurlijk, maar wat is daar de business value (wat verdienen we eraan) als we dat kunnen?
Wat doet Inmon dan met zijn team, waar ik zo blij van werd vraag je je misschien af? Het was maar 1 dag, dus ik ben nog geen expert, maar hij kan zoeken en herkennen in data zonder ‘verborgen structuren’ door gebruik te maken van taxonomieën.
Even opfrissen: Een taxonomie of taxinomie is de wetenschap van het indelen van individuen of objecten in groepen[1].
Wat hij doet is, ook weer in een notendop, het volgende: Hij gebruikt de methode ‘coderen’ , die we nog kennen uit de ouderwetse onderzoeksmethoden. Waarbij een interview verslag werd gecodeerd. Dus worden en zinnen die hetzelfde betekende, maar anders waren geschreven, kregen dezelfde waarde.
Inmon codeert alleen niet met de hand, maar met een bij het bedrijf passende taxonomie. Die koopt hij gewoon bij een bedrijf dat hierin is gespecialiseerd.
Dus van te voren bepaald welke woorden hetzelfde betekenen, passend in het bedrijf of de branche van het bedrijf. Hij heeft ook een tool gemaakt waarmee specifieke zaken herkent kunnen worden.
Voorbeeld: In de tekst staat een aap, hierbij wordt aangetekend dat dit hoort tot de groep dier. En een schaap, ook hierbij komt dier en een paard en ook hierbij komt dier. Verder staat ook nog in de taxonomie dat de aap een wild dier is en een paard en schaap een boerderijdier.
Vervolgens kun je de tool alle voorkomende dieren laten vinden of tellen of laten vinden of dieren in combinatie met een andere term te vinden zijn.
Ziet u de mogelijkheden al? Een verzekeringsmaatschappij heeft in de taxonomie staan dat een reeks van 10 aangesloten cijfers een polisnummer is, en als in een email het wordt claim hierbij voorkomt, dan moet er een signaal komen. Maar ook als er schade, advocaat, rechtszaak etc. staat. Nu kan tijdens de vakantieperiode alle mail gescand worden op de aangegeven combinaties zodat er niet meer te laat op belangrijke mails wordt gereageerd als er veel mensen op vakantie zijn, zodat proceskosten worden voorkomen? Begint het te dagen?
Wat hij doet is, aan grote hoeveelheden ongestructureerde data, met behulp van taxonomieën betekenis geven. Dat heeft volgens mij een enorm business potentieel.
Inmon’s boek hierover komt in mei ongeveer uit. Ik heb het concept van zijn boek alvast gekregen, en ik ben druk aan het lezen, want na deze dag wil ik van de hoed en de rand weten. Als docent zijn vakanties ook voor research natuurlijk. En ik ga hier zeker lessen over maken, want volgens mij wordt dit ‘the next ‘big’ thing’. Wat denk jij?
Dit artikel is eerder verschenen in de online versie van Computable