Stagebank

Binnen deze stage krijg jij de kans een verwerkingssysteem op basis van het Hadoop Big Data ecosysteem te ontwikkelen. Wat jij gaat doen is het analyseren van een ETL proces van één van onze klanten en dat omzetten naar code. Voor deze opdracht zoeken wij dus ook een diehard techneut die er plezier uithaalt om snel code te kloppen.

Introductie van de opdracht
In veel dataverwerkende systemen wordt gebruik gemaakt van zogenaamde ETL processen. Dit staat voor Extract, Transform and Load. Deze processen halen (bijvoorbeeld) in de nacht data uit de transactionele systemen van een organisatie (bijvoorbeeld kassasystemen of voorraadbeheersystemen), transformeren de data tot een gewenst formaat en laden de resultaten naar een andere database. Met de resultaten kunnen bijvoorbeeld rapportages worden weergegeven die bruikbaar zijn voor de sturing van processen en organisatie. Aan het eind van jouw stage verwachten wij een diepgaand vergelijkend onderzoek waarvoor echt uitgebreid getest en gebouwd moet gaan worden.

Als de hoeveelheid data dusdanig toeneemt dat de verwerking van het ETL proces te lang gaat duren kunnen problemen ontstaan. Een nachtproces kan bijvoorbeeld nog bezig zijn op het moment dat in de ochtend de systemen weer beschikbaar moeten zijn voor transacties.

Op dat moment kan worden gekozen voor verschillende opties. Ten eerste kan de datahoeveelheid worden verminderd, maar dat is niet altijd een haalbare kaart. Ook kan het systeem worden opgeschaald, wat staat voor het vervangen van de machine voor een snellere machine. Ook hier zitten grenzen aan. Er worden geen oneindig snelle machines verkocht, high end apparatuur kost veel geld en een twee keer zo snelle processor garandeert geen twee keer zo snelle verwerking van data. Een andere optie is het aanpassen en waar mogelijk efficiënter maken van de ETL processen. Dit kost manuren en heeft ook grenzen. Afstudeeropdrachten - Version 1.0 4 of 6 Idealiter zou dit probleem opgelost worden door uitschalen van de verwerkingsomgeving. Dat wil zeggen dat in plaats van een snellere machine (opschalen) wordt gekozen voor het toevoegen van extra machines om de werkduur te verkorten. Dit vereist echter dat de werklast kan worden opgedeeld en in parallel kan worden uitgevoerd. Dit is waar jij ons kunt helpen!

Wat we willen ontwikkelen is een ETL verwerkingssysteem op basis van het Hadoop Big Data ecosysteem en dan met name de component Spark. Deze software is gemaakt voor parallelle verwerking van (Big) Data en bevat de nodige basiscomponenten om dit in goede banen te leiden. Wat jij gaat doen is het analyseren van een ETL proces van een van onze klanten en dat omzetten naar code (bij voorkeur in Scala) die we vervolgens kunnen draaien op een cluster van Spark machines. Dit cluster kan mogelijk in de cloud (Amazon, Azure) worden gehost, wat een extra uitdaging aan de opdracht toevoegt.

Naast de praktische kant van de opdracht zijn er ook voldoende mogelijkheden voor een onderzoekscomponent in je scriptie. Zo zou bijvoorbeeld onderzoek kunnen worden gedaan naar hoe een dergelijk systeem schaalt (is twee keer zo veel machines ook echt twee keer zo veel performance?) of vanaf welke datahoeveelheid het gunstiger is de Spark oplossing te gebruiken in plaats van het traditionele ETL systeem en welke factoren daarop van invloed zijn.

Wij zijn Ebicus
Wij helpen klanten bij het behalen van hun Customer eXperience doelstellingen, door het leveren van IT gerelateerde diensten. Hierbij hebben we ons volledig gespecialiseerd in Oracle technologie, zowel on premise als in de Cloud. Klanten kunnen bij ons terecht voor specialistische kennis rondom Oracle-applicaties op het gebied van Sales, Service en Marketing. Daarnaast bouwen we onze proposities op het gebied van Data Driven Customer eXperience en Integratie steeds verder uit. We helpen door het leveren van capaciteit en kennis, we ontzorgen met onze Managed Services of we nemen de regie bij het draaien van volledige projecten.

Daarnaast zijn we gewoon een hele leuke club van enthousiaste vakidioten. Bij ons geen zware managementlagen. We bieden veel ruimte voor eigen initiatief, en zien graag creativiteit. Fun staat bij ons centraal: De energie en creativiteit die we halen uit FUN is een van de belangrijkste succesfactoren om complexe, uitdagende projecten goed af te kunnen ronden. Leuke projecten, elkaar beter leren kennen en gezamenlijk leuke dingen doen; daar gaan we voor!

Wie zoeken wij?
We zijn op zoek naar een HBO Informatica afstudeerder die enthousiast wordt van data en het schrijven van code. Een onderzoekend karakter dat niet terugschrikt voor een technische uitdaging. Bij voorkeur heb je ervaring met Java en/of Scala. Ervaring met en kennis van Big Data technologie is een pre maar zeker geen vereiste. Wat we belangrijker vinden is je motivatie en nieuwsgierigheid. We zoeken naar passie voor techniek en doorzettingsvermogen om problemen te overwinnen.

Wij bieden..
Een unieke kans om:

Een leuke afstudeeropdracht te doen met goede kansen op een mooi cijfer.
Professionele ondersteuning te krijgen van consultants met ruime ervaring in het veld.
Een maandelijkse compensatie, een bedrijfslaptop, een plek binnen ons team, deelname aan de maandelijkse office meeting die afwisselend in het teken staan kennisdeling en leuke uitjes te krijgen.
Bij wederzijdse tevredenheid door te stromen naar het Ebicus IT traineeship (zie https://www.ebicus.com/nl/vacatures/it-consultancy-traineeship/ )

Stagebank HBO-ICT

Bedrijfsinformatie

Big data: "Parallel Data Processing"

Geschikt voor studenten