Systemutvecklare – Data Lake-plattform

21418

1 Jul, 2026 to 30 Jun, 2027

Stockholm (50% remote)

Kontakta oss med:

*CV/konsultprofil där erfarenhet framgår (ska bifogas i Word-format och ska vara på svenska)


Roll: Systemutvecklare – Data Lake-plattform

Kompetensnivå: 3

Period: 2026-07-01 – 2027-06-30, med option på förlängning 1 x 6 månader

Omfattning: 100 %

Placeringsort: Stockholm

Distansarbete: Enligt överenskommelse ca 50%

Antal konsulter: 1

Språk: Svenska och engelska i tal och skrift

Svara snarast men senast: 2026-06-22


Uppdragsbeskrivning:

Karolinska Universitetssjukhuset söker en erfaren Systemutvecklare/Data Engineer för att färdigställa och vidareutveckla sjukhusets Data Lake-plattform och forskningsinfrastruktur. Uppdraget är placerat inom Avdelningen för Plattform under Stab Teknik och är en central del i arbetet med att möjliggöra datadriven vård, forskning och utveckling.

Konsulten förväntas snabbt kunna ta ägarskap över befintlig arkitektur och pågående implementation i en komplex teknisk miljö baserad på metadatadriven ETL-design, Apache Iceberg, OpenShift, Spark, Trino och hantering av känslig klinisk data.

Arbetsuppgifter omfattar bland annat:

• Färdigställa och vidareutveckla ett metadatadrivet ETL-pipeline-ramverk för forskningsplattformen.

• Utveckla datapipelines, integrationer och data processing services.

• Säkerställa korrekt hantering och anonymisering av känslig klinisk data enligt regulatoriska krav.

• Förvalta och vidareutveckla Data Lake-arkitektur baserad på Apache Iceberg, Spark och Trino.

• Bygga och förvalta integrationer mot kliniska källsystem och databaser.

• Säkerställa kodkvalitet genom testdriven utveckling, kodgranskning och automatisering.

• Samarbeta med utvecklare, produktägare och arkitekter för att skapa skalbara och hållbara lösningar på OpenShift.


Krav på konsulten

Ska-krav

• Kompetensnivå 3 enligt Region Stockholms kompetensmodell.

• Akademisk examen inom datavetenskap, systemutveckling eller motsvarande dokumenterad erfarenhet.

• Minst 5 års erfarenhet av systemutveckling i Python med fokus på datapipelines, backend-tjänster och systemintegration.

• Minst 3 års erfarenhet av ETL/ELT-utveckling mot SQL-databaser (exempelvis MySQL eller MSSQL) samt object storage såsom AWS S3 eller Ceph.

• Minst 3 års erfarenhet av event-driven arkitektur och asynkron meddelandehantering med Kafka, RabbitMQ eller motsvarande.

• Minst 3 års erfarenhet av containerplattformar (Kubernetes/OpenShift) samt CI/CD-lösningar såsom Jenkins, Bamboo eller GitLab CI.

• Minst 2 års erfarenhet av distributed data processing med Apache Spark.

• Dokumenterad erfarenhet av Apache Iceberg eller Delta Lake i produktionsmiljö.

• Dokumenterad erfarenhet av metadatadriven ETL-design och pipeline-ramverk i produktionsmiljö.

• Dokumenterad erfarenhet av PII-anonymisering, kryptering eller hashing av känslig klinisk data enligt regulatoriska krav.

• Dokumenterad erfarenhet av Trino eller motsvarande distributed SQL query engine mot Data Lake i produktionsmiljö.

• Vana att samarbeta med både tekniska och verksamhetsnära team.

• Strukturerat arbetssätt med fokus på kvalitetssäkring och riskhantering.

• God förmåga att arbeta självständigt.

• God samarbetsförmåga.

• Flytande svenska och engelska i tal och skrift.

• Förmåga att hantera flera parallella arbetsuppgifter och projekt.


Mervärdeskrav

Kandidater med erfarenhet inom följande områden prioriteras:

• Utveckling av datapipelines eller data processing services med Data Lake-tekniker såsom Apache Spark, Apache Iceberg eller Delta Lake inom offentligfinansierad vård- eller forskningsverksamhet som hanterar klinisk data.

• Självständigt ansvar för design och implementation av Data Lake-arkitektur med open table formats (Apache Iceberg eller Delta Lake) i offentlig vård- eller forskningsmiljö.

• Erfarenhet av implementation, konfigurering och användning av monitoring, logging och alerting i produktionsmiljö (exempelvis Datadog, CloudWatch eller motsvarande).

• Självständigt ansvar för design och implementation av test- och quality assurance-ramverk för datapipelines i produktionsmiljö.

• Erfarenhet av implementering av säkerhetslösningar för system som hanterar känslig data.

• Självständigt ansvar för design och implementation av säkerhetslösningar med fokus på secrets management, PII-anonymisering, audit logging och åtkomstkontroll.

• Erfarenhet från offentligfinansierad vård- eller forskningsverksamhet med hantering av klinisk data.

• Förmåga att på ett professionellt sätt presentera lösningar och besvara tekniska samt verksamhetsnära frågor vid elektronisk genomgång/intervju.


Obligatoriska bilagor:

• CV på svenska.

• Ifylld kravmatris.

• Ifylld mervärdesbilaga.

• Eventuella referensuppdrag som styrker efterfrågad erfarenhet.