Job Description

Rolle & Unternehmen

Für unsere Mandantin besetzen wir im Exklusivmandat zum nächstmöglichen Zeitpunkt die Position „AI Infrastructure & GPU Specialist (all genders)". Unsere Mandantin ist ein dynamisches und hochambitioniertes Unternehmen im Bereich KI-Infrastruktur und Rechenzentren. Mit einem modernen technologischen Ansatz und eigenen Rechenzentrumsstandorten in der DACH-Region entwickelt das Unternehmen KI- und Cloud-Infrastrukturleistungen für anspruchsvolle Kunden weiter.

Branche: KI-Infrastruktur, Datacenter, Cloud-Computing
Organisatorische Verortung: AI Strategy & Ecosystem
Arbeitsort: Berlin / Wien, oder Home Office möglich

Ihre Aufgaben

In dieser Expertenrolle stellen Sie tiefes und breites Fachwissen im Bereich GPU Computing und Inference Optimization bereit. Sie liefern spezialisierte Lösungen für die GPU-Infrastruktur und für Multi-GPU-Umgebungen und agieren als maßgebliche Instanz für die Optimierung von Agentic Workloads auf GPUs. Sie treiben Quantization und FinOps für GPU-Kosten eigenverantwortlich voran, treffen strategische Entscheidungen zu Inference Optimization und wirken als Experte für Hardware-Level-Performance in einem kritischen Zuständigkeits- und Verantwortungsbereich.
Im Bereich Crossfunktionale Zusammenarbeit arbeiten Sie eng mit den Backend- und MLOps-Teams an der Integration von GPU-optimierten Inference-Lösungen und koordinieren bereichsübergreifende Performance-Optimierungsteams.
Im Bereich GPU Infrastructure Design übernehmen Sie Design und Implementierung der GPU-Infrastruktur unter Berücksichtigung von Best Practices führender AI-Infrastruktur-Unternehmen (NVIDIA, Lambda Labs) und mit klarer FinOps-Struktur.
Im Bereich Quantization und Inference Optimization führen Sie eigenverantwortlich Quantization (GPTQ, AWQ, GGUF) sowie Inference Optimization durch und implementieren die Ergebnisse in Produktionsumgebungen. Sie berücksichtigen dabei aktuelle Entwicklungen im Bereich neuer Inference Engines und verantworten wöchentliches Testing.
Im Bereich GPU-Strategie und Hardware-Ziele unterstützen Sie die Plattform-Teams bei der Weiterentwicklung der GPU-Strategie und wirken an der Definition kurz- und langfristiger Hardware-Ziele unter Berücksichtigung von Gesamtstrategie und Kosteneffizienz mit.
Im Bereich Kubernetes GPU Scheduling verantworten Sie Aufbau, Pflege und kontinuierliche Verbesserung des K8s-GPU-Schedulings, einschließlich strukturiertem Reporting über Performance-Kennzahlen, regelmäßiger Effizienzüberprüfungen und Implementierung von Kostenoptimierungen.
Im Bereich Dokumentation und Benchmarking erstellen, pflegen und aktualisieren Sie GPU-Dokumentation und Benchmark-Reports regelmäßig, führen notwendige Anpassungen durch und stellen konsistente Arbeitsabläufe sowie die Erfüllung der Performance-Anforderungen sicher.
Im Bereich Wissenstransfer dokumentieren Sie Lessons Learned aus der GPU-Optimierung und stellen tiefes Fachwissen in verständlicher Form zur Verfügung, um internes Lernen zu fördern und einen kontinuierlichen Wissenstransfer sicherzustellen.
Als Peer im Fachteam arbeiten Sie kollegial mit anderen Rollen auf Augenhöhe zusammen und beraten insbesondere zur Frage, welche Inference Engine für welchen Use Case geeignet ist.

Ihr Profil

Sie verfügen über ein abgeschlossenes Hochschulstudium in einem relevanten Fachbereich (Informatik, Technische Informatik, Computational Engineering oder vergleichbar) sowie über mindestens drei bis fünf Jahre Berufserfahrung im Bereich GPU/HPC. Zertifizierungen in relevanten Methoden sind von Vorteil, etwa EU AI Act, NVIDIA DLI (Deep Learning Institute), Kubernetes GPU Operator oder AI Manager (TÜV). Erfahrung in der Zusammenarbeit mit crossfunktionalen Teams in Tech-Unternehmen setzen wir voraus.
Ihre fachlichen Kernkompetenzen umfassen fundierte Kenntnisse in GPU Clusters und CUDA Programming sowie nachweisliche Erfahrung in der Code-Modifikation von vLLM, TGI oder SGLang. Sie bringen tiefgreifendes und breites Fachwissen in GPU Computing, Quantization (GPTQ, AWQ, GGUF) und Inference Optimization mit und verfügen über ein fundiertes Verständnis von K8s GPU Scheduling und relevanten Infrastruktur-Prozessen. Sie verfolgen aktuelle Markt- und Technologietrends im Bereich Inference Engines und haben ein strategisches Verständnis von Sovereign Models und deren Bedeutung für die GPU-Infrastruktur.
Im technologischen Stack werden CUDA und C++ vorausgesetzt, ergänzt um Python und Rust (wünschenswert).
Im Bereich Sovereign Models erwarten wir Expertise in vLLM, TGI, llama.cpp und SGLang.
Im Bereich DevOps und Open Stack sind Docker, Kubernetes, Terraform und Ansible eine wichtige Voraussetzung. Sie sind in der Lage, System-Level-Code zu lesen und zu modifizieren, und verfügen über ein fundiertes FinOps- und Hardware-Verständnis.
Persönlich zeichnen Sie sich durch Performance-Obsession, analytisches, strukturiertes und systematisches Denkvermögen sowie durch die Fähigkeit aus, komplexe Sachverhalte verständlich zu vermitteln. Ein interkulturelles Mindset und Offenheit für neue Inference Engines und Methoden runden Ihr Profil ab.
Verhandlungssichere Deutschkenntnisse (mindestens Niveau C1) sowie verhandlungssichere Englischkenntnisse in Wort und Schrift werden vorausgesetzt.

Das Angebot

Eine Expertenrolle mit hoher fachlicher Sichtbarkeit im Aufbau eines neuen Fachbereichs AI Strategy & Ecosystem
Direkte Berichtslinie an den Head of AI Strategy & Ecosystem
Arbeit mit moderner GPU-Hardware in dedizierten Test- und Produktionsumgebungen
Hoher Gestaltungsspielraum bei der technischen und strategischen Ausrichtung der GPU-Infrastruktur
Ein agiles, technologiegetriebenes Arbeitsumfeld innerhalb eines solide aufgestellten Unternehmens
Ein attraktives Gehaltspaket
Flexible Arbeitsortgestaltung mit Home-Office-Möglichkeit und Nähe zu den Rechenzentrumsstandorten

Kontakt

Wir freuen uns auf Ihre Online-Bewerbung unter Angabe Ihrer Gehaltsvorstellung bzw. Ihres derzeitigen Gehalts und der Nennung Ihres frühestmöglichen Eintrittstermins. Unsere Berater, Klaas Koolman wird sich mit Ihnen in Verbindung setzen.
Gender-Hinweis
Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung der Sprachformen männlich, weiblich und divers (m/w/d) verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.
SHARE

AI Infrastructure & GPU Specialist (all genders)

Ähnliche Stellenanzeigen

Cloud Platform Engineer (all genders)

Head of HR DACH (all genders)

Head of Customer Success (all genders)

Global Strategic Product Manager (all genders)

International Sales Manager (all genders)

AI Infrastructure & GPU Specialist (all genders)

Jetzt Job teilen