プロンプトエンジニア 求人

Senior AI Infrastructure Engineer - Training Platform

0万円 〜 0万円
San Francisco, CA; Seattle, WA; New York, NY
正社員・契約社員
経験年数:
閲覧数:0

仕事内容

<p>As a Software Engineer on the Machine Learning Infrastructure team, you will build the "Operating System" for our large-scale GPU clusters. You will architect a high-performance training platform that handles the immense complexity of multi-thousand GPU workloads, ensuring every cycle is used efficiently. Your work directly determines the velocity at which our researchers can train and iterate on the world’s most advanced models.</p> <p>The ideal candidate is a systems expert who thrives on solving the orchestration, networking, and reliability challenges that emerge at massive scale. You will partner closely with researchers to build a seamless, resilient environment that transforms raw compute into breakthrough AI.</p> <h2>You will:</h2> <ul> <li>Architect and scale a multi-tenant orchestration layer that abstracts away the complexity of GPU clusters, ensuring high utilization and seamless job recovery.</li> <li>Design and implement scheduling primitives to optimize the lifecycle of training jobs.</li> <li>Develop deep observability and automated health-checking into the training stack to proactively identify and isolate hardware failures</li> <li>Evaluate and integrate emerging technologies in the CNCF and AI ecosystem (e.g. Ray, Kueue), making data-driven build vs. buy decisions that balance velocity with long-term maintainability.</li> <li>Work closely with Finance and Procurement teams to drive our capacity planning process.</li> <li>Participate in our team’s on call process to ensure the availability of our services.</li> <li>Own projects end-to-end, from requirements, scoping, design, to implementation, in a highly collaborative and cross-functional environment.</li> </ul> <h2>Ideally you'd have:</h2> <ul> <li>5+ years of experience in backend or infrastructure engineering, with at least 2 years focused on orchestrating ML workloads at scale (100+ GPU nodes).</li> <li>Strong programming skills in one or more languages (e.g. Python, Go, Rust, C++)</li> <li

必須要件

求めるスキル

Python PyTorch CUDA Kubernetes AWS GCP Rust C++

勤務条件

勤務時間
雇用形態 正社員・契約社員
勤務地 San Francisco, CA; Seattle, WA; New York, NY
リモートワーク 不可
Scale AI 公式採用ページ掲載求人

この求人に応募する

1日前に掲載

公式ページで応募する

※ 企業の公式採用ページへ移動します

人気求人

他の人気求人をチェック

求人一覧を見る

メールアドレスで無料会員登録

正しいメールアドレスを入力してください
※半角英数記6~40文字
パスワードは6文字以上で入力してください
利用規約プライバシーポリシー をご確認のうえ、「同意して登録する」を押してください。
すでにアカウントをお持ちの方

求職者ログイン

初めての方
掲載企業様の方はこちら

企業様 新規登録

求人掲載をご希望の企業様向けの登録フォームです
正しいメールアドレスを入力してください
※半角英数記6~40文字
パスワードは6文字以上で入力してください
すでにアカウントをお持ちの方

企業ログイン

初めての方
求職者の方はこちら

パスワードリセット

ご登録いただいたメールアドレスを入力してください。
パスワードリセット用のリンクをメールでお送りします。

正しいメールアドレスを入力してください
アカウントをお持ちの方

企業様 パスワードリセット

ご登録いただいたメールアドレスを入力してください。
パスワードリセット用のリンクをメールでお送りします。

正しいメールアドレスを入力してください
アカウントをお持ちの方

新しいパスワードを設定

新しいパスワードを入力してください。

※半角英数記6~40文字
パスワードは6文字以上で入力してください