AI Applied SRE
AIの時代、リリースは始まりに過ぎない。アプリケーション、インフラ、AIモデル——すべてをスコープに、AI Native DevOpsの実践で信頼性・コスト・レジリエンスを継続的に最適化しながら本番環境を守り続ける
担当業務
- アプリケーションからインフラまでアプリケーション、データパイプライン、AIモデルサービング、クラウドインフラ——全レイヤーの信頼性を担う
- AI Native DevOpsの実践CI/CDパイプライン、Infrastructure as Code、自動修復でデリバリーと運用を一体化
- オブザーバビリティの構築SLO定義、監視スタック構築、インシデント対応リード——AIモデルの推論品質・レイテンシの監視を含む
- キャパシティプランニングトラフィック予測、リソース計画、スケーリング戦略の策定。最適なコストで需要を満たすシステムの維持
- オンコール設計・インシデント対応オンコールローテーションの設計、エスカレーションポリシーの策定、本番システム全体のインシデント対応リード
- Production Readiness Reviewリリース前にSRE視点で信頼性リスクを設計段階から評価し、本番到達前に潰す
求める人材
必須の経験・スキル
問題設定能力
「システムが遅い」という報告を、「どのレイヤーの、どのコンポーネントが、どのような条件下でボトルネックになっているか」という構造的な問いに変換できる力。表面的な症状の背後にあるシステム的課題を掘り下げ、対処すべき問題の優先順位と影響範囲を定義する。障害の予兆を見逃さず、問題が顕在化する前に本質的なリスクを特定すること
問題解決能力
障害発生時に、限られた情報と時間の中でクリティカルな問題を特定し、最小限の影響で復旧する判断力。「完全な原因究明を待つ」のではなく「まず止血し、恒久対策を並行して進める」実行力。ポストモーテムで根本原因を徹底的に追求し、再発防止策をシステムに組み込むアジリティ
コミュニケーション能力
エンジニアとアーキテクチャの改善点を議論し、マネジメントにインシデントの影響と対策を説明し、クライアントにサービスレベルの状況を報告する——相手によって技術的な深さと表現を切り替えられること。障害時の冷静なエスカレーションと、チーム全体の運用品質を上げるための知見共有
Linux・ネットワーク
Linux基盤——カーネル挙動、systemd、cgroups、namespacesへの深い理解。TCP/IP、DNS、HTTP/HTTPSの動作原理を把握し、ロードバランシングやCDNの設計・トラブルシュートができること。BashとPythonによる運用自動化
クラウドプラットフォーム
AWS (EKS, SageMaker, Bedrock, Lambda, EC2, RDS, S3)、GCP (GKE, Vertex AI, Cloud Run)、またはAzure (AKS, Azure OpenAI) での本番運用経験。TerraformまたはCloudFormationによる再現可能なインフラの構築・運用
オブザーバビリティ・インシデント
Prometheus、Grafana、Datadog、またはNew Relicを用いた監視スタックの設計・運用経験。OpenTelemetryと分散トレーシングによるシステム状態の可視化。SLO駆動のアラート設計に加え、エラーバジェットを信頼性と開発速度のバランスの意思決定に活用した経験。インシデント対応のリードとポストモーテム文化の推進——障害から学びシステムを進化させること
データベース・ストレージ
RDB(MySQL、PostgreSQL)のパフォーマンスチューニング、レプリケーション、フェイルオーバー設計の実務経験。DynamoDBやS3等のクラウドネイティブストレージの特性理解。バックアップ・ディザスタリカバリ戦略の策定
自動化・CI/CD
GitHub ActionsまたはGitLab CIを用いたCI/CDパイプラインの設計・運用。Infrastructure as Codeの徹底、自動修復の仕組みの構築、カオスエンジニアリング(Chaos Monkey, Litmus)による耐障害性の検証
歓迎する経験・スキル
コンテナ・オーケストレーション
Kubernetes本番運用(EKS, GKE, AKS)と、HelmおよびArgo CDによるGitOpsベースのデプロイメント管理
セキュリティ
シークレット管理(Vault、クラウドネイティブソリューション)。ゼロトラストアーキテクチャの設計・導入経験
ML/AI基礎
MLモデルのライフサイクル(学習、評価、デプロイ、モニタリング)の理解。GPUリソース要件、モデルバージョニング、A/Bテスト基盤、ML推論ワークロードの性能特性について判断し、適切なインフラ設計に活かせること
AIモデルサービング
vLLM、TGI、またはTriton Inference Serverを用いたLLMの本番デプロイ経験。推論レイテンシ・スループットの最適化、GPUリソースの効率的な管理
データプラットフォーム
Kafka等のストリーミング基盤の経験、またはSnowflake、Databricks等のクラウドデータプラットフォームの運用経験
このロールに興味がありますか?
何を作りたいか、なぜそう思うか、教えてください。