Chapitre 6 : Critères de choix décisionnels

Cette section est cruciale car elle fournit la grille d'analyse pour arbitrer entre les différentes solutions. Il n'y a pas de "bonne" réponse universelle, tout dépend du contexte.

Coûts (TCO - Total Cost of Ownership)

Le coût est souvent le premier critère, mais il faut l'analyser correctement sur toute la durée de vie.

CAPEX vs OPEX

CAPEX (Capital Expenditure) - Investissement

On-premise / Cloud privé : achat de matériel, licences perpétuelles
Immobilisé au bilan, amortissement sur 3-5 ans
Gros investissement initial
Impact sur la trésorerie
Peut nécessiter validation board/direction
Avantage fiscal selon les pays (amortissement)

OPEX (Operational Expenditure) - Dépense courante

Cloud public : facturation mensuelle, pay-as-you-go
Charge d'exploitation récurrente
Pas d'immobilisation
Préserve la trésorerie
Plus facile à faire valider (pas de gros ticket)
Déductible fiscalement directement

Implications business

Startup/PME : préfère OPEX (pas de capital)
Grande entreprise : peut arbitrer selon stratégie financière
Contexte économique : taux d'intérêt, fiscalité

Calcul du TCO (Total Cost of Ownership)

Il faut comparer sur un horizon temporel (typiquement 3-5 ans).

On-premise

Achat matériel (serveurs, stockage, réseau)
Licences logicielles (OS, hyperviseurs, outils)
Datacenter (loyer, électricité, climatisation, sécurité physique)
Personnel (salaires équipe ops, astreintes)
Maintenance matérielle (contrats support, pièces)
Renouvellement (obsolescence, évolution technologique)
Backup et DR (infrastructure redondante)
Connectivité (liens opérateurs)

Cloud public

Compute (instances, containers, serverless)
Stockage (block, object, archivage)
Réseau (transfert sortant = egress, load balancers)
Services managés (bases de données, caches, queues)
Support (plans de support optionnels)
Outils tiers (monitoring, sécurité, FinOps)
Formation des équipes
Migration initiale

Pièges classiques du cloud public

Egress costs : sortie de données très chère (peut exploser le budget)
Services managés : pratiques mais coûteux à l'échelle
Logs et monitoring : volumétrie = coûts cachés
Over-provisioning : instances trop puissantes ou pas optimisées
Instances running 24/7 : ne pas éteindre les env de dev/test
Snapshots oubliés : stockage qui s'accumule
Multi-AZ sans besoin : redondance pas toujours nécessaire

Outils pour optimiser les coûts cloud

FinOps : discipline de gestion financière du cloud
AWS Cost Explorer, Azure Cost Management, GCP Cost Management
Outils tiers : CloudHealth, Cloudability, Spot.io
Tagging rigoureux des ressources (par projet, équipe, environnement)
Reserved Instances / Savings Plans pour workloads stables
Spot instances pour workloads interruptibles
Auto-scaling et right-sizing continus
Shutdown automatique des ressources non-prod

Règle empirique (rough estimate)

Pour des charges stables : on-premise souvent plus économique à partir de 3-5 ans
Pour des charges variables : cloud public plus économique
Le break-even dépend énormément du contexte

Exemple chiffré simplifié

Hypothèse : application nécessitant 10 serveurs moyens (8 cores, 32GB RAM)

On-premise (5 ans)

Serveurs : 50k€
Stockage : 20k€
Réseau : 10k€
Licences VMware/Windows : 30k€
Datacenter (5 ans) : 25k€
Personnel (1 ops, 5 ans) : 300k€
Maintenance/renouvellement : 30k€
Total : ~465k€ soit 93k€/an

Cloud public (5 ans)

10 instances (m5.2xlarge AWS) : 150k€/an
Stockage (1TB par serveur) : 15k€/an
Transfert sortant (estimé) : 10k€/an
Services managés : 20k€/an
Total : ~195k€/an x 5 = 975k€

→ Dans cet exemple, on-premise est 2x moins cher... MAIS :

Le cloud offre une élasticité (scale down hors heures)
Pas de gros investissement initial
Innovation et services managés disponibles
Pas de risque d'obsolescence

Si on optimise le cloud (reserved instances, auto-scaling, shutdown non-prod)

Économie de 30-50% possible → ~500-700k€
On se rapproche du coût on-premise

Conclusion TCO

Le TCO seul ne suffit pas. Il faut pondérer avec les autres critères (agilité, time-to-market, risques).

Compétences de l'équipe

Le facteur humain est souvent sous-estimé, pourtant c'est un critère décisif. Une technologie excellente avec une équipe qui ne la maîtrise pas = échec.

État des lieux des compétences actuelles

Questions à se poser

Quelle est la taille de l'équipe IT/Ops ?
Quelles sont les compétences actuelles (technologies maîtrisées) ?
Quel est le niveau de maturité DevOps/Cloud ?
Quelle est la capacité d'apprentissage de l'équipe ?
Quel est le turnover (risque de perte de connaissance) ?
Y a-t-il une culture d'innovation ou plutôt conservatrice ?

Compétences requises par modèle

On-premise traditionnel

Administration systèmes (Linux, Windows Server)
Virtualisation (VMware, Hyper-V, Proxmox)
Réseau (Cisco, routage, switching, VLANs)
Stockage (SAN, NAS, LVM, RAID)
Sécurité infrastructure (firewalls, VPN)
Hardware (maintenance, diagnostic)
Datacenter operations
Monitoring classique (Nagios, Zabbix)

Cloud public

Nouveaux paradigmes : mindset cloud-native
Services cloud spécifiques (EC2, S3, Lambda, RDS, etc.)
Infrastructure as Code (Terraform, CloudFormation)
Conteneurisation (Docker, Kubernetes)
CI/CD (Jenkins, GitLab CI, GitHub Actions)
Serverless et event-driven architecture
Cloud networking (VPC, subnets, security groups)
IAM et gestion des accès cloud
Monitoring cloud (CloudWatch, Stackdriver)
FinOps (optimisation des coûts)
Sécurité cloud (responsabilité partagée)

Cloud privé

Mix des deux mondes
Compétences infrastructure traditionnelles
Plus : orchestration cloud (OpenStack, VMware Cloud)
Automatisation poussée (Ansible, Puppet, Chef)
APIs et scripting avancé
Software-Defined Networking (SDN)
Software-Defined Storage (SDS)

Hybride

Le plus exigeant : toutes les compétences ci-dessus
Networking avancé (VPN, Direct Connect, SD-WAN)
Gestion multi-environnements
Orchestration cross-platform (Terraform multi-cloud)
Observabilité distribuée
Security across boundaries

Gap analysis et plan d'action

Évaluer l'écart

Compétences actuelles vs compétences cibles
Identifier les gaps critiques
Prioriser selon la stratégie choisie

Combler l'écart

Formation

Certifications cloud (AWS Certified, Azure, GCP)
Formations internes (workshops, brown bags)
Formations externes (bootcamps, cours en ligne)
Conférences et meetups
Budget : 2-5k€ par personne et par an

Recrutement

Profils cloud rares et chers (pénurie)
Guerre des talents (GAFAM, startups)
Délai de recrutement long (3-6 mois)
Coût : salaires 20-40% supérieurs pour profils cloud expérimentés
Risque : turnover élevé dans l'IT

Conseil / Accompagnement

Faire appel à des experts externes (transition)
Cabinets spécialisés (Accenture, Capgemini, etc.)
Freelances/consultants ponctuels
Coût : TJM 500-1500€ selon expertise
Attention : transfer de connaissance indispensable

Partenariats / Managed services

Déléguer une partie de l'ops (managed cloud)
MSP (Managed Service Provider)
Réduit le besoin en compétences pointues
Coût : 20-40% du budget cloud en plus
Risque : dépendance, perte de contrôle

Montée en compétences progressive

Commencer par des projets pilotes (POC)
Pair programming / mob programming
Documentation et knowledge sharing
Postmortems et retours d'expérience
Culture du "fail fast, learn fast"

Culture et mindset

Transition culturelle nécessaire

On-premise → Cloud

De "pets" (serveurs nommés, choyés) à "cattle" (troupeau jetable)
De changements rares et contrôlés à déploiements fréquents
De tickets manuels à automation/self-service
De silos (dev/ops/sécu) à DevSecOps
De planification long terme à itératif/agile

Résistance au changement

Peur de l'obsolescence ("mon job va disparaître")
Confort de la maîtrise actuelle
Scepticisme sur le cloud ("c'est juste l'ordinateur de quelqu'un d'autre")
Attachement à l'infrastructure physique

Gérer la résistance

Communication transparente sur la vision
Impliquer l'équipe dans les décisions
Valoriser l'apprentissage
Montrer les opportunités (nouvelles compétences, carrière)
Quick wins pour prouver la valeur
Accompagnement psychologique si nécessaire

Taille d'équipe par modèle (ordre de grandeur)

Pour une infrastructure moyenne (50-100 serveurs/VMs) :

On-premise

3-5 ops/sysadmins
1-2 réseau
1 sécurité
1 DBA (selon l'usage)
Total : 5-10 personnes

Cloud public (bien optimisé)

2-3 cloud engineers/SRE
1 FinOps (peut être partagé)
Sécurité mutualisée avec le dev (shift-left)
Total : 2-4 personnes (moins d'ops, plus de dev)

Cloud privé

3-4 ops (gestion de la plateforme)
1-2 réseau
1 sécurité
Total : 5-7 personnes

Hybride

Le plus exigeant : 6-12 personnes selon la complexité

→ Le cloud public bien fait réduit le besoin en ops, mais requiert des profils plus qualifiés (et donc plus chers).

Recommandations

Ne pas sous-estimer le facteur humain
Anticiper la formation (6-12 mois avant migration)
Prévoir un budget formation conséquent (5-10% masse salariale IT)
Si l'équipe est petite (<5 personnes) : privilégier cloud public ou managed services
Si l'équipe résiste fortement : peut-être rester on-premise n'est pas si mal

Roadmap technique

La stratégie d'hébergement doit s'aligner avec la vision technique à moyen/long terme.

Vision technique et stratégie entreprise

Questions stratégiques

Quelle est la stratégie business de l'entreprise (croissance, stabilité, pivot) ?
Quelle est la vision produit (fonctionnalités prévues) ?
Quels sont les objectifs IT (innovation, optimisation, réduction coûts) ?
Quel est l'horizon de la refonte (1 an, 3 ans, 5 ans) ?
Y a-t-il des contraintes temporelles (dead-lines réglementaires, contrats) ?

Alignement hébergement / roadmap

Scénario : Croissance rapide prévue

Besoin de scalabilité importante
Incertitude sur les volumes → Cloud public : élasticité, pay-as-you-grow

Scénario : Stabilisation et optimisation

Volumes prévisibles et stables
Focus sur la réduction des coûts → On-premise ou cloud privé : TCO optimisé

Scénario : Innovation produit intensive

Besoin d'expérimenter (IA/ML, IoT, big data)
Time-to-market critique → Cloud public : accès à services innovants

Scénario : Transformation digitale progressive

Migration du legacy sur plusieurs années
Coexistence ancien/nouveau monde → Hybride : progressivité

Stack technique et architecture

Applications monolithiques legacy

Difficiles à migrer dans le cloud
Nécessitent souvent refactoring
Peuvent rester on-premise temporairement ou définitivement
Stratégie : strangler pattern (étrangler progressivement)

Architecture microservices / cloud-native

Conçue pour le cloud (stateless, 12-factor)
Conteneurisée (Docker/Kubernetes)
Event-driven, resilient → Cloud public ou privé : tirent pleinement parti des capacités

Applications avec état (stateful)

Bases de données complexes
Systèmes de fichiers partagés
Applications legacy avec état local → Plus complexes dans le cloud, considérer hybride

Dépendances et intégrations

Systèmes interconnectés

ERP on-premise
Applications métier legacy
APIs et flux de données entre systèmes
Latence critique entre composants

→ Si forte interdépendance on-premise, garder proximité ou prévoir liens dédiés

Partenaires et fournisseurs

Intégrations B2B
EDI (Échange de Données Informatisées)
APIs exposées à des tiers → Cloud public facilite l'exposition sécurisée

Évolutions technologiques anticipées

Court terme (0-2 ans)

Quelles technologies seront adoptées ?
Quels projets sont déjà planifiés ?
Quels besoins métier émergent ?

Moyen terme (2-5 ans)

Quel niveau de maturité DevOps visé ?
Adoption de conteneurs ? Kubernetes ?
Serverless envisagé ?
IA/ML dans la roadmap ?

Long terme (>5 ans)

Vision aspirationnelle
Transformation complète ?
All-in cloud ou hybride durable ?

Stratégies de migration

Big bang

Tout migrer d'un coup
Risqué, complexe, rarement recommandé
Peut être envisagé pour petites infrastructures simples

Progressif / par vagues

Migrer application par application
Réduire les risques
Apprendre et ajuster en continu
Recommandé pour la plupart des cas

Strangler pattern

Nouveau système "étrangle" progressivement l'ancien
Fonctionnalités migrées une par une
Coexistence longue période
Idéal pour refonte de monolithes

Lift-and-shift puis optimize

Phase 1 : migrer tel quel (rehosting)
Phase 2 : optimiser et refactorer
Rapide à démarrer, amélioration continue
Bon compromis rapidité/risque

Priorisation des workloads à migrer

Critères de priorisation

Quick wins : applications simples, peu risquées, haute visibilité
Obsolescence : systèmes arrivant en fin de vie
Coût : applications coûteuses à héberger on-premise
Business value : impact métier fort
Dépendances : minimiser d'abord, complexes ensuite

Matrice de priorisation

Axe X : Complexité technique (faible → élevée)
Axe Y : Valeur métier (faible → élevée)
Prioriser : haute valeur, faible complexité (quick wins)
Planifier soigneusement : haute valeur, haute complexité
Différer : faible valeur, haute complexité

Gestion du legacy

Stratégies avec les systèmes legacy

Retire (retirer)

Application plus utilisée ou redondante
Décommissionner
Archiver les données si nécessaire

Retain (conserver)

Système stable, fonctionne, pas de ROI à migrer
Garder on-premise
Réévaluer périodiquement

Rehost (lift-and-shift)

Migrer tel quel (VM → VM cloud)
Rapide, peu risqué
Ne tire pas parti du cloud

Replatform (lift-and-reshape)

Adaptations mineures (DB managée au lieu de VM+DB)
Compromis effort/bénéfice
Bon pour beaucoup d'apps

Refactor/Re-architect

Réécriture significative
Architecture cloud-native
Coûteux mais maximise les bénéfices cloud

Replace

Remplacer par SaaS ou COTS
Exemple : Exchange → Office 365
Réduit la maintenance

Rebuild

Réécrire from scratch
Rarement justifié (très coûteux)
Si technologie obsolète et critique

Roadmap de compétences

La roadmap technique doit s'accompagner d'une roadmap de montée en compétences (voir section Compétences de l'équipe).

Checkpoints et réversibilité

Prévoir des points de validation (go/no-go)
Possibilité de rollback en début de migration
Plan B si les hypothèses s'avèrent fausses

Exemple de roadmap 3 ans

Année 1 : Fondations et quick wins

Q1 : Formation équipe, POC cloud
Q2 : Migration environnements dev/test
Q3-Q4 : Migration apps non-critiques (quick wins)
Parallèle : Setup réseau (Direct Connect), IAM, monitoring

Année 2 : Apps métier et optimisation

Q1-Q2 : Migration apps métier prioritaires
Q3 : Refactoring première vague (cloud-native)
Q4 : Optimisation coûts (reserved instances, right-sizing)

Année 3 : Workloads complexes et hybride stabilisé

Q1-Q2 : Migration workloads complexes/legacy
Q3 : Consolidation, optimisation finale
Q4 : Décommissionnement infrastructure on-premise (ou conservation si hybride durable)

Chapitre 6 : Critères de choix décisionnels ​

Coûts (TCO - Total Cost of Ownership) ​

CAPEX vs OPEX ​

CAPEX (Capital Expenditure) - Investissement ​

OPEX (Operational Expenditure) - Dépense courante ​

Implications business ​

Calcul du TCO (Total Cost of Ownership) ​

On-premise ​

Cloud public ​

Pièges classiques du cloud public ​

Outils pour optimiser les coûts cloud ​

Règle empirique (rough estimate) ​

Exemple chiffré simplifié ​

On-premise (5 ans) ​

Cloud public (5 ans) ​

Si on optimise le cloud (reserved instances, auto-scaling, shutdown non-prod) ​

Conclusion TCO ​

Compétences de l'équipe ​

État des lieux des compétences actuelles ​

Questions à se poser ​

Compétences requises par modèle ​

On-premise traditionnel ​

Cloud public ​

Cloud privé ​

Hybride ​

Gap analysis et plan d'action ​

Évaluer l'écart ​

Combler l'écart ​

Culture et mindset ​

Transition culturelle nécessaire ​

Résistance au changement ​

Gérer la résistance ​

Taille d'équipe par modèle (ordre de grandeur) ​

On-premise ​

Cloud public (bien optimisé) ​

Cloud privé ​

Hybride ​

Recommandations ​

Roadmap technique ​

Vision technique et stratégie entreprise ​

Questions stratégiques ​

Alignement hébergement / roadmap ​

Scénario : Croissance rapide prévue ​

Scénario : Stabilisation et optimisation ​

Scénario : Innovation produit intensive ​

Scénario : Transformation digitale progressive ​

Stack technique et architecture ​

Applications monolithiques legacy ​

Architecture microservices / cloud-native ​

Applications avec état (stateful) ​

Dépendances et intégrations ​

Systèmes interconnectés ​

Partenaires et fournisseurs ​

Évolutions technologiques anticipées ​

Court terme (0-2 ans) ​

Moyen terme (2-5 ans) ​

Long terme (>5 ans) ​

Stratégies de migration ​

Big bang ​

Progressif / par vagues ​

Strangler pattern ​

Lift-and-shift puis optimize ​

Priorisation des workloads à migrer ​

Critères de priorisation ​

Matrice de priorisation ​

Gestion du legacy ​

Stratégies avec les systèmes legacy ​

Roadmap de compétences ​

Checkpoints et réversibilité ​

Exemple de roadmap 3 ans ​

Année 1 : Fondations et quick wins ​

Année 2 : Apps métier et optimisation ​

Année 3 : Workloads complexes et hybride stabilisé ​

Chapitre 6 : Critères de choix décisionnels

Coûts (TCO - Total Cost of Ownership)

CAPEX vs OPEX

CAPEX (Capital Expenditure) - Investissement

OPEX (Operational Expenditure) - Dépense courante

Implications business

Calcul du TCO (Total Cost of Ownership)

On-premise

Cloud public

Pièges classiques du cloud public

Outils pour optimiser les coûts cloud

Règle empirique (rough estimate)

Exemple chiffré simplifié

On-premise (5 ans)

Cloud public (5 ans)

Si on optimise le cloud (reserved instances, auto-scaling, shutdown non-prod)

Conclusion TCO

Compétences de l'équipe

État des lieux des compétences actuelles

Questions à se poser

Compétences requises par modèle

On-premise traditionnel

Cloud public

Cloud privé

Hybride

Gap analysis et plan d'action

Évaluer l'écart

Combler l'écart

Culture et mindset

Transition culturelle nécessaire

Résistance au changement

Gérer la résistance

Taille d'équipe par modèle (ordre de grandeur)

On-premise

Cloud public (bien optimisé)

Cloud privé

Hybride

Recommandations

Roadmap technique

Vision technique et stratégie entreprise

Questions stratégiques

Alignement hébergement / roadmap

Scénario : Croissance rapide prévue

Scénario : Stabilisation et optimisation

Scénario : Innovation produit intensive

Scénario : Transformation digitale progressive

Stack technique et architecture

Applications monolithiques legacy

Architecture microservices / cloud-native

Applications avec état (stateful)

Dépendances et intégrations

Systèmes interconnectés

Partenaires et fournisseurs

Évolutions technologiques anticipées

Court terme (0-2 ans)

Moyen terme (2-5 ans)

Long terme (>5 ans)

Stratégies de migration

Big bang

Progressif / par vagues

Strangler pattern

Lift-and-shift puis optimize

Priorisation des workloads à migrer

Critères de priorisation

Matrice de priorisation

Gestion du legacy

Stratégies avec les systèmes legacy

Roadmap de compétences

Checkpoints et réversibilité

Exemple de roadmap 3 ans

Année 1 : Fondations et quick wins

Année 2 : Apps métier et optimisation

Année 3 : Workloads complexes et hybride stabilisé