banner
Centro notizie
Esperienza completa e metodologie avanzate

Photobox sviluppa un'immagine molto più chiara dell'osservabilità

Aug 29, 2023

Photobox utilizza la piattaforma di osservabilità Dynatrace per consolidare tutti i dati di monitoraggio del sistema in un unico pannello di controllo. L’azienda di stampa personalizzata, che ora fa parte del gruppo albelli-Photobox, ha introdotto la piattaforma prima della fusione alla fine del 2022.

In precedenza l'azienda aveva difficoltà ad adottare un approccio proattivo ai problemi del sistema. Il personale IT dell'azienda ha dovuto monitorare uno stack tecnologico complesso costruito su AWS EC2 e microservizi in esecuzione su Kubernetes e AWS Lambda.

Secondo Alex Hibbitt, Direttore tecnico di albelli-Photobox Group:

Il complesso stack è stato creato da una serie di fusioni e acquisizioni. Quel livello di complessità diventa incredibilmente difficile da osservare in modo efficace. Avevamo almeno cinque diverse piattaforme di osservabilità, utilizzando circa 10 tecnologie diverse. L'osservabilità è diventata un'abilità posseduta solo da pochi dei nostri ingegneri veramente esperti.

Hibbitt ricorda che l'identificazione dei problemi IT potrebbe richiedere fino a quattro ore. La natura complessa dell’osservabilità, nel frattempo, ha reso il processo difficile da intraprendere. Secondo lui, la mancanza di un’osservabilità efficace ha creato sfide in termini di scalabilità e reattività:

È stato davvero difficile per noi rispondere a un problema. Se succedesse qualcosa, dovremmo contattare i nostri migliori risolutori di problemi e farli sentire nell'etere e dire: "Oh, sembra che sia da qualche parte qui". Questo approccio non era molto scientifico.

Per noi ha cambiato le regole del gioco in termini di capacità di rispondere ai problemi all'interno del nostro stack complesso e di applicare approfondimenti su dove stiamo concentrando i nostri sforzi ingegneristici.

L’azienda ha riconosciuto che era necessario adottare una strategia diversa. Come primo tentativo, l’azienda ha introdotto il proprio strumento di osservabilità. Tuttavia, questa tecnologia su misura ha solo aggiunto un ulteriore livello di complessità anziché creare valore. A quel punto, Photobox ha iniziato a parlare con i fornitori di tecnologia su una potenziale soluzione al problema. Hibbit dice:

Abbiamo messo insieme una lista dei desideri di ciò che volevamo: un unico strumento in grado di coprire tutto, dai servizi di database front-end a quelli back-end. Volevamo democratizzare l'accesso alla piattaforma, in modo che qualsiasi ingegnere potesse apprendere il processo e capire cosa stava facendo. E avevamo bisogno di qualcosa che aiutasse il nostro rapporto segnale-rumore, in modo da poter vedere quali avvisi erano veramente importanti.

Dopo aver utilizzato la lista dei desideri per identificare potenziali soluzioni, Photobox ha completato prove di basso livello con alcuni fornitori. Il team di Hibbitt ha quindi eseguito un progetto pilota di lunga durata con la soluzione preferita, Dynatrace. A causa della complessità dei sistemi in esecuzione su Photobox, l'azienda ha istituito un periodo di prova retribuito di sei mesi per testare la piattaforma e generare dati significativi alla fine del 2021:

Come risultato della prova, siamo diventati operativi in ​​tutti i nostri ambienti di produzione. Quella transizione serviva semplicemente a connettersi a un’implementazione a più lungo termine. Uno dei nostri punti chiave del test è stato: "Avevamo la sicurezza necessaria per disattivare tutte le nostre vecchie piattaforme e affidarci esclusivamente a Dynatrace?" La risposta è stata "sì" e ora è una parte fondamentale del nostro stack tecnologico.

Hibbitt afferma che l'introduzione dell'automazione di Dynatrace e delle funzionalità AIOps ha prodotto alcuni grandi vantaggi. Photobox ha ridotto dell'80% il tempo medio di risoluzione dei problemi e del 60% il numero di incidenti critici che incidono sulla disponibilità del servizio durante i periodi di punta degli acquisti. Uno dei principali vantaggi dell'approccio Dynatrace sono le schede problematiche della piattaforma:

Le carte raccolgono tutti i diversi parametri correlati che potrebbero essere andati storti in un incidente e li presentano come una visione olistica. Fa due cose davvero interessanti. Innanzitutto, ti dà un'idea del numero di clienti interessati da un problema, il che aiuta i nostri ingegneri a quantificare se qualcosa è veramente importante. In secondo luogo, esegue un'analisi della causa principale, in cui identifica il potenziale problema. E in un'organizzazione distribuita e basata su microservizi come la nostra, questo è incredibilmente utile.