Category

Strategia

Category

Mikroserwisy, czy też mikrousługi, to jeden z największych buzzword’ów ostatnich lat. Okazuje się jednak, że jest z nim trochę jak z seksem nastolatków – wszyscy mówią, że to robią, ale w rzeczywistości doświadczenie mają tylko nieliczni. Co trzeba zrobić, żeby dobrze wykorzystać ten rodzaj architektury? Jakie warunki musimy spełnić, aby wniósł on coś więcej w naszą pracę niż tylko zapis w CV? O tym przeczytacie w tym wpisie.

Często obserwuję przydzielanie ludzi do projektów za pomocą algorytmu round-robin, czyli w zasadzie losowo. Nowo rekrutowanych czy kończących inne zadania pracowników wrzuca się w projekt, w którym aktualnie jest największe zapotrzebowanie. Czy to na prawdę najlepsza metoda? Jak można to zrobić lepiej, dowiesz się z poniższego artykułu.

Model rozwoju kompetencji

Współcześnie funkcjonuje wiele różnych modeli rozwoju kompetencji. Warto wspomnieć choćby o modelu czterech etapów nabywania kompetencji. Jest on bezpośrednio powiązany z efektem Dunninga-Krugera, który w zasadzie stanowi temat na osobny wpis. Tutaj natomiast chciałbym szerzej omówić model braci Dreyfus. Zakładają oni, że możemy wyróżnić pięć poziomów kompetencji:

  1. Novice (nowicjusz)
  2. Competence (kompetentny)
  3. Proficiency (biegły)
  4. Expertise (ekspert)
  5. Mastery (mistrz)

Nowicjusz. Dopiero zaczynamy przygodę z daną dziedziną. Działamy tylko w oparciu o teorię, wymagamy pełnej dekompozycji złożonych zadań, pozbawienia ich kontekstu (do analizy którego potrzebne jest doświadczenie) i ustalenia prostych reguł działania. Wszystkie decyzje podejmujemy analitycznie, ślepo podążając za regułami. Aby się rozwijać, potrzebujemy nadzoru – zewnętrznego i/lub opartego o własne obserwacje. W IT to ktoś, kto właśnie zaczyna pierwszą pracę. Szybko dowiaduje się, że może zapomnieć o tym, co umie, bo „tam były studia, a tu jest życie”. Często nie może zrozumieć, jak baza danych może działać bez trzeciej postaci normalnej.

Kompetentny. Nabraliśmy już trochę doświadczenia. Nadal, podobnie jak nowicjusz, decyzje podejmujemy analitycznie, wymagamy nadzoru i dekompozycji złożonych zagadnień, ale uczymy się już dobierać reguły w zależności od sytuacji oraz aplikować powtarzalne wzorce. W środowisku pilotów mówi się, że gdy zaczynamy latać, mamy dwa worki – pusty z doświadczeniem i pełny ze szczęściem. I cały problem polega na tym, żeby napełnić worek z doświadczeniem, zanim opróżni się ten ze szczęściem. W IT osoby kompetentne często są podatne na wpływ prostych przykładów i konferencyjnych prezentacji. Ponieważ nie znają szerszego kontekstu, nie potrafią przewidzieć długoterminowych konsekwencji podejmowanych decyzji. „Wdrożyłem transakcje rozproszone, bo na prezentacji człowiek mówił, że rozwiążą wszystkie nasze problemy”.

Biegły. Żadna typowa sytuacja nie jest już dla nas zaskoczeniem. Potrafimy odnaleźć się w zmieniających się okolicznościach. W IT oznacza to, że zaczynamy myśleć długofalowo. Wiemy, że pisanie testów i wykorzystanie architektury hexagonalnej szybko przyniesie wymierny efekt.

Ekspert. Nareszcie decyzje zaczynamy podejmować intuicyjnie. Do gry weszła pasja. Każdą wolną chwilę poświęcamy na zgłębianie tajników technologii. Już nie zastanawiamy się nad każdym krokiem, choć dalej potrzebujemy monitorowania postępów. Reguły zaczynają być dla nas transparentne. Nie skupiamy się już nad tym, jakie wzorce projektowe stosujemy – chcemy po prostu rozwiązać zadanie w najlepszy możliwy sposób.

Mistrz. Najwyższy stopień wtajemniczenia. Intuicja i pełne zatracenie się w realizowanych zadaniach. Teraz reguły nas ograniczają. Świadomie zaczynamy je łamać, aby zmaksymalizować efekty. W IT ciężko nam powiedzieć, jaką architekturę ma nasz system. Jest to miks wielu różnych elementów. Łamiemy popularne reguły lub zaczynamy tworzyć własne. Baza danych dawno nie ma postaci normalnej, często ma nawet kilka równoległych modeli. Do efektywnego działania potrzebujemy znajomości całego spektrum działań.

Podział na domeny

Zgodnie z podejściem Domain Driven Design, systemy dowolnego przedsiębiorstwa możemy podzielić na trzy rodzaje domen:

  • domena główna (core) – krytyczna dla działania firmy. To ona decyduje o naszej przewadze względem konkurencji i ma wpływ na podstawowe procesy biznesowe.  W przypadku portalu aukcyjnego to tutaj będzie mechanizm prowadzenia licytacji czy opisu przedmiotów;
  • domena wspierająca (supporting) – to, co pomaga nam prowadzić biznes, ale bez czego bylibyśmy w stanie się (przynajmniej czasowo) obejść. To tutaj trafią oceny sprzedających czy systemy rekomendacji dodatkowych produktów;
  • domena generyczna (generic) – wszystko, co możemy kupić gotowe i nie musimy tego pisać od podstaw. Systemy płatności, aplikacje CRM, live-chat z klientami etc.

Świadomość tego, jakie systemy wchodzą w skład jakich domen, pozwala nam świadomie zarządzać jakością. Wiadomo, że mimo najszczerszych chęci, nie wszystko będziemy w stanie zrobić idealnie. Całą mądrość polega na tym, żeby wiedzieć, w którym miejscu można odpuścić. Jeżeli gdzieś mamy zrezygnować z jakości, róbmy to w domenie wspierającej. Świadome dopuszczanie długu w głównej domenie to proszenie się o kłopoty. Można to porównać do brania kredytu we frankach szwajcarskich. Początkowo efekty są super, ale później okazuje się trudny bądź niemożliwy do spłacenia.

Warto wiedzieć, że wykorzystanie domeny generycznej zawsze jest dobrym pomysłem. W IT trwa permanentna rekrutacja, bo brakuje rąk do pracy. Jaki jest zatem sens wykorzystywania tych rąk do tworzenia czegoś, co już istnieje? Co więcej, istnieje jako główna domena działalności innej firmy, w związku z czym możemy założyć, że ktoś poświęci jej znacznie więcej czasu niż my kiedykolwiek będziemy mogli to zrobić. A do tego, prawie na pewno w dłuższej perspektywie wyjdzie taniej.

Kompetencje a domeny

Mamy już świadomość różnych poziomów kompetencji naszych pracowników, a także różnych potrzeb w zależności od działających w naszej firmie domen. Możemy zatem połączyć obie informacje i dokonać świadomego przydziału ludzi do projektów.

Ci najlepsi (poziom 4 i 5) powinni zająć się rozwojem właśnie domeny głównej. Będziemy stosowali takie techniki, jak Domain Driven Design, Test Driven Development, CQRS etc. Nie ukrywajmy, że nie każdy programista jest w stanie biegle wykorzystywać te podejścia. Oczywiście, nie da się obsadzić całego rozwoju (nawet ograniczonego do głównych procesów) ekspertami. Uzupełniamy zespół kompetentnymi pracownikami (poziom 3), ale nie zapominajmy, na kim spoczywa ciężar odpowiedzialności.

Domena wspierająca, poza tym, że obejmuje mniej newralgiczne części naszego biznesu, jest też ciekawym miejscem do eksperymentów. Jeżeli rozważamy wejście w nową, niesprawdzoną technologię, powinno ono mieć miejsce właśnie tutaj. Kto się tym zajmie? Całe grono mało lub średnio doświadczonych (poziomy 1-3) programistów, pilotowanych przez kilku ekspertów poziomu czwartego.

Serce nie sługa

Niewątpliwie, podejmowanie decyzji jedynie na podstawie merytorycznych przesłanek jest inżynierską utopią. Niestety, w prawdziwym życiu, pojawia się wiele zewnętrznych, trudno kontrolowanych czynników.

  • „X nie chce pracować z Y”
  • „Z nie chce się uczyć nowej domeny”
  • „W napalił się na Kafkę i zrobi wszystko, żeby wylądować w projekcie AnonimowyKafkoholik”

Pominięcie powyższych aspektów może, delikatnie mówiąc, doprowadzić do ogólnozakładowej katastrofy. Pamiętajmy zatem, że kompetencje techniczne, są oczywiście bardzo ważne, ale nie najważniejsze.

A może ktoś zna jeszcze lepszy sposób na alokowanie developerów? Zapraszam do podzielenia się nimi w komentarzu.

Rodzice zawsze mi powtarzali – „ucz się dziecko systematycznie”. Ale dzieci zawsze wiedzą lepiej. Z czasem każdy z nas przekonuje się jednak, że systematyczne podejście ma większy sens niż walka za pięć dwunasta. Co to ma wspólnego z wytwarzaniem oprogramowania? To właśnie temat tego wpisu.

Życie bez ciągłej integracji

Klasyczny proces rozwoju oprogramowania polega na tworzeniu osobnej gałęzi dla każdego projektu. Największym plusem takiego podejścia jest możliwość odłożenia w czasie decyzji, które projekty wejdą w skład wdrożenia. Zamiast planować długofalowo, możemy w oparciu o stan zaawansowania developmentu i testów integrować poszczególne projekty. A jakie są minusy? Scalenie (merge) gałęzi kodu, w których wykonano dużo zmian, jest dość czasochłonne. Zawsze pojawiają się konflikty, wynikające z tego, że jeden fragment kodu został w różny sposób zmodyfikowany w ramach kilku projektów. Liczba takich konfliktów i czas ich rozwiązywania są trudne do przewidzenia. W zależności od wielkości projektu i czasu życia scalanych gałęzi, potrafi to zająć kilka, a nawet kilkanaście dni. Co więcej, proces rozwiązywania konfliktów nie jest bezbłędny. Dość często dochodzi do przypadkowej ingerencji w poprawność procesów biznesowych. Pół biedy, jeżeli po połączeniu projektów wykonujemy pełną procedurę testową. Wtedy tracimy „tylko” czas. Niestety z reguły firmy ograniczają się do weryfikacji regresji. A błędy związane z nowymi zmianami odkrywane są dopiero po wdrożeniu na środowisko produkcyjne.

Co integrujemy?

Ciągła integracja to w zasadzie podstawa nowoczesnego prowadzenia projektów. Zakłada ona, że cały rozwój odbywa się w jednej gałęzi (branchu) kodu. Takie podejście bardzo ogranicza liczbę konfliktów i praktycznie do zera eliminuje problematyczne merge. Szansa, że podczas dwu-, trzymiesięcznej fazy developmentu, dwóch programistów zmodyfikuje tę samą metodę jest bardzo duża. Szansa, że zrobią to tego samego dnia, jest już zdecydowanie mniejsza. Właśnie na takiej systematyce opiera się ciągła integracja. Dodatkowo, skoro mamy już wszystkie zmiany w jednej gałęzi, możemy iść o krok dalej. Standardem jest regularne (nawet po każdej integracji) kompilowanie aplikacji i uruchamianie choćby podstawowego zestawu testów. Zbudowaną paczkę można od razu wdrożyć na środowisko stage’ingowe (preprodukcyjne). Tutaj można na bieżąco weryfikować implementowane zmiany.

Co znaczy ciągle?

Tutaj ważny jest zdrowy rozsądek. Integrowanie zmian co miesiąc jest lepsze niż co dwa miesiące. A robienie tego raz w tygodniu jest lepsze niż raz w miesiącu. Ideałem, do którego dążymy, jest wykonywanie tego codziennie. Standardowy proces polega na pracy w branchu utworzonym specjalnie na potrzeby danej zmiany. Następnie tworzymy pull-request (czyli żądanie integracji). Zmieniony kod jest przeglądany (proces code-review), w celu wykrycia potencjalnych błędów, niespójności czy możliwych usprawnień. W zależności od wyniku przeglądu wraca do poprawy lub jest integrowany. Czy koniecznie trzeba to robić na koniec każdego dnia pracy? Oczywiście nie. Jeżeli wykonanie sensownej zmiany zajmie dwa dni, to właśnie po takim czasie rozpoczynamy proces.

Duże zmiany

A jak radzić sobie z dużymi zmianami? Nie wszystkie prace da się przecież podzielić na małe zadania. Czy wtedy rezygnujemy z ciągłej integracji? Oczywiście, że nie. Zastanówmy się, czy wrzucenie nieskończonego lub nawet niedziałającego kodu jest problematyczne? Na pierwszy rzut oka tak. Jednak czy na pewno? Problem stanowi tylko użycie takiego kodu. Tak długo, jak nie jest on wywoływany, wszystko jest w porządku. Najprostszym sposobem byłoby jego zakomentowanie, jednak to wyklucza nawigowanie po nim czy testowanie go. Zdecydowanie lepszym pomysłem jest zastosowanie feature flag. Działają one na zasadzie przełącznika, który aktywuje lub dezaktywuje określone fragmenty kodu. To z kolei daje nam realną możliwość zastosowania ciągłej integracji, nawet w przypadku długo trwających implementacji.

Jeżeli myślimy o pracy w metodykach zwinnych, to właśnie od wdrożenia praktyki ciągłej integracji powinniśmy zacząć. Bez tego uzyskanie szybkiego feedbacku, który jest podstawą agile, nie będzie możliwe.

Świat się zmienia. Ciężko z tym polemizować. Wiek pary, wiek elektryczności, wiek komputerów. Obecnie znajdujemy się w okresie określanym jako „industry 4.0”, w którym dzięki szerokiemu zastosowaniu internetu, automatyzacji i przetwarzania danych, powoli zaciera się granica między człowiekiem a maszyną. Jak wpłynie to na kształt znanego nam IT? Analiza w dalszej części wpisu.

Każdy z nas chce być szczęśliwy. Jednak czy da się zmierzyć szczęście? Czy możemy z pełnym przekonaniem stwierdzić, o ile jesteśmy szczęśliwsi danego dnia? Czy ktokolwiek usłyszał „dzisiaj jestem o 10% bardziej szczęśliwy niż tydzień temu”? Szczerze wątpię, jednak jeśli nawet, to czy miałoby to jakikolwiek sens? Nikt przecież nie oczekuje matematycznego podejścia do uczuć. Inaczej natomiast wygląda to w przypadku oprogramowania.

Eksperckie przeczucia

Sukces da się zmierzyć liczbami. A wszyscy, którzy twierdzą inaczej po prostu boją się prawdy.

Jo Nesbo

Tu równie często spotykam się z bardzo luźnym podejściem, „na czuja”, zamiast operowania twardymi liczbami. A mogłoby się wydawać, że to właśnie liczby powinny być naturalnym sposobem komunikacji w świecie technologii.

Szkolenia z architektury systemów często rozpoczynam od pytania: co rozumiemy przez „dobrą architekturę”? Jakie cechy świadczą o tym, że jest ona właściwa? Zazwyczaj odpowiedzi uzależnione są od profilu konkretnej firmy. Kilka z nich jednak się powtarza i ustalamy, że architektura powinna być:

  • utrzymywalna,
  • elastyczna,
  • dopasowana,
  • testowalna,
  • bezpieczna.

Gdy mamy już gotową listę, proszę o zapisanie na kartkach definicji jednej z powyższych cech, np. testowalności. Następnie każdy czyta swoją definicję i z każdą kolejną wypowiedzią rośnie konsternacja.

„Testowalność oznacza możliwość weryfikacji każdego komponentu systemu”

„Testowalność osiągamy przez krótki czas wykonania testów”

„Testowalność rozumiemy jako wysoki procent pokrycia kodu testami automatycznymi”

Co się stało? Chwilę wcześniej wszystko było uzgodnione, a teraz pojawiły się rozbieżności. I całe szczęście, że wydarzyło się to w kontrolowanych warunkach, podczas szkolenia, a nie kiedy wszyscy już wrócili do pracy. Wtedy skończyłoby się na tym, że jeden zespół dodaje testy, aby zwiększać pokrycie, a drugi je usuwa, byleby kompilacja odbywała się tak szybko, jak wcześniej. I konflikt gotowy. A wystarczyło wyrównać poziom świadomości.

Wyrównywanie poziomu świadomości

Do takiej operacji uspójniania oczekiwań możemy wykorzystać liczby. Uzgodnienie skali (bądź też skal) danej cechy, ujednolica jej rozumienie. Przeanalizujmy poniższe przykłady:

„Czas w minutach potrzebny do wykonania testów automatycznych na środowisku ciągłej integracji”

„Procent ścieżek krytycznych pokrytych testami end2end”

„Liczba funkcjonalnych błędów blokujących wykrytych na środowisku produkcyjnym”

„Procent procesów biznesowych możliwych do przetestowania akceptacyjnie bez wykorzystania GUI”

Oczywiście skale te bardzo się między sobą różnią. Ciężko wypracować „jedyną słuszną” definicję jakiejś cechy. Zawsze zależy ona od technologii (będzie inna dla aplikacji web i systemów embedded), stanu projektu (właśnie startuje czy jest rozwijany od 12 lat) czy też oczekiwań klienta (safe to fail czy fail-safe). Ważne jest jednak, że w obrębie jednej grupy ludzi dane zagadnienie rozumiane jest jednoznacznie.

Metryki

Skoro mamy już skale, możemy pójść krok dalej i zdefiniować metryki. Zazwyczaj określamy trzy wartości: obecną (current), cel (goal) oraz znakomitą (wish) . Dla czasu wykonania testów może to być np.:

  • wartość aktualna = 8 minut
  • cel = 6 minut
  • wartość znakomita = 4 minuty

Mierząc zmiany wartości metryki, widzimy, w jakim kierunku zmierza nasz projekt i na ile udało nam się osiągnąć założone cele. Doszliśmy zatem do poziomu, w którym możemy śmiało powiedzieć, że zgodnie z naszą definicją „po ostatnich zmianach aplikacja jest o 21% bardziej testowalna”. Już nie „przeczucia”, a liczby świadczą o właściwej bądź niewłaściwej realizacji zadań. Powoduje to też wzrost przejrzystości naszej pracy w oczach biznesu (czyli naszego klienta). Przenosi nas z poziomu „zawsze coś tam dłubiecie i refaktoryzujecie” do poziomu „Wasza praca ma teraz mierzalne efekty”.

A jakie są Wasze doświadczenia z metrykami? Zachęcam do podzielenia się nimi w komentarzach.

Seria strategicznych gier Cywilizacja słynie między innymi z bardzo rozbudowanych drzew technologii. Są one ze sobą ściśle powiązane i na przykład, żeby móc budować statki, trzeba wcześniej zgłębić tajniki matematyki i astronomii. Odkrycie nowej technologii otwiera przed nami kolejne możliwości rozwoju naszej cywilizacji. To właśnie ta możliwość, wszechstronnego i jasno określonego rozwoju, jest jedną z głównych sił napędowych popularności serii.

Grupą podobnie zafascynowaną rozwojem jak gracze, są programiści. Ponieważ obecnie coraz trudniej znaleźć na rynku tych dobrych, rekruterzy używają coraz lepszych farb do malowania trawy na zielono. Działy HR prześcigają się we wprowadzaniu kolejnych benefitów. Z drugiej strony jednak, mało kto głęboko zastanawia się nad realnymi potrzebami programistów. A grupa ta przede wszystkim chce poznawać nowe technologie, podejmować ciekawe wyzwania i dzielić się wiedzą.

Czemu w takim razie większość firm oferuje jedynie utartą ścieżkę kariery, w której powyżej poziomu senior developera można rozwijać się tylko w kierunkach managera, architekta albo analityka? Czy trzeba proponować akurat jedną z trzech niezbyt lubianych i niezbyt cenionych w środowisku ról? Często zdarza się, że wypalony zawodowo pracownik zwraca się z propozycją migracji poziomej, do innego zespołu czy na zupełnie inne stanowisko. Spotyka się z odmową. Jest bardzo potrzebny w obecnym miejscu pracy. A przecież taka możliwość migracji zawsze jest przed nim otwarta – nazywa się „rzucam papierami i idę do sąsiadów”. Czy zatem warto tracić człowieka bezpowrotnie? Czy może zamiast tego ułożyć naszą organizację tak, żeby wspierała potrzeby pracowników ?

Czy nie można zagadnienia tego rozwiązać w podobny sposób jak wspomniana na początku, święcąca sukcesy, strategiczna seria Cywilizacja? Przecież kompetencje techniczne także mają swoje prerekwizyty, które przy odrobinie dobrych chęci można rozrysować w formie zbliżonej do drzewa technologii. Żeby móc rozwijać aplikacje frontendowe w oparciu o AngularJS, wcześniej trzeba poznać język JavaScript. Żeby natomiast efektywnie używać JavaScript do implementacji aplikacji przeglądarkowych, przyda się zrozumienie zasad rządzących technologią web. Przykłady takich zależności można mnożyć w nieskończoność. Różne organizacje będą także miały inne podejście do niektórych zaawansowanych technologii, wynikające bezpośrednio z ich kontekstu i struktury.

Jak zatem wygląda wdrożenie takiego podejścia oraz na jakie bezpośrednie i pośrednie zyski możemy dzięki temu liczyć?

Wprowadzając dopasowane do firmy drzewo kompetencji, zyskujemy jednorodnie rozumianą przez wszystkich komunikację w zakresie umiejętności. “Frontend developer” w zależności od organizacji będzie reprezentował różny zestaw umiejętności. Czasem będą one skupione wokół programowania w JavaScript, innym razem natomiast z naciskiem położonym na tworzenie graficznego interfejsu użytkownika oraz efektywne użycie technologii HTML/CSS. Taka różnorodność powoduje powstawanie luk komunikacyjnych, które na szczęście można łatwo wyeliminować – głównie dzięki skupieniu na poszczególnych umiejętnościach, a nie na ich różnie nazywanych grupach.

Naniesienie na gotowe drzewa umiejętności konkretnych osób wyraźnie pokaże nam, jakie kompetencje posiadają nasi pracownicy. Zobaczymy też, jakie mogą szybko zdobyć, jeżeli pojawi się taka potrzeba. Będzie to także jasna wskazówka dla programistów (zwłaszcza tych młodszych), w jakim kierunku mogą się rozwijać i gdzie ich to zaprowadzi. Firma może ponadto zachęcać pracowników do zdobywania określonych kompetencji, które w najbliższej przyszłości będą potrzebne, na przykład z powodu rozpoczynającego się wkrótce projektu. Z kolei rozmieszczenie na gałęziach aktualnie rekrutowanych osób, pokaże nam, jak wyglądają one na tle zespołu i pozwoli kontrolować różnorodność kompetencyjną. Wszak zawsze warto mieć ludzi posiadających nie tylko wymagane umiejętności, ale także wiedzę wprowadzającą powiew świeżości.

Oczywiście, nic nie stoi na przeszkodzie, aby pozycję w firmie uzależnić od posiadanego zestawu umiejętności. Starszy programista to ktoś, kto dla przykładu zna na poziomie zaawansowanym przynajmniej trzy rzeczy. W ich zakresie może również pełnić rolę mentora dla mniej doświadczonych kolegów i koleżanek. Czy jednak znajomość jakiegoś tematu pozwala nam z marszu uczyć innych? A co z kompetencjami miękkimi? Czy jedno drzewo kompetencji wystarcza do opisu osoby? Okazuje się, że nie. Poza technologiami uczyć się musimy także komunikacji, współpracy w grupie, dzielenia się wiedzą itd. A to materiał na kolejne drzewo, po którym będziemy poruszali się równolegle. Zatem starszy programista, poza wskazaną powyżej wiedzą techniczną, musi wykazać się również znajomością zwinnych metod wytwarzania oprogramowania, umiejętnościami liderskimi oraz podstawami wystąpień publicznych (żeby na przykład poprowadzić demo przed klientem).

Każdy liść naszego drzewa – poza nazwą technologii – możemy opisać także listą książek, artykułów, prezentacji czy szkoleń, które pozwolą nam nabyć właściwe umiejętności. Dzięki temu w jednym miejscu gromadzimy informacje nie tylko o tym, czego możemy się nauczyć, ale także jak to zrobić.

Technologia żyje. Co chwilę pojawiają się nowe języki, biblioteki, narzędzia. Bieżące uwzględnianie tych wszystkich trendów, powoduje, że nasze drzewo kompetencji żyje. Jak każde inne drzewo rośnie i rozwija się. Pewne gałęzie się wzmacniają, inne pozostają w charakterze ozdobników lub są ucinane. Pamiętajmy o tym, a już nigdy zmiany technologii nas nie zaskoczą.

A co, jeżeli w Twojej firmie temat ścieżek kariery zupełnie nie jest uregulowany? Tym lepiej! Przy okazji wdrażania drzew kompetencji, możesz zrobić to od razu w optymalny i nowoczesny sposób! Pozwól pracownikom czerpać z pracy przyjemność, nie mniejszą niż z zabawy w Cywilizację.

Ludzie dzielą się na na takich, którzy zabezpieczają swoje samochody na wszelkie możliwe sposoby, i na takich, którzy po prostu kupują autocasco. Okazuje się, że ten podział odnosi się także do informatyki.

Na chwilę oderwijmy się od ziemi i przenieśmy w przestrzeń kosmiczną. Na znajdujące się tam satelity działa bardzo wiele sił i zjawisk, a jednym z nich jest promieniowanie. Rozpędzone do prędkości kilkunastu tysięcy kilometrów na godzinę cząstki sieją spustoszenie w układach elektronicznych wszystkiego, co wysyłamy na orbitę. Jak wiemy, komputery nie używają pisma (nawet obrazkowego), a do przeprowadzania wszystkich operacji i przechowywania danych wykorzystują jedynie zera i jedynki. Dowolna informacja, jak na przykład liczba 23 (w systemie dziesiętnym), może być przedstawiona za pomocą odpowiedniej kombinacji zer i jedynek (w systemie dwójkowym) – w tym przypadku 10111. Jak widzimy, do zapisania ten informacji potrzebujemy pięciu komórek pamięci. Komórka pamięci, mimo że nie widać jej gołym okiem, jest obiektem fizycznym i ma swój rozmiar. Na tyle duży, że może w nią trafić zabłąkana cząsteczka alfa. Jeżeli tak się stanie, następuje tzw. bit-flip, czyli zamiana 0 na 1 bądź odwrotnie. Czyli 10111, po trafieniu cząsteczka zamienia się nagle na 10011 – czyli 19 w systemie dwójkowym. Jeżeli liczba ta mówi np. o wymaganym czasie działania silników, mamy poważny problem. Problem, który musimy rozwiązać. A możemy to zrobić na dwa sposoby. Sposób pierwszy to za wszelką cenę nie dopuścić do wystąpienia błędu, na przykład stosując zaawansowane (a przy okazji oczywiście drogie i ciężkie) osłony otaczające wrażliwe układy. To tzw. podejście fail-safe. Druga droga (safe-to-fail) polega z kolei na zaprojektowaniu takiego rozwiązania, w którym konsekwencje spowodowane błędem będą nieistotne. Skoro wiemy, że podczas wykonywania obliczeń nawigacyjnych może wkraść się błąd, najprostszym sposobem otrzymania prawidłowego wyniku jest… statystyka. Jeżeli dane działanie wykonamy kilka razy, możemy liczyć, że najczęściej otrzymywany wynik jest wartością prawidłową. Takie właśnie podejście z powodzeniem wykorzystuje firma SpaceX. Zamiast w jeden procesor ich systemy wyposażone są w trzy jednostki, z których każda posiada dwa rdzenie. W związku z tym każde działanie wykonywane jest sześciokrotnie, co pozwala skutecznie rozwiązać problem zabłąkanych cząstek. Czy da się jednoznacznie stwierdzić, która droga jest lepsza? Oczywiście nie, gdyż za każdym razem pod uwagę musimy wziąć kontekst zastosowania. Przeanalizujmy jednak mocne i słabe strony obu rozwiązań. Pierwsze pozornie wydaje się genialne w swojej prostocie – dodajemy osłonę i problem rozwiązany. Co jednak stanie się w momencie, kiedy osłona okaże się mniej skuteczna niż nam się wydawało, bądź jakiś kosmiczny śmieć po prostu ją uszkodzi? Szach-mat i zostajemy z niczym. Zrobiliśmy wszystko, aby nie dopuścić do wystąpienia błędu, jednak jeżeli już do niego dojdzie, konsekwencje są ogromne. W drugim przypadku dopuszczamy natomiast możliwość wystąpienia błędu, ale jednocześnie ograniczamy do minimum jego konsekwencje. Co za tym idzie, nawet jeżeli zawiedzie jeden procesor, w dalszym ciągu zostaje nam pięć, które dalej skutecznie będzie prowadziło naszego satelitę.

Teraz wróćmy więc do ziemskiego biznesu i poszukajmy podobnych sytuacji. Jedną z nich będzie choćby zapewnienie prawidłowego funkcjonowania naszego oprogramowania. Stosując podejście fail-safe, zbudujemy naszą procedurę wdrożeniową tak, aby wersja wchodząca na środowisko produkcyjne, była wolna od jakichkolwiek błędów. Z reguły przekłada się to na dość rozbudowaną fazę testów, które niezależnie od tego, czy są manualne, czy automatyczne, kosztują sporo i trwają dłużej niż byśmy sobie tego życzyli. Ponadto, często już podczas testów wdrażane są kolejne wersje, poprawiające wykryte błędy, jednak – czego nie można wykluczyć – wprowadzające także kolejne, np. w funkcjach, których scenariusze już zostały „odhaczone na zielono”. Ponadto, przyjęte podejście powoduje, że bardzo niechętnie podejmujemy poważne decyzje projektowe, takie jak odmergowanie problematycznego projektu czy wprowadzenie innej większej zamiany, gdyż powodują one potrzebę powtórzenia wszystkich zakończonych już procedur. Taki właśnie problem doprowadził do katastrofy promu Challenger. Kierownictwo projektu nie uwierzyło inżynierowi, który opisał problem mogący doprowadzić do katastrofy, gdyż byli przekonani, że tak poważna wada zostałaby wykryta na wcześniejszych etapach, a sama konieczność jej sprawdzenia spowodowałaby przesunięcie już i tak opóźnionego startu.

Jak wygląda zatem implementacja podejścia safe to fail w rozpatrywanym przypadku? Przede wszystkim musimy wyróżnić dwie grupy funkcji naszego systemu: krytyczne i pozostałe. Dla tych krytycznych tworzymy standardową ścieżkę testową i weryfikujemy je end-to-end przy każdym wdrożeniu. Praktyka pokazuje jednak, że stanowią one z reguły nie więcej niż 20% całości. Jest to już dużo bardziej realny i efektywny cel automatyzacji testów. Nie zmienia to faktu, że pozostało nam jeszcze niezaadresowane 80% systemu. Czy aby na pewno? Już w 1999 r. Kent Beck zaproponował koncepcję „test-first” stanowiącą jeden z filarów programowania ekstremalnego. Kilka lat później wyodrębniono to jako niezależną technikę zwaną „test-driven development”, której umiejętne stosowanie zapewnia od samego początku odpowiednie pokrycie testami jednostkowymi tworzonego oprogramowania, co z kolei zapewnia, że system działa zgodnie z intencją programisty. Nie oznacza to niestety jednak poprawnego funkcjonowania w rozumieniu odbiorcy końcowego. Jak już jednak wiemy, dążymy przede wszystkim do ograniczenia negatywnych konsekwencji błędów. Pierwszy krok polegający na zabezpieczeniu krytycznych funkcji już wykonaliśmy. Kolejnym będzie zatem ograniczenie „czasu życia” pozostałych błędów w środowisku produkcyjnym. Nawet drobny błąd, jeżeli występuje przez wiele dni czy tygodni, może doprowadzać użytkowników do pasji i skutkować negatywną opinią o naszym systemie. Jednak ten sam błąd usunięty w ciągu przykładowo 30 minut zostanie przez odbiorcę bardzo szybko zapomniany. Co jednak możemy zrobić, aby być w stanie przygotować i wdrożyć poprawkę w takim czasie? Przede wszystkim nie zawsze aż tak wyśrubowana reakcja będzie konieczna. Jeżeli jednak tak się stanie, należy rozbić ten czas na kilka składowych i w zależności od możliwości ukierunkować odpowiednio wysiłki:

  • czas wykrycia błędu – tym krótszy, im bardziej ułatwimy klientowi wysłanie zgłoszenia lub im szybciej zareaguje nasz monitoring,
  • czas diagnozy – tym krótszy, im mniejsza jest paczka zmian od ostatniego wdrożenia – czyli im częściej wykonujemy wdrożenia, tym mniejsze paczki zmian one zawierają i tym łatwiej znaleźć zmianę, która wprowadziła błąd,
  • czas poprawy – im lepsza jakość kodu i testów jednostkowych, tym szybciej możemy błąd odtworzyć i poprawić,
  • czas wdrożenia – im wyższy stopień automatyzacji, tym krócej trwa pipeline (procedura) wdrożenia naszej aplikacji.

Podsumowując: zrozumienie przedstawionych powyżej podejść wraz z ich konsekwencjami i odpowiednim zarządzaniem ryzykiem, pozwala nam w skuteczny i efektywny w kontekście czasu i zasobów sposób dostarczać odpowiednio wysokiej jakości oprogramowanie. O ile jednak stosowanie safe to fail wydaje się lepszym pomysłem, należy szczerze odpowiedzieć sobie, czy obecna jakość wdrażanego systemu pozwala je prosto wdrożyć. Co ciekawe, nawet negatywna odpowiedź na postawione powyżej pytanie nie wyklucza możliwości jego stosowania. Za pomocą odpowiednich technik, jak choćby wdrożeń kanarkowych czy też procedur rollback, możemy zawsze „upiększyć” rzeczywistość. Jednak jest to już temat na inny artykuł.