Kluczowe umiejętności Data Scientista

Data Scientist, czyli osoba analizująca dane w celu wytworzenia modeli uczenia maszynowego, to stanowisko cieszące się coraz większym powodzeniem. Wyzwania stawiane przedstawicielom branży Data Science pozwalają na rozwinięcie umiejętności kreatywnego rozwiązywania problemów. Z pewnością nie jest to praca nudna, jednak jest to praca wymagająca specjalistycznych umiejętności oraz doświadczenia.

Jakie kompetencje są najistotniejsze? Jakich technologii warto się uczyć? Czy wymagane jest wykształcenie ścisłe i znajomość matematyki? A może warto inwestować w umiejętności miękkie? Co jest wymagane dzisiaj, a czego będzie oczekiwać się od Data Scientista za kilka bądź kilkanaście lat?

Autor: Marcin Kosiński, AI Expert, ProData Consult

Data: 16/05/2022

W niniejszym artykule chciałbym zwrócić uwagę na uniwersalne elementy pracy Data Scientista. Śledzenie trendów jest bardzo istotne z punktu widzenia rozwoju i użyteczności najpopularniejszych technologii. Jednak warto pamiętać, że większość tych technologii może w przeciągu kilku lat zmienić się lub całkowicie stracić na użyteczności. Dlatego w tym wpisie szczególnie chciałbym podkreślić nieprzemijające credo Data Scientista, które wypisano poniżej, zgodnie z kolejnością procesu wytwarzania analiz danych oraz tworzenia produktów opartych na danych i modelach uczenia maszynowego. Na bazie mojego doświadczenia mogę stwierdzić, że nie ważne jakiej używamy technologia w projekcie, nie ważne z jaką strukturą danych pracujemy obecnie ani nie ważne jaki problem uczenia maszynowego rozwiązujemy, zawsze będziemy musieli zmierzyć się z poniższymi wyzwaniami, których rozwiązywanie uważam za kluczowe umiejętności Data Scientista obecnie i w najbliższym czasie. Przyszłość najprawdopodobniej zautomatyzuje większość pracy Data Scientista, dlatego warto skupić się na tych elementach, gdzie czynnik ludzki jest nieoceniony!

Poniżej lista kompetencji Data Scientista przyszłości!

1. Zadawanie odpowiednich pytań

Bez hipotezy nie ma badania, bez celu nie ma projektu. Niekiedy dojście do sprecyzowania hipotezy bądź celu wymaga wielu pytań. Klienci mają potrzeby optymalizacji i automatyzacji pracy oraz czują, że dzięki Data Science mogą wzmocnić swoją pozycję na rynku, jednak nie są w stanie sprecyzować potrzeb w języku uczenia maszynowego. Dlatego kluczowym aspektem pracy Data Scientista jest umiejętność zadawania odpowiednich pytań, tak by przekuć potrzeby biznesowe w rozwiązania oparte na danych oraz po to by najlepiej dopasować istniejące rozwiązania do indywidualnych wymagań projektowych. Skuteczne zadawanie pytań przyda się również podczas oceny jakości i przydatności danych, a więcej o nieskończonej potrzebie zadawania pytań w punkcie o iteracyjnym rozwiązywaniu problemów!

2. Ocena jakości i przydatności danych

Jest to umiejętność, której nie zastąpi żadna maszyna. Pomimo istniejących olbrzymich zbiorów danych i zapisanych petabajtach informacji, niekiedy niewiele z tych źródeł ma potencjał do wykorzystania w rozwiązaniach Data Science. Często również jakość danych jest wątpliwa, z racji na nieudane migracje, błędy ludzkie, błędy logiczne struktur czy ostatecznie znikomą przydatność pewnych informacji w modelach uczenia maszynowego. Stąd nieodzownym elementem sylwetki Data Scientista powinna być umiejętność oceniania przydatności danych oraz zdolność walidacji jakości danych, nad którymi pracuje.

Prodata-Consult_Marcin_middle

3. Iteracyjne rozwiązywanie problemów

To główna i decydująca umiejętność Data Scientista. Jest wyjątkowo ważna z racji na istotę procesu analizy danych i wytwarzania produktów opartych na danych. Cały proces pracy Data Scientista jest iteracyjny. Oznacza to, że jest jak pętla, w której wielokrotnie zatacza się koło. Za każdym razem tworzy się coraz doskonalszy produkt, przechodząc kolejno przez te same kroki, wykorzystując jednak doświadczenie nabyte w trakcie realizacji poprzedniej iteracji (pętli) procesu. Wielokrotne odtworzenie procesu, w którym każdy cykl ulepszany jest dzięki wiedzy nabytej w poprzednim stadium, pomaga przygotować rozwiązania wysoce skuteczne i szyte na miarę. Jest to ważna lekcja dla każdego Data Scientista - warto zacząć od najprostszego modelu, który następnie zostanie wielokrotnie ulepszany. Rozpoczęcie pracy od najprostszego modelu ma tę zaletę, że tworzymy model pierwotny, do którego możemy porównywać przyszłe, lepsze rozwiązania. Dzięki niemu możliwe jest też, że w stosunkowo krótkim czasie, uda się przygotować zadowalające rozwiązanie bez potrzeby sięgania po ciężki kaliber narzędzi uczenia maszynowego.

Czytaj także inny tekst tego autora: Efektywna praca zdalna w innej strefie czasowej

4. Umiejętność autoweryfikacji

Częstym wynikiem pracy Data Scientista jest system reguł decyzyjnych pozwalających na podejmowanie wielu zautomatyzowanych i inteligentnych akcji. Taki system nazywamy modelem (uczenia maszynowego). Niebagatelna jest umiejętność oceny czy dany model jest skuteczny i wystarczająco precyzyjny. Tworząc modele uczenia maszynowego należy pamiętać, by zawsze mieć model pierwotny (najprostszy w konstrukcji), do którego możemy się odnosić wytwarzając coraz lepsze rozwiązania. Należy też porównywać wytworzony model do konkurujących rozwiązań znanych w literaturze.

5. Objaśnianie wyników modeli

Gdy powstanie produkt oparty na danych, popularnym zjawiskiem są narastające pytania o logikę jego działania. Data Scientist zobowiązany jest wyjaśnić skomplikowane modele uczenia maszynowego w sposób przystępny, często dla słuchaczy nieposiadających technicznego zaplecza. Padają pytania o elementy składające się na działanie modelu, o najistotniejsze dane wzięte pod uwagę, o ich wpływ, skalę zależności oraz o metody weryfikacji poprawności modelu. Data Scientist powinien posiadać umiejętności pozwalające wytłumaczyć model, metody jego walidacji oraz wyjaśnić, które spośród wykorzystanych danych odegrały kluczową rolę w danym przedsięwzięciu.

6. Im prościej tym lepiej

To niespodziewane stwierdzenie niekiedy spotyka się ze zdziwieniem ze strony słuchaczy. Pomimo, że mamy do dyspozycji wszystkie obecne osiągnięcia intelektualne ludzkości, często preferowane są rozwiązania analizy danych oparte na prostych i wytłumaczalnych regułach, oraz takie, które działają szybko i wykorzystują jak najmniej mocy obliczeniowej. Narasta chęć sięgania po najbardziej skomplikowane i najbardziej obliczeniochłonne rozwiązania, jednak Data Scientist powinien zawsze mieć na uwadze to by minimalizować czas obliczeń w swoim produkcie, minimalizować używaną pamięć, upraszczać modele i zmniejszać liczbę potrzebnych danych. Łatwiej zarządzać prostszym modelem i łatwiej też zrozumieć jego pracę. Oczywiście istnieją rozwiązania, gdzie liczy się tylko skuteczność i sięga się po najcięższe działa w arsenale uczenia maszynowego, jednak gro rozwiązań cieszy się uznaniem z racji swojej wytłumaczalności i prostoty obsługi.

7. Szukanie synergii

Mniej doświadczeni Data Scientiści mogli nie spotkać się z tym zjawiskiem. Najczęściej występuje ono na wyższych szczeblach kariery, np. na szczeblu menadżerskim bądź zarządczym. Jest to umiejętność szukania połączeń między rozwiązaniami uczenia maszynowego. Próby wykorzystywania narzędzia stworzonego przez jeden zespół podczas kolejnych projektów realizowanych przez inny zespół. Często szuka się rozwiązań i zastosowań, którymi można upiec dwie pieczenie na jednym ogniu. Zdarza się, że Data Scientist skupia się jedynie na udoskonaleniu jednego narzędzia, nad którym pracuje. Lecz spotyka się także potrzeby spojrzenia na produkty oparte na danych z szerszej perspektywy, gdzie poszukuje się połączeń między projektami i wytworzonymi narzędziami tak, aby maksymalnie wykorzystywać potencjał już posiadanych rozwiązań.

8. Odtwarzalność

Ważna, chociaż często pomijana umiejętność. Przygotowane modele uczenia maszynowego powinny działać dzisiaj, ale także powinny być w stanie zostać uruchomione w przyszłości. Niekiedy nawał pracy powoduje, że po przygotowaniu modelu przechodzi się do następnego projektu. Jednak zalecane jest, po skończonym projekcie, zarezerwowanie czasu na opakowanie rozwiązania w odtwarzalne środowisko, które łatwo można przekazywać i uruchamiać na wielu maszynach. W ten sposób zapewniamy, że nasze rozwiązanie będzie działać zawsze, niezależnie od występujących na świecie wersji bibliotek i języków programowania.

 

Gdyby przejrzeć listę jeszcze raz, to można by rzec, że praca Data Scientista to nieustanne zadawanie pytań. I tak w istocie jest! Generowanie zastosowań, kwestionowanie rozwiązań, ciągłe usprawnianie i weryfikacja. Dociekliwość i sumienność to na pewno pożądane cechy, jednak to wypracowane doświadczenie pomaga zadawać w pracy Data Scientista właściwe i kierujące do optymalnego rozwiązania pytania. Rozwijając karierę Data Scientista staraj się mieć na uwadze punkty przedstawione w tym artykule – pozwoli Ci to szybciej osiągnąć wymarzone cele.

efektywna-praca-zdalna-profile

O autorze:

Marcin Kosiński

Praktyk analizy danych z wieloletnim doświadczeniem. Znany na polskiej scenie Data Science z organizacji licznych konferencji oraz setek prezentacji wygłaszanych w Polsce i w Europie.

Chcesz pracować jako niezależny konsultant IT?

Daj się połączyć z najlepszymi projektami na rynku!