Днешните роли на науката за данни няма да съществуват след 10 години

През следващото десетилетие ролята на учен по данни, както я знаем, ще изглежда съвсем различно, отколкото днес. Но не се притеснявайте, никой не прогнозира загубени работни места, просто сменени работни места.

Учените по данни ще се оправят - според Бюрото по трудова статистика, ролята все още се очаква да нарасне с по-висок от средния клип през 2029 г. Но напредъкът в технологиите ще бъде тласък за огромна промяна в отговорностите на учения по данни и в начинът, по който бизнесът подхожда към анализа като цяло. А инструментите AutoML, които помагат за автоматизирането на тръбопровода за машинно обучение от сурови данни до използваем модел, ще водят тази революция.

След 10 години изследователите на данни ще имат напълно различни набори от умения и инструменти, но тяхната функция ще остане същата: да служат като уверени и компетентни технологични ръководства, които могат да осмислят сложни данни за решаване на бизнес проблеми.

AutoML демократизира науката за данните

Доскоро алгоритмите и процесите на машинно обучение бяха почти изключително сферата на по-традиционните роли на науката за данни - тези с формално образование и висши степени или работещи за големи технологични корпорации. Учените по данни са изиграли безценна роля във всяка част от спектъра за развитие на машинното обучение. Но с времето тяхната роля ще стане по-съвместна и стратегическа. С инструменти като AutoML за автоматизиране на някои от техните по-академични умения, учените по данни могат да се съсредоточат върху насочването на организации към решения на бизнес проблеми чрез данни.

В много отношения това е така, защото AutoML демократизира усилията за прилагане на машинно обучение на практика. Доставчиците от стартиращи фирми до хиперскакери в облака са пуснали решения, достатъчно лесни за разработчици, които могат да използват и експериментират, без голяма образователна или експериментална бариера за влизане. По същия начин някои приложения на AutoML са достатъчно интуитивни и прости, за да могат нетехническите работници да се опитат да създадат решения на проблеми в собствените си отдели - да създадат „учен за граждански данни“ в рамките на организациите.

За да проучим възможностите, които този тип инструменти отключват както за разработчици, така и за изследователи на данни, първо трябва да разберем текущото състояние на науката за данни, тъй като тя е свързана с развитието на машинното обучение. Най-лесно е да се разбере, когато се поставя на матуритет.

По-малките организации и бизнеси с по-традиционни роли, отговарящи за дигиталната трансформация (т.е. не класически обучени специалисти по данни) обикновено попадат в този край на тази скала. В момента те са най-големите клиенти на готови приложения за машинно обучение, които са по-насочени към аудитория, която не е запозната с тънкостите на машинното обучение.

  • Плюсове: Тези приложения до ключ са лесни за изпълнение, сравнително евтини и лесни за разполагане. За по-малките компании с много специфичен процес за автоматизиране или подобряване на пазара вероятно има няколко жизнеспособни възможности. Ниската бариера за влизане прави тези приложения идеални за изследователи на данни, които за пръв път се впускат в машинно обучение. Тъй като някои от приложенията са толкова интуитивни, те дори дават възможност на нетехнически служители да експериментират с автоматизация и разширени възможности за данни - потенциално въвеждане на ценна пясъчник в организация.
  • Минуси: Този клас приложения за машинно обучение е известен с негъвкавост. Въпреки че могат да бъдат лесни за изпълнение, те не могат лесно да бъдат персонализирани. Като такива, определени нива на точност може да са невъзможни за определени приложения. Освен това тези приложения могат да бъдат силно ограничени от тяхната зависимост от предварително обучени модели и данни. 

Примери за тези приложения включват Amazon Comprehend, Amazon Lex и Amazon Forecast от Amazon Web Services и Azure Speech Services и Azure Language Understanding (LUIS) от Microsoft Azure. Тези инструменти често са достатъчни за процъфтяващите изследователи на данни, за да направят първите стъпки в машинното обучение и да въведат своите организации по-надолу в зрелия спектър.

Персонализиращи се решения с AutoML

Организациите с големи, но относително често срещани набори от данни - мислят, че данните за клиентските транзакции или маркетинговите имейли - се нуждаят от повече гъвкавост, когато използват машинно обучение за решаване на проблеми. Въведете AutoML. AutoML предприема стъпките на работния процес на ръчно машинно обучение (откриване на данни, проучвателен анализ на данни, настройка на хиперпараметри и др.) И ги кондензира в конфигурируем стек.

  • Плюсове: Приложенията на AutoML позволяват провеждането на повече експерименти с данни в по-голямо пространство. Но истинската суперсила на AutoML е достъпността - могат да се изграждат персонализирани конфигурации и сравнително лесно да се усъвършенстват входовете. Нещо повече, AutoML не се прави изключително с учени за данни като аудитория. Разработчиците могат също така лесно да се забъркат в пясъчника, за да внесат елементи от машинното обучение в собствените си продукти или проекти.
  • Минуси: Докато се приближава, ограниченията на AutoML означават, че точността на изходите ще бъде трудна за усъвършенстване. Поради това учените с данни, които държат степен, често гледат с пренебрежение на приложенията, създадени с помощта на AutoML - дори ако резултатът е достатъчно точен, за да разреши проблема.

Примери за тези приложения включват Amazon SageMaker AutoPilot или Google Cloud AutoML. Изследователите на данни след десетилетие несъмнено ще трябва да са запознати с инструменти като тези. Подобно на разработчик, който владее множество езици за програмиране, учените по данни ще трябва да владеят многобройни AutoML среди, за да бъдат считани за топ талант.

„Ръчно валцовани“ и домашно приготвени решения за машинно обучение 

Най-големите предприятия в корпоративен мащаб и компаниите от Fortune 500 са мястото, където в момента се разработват повечето усъвършенствани и патентовани приложения за машинно обучение. Учените по данни в тези организации са част от големи екипи, усъвършенстващи алгоритмите за машинно обучение, използвайки масиви от исторически фирмени данни, и изграждат тези приложения от нулата. Персонализирани приложения като тези са възможни само със значителни ресурси и талант, поради което изплащането и рисковете са толкова големи.

  • Плюсове: Както всяко приложение, създадено от нулата, персонализираното машинно обучение е „най-съвременното“ и се изгражда въз основа на задълбочено разбиране на разглеждания проблем. Освен това е по-точен - макар и само с малки полета - от AutoML и готовите решения за машинно обучение.
  • Минуси: Получаването на персонализирано приложение за машинно обучение за достигане на определени прагове на точност може да бъде изключително трудно и често изисква тежко повдигане от екипи учени по данни. Освен това персонализираните опции за машинно обучение са най-трудоемките и най-скъпите за разработване.

Пример за ръчно валцувано решение за машинно обучение започва с празен бележник на Jupyter, ръчно импортиране на данни и след това провеждане на всяка стъпка от изследователски анализ на данни чрез настройка на модела на ръка. Това често се постига чрез писане на персонализиран код, използвайки рамки за машинно обучение с отворен код като Scikit-learn, TensorFlow, PyTorch и много други. Този подход изисква висока степен както на опит, така и на интуиция, но може да доведе до резултати, които често превъзхождат както услугите за машинно обучение до ключ, така и AutoML.

Инструменти като AutoML ще изместят ролите и отговорностите в областта на данните през следващите 10 години. AutoML поема тежестта от разработването на машинно обучение от нулата на учените по данни и вместо това поставя възможностите на технологията за машинно обучение директно в ръцете на други решаващи проблеми. С освобождаването на времето, за да се съсредоточат върху това, което знаят - данните и самите входове - учените по данни след десетилетие ще служат като още по-ценни насоки за техните организации.

Ерик Милър е старши директор по техническа стратегия в Rackspace, където осигурява стратегическо консултантско ръководство с доказан опит в изграждането на практики в екосистемата на Amazon Partners Network (APN). Успешен технически лидер с 20 години доказан успех в корпоративните ИТ, Ерик е ръководил няколко инициативи за архитектура на AWS и решения, включително Програма за оценка на AWS Well Architected Framework (WAF), Amazon EC2 за Програма за предоставяне на услуги на AWS за Windows Server и широк спектър на AWS пренаписва за многомилиардни организации.

-

Форумът New Tech предоставя място за изследване и обсъждане на нововъзникващите корпоративни технологии в безпрецедентна дълбочина и широчина. Изборът е субективен, базиран на нашия избор на технологиите, които смятаме, че са важни и представляват най-голям интерес за читателите. не приема маркетингово обезпечение за публикуване и си запазва правото да редактира цялото съдържание. Изпращайте всички запитвания на [email protected]