Как да изберем платформа за анализ на данни

Независимо дали имате отговорности в разработването на софтуер, devops, системи, облаци, автоматизация на тестове, надеждност на сайта, водещи scrum екипи, infosec или други области на информационните технологии, ще имате все повече възможности и изисквания за работа с данни, анализи и машинно обучение .

Технически прожектор: Анализ

  • Как да изберем платформа за анализ на данни ()
  • 6 най-добри практики за визуализация на бизнес данни (Computerworld)
  • Анализ на здравеопазването: 4 истории за успех (CIO)
  • SD-WAN и анализи: Брак, сключен за новото нормално (Network World)
  • Как да защитим алгоритмите като интелектуална собственост (CSO)

Излагането ви на анализ може да дойде чрез ИТ данни, като например разработване на метрики и прозрения от пъргави, девойски или показатели на уебсайтове. Няма по-добър начин да научите основните умения и инструменти около данни, анализи и машинно обучение, отколкото да ги приложите към данни, които познавате и които можете да добиете за прозрения, за да стимулирате действия.

Нещата стават малко по-сложни, след като се разклоните от света на ИТ данните и предоставите услуги на екипи от специалисти по данни, граждански учени и други бизнес анализатори, извършващи визуализация на данни, анализи и машинно обучение.

Първо, данните трябва да бъдат заредени и почистени. След това, в зависимост от обема, разнообразието и скоростта на данните, вероятно ще срещнете множество бази данни и технологии в облака за данни. И накрая, през последните няколко години това, което преди беше избор между инструменти за бизнес разузнаване и визуализация на данни, се превърна в сложна матрица от анализи за пълен жизнен цикъл и платформи за машинно обучение.

Значението на анализа и машинното обучение увеличава отговорностите на ИТ в няколко области. Например:

  • ИТ често предоставя услуги около всички интеграции на данни, фонови бази данни и платформи за анализ.
  • Екипите на Devops често разгръщат и мащабират инфраструктурата за данни, за да позволят експериментиране върху модели за машинно обучение и след това да поддържат обработка на производствени данни.
  • Екипите за мрежови операции установяват сигурни връзки между инструментите за анализ на SaaS, мултиклауд и центрове за данни.
  • Екипите за управление на ИТ услуги отговарят на заявки и инциденти за услуги за данни и анализ.
  • Infosec контролира управлението и внедряването на сигурността на данните.
  • Разработчиците интегрират модели за анализ и машинно обучение в приложения.

Предвид експлозията на анализи, платформи за данни в облак и възможности за машинно обучение, ето буквар за по-добро разбиране на жизнения цикъл на анализа, от интегриране и почистване на данни, до dataops и modelops, до базите данни, платформите за данни и самите предложения за анализи.

Анализът започва с интегриране на данни и почистване на данните

Преди анализаторите, гражданските учени за данни или екипите за научни данни да могат да извършват анализи, необходимите източници на данни трябва да бъдат достъпни за тях в техните платформи за визуализация и анализ на данни.

За начало може да има бизнес изисквания за интегриране на данни от множество корпоративни системи, извличане на данни от SaaS приложения или поточно предаване на данни от IoT сензори и други източници на данни в реално време.

Това са всички стъпки за събиране, зареждане и интегриране на данни за анализ и машинно обучение. В зависимост от сложността на данните и проблемите с качеството на данните, има възможности да се включите в dataops, каталогизиране на данни, управление на основните данни и други инициативи за управление на данни.

Всички знаем фразата „боклук навътре, боклук навън“. Анализаторите трябва да бъдат загрижени за качеството на своите данни, а учените по данни трябва да бъдат загрижени за пристрастията в своите модели за машинно обучение. Също така, навременността на интегрирането на нови данни е от решаващо значение за бизнеса, който иска да стане по-управляван от данни в реално време. Поради тези причини конвейерите, които зареждат и обработват данни, са критично важни за анализирането и машинното обучение.

Бази данни и платформи за всички видове предизвикателства при управлението на данни

Зареждането и обработката на данни е необходима първа стъпка, но след това нещата се усложняват при избора на оптимални бази данни. Днешният избор включва корпоративни хранилища за данни, езера на данни, платформи за обработка на големи данни и специализирани бази данни NoSQL, графики, ключ-стойност, документи и колони. За да се поддържа широкомащабно складиране и анализ на данни, има платформи като Snowflake, Redshift, BigQuery, Vertica и Greenplum. И накрая, има платформи за големи данни, включително Spark и Hadoop.

Големите предприятия вероятно ще имат множество хранилища за данни и ще използват платформи за данни в облак като Cloudera Data Platform или MapR Data Platform или платформи за оркестрация на данни като InfoWorks DataFoundy, за да направят всички тези хранилища достъпни за анализ.

Основните публични облаци, включително AWS, GCP и Azure, имат платформи и услуги за управление на данни, които да се пресеят. Например Azure Synapse Analytics е хранилището на данни на SQL на Microsoft в облака, докато Azure Cosmos DB осигурява интерфейси към много хранилища на данни NoSQL, включително Cassandra (колонови данни), MongoDB (ключ-стойност и данни за документи) и Gremlin (графични данни) .

Езерата на данни са популярни зареждащи докове за централизиране на неструктурирани данни за бърз анализ и за тази цел може да се избере от Azure Data Lake, Amazon S3 или Google Cloud Storage. За обработка на големи данни облаците AWS, GCP и Azure също имат предложения Spark и Hadoop.

Платформите на Analytics са насочени към машинно обучение и сътрудничество

С данни, заредени, изчистени и съхранени, учените и анализаторите на данни могат да започнат да извършват анализи и машинно обучение. Организациите имат много опции в зависимост от видовете аналитика, уменията на екипа за анализ, извършващ работата, и структурата на основните данни.

Анализът може да се извършва в инструменти за визуализация на данни на самообслужване като Tableau и Microsoft Power BI. И двата инструмента са насочени към изследователите на данните за гражданите и разкриват визуализации, изчисления и основни анализи. Тези инструменти поддържат основна интеграция на данни и преструктуриране на данни, но често се случват по-сложни пребори с данни преди стъпките за анализ. Tableau Data Prep и Azure Data Factory са придружаващите инструменти, които помагат за интегрирането и трансформирането на данни.

Екипите на Google Анализ, които искат да автоматизират нещо повече от интеграция на данни и подготовка, могат да търсят платформи като Alteryx Analytics Automation Process. Тази платформа за съвместно сътрудничество свързва разработчици, анализатори, граждански учени и учени с данни с автоматизация на работния поток и възможности за обработка на данни на самообслужване, анализ и обработка на машинно обучение.

Алън Джейкъбсън, главен директор по анализи и данни в Alteryx, обяснява: „Появата на автоматизация на аналитичните процеси (APA) като категория подчертава ново очакване за всеки работник в организацията да бъде работник на данни. ИТ разработчиците не правят изключение и разширяемостта на Alteryx APA Platform е особено полезна за тези работещи в областта на знанията. “

Има няколко инструмента и платформи, насочени към изследователите на данни, които имат за цел да ги направят по-продуктивни с технологии като Python и R, като същевременно опростяват много от оперативните и инфраструктурни стъпки. Например Databricks е оперативна платформа за наука за данни, която позволява внедряване на алгоритми в Apache Spark и TensorFlow, като същевременно се управлява самостоятелно изчислителните клъстери в облака AWS или Azure. 

Сега някои платформи като SAS Viya комбинират подготовка на данни, анализ, прогнозиране, машинно обучение, текстов анализ и управление на модели на машинно обучение в една платформа на моделите. SAS оперативно анализира и насочва към изследователи на данни, бизнес анализатори, разработчици и ръководители с платформа за съвместна работа от край до край.

Дейвид Дюлинг, директор на научноизследователската и развойна дейност в областта на управлението на решения в SAS, казва: „Ние виждаме modelops като практика за създаване на повторяем, подлежащ на проверка набор от операции за внедряване на всички анализи, включително AI и ML модели, в операционни системи. Като част от modelops, можем да използваме съвременните практики на devops за управление на код, тестване и наблюдение. Това помага да се подобри честотата и надеждността на внедряването на модела, което от своя страна подобрява гъвкавостта на бизнес процесите, изградени върху тези модели. "

Dataiku е друга платформа, която се стреми да осигури подготовка на данни, анализ и машинно обучение за нарастващите екипи за наука за данни и техните сътрудници. Dataiku има визуален модел за програмиране, за да даде възможност за съвместна работа и преносими компютри за по-напреднали разработчици на SQL и Python.

Други платформи за анализ и машинно обучение от водещи доставчици на корпоративен софтуер имат за цел да предоставят аналитични възможности на центрове за данни и източници на данни в облак. Например Oracle Analytics Cloud и SAP Analytics Cloud имат за цел да централизират разузнаването и да автоматизират прозренията, за да дадат възможност за вземане на решения от край до край.

Избор на платформа за анализ на данни

Изборът на инструменти за интегриране на данни, складиране и анализи е бил по-лесен преди възхода на големите данни, машинното обучение и управлението на данните. Днес има комбинация от терминология, възможности на платформата, оперативни изисквания, управленски нужди и целеви потребителски персони, които правят избора на платформи по-сложен, особено след като много доставчици поддържат множество парадигми на използване. 

Бизнесът се различава в изискванията и нуждите за анализ, но трябва да търси нови платформи от гледна точка на това, което вече е на мястото си. Например:

  • Компаниите, които са имали успех с програми за наука за данни на гражданите и които вече разполагат с инструменти за визуализация на данни, може да искат да разширят тази програма с автоматизация на процеса на анализ или технологии за подготовка на данни.
  • Предприятията, които искат верига от инструменти, която позволява на изследователите на данни, работещи в различни части на бизнеса, могат да обмислят платформи за анализ от край до край с възможности за моделиране.
  • Организациите с множество различни платформи за данни от заден план могат да се възползват от платформи за данни в облак, за да ги каталогизират и управляват централизирано.
  • Компаниите, стандартизиращи всички или повечето възможности за данни на един доставчик на публичен облак, трябва да проучат предлаганите платформи за интеграция на данни, управление на данни и анализ на данни.

Тъй като аналитиката и машинното обучение се превръщат във важна основна компетентност, технолозите трябва да обмислят задълбочаване на разбирането си за наличните платформи и техните възможности. Силата и стойността на платформите за анализ само ще се увеличават, както и тяхното влияние в цялото предприятие.