Какво е анализ на големи данни? Бързи отговори от различни набори от данни

Има данни и след това има големи данни. И така, каква е разликата?

Дефинирани големи данни

Ясно определение за големи данни може да бъде трудно да се определи, защото големите данни могат да обхващат множество случаи на употреба. Но като цяло терминът се отнася до набори от данни, които са толкова големи по обем и толкова сложни, че традиционните софтуерни продукти за обработка на данни не могат да събират, управляват и обработват данните в рамките на разумен период от време.

Тези масиви от големи данни могат да включват структурирани, неструктурирани и полуструктурирани данни, всяка от които може да бъде извлечена за прозрения.

Колко данни всъщност съставляват „големи“, може да се обсъжда, но обикновено може да бъде в множество петабайта - и за най-големите проекти в диапазона на екзабайтите.

Често големите данни се характеризират с трите Vs:

  • екстремен обем данни
  • голямо разнообразие от видове данни
  • на скоростта , с която се нуждае от данни, които се обработват и анализират

Данните, които съставляват големи хранилища за данни, могат да идват от източници, които включват уеб сайтове, социални медии, настолни и мобилни приложения, научни експерименти и - все по-често - сензори и други устройства в интернет на нещата (IoT).

Концепцията за големи данни идва с набор от свързани компоненти, които дават възможност на организациите да използват данните на практика и да решават редица бизнес проблеми. Те включват ИТ инфраструктурата, необходима за поддържане на технологии за големи данни, анализите, приложени към данните; платформите за големи данни, необходими за проекти, свързани набори от умения и реалните случаи на използване, които имат смисъл за големи данни.

Какво представлява анализът на данни?

Това, което наистина носи стойност от всички големи организации за събиране на данни, е анализът, приложен към данните. Без анализ, който включва изследване на данните, за да се открият модели, корелации, прозрения и тенденции, данните са само куп единици и нули с ограничена бизнес употреба.

Прилагайки анализ на големи данни, компаниите могат да видят предимства като увеличени продажби, подобрено обслужване на клиентите, по-голяма ефективност и цялостен тласък на конкурентоспособността.

Анализът на данни включва изследване на набори от данни, за да се получат прозрения или да се направят изводи за това, което съдържат, като например тенденции и прогнози за бъдеща дейност.

Чрез анализ на информация с помощта на инструменти за анализ на големи данни, организациите могат да вземат по-добре информирани бизнес решения, като например кога и къде да проведат маркетингова кампания или да представят нов продукт или услуга.

Анализът може да се отнася до основни приложения за бизнес разузнаване или по-усъвършенствани прогнозни анализи като тези, използвани от научни организации. Сред най-напредналите анализи на данни е извличането на данни, където анализаторите оценяват големи масиви от данни, за да идентифицират връзките, моделите и тенденциите.

Анализът на данни може да включва изследователски анализ на данни (за идентифициране на модели и връзки в данните) и потвърдителен анализ на данни (прилагане на статистически техники, за да се установи дали дадено предположение за определен набор от данни е вярно.

Друго разграничение е количественият анализ на данни (или анализ на числени данни, които имат количествено измерими променливи, които могат да се сравняват статистически) спрямо качествения анализ на данните (който се фокусира върху нечислови данни като видео, изображения и текст).

ИТ инфраструктура за поддържане на големи данни

За да работи концепцията за големи данни, организациите трябва да имат изградена инфраструктура за събиране и съхраняване на данните, осигуряване на достъп до тях и осигуряване на информацията, докато тя се съхранява и е в транспорт. Това изисква разполагането на инструменти за анализ на големи данни.

На високо ниво те включват системи за съхранение и сървъри, предназначени за големи данни, софтуер за управление и интеграция на данни, софтуер за бизнес разузнаване и анализ на данни и приложения за големи данни.

Голяма част от тази инфраструктура вероятно ще бъде локална, тъй като компаниите се стремят да продължат да използват инвестициите си в центъра за данни. Но организациите все повече разчитат на услугите за изчислителни облаци, за да се справят с голяма част от своите изисквания за големи данни.

Събирането на данни изисква наличието на източници за събиране на данните. Много от тях - като уеб приложения, канали за социални медии, мобилни приложения и имейл архиви - вече са налице. Но тъй като IoT се утвърждава, може да се наложи компаниите да използват сензори на всякакви устройства, превозни средства и продукти, за да събират данни, както и нови приложения, които генерират потребителски данни. (IoT-ориентираният анализ на големи данни има свои собствени специализирани техники и инструменти.)

За да съхраняват всички входящи данни, организациите трябва да разполагат с подходящо съхранение на данни. Сред опциите за съхранение са традиционните хранилища за данни, езера на данни и съхранение в облак.

Инструментите за инфраструктура за сигурност могат да включват криптиране на данни, удостоверяване на потребителя и други контроли за достъп, системи за наблюдение, защитни стени, управление на мобилността на предприятието и други продукти за защита на системи и данни,

Технологии за големи данни

В допълнение към гореспоменатата ИТ инфраструктура, използвана за данни като цяло. Има няколко технологии, специфични за големи данни, които вашата ИТ инфраструктура трябва да поддържа.

Екосистема Hadoop

Hadoop е една от технологиите, най-тясно свързани с големи данни. Проектът Apache Hadoop разработва софтуер с отворен код за мащабируеми, разпределени изчисления.

Софтуерната библиотека на Hadoop е рамка, която позволява разпределената обработка на големи масиви от данни в клъстери на компютри, използвайки прости модели за програмиране. Той е проектиран да се мащабира от един сървър до хиляди, като всеки предлага локални изчисления и съхранение.

Проектът включва няколко модула:

  • Hadoop Common, общите помощни програми, които поддържат други модули на Hadoop
  • Разпределена файлова система Hadoop, която осигурява високопроизводителен достъп до данни от приложенията
  • Hadoop YARN, рамка за планиране на работа и управление на клъстерни ресурси
  • Hadoop MapReduce, базирана на YARN система за паралелна обработка на големи масиви от данни.

Apache Spark

Част от екосистемата на Hadoop, Apache Spark е клъстерно-изчислителна рамка с отворен код, която служи като двигател за обработка на големи данни в Hadoop. Spark се превърна в една от ключовите рамки за обработка на разпределени големи данни и може да бъде внедрена по различни начини. Той осигурява естествени обвързвания за езиците за програмиране Java, Scala, Python (особено дистрибуцията Anaconda Python) и R (R е особено подходящ за големи данни) и поддържа SQL, поточно предаване на данни, машинно обучение и обработка на графики.

Езера на данни

Езерата на данни са хранилища за съхранение, които съхраняват изключително големи обеми необработени данни в собствения си формат, докато данните не са необходими на бизнес потребителите. Помощта за растежа на езерата на данни са инициативи за дигитална трансформация и растеж на IoT. Езерните данни са предназначени да улеснят достъпа на потребителите до огромни количества данни, когато възникне необходимост.

NoSQL бази данни

Конвенционалните бази данни на SQL са предназначени за надеждни транзакции и ad hoc заявки, но те идват с ограничения като твърда схема, която ги прави по-малко подходящи за някои видове приложения. Базите данни NoSQL адресират тези ограничения и съхраняват и управляват данни по начини, които позволяват висока оперативна скорост и голяма гъвкавост. Много от тях са разработени от компании, които търсят по-добри начини за съхраняване на съдържание или обработка на данни за масивни уебсайтове. За разлика от SQL базите данни, много NoSQL бази данни могат да се мащабират хоризонтално на стотици или хиляди сървъри.

Бази данни в паметта

Базата данни в паметта (IMDB) е система за управление на база данни, която разчита предимно на основната памет, а не на диска, за съхранение на данни. Базите данни в паметта са по-бързи от оптимизираните за диск бази данни, което е важно съображение за използването на анализа на големи данни и създаването на хранилища за данни и данни.

Умения за големи данни

Усилията за анализи на големи данни и големи данни изискват специфични умения, независимо дали идват от организацията или от външни експерти.

Много от тези умения са свързани с ключовите компоненти на технологиите за големи данни, като Hadoop, Spark, NoSQL бази данни, бази данни в паметта и софтуер за анализ.

Други са специфични за дисциплини като наука за данни, извличане на данни, статистически и количествен анализ, визуализация на данни, програмиране с общо предназначение и структура на данни и алгоритми. Необходимо е също така хората с цялостни управленски умения да виждат проекти за големи данни до завършване.

Като се има предвид колко често стават проектите за анализ на големи данни и недостигът на хора с този тип умения, намирането на опитни специалисти може да бъде едно от най-големите предизвикателства за организациите.

Случаи на използване на анализ на големи данни

Големите данни и анализи могат да бъдат приложени към много бизнес проблеми и случаи на употреба. Ето няколко примера:

  • Анализ на клиентите. Компаниите могат да изследват клиентски данни, за да подобрят клиентското изживяване, да подобрят процента на конверсия и да увеличат запазването.
  • Оперативна аналитика. Подобряването на оперативните резултати и по-доброто използване на корпоративните активи са целите на много компании. Инструментите за анализ на големи данни могат да помогнат на бизнеса да намери начини да работи по-ефективно и да подобри производителността.
  • Предотвратяване на измами. Инструментите и анализът на големи данни могат да помогнат на организациите да идентифицират подозрителна дейност и модели, които могат да показват измамно поведение и да помогнат за намаляване на рисковете.
  • Оптимизиране на цените. Компаниите могат да използват анализ на големи данни, за да оптимизират цените, които начисляват за продукти и услуги, като спомагат за увеличаване на приходите.