Преглед на Qubole: Анализ на големи данни на самообслужване

Представен като облачна платформа за данни за анализи, изкуствен интелект и машинно обучение, Qubole предлага решения за ангажиране на клиентите, дигитална трансформация, продукти, управлявани от данни, дигитален маркетинг, модернизация и разузнаване за сигурността. Претендира бързо време за оценяване, поддръжка на много облаци, 10 пъти производителност на администратора, съотношение 1: 200 между оператор и потребител и по-ниски разходи за облак.

Това, което Qubole всъщност прави, въз основа на моя кратък опит с платформата, е да интегрира редица инструменти с отворен код и няколко патентовани инструмента, за да създаде облачно базирано изживяване за големи данни на самообслужване за анализатори на данни и инженери по данни и учени по данни.

Qubole ви отвежда от ETL чрез изследователски анализ на данни и изграждане на модели до внедряване на модели в производствен мащаб. По пътя той автоматизира редица облачни операции, като осигуряване и мащабиране на ресурси, които иначе могат да изискват значително количество администраторско време. Дали тази автоматизация всъщност ще позволи 10-кратно увеличение на производителността на администратора или съотношение 1: 200 между оператор и потребител за която и да е конкретна компания или случай на употреба, не е ясно.

Qubole има склонност да напада понятието „активни данни“. По принцип повечето езера на данни - които по същество са хранилища на файлове, пълни с данни от много източници, всички на едно място, но не и в една база данни - имат нисък процент данни, които се използват активно за анализ. Qubole изчислява, че повечето езера с данни са 10% активни и 90% неактивни, и прогнозира, че може да обърне това съотношение.

Състезателите на Qubole включват Databricks, AWS и Cloudera. Има редица други продукти, които се конкурират само с някои от функциите на Qubole.

Databricks изгражда преносими компютри, табла за управление и работни места върху мениджър на клъстери и Spark; Намерих го за полезна платформа за изследователи на данни, когато го прегледах през 2016 г. Databricks наскоро отвори своя продукт Delta Lake, който осигурява ACID транзакции, мащабируема обработка на метаданни и унифицирана обработка на поточни и партидни данни към езерата на данните, за да ги направи по-надеждни и да им помогне да захранват анализа на Spark.

AWS разполага с широка гама от продукти за данни и всъщност Qubole поддържа интеграция с много от тях. Cloudera, която сега включва Hortonworks, предоставя услуги за съхранение на данни и машинно обучение, както и услуга за концентратор на данни. Qubole твърди, че както на Databricks, така и на Cloudera липсва финансово управление, но можете сами да приложите управление на ниво един облак или като използвате продукт за управление на много облаци.

Как работи Qubole

Qubole интегрира всички свои инструменти в облачна и браузърна среда. Ще обсъдя частите от околната среда в следващия раздел на тази статия; в този раздел ще се концентрирам върху инструментите.

Qubole осъществява контрол на разходите като част от управлението на клъстерите си. Можете да посочите, че клъстерите използват специфична комбинация от типове екземпляри, включително екземпляри на място, когато са налични, и минималния и максималния брой възли за автоматично мащабиране. Можете също така да посочите продължителността на времето, в което всеки клъстер ще продължи да работи при липса на товар, за да избегнете „зомби“ случаи.

Искра

В статията си от август, „Как Qubole се справя с предизвикателствата на Apache Spark“, изпълнителният директор на Qubole Ashish Thusoo обсъжда предимствата и клопките на Spark и как Qubole отстранява трудности като конфигурация, производителност, разходи и управление на ресурсите. Spark е ключов компонент на Qubole за изследователите на данни, позволяващ лесно и бързо преобразуване на данни и машинно обучение.

Presto

Presto е механизъм за разпределени SQL заявки с отворен код за изпълнение на интерактивни аналитични заявки срещу източници на данни от всякакви размери, вариращи от гигабайта до петабайта. Заявките от Presto се изпълняват много по-бързо от заявките за Hive. В същото време Presto може да вижда и използва метаданни и схеми за данни на Hive.

Кошера

Apache Hive е популярен проект с отворен код в екосистемата Hadoop, който улеснява четенето, писането и управлението на големи масиви от данни, пребиваващи в разпределено хранилище, използвайки SQL. Структурата може да се проектира върху данни, които вече се съхраняват. Изпълнението на заявка за кошер се изпълнява чрез Apache Tez, Apache Spark или MapReduce. Hive on Qubole може да извършва автоматично мащабиране и директно записване, съобразено с натоварването; на отворения код Hive липсват тези оптимизирани за облак оптимизации.

Основателите на Qubole бяха и създателите на Apache Hive. Те стартираха Hive във Facebook и го отвориха през 2008 г.

Квантова

Quantum е собственият сървърен Qubole, автоматично мащабиране, интерактивен двигател за заявки на SQL, който поддържа както Hive DDL, така и Presto SQL. Quantum е услуга за плащане, когато отидете, която е рентабилна за спорадични модели на заявки, които се разпространяват в дълги периоди, и има строг режим за предотвратяване на неочаквани разходи. Quantum използва Presto и допълва наличието на сървърни клъстери на Presto. Квантовите заявки са ограничени до 45 минути време на изпълнение.

Въздушно течение

Airflow е платформа, базирана на Python, която програмно създава, планира и наблюдава работните потоци. Работните процеси са насочени ациклични графики (DAG) на задачите. Конфигурирате DAG, като пишете конвейери в Python код. Qubole предлага Airflow като една от услугите си; често се използва за ETL.

Новият QuboleOperator може да се използва точно както всеки друг съществуващ оператор на Airflow. По време на изпълнението на оператора в работния поток той ще подаде команда на Qubole Data Service и ще изчака, докато командата завърши. Qubole поддържа сензори за файлове и таблици на Hive, които Airflow може да използва за програмно наблюдение на работните потоци.

За да видите потребителския интерфейс на Airflow, първо трябва да стартирате клъстер на Airflow, след което да отворите страницата на клъстера, за да видите уебсайта на Airflow.

RubiX

RubiX е леката рамка за кеширане на данни на Qubole, която може да се използва от система за големи данни, която използва интерфейс на файлова система Hadoop. RubiX е проектиран да работи със системи за съхранение в облак като Amazon S3 и Azure Blob Storage и да кешира отдалечени файлове на локален диск. Qubole пусна RubiX за отворен код. Активирането на RubiX в Qubole е въпрос на поставяне на отметка в квадратче.

Какво прави Qubole?

Qubole предоставя цялостна платформа за анализ и наука за данни. Функционалността е разпределена между дузина модули.

Модулът Explore ви позволява да преглеждате таблиците с данни, да добавяте хранилища за данни и да настройвате обмен на данни. На AWS можете да преглеждате вашите връзки за данни, вашите сегменти S3 и вашите хранилища за данни Qubole Hive.

Модулите Analyze и Workbench ви позволяват да изпълнявате ad hoc заявки във вашите набори от данни. Analyze е старият интерфейс, а Workbench е новият интерфейс, който все още беше в бета версия, когато го опитах. И двата интерфейса ви позволяват да плъзгате и пускате полета с данни към вашите SQL заявки и да избирате механизма, който използвате за стартиране на операциите: Quantum, Hive, Presto, Spark, база данни, черупка или Hadoop.

Smart Query е базиран на форми конструктор на SQL заявки за Hive и Presto. Шаблоните ви позволяват да използвате повторно параметризирани SQL заявки.

Преносимите компютри са базирани на Spark Zeppelin или (в бета версия) преносими компютри Jupyter за наука за данни. Таблата осигуряват интерфейс за споделяне на вашите проучвания, без да позволяват достъп до вашите преносими компютри.

Планировщикът ви позволява да изпълнявате заявки, работни потоци, импортиране и експортиране на данни и команди автоматично на интервали. Това допълва ad-hoc заявките, които можете да изпълните в модулите Analyze и Workbench.

Модулът Clusters ви позволява да управлявате вашите клъстери на Hadoop / Hive, Spark, Presto, Airflow и сървъри за дълбоко обучение (бета). Използването ви позволява да проследявате използването на вашия клъстер и заявка. Контролният панел ви позволява да конфигурирате платформата или за себе си, или за други, ако имате разрешения за системно администриране.

Qubole разходка от край до край

Преминах през разходка за импортиране на база данни, създаване на схема на Hive и анализ на резултата с Hive и Presto, и отделно в тефтер Spark. Също така разгледах Airflow DAG за същия процес и тетрадка за машинно обучение със Spark на несвързан набор от данни.

Дълбоко обучение в Qubole

Виждали сме наука за данни в Qubole до нивото на класическо машинно обучение, но какво да кажем за дълбокото обучение? Един от начините да постигнете задълбочено обучение в Qubole е да вмъкнете стъпки на Python във вашите бележници, които импортират рамки за задълбочено обучение като TensorFlow и да ги използвате в наборите от данни, вече проектирани със Spark. Друго е да се обадите на Amazon SageMaker от преносими компютри или Airflow, като приемете, че вашата инсталация Qubole работи на AWS.

Повечето неща, които правите в Qubole, не изискват работа на графични процесори, но дълбокото обучение често се нуждае от графични процесори, за да позволи обучението да завърши за разумен период от време. Amazon SageMaker се грижи за това, като изпълнява стъпките за задълбочено обучение в отделни клъстери, които можете да конфигурирате с толкова възли и графични процесори, колкото е необходимо. Qubole предлага и клъстери за машинно обучение (в бета версия); на AWS те позволяват ускорени g-type и p-type работни възли с графични процесори на Nvidia, а на Google Cloud Platform и Microsoft Azure позволяват еквивалентни ускорени работни възли.

Инструментарий за големи данни в облака

Qubole, облачна платформа за данни за анализ и машинно обучение, ви помага да импортирате набори от данни в езерото за данни, да изграждате схеми с Hive и да заявявате данни с Hive, Presto, Quantum и Spark. Той използва както преносими компютри, така и Airflow за конструиране на работни потоци. Той може също да извиква други услуги и да използва други библиотеки, например услугата Amazon SageMaker и библиотеката TensorFlow Python за задълбочено обучение.

Qubole ви помага да управлявате своите облачни разходи, като контролирате комбинацията от екземпляри в клъстер, стартирате и автоматично мащабирате клъстери при поискване и автоматично изключвате клъстери, когато те не се използват. Той работи на AWS, Microsoft Azure, Google Cloud Platform и Oracle Cloud.

Като цяло Qubole е много добър начин да се възползвате от (или „активирате“) вашето езеро с данни, изолирани бази данни и големи данни. Можете да тествате безплатно Qubole за 14 дни по ваш избор на AWS, Azure или GCP с примерни данни. Можете също така да организирате безплатна пълнофункционална пробна версия за до петима потребители и един месец, като използвате вашия собствен акаунт в облачната инфраструктура и вашите собствени данни.

-

Цена: Тестови и пробни акаунти, безплатни. Корпоративна платформа, $ 0,14 на QCU (Qubole Compute Unit) на час. 

Платформа: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.