Преглед: Google Cloud AutoML е наистина автоматизирано машинно обучение

Когато се опитвате да обучите автоматично най-добрия модел за машинно обучение за вашите данни, има AutoML или автоматизирано машинно обучение, а след това има Google Cloud AutoML. Google Cloud AutoML е по-горе. 

В миналото прегледах H2O Driverless AI, Amazon SageMaker и Azure Machine Learning AutoML. Driverless AI автоматично извършва проектиране на функции и настройка на хиперпараметри и твърди, че се представя, както и майсторите на Kaggle. Amazon SageMaker поддържа оптимизация на хиперпараметри. Azure Machine Learning AutoML автоматично обхваща функции, алгоритми и хиперпараметри за основни алгоритми за машинно обучение; отделно устройство за настройка на хиперпараметри на Azure Machine Learning ви позволява да почиствате специфични хиперпараметри за съществуващ експеримент.

Те са добри, но Google Cloud AutoML преминава на съвсем различно ниво и персонализира тестваните от битката на Google дълбоки невронни мрежи с висока точност за вашите маркирани данни. Вместо да започне от нулата, когато обучава модели от вашите данни, Google Cloud AutoML прилага автоматично обучение за дълбоко прехвърляне (което означава, че започва от съществуваща дълбока невронна мрежа, обучена на други данни) и търсене на невронна архитектура (което означава, че намира правилната комбинация от допълнителни мрежови слоеве) за превод на езикова двойка, класификация на естествен език и класификация на изображения.

Във всяка област Google вече разполага с една или повече предварително обучени услуги, базирани на дълбоки невронни мрежи и огромни набори от етикетирани данни. Те може да работят за вашите данни немодифицирани и трябва да ги тествате, за да си спестите време и пари. Ако тези услуги не правят това, от което се нуждаете, Google Cloud AutoML ви помага да създадете модел, който го прави, без да изисква да знаете как да извършвате обучение за трансфер или дори как да създавате невронни мрежи.

Трансферното обучение предлага две големи предимства пред обучението на невронна мрежа от нулата. Първо, това изисква много по-малко данни за обучение, тъй като повечето слоеве на мрежата вече са добре обучени. Второ, работи много по-бързо, тъй като оптимизира само крайните слоеве.

Google Cloud AutoML Превод

Така, например, можете да тренирате срещу 1000 двуезични двойки изречения за час или два с Google Cloud AutoML Transfer transfer learning. Персонализираната основна невронна мрежа, NMT, отне стотици до хиляди часове, за да се обучава от нулата за всяка езикова двойка на голям брой CPU и GPU. Обърнете внимание, че почасовата такса за обучение на персонализиран модел за превод в момента е 76 $.

Ръководството за начинаещи AutoML Translation обяснява основите на това, което Google Cloud AutoML Translation може да направи, и защо бихте го използвали. По същество той усъвършенства съществуващ общ преводачески модел за ниша. Не е необходимо да провеждате никакво обучение за общ превод на стотина езика, които Google вече поддържа, но ще трябва да стартирате обучението по трансфер, ако искате да създадете мрежа за превод за специализирана лексика или употреба. Един пример, който Google споменава, е превод на чувствителни във времето финансови документи в реално време. Преводът с общо предназначение не винаги използва правилните термини на изкуството за финанси.

 Настройването на обучението за Google Cloud AutoML Translation е процес от пет стъпки, както е показано на екранните снимки по-долу, след като подготвите файл с двойки изречения. Използвах 8 720 английско-испански двойки за подкани за приложения, предоставени от Google в Autostation Quickstart за превод на AutoML, форматирани като файл със стойности, разделени с табулатори. Google Cloud AutoML Translation също поддържа XML-базиран формат за превод eXchange (TMX) за двойки изречения.

Ще забележите, че няма опция за управление на хардуера (процесори, графични процесори, TPU и памет), използван за извършване на обучението. Това е умишлено: Обучението ще използва това, от което се нуждае. Също така няма опции за управление на слоевете на невронната мрежа, които се добавят към модела, броя на епохите, които трябва да се изпълнят, или критериите за спиране.

След като обучението на модела приключи, можете да видите подобрението (ако всичко върви добре) в оценката BLEU спрямо базовия модел и да опитате да правите прогнози с модела. Това обучение отне 0,9 часа (по-малко от предвиденото) и струва $ 68,34.

Google Cloud AutoML Естествен език

API за естествен език на Google взема текст и предсказва обекти, настроения, синтаксис и категории (от предварително дефиниран списък). Ако проблемът ви с класификация на текст не отговаря на нито един от тях, можете да предоставите етикетиран набор от изявления и да използвате Google Cloud AutoML Natural Language, за да създадете персонализиран класификатор.

За да настроите AutoML Natural Language за обучение, трябва да извикате данните си, да ги маркирате, да ги подготвите като CSV файл и да стартирате обучението. Можете също така да използвате потребителския интерфейс на AutoML Natural Language, за да качите и етикетирате данните, ако предпочитате.

След като обучението на модела приключи, можете да видите матрицата за точност, извикване и объркване на модела. Можете също така да настроите прага на оценката за желания компромис за прецизност / извикване. За да сведете до минимум фалшивите негативи, оптимизирайте за изземване. За да сведете до минимум фалшивите положителни резултати, оптимизирайте за прецизност.

Това обучение отне 3.63 часа (приблизително както беше предвидено) и струваше $ 10.88.

Google Cloud AutoML Vision

API на Google Cloud Vision класифицира изображенията в хиляди предварително дефинирани категории, открива отделни обекти и лица в изображенията и намира и чете отпечатани думи, съдържащи се в изображения. Google Cloud AutoML Vision ви позволява да дефинирате и обучавате свой собствен списък с категории. Някои приложения от реалния живот включват откриване на щети върху вятърни турбини от снимки на безпилотни летателни апарати и класифициране на рециклируеми за управление на отпадъци.

За да настроите набор от данни на Google Cloud AutoML Vision, трябва да създадете поне 100 изображения за всяка категория и да ги маркирате в CSV файл. Всички изображения и CSV файлът трябва да се намират в кофа на Google Cloud Storage.

Зададох това обучение да работи максимум час, което е безплатно за до 10 модела на месец. Бях приятно изненадан да видя добри резултати от безплатното обучение и не си направих труда да продължа обучението, за да подобря прецизността и изземването.

Google Cloud AutoML предоставя удобни опции за извършване на целеви преводи, персонализирана класификация на текст и персонализирана класификация на изображения. Всеки от тези API работи добре, ако му дадете достатъчно точно етикетирани данни и отнема много по-малко време и умения, отколкото изграждането на собствен модел на невронна мрежа или дори собствен модел на трансферно обучение. С Google Cloud AutoML вие всъщност създавате модели TensorFlow, без непременно да знаете нищо за TensorFlow, Python, архитектури на невронни мрежи или хардуер за обучение.

Има много начини да се обърка подготовката на данните, но за щастие трите API-та проверяват за най-често срещаните грешки, като например да има твърде малко или твърде много образци за която и да е категория. Диагностиката, показана след тренировка, ви дава добра представа за това колко добре работи вашият модел и можете лесно да промените моделите, като добавите още етикетирани данни за обучение и повторно стартирате обучението.

-

Цена: Google Cloud AutoML Translation: Обучението струва $ 76,00 на час, превод $ 80 на милион символа след първите 500 000. Google Cloud AutoML Natural Language: Обучението струва $ 3,00 на час, класификация $ 5 на хиляда текстови записи след първите 30 000. Google Cloud AutoML Vision: Обучението струва $ 20 на час след първия час, класификация $ 3 на хиляда изображения след първата хиляда. 

Платформа: Google Cloud Platform