Защо предприятията се насочват от TensorFlow към PyTorch

Подкатегория машинно обучение, дълбокото обучение използва многопластови невронни мрежи за автоматизиране на исторически трудни машинни задачи - като разпознаване на изображения, обработка на естествен език (NLP) и машинен превод - в мащаб.

TensorFlow, който се появи от Google през 2015 г., беше най-популярната рамка за дълбоко обучение с отворен код както за научни изследвания, така и за бизнес. Но PyTorch, който излезе от Facebook през 2016 г., бързо го настигна, благодарение на подобренията, обвързани с общността, в лекотата на използване и внедряване за разширяване на обхвата на случаи на употреба.

PyTorch вижда особено силно възприемане в автомобилната индустрия - където може да се приложи към пилотни системи за автономно управление от подобни на Tesla и Lyft Level 5. Рамката също се използва за класификация на съдържанието и препоръки в медийните компании и за подпомагане на роботи в промишлени приложения.

Джо Спишак, ръководител на продукти за изкуствен интелект във Facebook AI, каза, че въпреки че е доволен от увеличаването на внедряването на PyTorch в предприятието, има още много работа, която трябва да се направи, за да се постигне по-широко приемане в индустрията.

„Следващата вълна на приемане ще дойде с активиране на управлението на жизнения цикъл, MLOps и Kubeflow тръбопроводи и общността около това“, каза той. „За тези, които са в началото на пътуването, инструментите са доста добри, като се използват управлявани услуги и някои отворени кодове с нещо като SageMaker в AWS или Azure ML, за да започнете.“

Дисни: Идентифициране на анимирани лица във филми

От 2012 г. инженери и изследователи на данни в медийния гигант Disney изграждат това, което компанията нарича Content Genome, графика на знанието, която обединява метаданните на съдържанието, за да задвижва приложенията за търсене и персонализиране, базирани на машинно обучение, в огромната библиотека със съдържание на Disney.

„Тези метаданни подобряват инструментите, които се използват от разказвачите на истории на Дисни за създаване на съдържание; вдъхновяват итеративно творчество в разказването на истории; подобряване на потребителския опит чрез механизми за препоръки, цифрова навигация и откриване на съдържание; и да даде възможност за бизнес разузнаване “, написаха разработчиците на Дисни Микел Анхел Фаре, Антъни Акардо, Марк Джуниент, Моника Алфаро и Сеск Гитарт в публикация в блога през юли.

Преди това да се случи, Дисни трябваше да инвестира в обширен проект за анотиране на съдържание, като се обърна към своите учени за данни, за да обучи автоматизиран конвейер за маркиране, използвайки модели за дълбоко обучение за разпознаване на изображения, за да идентифицира огромни количества изображения на хора, герои и местоположения.

Инженерите на Disney започнаха, като експериментираха с различни рамки, включително TensorFlow, но решиха да се консолидират около PyTorch през 2019 г. Инженерите преминаха от конвенционален дескриптор на характеристиките на ориентирани градиенти (HOG) и популярния модел на векторни машини за поддръжка (SVM) към версия на архитектурата за откриване на обекти, наречена региони със свито невронни мрежи (R-CNN). Последното беше по-благоприятно за боравене с комбинациите от живо действие, анимации и визуални ефекти, често срещани в съдържанието на Дисни.

„Трудно е да се определи какво е лице в карикатура, така че преминахме към дълбоки методи на обучение с помощта на обективен детектор и използвахме трансферно обучение“, обясни инженерът от Disney Research Моника Алфаро. След като бяха обработени само няколко хиляди лица, новият модел вече широко идентифицира лица във всичките три случая на употреба. Той влезе в производство през януари 2020 г.

„Сега използваме само един модел за трите типа лица и това е страхотно да се кандидатираме за филм на Marvel като Avengers, където трябва да разпознае както Iron Man, така и Tony Stark, или всеки персонаж с маска“, каза тя.

Тъй като инженерите се занимават с толкова големи обеми видео данни, за да обучават и стартират модела паралелно, те също искаха да работят на скъпи графични процесори с висока производителност, когато преминават в производство.

Преминаването от процесори позволи на инженерите да обучават и актуализират моделите по-бързо. Той също така ускори разпространението на резултатите до различни групи в Дисни, като съкрати времето за обработка от около час за пълнометражен филм до постигане на резултати между пет до 10 минути днес.

„Обектният детектор TensorFlow доведе до проблеми с паметта и беше труден за актуализиране, докато PyTorch имаше същия детектор на обекти и Faster-RCNN, така че започнахме да използваме PyTorch за всичко“, каза Алфаро.

Преминаването от една рамка към друга беше изненадващо просто и за инженерния екип. „Промяната [на PyTorch] беше лесна, тъй като е изцяло вградена, можете да включите само някои функции и да стартирате бързо, така че това не е стръмна крива на обучение“, каза Алфаро.

Когато се срещнаха с някакви проблеми или тесни места, оживената общност на PyTorch беше на разположение да помогне.

Blue River Technology: Роботи за унищожаване на плевели

Blue River Technology е проектирала робот, който използва опияняваща комбинация от цифрово търсене на път, интегрирани камери и компютърно зрение за пръскане на плевели с хербицид, като същевременно оставя посевите сами в почти реално време, помагайки на фермерите по-ефективно да опазват скъпите и потенциално увреждащи околната среда хербициди.

Базираната в Калифорния компания Sunnyvale привлече вниманието на производителя на тежко оборудване John Deere през 2017 г., когато беше придобита за 305 милиона долара, с цел да интегрира технологията в селскостопанското си оборудване.

Изследователите от Blue River експериментираха с различни рамки за дълбоко обучение, докато се опитваха да обучат модели на компютърно зрение, за да разпознаят разликата между плевелите и културите, огромно предизвикателство, когато се занимавате с памучни растения, които носят жалко подобие на плевелите.

Бяха изготвени висококвалифицирани агрономи, които да изпълняват задачи за ръчно етикетиране на изображения и да обучават конволюционна невронна мрежа (CNN), използвайки PyTorch „за анализ на всеки кадър и създаване на точна пикселна карта на това къде са културите и плевелите“, Крис Падуик, директор на компютъра визия и машинно обучение в Blue River Technology, пише в блог през август.

„Подобно на други компании, ние опитахме Caffe, TensorFlow и след това PyTorch“, каза Падуик. „Работи доста нестандартно за нас. Ние изобщо не сме имали доклади за грешки или блокираща грешка. При разпределените изчисления той наистина блести и е по-лесен за използване от TensorFlow, което за паралелизмите на данните беше доста сложно. "

Падуик казва, че популярността и простотата на рамката на PyTorch му дава предимство, когато става въпрос за бързо увеличаване на броя на наетите. Като се има предвид това, Падуик мечтае за свят, в който „хората се развиват във всичко, което им е удобно. Някои харесват Apache MXNet или Darknet или Caffe за изследвания, но в производството той трябва да бъде на един език, а PyTorch има всичко необходимо, за да успеем. “

Datarock: Облачен анализ на изображения за добивната индустрия

Основана от група геолози, австралийският стартъп Datarock прилага технология за компютърно зрение в минната индустрия. По-конкретно, неговите модели за дълбоко обучение помагат на геолозите да анализират образци на проби от свредла по-бързо от преди.

Обикновено геологът ще пробива тези проби сантиметър по сантиметър, за да оцени минералогията и структурата, докато инженерите ще търсят физически характеристики като разломи, счупвания и качество на скалите. Този процес е едновременно бавен и склонен към човешки грешки.

„Компютърът може да вижда камъни както инженерът“, каза Брентън Крофорд, главен оперативен директор на Datarock. „Ако можете да го видите на изображението, можем да обучим модел, който да го анализира, както и човек.“

Подобно на Blue River, Datarock използва вариант на модела RCNN в производството, като изследователите се обръщат към техниките за увеличаване на данни, за да съберат достатъчно данни за обучение в ранните етапи.

„След първоначалния период на откриване, екипът се зае да комбинира техники за създаване на работен процес за обработка на изображения за изображения на свредлото. Това включваше разработването на поредица от модели за задълбочено обучение, които биха могли да обработят сурови изображения в структуриран формат и да сегментират важната геоложка информация “, пишат изследователите в публикация в блог.

Използвайки технологията на Datarock, клиентите могат да получат резултати за половин час, за разлика от пет или шест часа, необходими за ръчно регистриране на констатациите. Това освобождава геолозите от по-трудоемките части на работата им, каза Крофорд. Въпреки това, „когато автоматизираме нещата, които са по-трудни, получаваме известен отпор и трябва да обясним, че те са част от тази система, за да обучат моделите и да завъртят тази верига за обратна връзка“

Подобно на много компании, обучаващи модели за дълбоко учене на компютърно зрение, Datarock започва с TensorFlow, но скоро преминава към PyTorch.

„В началото използвахме TensorFlow и той ще се срути върху нас по мистериозни причини“, каза Duy Tin Truong, ръководител на машинното обучение в Datarock. „PyTorch и Detecton2 бяха пуснати по това време и се вписваха добре в нашите нужди, така че след някои тестове видяхме, че е по-лесно да отстраняваме грешки и да работим и заемаме по-малко памет, така че конвертирахме,“ каза той.

Datarock също съобщава за четирикратно подобрение на производителността на извода от TensorFlow до PyTorch и Detectron2 при изпълнение на моделите на графични процесори - и 3 пъти на CPU.

Truong цитира нарастващата общност на PyTorch, добре проектирания интерфейс, лекотата на използване и по-доброто отстраняване на грешки като причини за превключването и отбеляза, че въпреки че „те са доста различни от гледна точка на интерфейса, ако познавате TensorFlow, е доста лесно да превключите , особено ако познавате Python. "