Проект Оксфорд: Microsoft обслужва API за интелигентни приложения

Миналата пролет Microsoft обяви Project Oxford, набор от SDK и API, които позволяват на разработчиците да създават „интелигентни“ приложения, без да се налага да учат машинно обучение. Използвайки API на лицето, речта и зрението на Оксфорд, разработчиците могат да създават приложения, които разпознават черти на лицето, анализират изображения или извършват преводи на текст в говор или текст в говор.

В интервю с редактора в Large Paul Krill, Райън Галгон, старши мениджър на програмата, отговарящ за платформата и технологиите Project Oxford, говори за целите, стоящи зад Оксфорд, подчертавайки потенциала му в Интернет на нещата.

: Кой изгражда оксфордски приложения? За кого е Оксфорд?

Галгон: Имаме много хора, които влизат и се регистрират за API услугите. Точните числа [не са] нещо, в което мога да вляза, но имаме много създадени акаунти в Azure, много регистрации чрез нашия пазар на Microsoft Azure. Хората ритат гумите за услугите, както и се стремят да използват по-широко услугите. В момента всички те се предлагат като ограничен безплатен слой на месечна база и ние работим, за да го отворим, тъй като получихме обратна връзка за промените, които разработчиците искат да направят в API и моделите.

Всичко е междуплатформено, в смисъл, че това е набор от уеб услуги, до които се достига предимно чрез интерфейс REST API. Всичко, което може да се свърже с уебсайт, може да се обади на тези фонови услуги. Ние предлагаме набор от SDK, които обхващат тези REST повиквания и ги правят по-лесни за използване на клиенти като Android и Windows и iOS. Всичко, което може да осъществи HTTP уеб повикване, може да извика услугите.

: Предвиждате ли Оксфорд да се използва предимно на мобилни устройства или на настолни компютри с Windows?

Галгон:  Това ще бъде предимно комбинация от вероятно мобилни и IoT устройства. В смисъл, че когато хората използват настолни компютри, по-голямата част от приложенията, които виждам, вие седите там, имате клавиатурата и мишката и този тип вход. Но когато имате мобилен телефон, заснемате снимки и видео и аудио. Толкова по-лесно и естествено е да заснемете това с малко устройство. [Ще се използва технологията Project Oxford], където доминиращият случай на въвеждане ще бъдат естествени данни, не само числа, но някакъв вид визуални или аудио данни.

: Разкажете ни повече за тези API. Кои са някои от нещата, които разработчиците могат да направят?

Галгон: Тъй като искаме да достигнем до възможно най-много разработчици, наистина сме положили много работа, за да ги направим много лесни за използване, [за] неща като откриване на лица или компютърно зрение, категоризация на изображенията. Тези неща са обучени и моделирани, изградени от хора с дългогодишен опит в тези места и ние не искаме разработчиците да се налага да стават експерти в компютърното зрение. Наистина се опитахме да кажем: „Вижте, ние ще изградим най-добрия модел, който можем да изградим, ще го направим достъпен за вас и ще го направим достъпен в рамките на три реда код за вас.“

Не мога да говоря за това как външните партньори гледат да използват API на Оксфорд, но основните, по които е работила Microsoft, които може би сте виждали, първият беше сайтът How-old.net за прогнозиране на възрастта и полове. Тогава имахме TwinsorNot.net и на него бяха дадени две снимки, колко подобни са тези хора? И двете бяха добри примери за Face APIs. Последният, който използва Face API и някои API за реч, беше проект на Windows 10 IoT, в който бяха написани няколко публикации в блога, където можете да отключите врата с лицето си и да разговаряте с вратата - или ключалката, в този случай. Мисля, че това са три примера, по които Microsoft е работила, за да ви покаже, че тук има тип приложение, което може да бъде създадено и споделено с други хора.

: Съгласно тези REST API, какво кара Оксфорд да отбележи?

Галгон: Ядрото са машинно обучени модели, които създадохме за неща като реч в текст. Независимо дали имате достъп до него чрез REST API - или с реч към текст, можете също да го осъществите чрез връзка с уеб сокет - магията или мощното нещо, което има този модел, който може да приема аудио на някой, който говори и език че е в и го преведете в текстов формат. Това е основното нещо, което кара Оксфорд да отбележи като цяло.

: Защо Project Oxford е отделен от проекта за машинно обучение Azure?

Галгон:  В машинното обучение Azure един от основните компоненти е Azure Machine Learning Studio, където хората могат да влязат с данните си, да изградят експеримент, да обучат свой собствен модел, след което да хостват на този модел. С Оксфорд това е предварително изграден модел, който Microsoft има, модел, който ще продължим да подобряваме в бъдеще и оставяме хората да използват този модел през тези REST интерфейси.

: Какъв тип корпоративна бизнес употреба виждате за Project Oxford? Какъв е бизнес аргументът за приложенията в Оксфорд?

Галгон:Понастоящем няма конкретни партньори, за които наистина да мога да говоря, но мисля, че един от случаите, към които сме наблюдавали голям интерес, където аз лично виждам много случаи на употреба, е когато става въпрос за Интернет на нещата- свързани устройства. Когато гледам начина, по който хората гледат към изграждането на IoT устройства, вие нямате клавиатура и мишка и често дори истински монитор, свързан с всички тези устройства, но е лесно да залепите микрофон там и е доста лесно да залепиш и там камера. Ако комбинирате нещо като API за реч и LUIS (Language Understanding Intelligent Service), тогава устройство, което има само микрофон и няма друг начин за въвеждане, вече можете да говорите с него, да му кажете какво искате да направите, да го преведете в набор от структурирани действия и използвайте това в задната част.Това е мястото, където мисля, че ще видим много случаи на използване на API на Оксфорд.

: Споменахте iOS и Android. Какво е усвояването на тези платформи?

Галгон: Правейки API-тата RESTful и предоставяйки тези обвивки за тях, определено сме виждали хора да изтеглят тези обвивки и да ги използват. Но в края на деня се случва: „Ето обвивка на езика Java около уеб повикващ“, „Ето обвивка на Objective-C около уеб обаждане“. Нямаме много представа какво точно е устройството, което осъществява обаждането.

: Оксфорд ще бъде ли с отворен код?

Галгон: Не планираме да използваме основните модели с отворен код и нямам какво да споделя за това, защото продължаваме да актуализираме моделите с течение на времето. SDK, които ние предлагаме, тъй като те са обвивки около тези REST повиквания, че изходният код е там и е на разположение за изтегляне за всеки днес от уебсайта. Но отново това е скрита обвивка за нещата и всъщност видяхме хора във форумите на MSDN, които предоставят кодови фрагменти на различни езици около него.

: Как Microsoft планира да спечели пари от Оксфорд?

Galgon: Приложните програмни интерфейси (API) на пазара са безплатни днес за ограничена употреба, така че получавате 5000 API транзакции на месец. Това е единственият план, който имаме на разположение сега. В бъдеще ще въведем платени планове въз основа на използването на API.

: Какво следва за Оксфорд?

Галгон: Оттук нататък наистина има три области. Първата област е свързана с актуализиране и подобряване на съществуващите модели. Получихме отзиви от разработчиците [за това] как един от API може да не работи чудесно с определени типове изображения. Ще подобрим основния модел там.

Едно от другите неща, които ще направим, е да продължаваме да разширяваме броя функции, върнати от моделите. Днес API на Face ви дава прогнозна възраст и предсказан пол. Видяхме много заявки за възможността да разпознаваме друго съдържание в изображенията.

Третата област е, че ще разширим портфолиото от API, които имаме. Днес имаме четири, но определено не сме приключили. Не смятаме, че цялото пространство, което искаме да предоставим, или инструментите, които искаме да предоставим, все още не е завършено. Ще продължим да добавяме нови API, които могат да се справят с различни типове данни или могат да предоставят много различни видове естествено разбиране на данните от това, което даваме днес.