Как да създадете REST API за дълбоко обучение с Word2Vec и Flask

Традиционните подходи към разработката са трудни за поддържане, когато се използват сложни модели на машинно обучение в производството. Разработването на лаптоп или локална машина може да бъде бавно за обучение на модела на машинно обучение за инженери за дълбоко обучение. В резултат на това обикновено използваме облачни машини с по-мощен хардуер както за обучение, така и за изпълнение на нашите модели за машинно обучение. Това е добра практика, тъй като ние абстрахираме сложни изчисления и вместо това правим AJAX заявки, ако е необходимо. В този урок ще направим предварително обучен модел за дълбоко обучение, наречен Word2Vec, достъпен за други услуги, като изградим REST API от самото начало.

Предпоставки

  • Сървърен екземпляр на Ubuntu 16.04 с поне 4 GB RAM. За целите на тестване и разработка можете да изберете екземпляр с 4GB RAM
  • Разбиране как да използвате операционната система Linux за създаване/навигиране/редактиране на папки и файлове
  • А sudoна потребителя

Какво представляват вградените думи?

Вграждането на думи е скорошно развитие в обработката на естествен език и дълбокото обучение, което революционизира и двете области поради бързия напредък. Вградените думи са по същество вектори, всеки от които съответства на една дума, така че векторите означават думите. Това може да се демонстрира чрез определени явления като вектора за king - queen = boy - girl. Word векторите се използват за изграждане на всичко - от двигатели за препоръки до чат-ботове, които всъщност разбират английския език.

Вгражданията на думи не са произволни; те се генерират чрез обучение на невронна мрежа. Скорошна мощна реализация за вграждане на думи идва от Google на име Word2Vec, която се обучава чрез предвиждане на думи, които се появяват до други думи на даден език. Например за думата "cat"невронната мрежа ще предскаже думите "kitten"и "feline". Тази интуиция на думите, които се появяват една до друга, ни позволява да ги поставим във векторно пространство.

На практика обаче ние сме склонни да използваме предварително обучените модели на други големи корпорации като Google, за да направим бързо прототип и да опростим процесите на внедряване. В този урок ще изтеглим и използваме предварително обучените вградени думи на Google Word2Vec. Можем да направим това, като изпълним следната команда в нашата работна директория.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Инсталиране на пакетите Flask и Magnitude

Моделът за вграждане на думи, който изтеглихме, е във .magnitudeформат. Този формат ни позволява да запитваме модела ефективно с помощта на SQL и следователно е оптималният формат за вграждане за производствени сървъри. Тъй като трябва да можем да четем .magnitudeформата, ще инсталираме pymagnitudeпакета. Също така ще инсталираме, за flaskда обслужваме по-късно прогнозите за дълбоко обучение, направени от модела.

pip3 install pymagnitude flask

Ще го добавим и към нашия инструмент за проследяване на зависимости със следната команда. Това създава файл с име requirements.txtи записва нашите Python библиотеки, за да можем да ги инсталираме отново по-късно.

pip3 freeze > requirements.txt

Запитване на модела Word2Vec

За да започнем, ще създадем файл, който да обработва отварянето и запитването на вградените думи.

touch model.py

След това ще добавим следните редове model.pyза импортиране на Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Можем да си играем с pymagnitudeпакета и модела за дълбоко обучение, като използваме queryметода, предоставяйки аргумент за дума.

cat_vector = vectors.query('cat')
print(cat_vector)

За ядрото на нашия API ще дефинираме функция за връщане на разликата в значението между две думи. Това е гръбнакът за повечето решения за дълбоко обучение за неща като двигатели за препоръки (т.е. показване на съдържание с подобни думи).

Ние можем да си поиграете с тази функция, като използвате similarityи most_similar функции.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Реализираме калкулатора на сходството, както следва. Този метод ще бъде извикан от Flask API в следващия раздел. Имайте предвид, че тази функция връща реална стойност между 0 и 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Създаване на REST API

Ще създадем нашия сървър във файл с име service.pyсъс следното съдържание. Ние импортираме flaskи requestобработваме нашите сървърни възможности и импортираме similarityдвигателя от модула, който написахме по-рано.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Нашият сървър е доста гол, но може лесно да бъде разширен чрез създаване на повече маршрути с помощта на @app.routeдекоратора.

Извършване на API обаждания

Можем да стартираме нашия Flask сървър, като изпълним следните команди, за да активираме нашата виртуална среда, да инсталираме нашите пакети и да стартираме свързания с него Python файл.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Нашият сървър ще бъде наличен на адрес localhost:8000. Можем да запитаме нашата база данни localhost:8000/similarity?word1=cat&word2=dogи да видим отговора или в нашия браузър, или чрез друг AJAX клиент.


Инсталирайте Lets Encrypt SSL в приложението WordPress с едно щракване

Инсталирайте Lets Encrypt SSL в приложението WordPress с едно щракване

Въведение Lets Encrypt е услуга на сертифициращ орган, която предлага безплатни TLS/SSL сертификати. Процесът на инсталиране е опростен от Certbot,

Как да настроите надстройки без надзор на Debian 9 (разтягане)

Как да настроите надстройки без надзор на Debian 9 (разтягане)

Използване на различна система? Ако закупите сървър на Debian, винаги трябва да имате най-новите корекции за сигурност и актуализации, независимо дали спите или не

Как да инсталирате и конфигурирате PHP 7.0 или PHP 7.1 на Ubuntu 16.04

Как да инсталирате и конфигурирате PHP 7.0 или PHP 7.1 на Ubuntu 16.04

PHP и свързаните с него пакети са най-често използваните компоненти при разгръщане на уеб сървър. В тази статия ще научим как да настроим PHP 7.0 или PHP 7.1 o

Как да инсталирате Squid Proxy на CentOS

Как да инсталирате Squid Proxy на CentOS

Squid е популярна, безплатна програма за Linux, която ви позволява да създадете уеб прокси за препращане. В това ръководство ще видите как да инсталирате Squid на CentOS, за да ви обърне

Как да инсталирате Lighttpd (LLMP стек) на CentOS 6

Как да инсталирате Lighttpd (LLMP стек) на CentOS 6

Въведение Lighttpd е форк на Apache, чиято цел е да бъде много по-малко ресурсоемка. Той е лек, откъдето идва и името му, и е доста лесен за използване. Инсталирайте

Три безплатни контролни панела на сървъра (бърза инсталация)

Три безплатни контролни панела на сървъра (бърза инсталация)

1. Virtualmin/Webmin Virtualmin е мощен и гъвкав контролен панел за уеб хостинг за Linux и UNIX системи, базиран на добре познатата уеб база с отворен код

Настройване на приложение Yii на Ubuntu 14.04

Настройване на приложение Yii на Ubuntu 14.04

Yii е PHP рамка, която ви позволява да разработвате приложения по-бързо и лесно. Инсталирането на Yii в Ubuntu е лесно, както ще научите точно l

Настройте свой собствен DNS сървър на Debian/Ubuntu

Настройте свой собствен DNS сървър на Debian/Ubuntu

Този урок обяснява как да настроите DNS сървър с помощта на Bind9 на Debian или Ubuntu. В цялата статия заменете your-domain-name.com съответно. При th

Използване на Logrotate за управление на регистрационни файлове

Използване на Logrotate за управление на регистрационни файлове

Въведение Logrotate е помощна програма за Linux, която опростява администрирането на лог файлове. Обикновено се изпълнява веднъж на ден чрез cron задание и управлява базата от регистрационни файлове

Промяна на Icinga2 за използване на модел главен/клиент на CentOS 6 или CentOS 7

Промяна на Icinga2 за използване на модел главен/клиент на CentOS 6 или CentOS 7

Icinga2 е мощна система за наблюдение и когато се използва в модел главен-клиент, тя може да замени необходимостта от проверки на базата на NRPE. Главният клиент

Настройте Red5 Media Server на Ubuntu 16.04

Настройте Red5 Media Server на Ubuntu 16.04

Използване на различна система? Red5 е медиен сървър с отворен код, внедрен в Java, който ви позволява да стартирате Flash многопотребителски приложения, като например предаване на живо

Компилирайте и инсталирайте Nginx с модула PageSpeed ​​на Debian 8

Компилирайте и инсталирайте Nginx с модула PageSpeed ​​на Debian 8

В тази статия ще видим как да компилирате и инсталирате основната линия на Nginx от официалните източници на Nginx с модула PageSpeed, който ви позволява да

Как да инсталирате Apache Cassandra 3.11.x на Ubuntu 16.04 LTS

Как да инсталирате Apache Cassandra 3.11.x на Ubuntu 16.04 LTS

Използване на различна система? Apache Cassandra е безплатна система за управление на база данни NoSQL с отворен код, която е проектирана да осигури мащабируемост, висока

Как да инсталирате Vanilla Forum на Ubuntu 16.04

Как да инсталирате Vanilla Forum на Ubuntu 16.04

Използване на различна система? Vanilla forum е приложение за форум с отворен код, написано на PHP. Той е напълно адаптивен, лесен за използване и поддържа външен

Как да инсталирате Kanboard на Ubuntu 18.04 LTS

Как да инсталирате Kanboard на Ubuntu 18.04 LTS

Използване на различна система? Въведение Kanboard е безплатна програма за управление на проекти с отворен код, която е предназначена да улеснява и визуализира

Как да инсталирате Kanboard на Debian 9

Как да инсталирате Kanboard на Debian 9

Използване на различна система? Въведение Kanboard е безплатна програма за управление на проекти с отворен код, която е предназначена да улеснява и визуализира

Как да инсталирате Gitea на Debian 9

Как да инсталирате Gitea на Debian 9

Използване на различна система? Gitea е алтернатива с отворен код, самостоятелно хоствана система за контрол на версиите, задвижвана от Git. Gitea е написана на Голанг и е

Как да инсталирате Gitea на Ubuntu 18.04

Как да инсталирате Gitea на Ubuntu 18.04

Използване на различна система? Gitea е алтернатива с отворен код, самостоятелно хоствана система за контрол на версиите, задвижвана от git. Gitea е написана на Голанг и е

Инсталирайте Lynis на Debian 8

Инсталирайте Lynis на Debian 8

Въведение Lynis е безплатен инструмент за одит на системата с отворен код, който се използва от много системни администратори за проверка на целостта и заздравяване на техните системи. аз

Как да инсталирате Thelia 2.3 на Debian 9

Как да инсталирате Thelia 2.3 на Debian 9

Използване на различна система? Thelia е инструмент с отворен код за създаване на уебсайтове за е-бизнес и управление на онлайн съдържание, написано на PHP. Изходен код на Thelia i

Възходът на машините: Реални приложения на AI

Възходът на машините: Реални приложения на AI

Изкуственият интелект не е в бъдещето, тук е точно в настоящето. В този блог Прочетете как приложенията за изкуствен интелект са повлияли на различни сектори.

DDOS атаки: кратък преглед

DDOS атаки: кратък преглед

Вие също сте жертва на DDOS атаки и сте объркани относно методите за превенция? Прочетете тази статия, за да разрешите вашите запитвания.

Чудили ли сте се как хакерите печелят пари?

Чудили ли сте се как хакерите печелят пари?

Може би сте чували, че хакерите печелят много пари, но чудили ли сте се някога как печелят такива пари? нека обсъдим.

Революционни изобретения на Google, които ще улеснят живота ви.

Революционни изобретения на Google, които ще улеснят живота ви.

Искате ли да видите революционни изобретения на Google и как тези изобретения промениха живота на всяко човешко същество днес? След това прочетете в блога, за да видите изобретенията на Google.

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Концепцията за самоуправляващи се автомобили да тръгват по пътищата с помощта на изкуствен интелект е мечта, която имаме от известно време. Но въпреки няколкото обещания, те не се виждат никъде. Прочетете този блог, за да научите повече…

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Тъй като науката се развива с бързи темпове, поемайки много от нашите усилия, рискът да се подложим на необяснима сингулярност също нараства. Прочетете какво може да означава сингулярността за нас.

Еволюция на съхранението на данни – инфографика

Еволюция на съхранението на данни – инфографика

Методите за съхранение на данните може да се развиват от раждането на данните. Този блог обхваща развитието на съхранението на данни на базата на инфографика.

Функционалности на референтните архитектурни слоеве за големи данни

Функционалности на референтните архитектурни слоеве за големи данни

Прочетете блога, за да разберете различни слоеве в архитектурата на големи данни и техните функционалности по най-простия начин.

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

В този дигитално задвижван свят устройствата за интелигентен дом се превърнаха в решаваща част от живота. Ето няколко невероятни предимства на интелигентните домашни устройства за това как те правят живота ни струващ и по-опростен.

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Наскоро Apple пусна macOS Catalina 10.15.4 допълнителна актуализация за отстраняване на проблеми, но изглежда, че актуализацията причинява повече проблеми, водещи до блокиране на mac машини. Прочетете тази статия, за да научите повече