Как да създадете REST API за дълбоко обучение с Word2Vec и Flask

Традиционните подходи към разработката са трудни за поддържане, когато се използват сложни модели на машинно обучение в производството. Разработването на лаптоп или локална машина може да бъде бавно за обучение на модела на машинно обучение за инженери за дълбоко обучение. В резултат на това обикновено използваме облачни машини с по-мощен хардуер както за обучение, така и за изпълнение на нашите модели за машинно обучение. Това е добра практика, тъй като ние абстрахираме сложни изчисления и вместо това правим AJAX заявки, ако е необходимо. В този урок ще направим предварително обучен модел за дълбоко обучение, наречен Word2Vec, достъпен за други услуги, като изградим REST API от самото начало.

Предпоставки

  • Сървърен екземпляр на Ubuntu 16.04 с поне 4 GB RAM. За целите на тестване и разработка можете да изберете екземпляр с 4GB RAM
  • Разбиране как да използвате операционната система Linux за създаване/навигиране/редактиране на папки и файлове
  • А sudoна потребителя

Какво представляват вградените думи?

Вграждането на думи е скорошно развитие в обработката на естествен език и дълбокото обучение, което революционизира и двете области поради бързия напредък. Вградените думи са по същество вектори, всеки от които съответства на една дума, така че векторите означават думите. Това може да се демонстрира чрез определени явления като вектора за king - queen = boy - girl. Word векторите се използват за изграждане на всичко - от двигатели за препоръки до чат-ботове, които всъщност разбират английския език.

Вгражданията на думи не са произволни; те се генерират чрез обучение на невронна мрежа. Скорошна мощна реализация за вграждане на думи идва от Google на име Word2Vec, която се обучава чрез предвиждане на думи, които се появяват до други думи на даден език. Например за думата "cat"невронната мрежа ще предскаже думите "kitten"и "feline". Тази интуиция на думите, които се появяват една до друга, ни позволява да ги поставим във векторно пространство.

На практика обаче ние сме склонни да използваме предварително обучените модели на други големи корпорации като Google, за да направим бързо прототип и да опростим процесите на внедряване. В този урок ще изтеглим и използваме предварително обучените вградени думи на Google Word2Vec. Можем да направим това, като изпълним следната команда в нашата работна директория.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Инсталиране на пакетите Flask и Magnitude

Моделът за вграждане на думи, който изтеглихме, е във .magnitudeформат. Този формат ни позволява да запитваме модела ефективно с помощта на SQL и следователно е оптималният формат за вграждане за производствени сървъри. Тъй като трябва да можем да четем .magnitudeформата, ще инсталираме pymagnitudeпакета. Също така ще инсталираме, за flaskда обслужваме по-късно прогнозите за дълбоко обучение, направени от модела.

pip3 install pymagnitude flask

Ще го добавим и към нашия инструмент за проследяване на зависимости със следната команда. Това създава файл с име requirements.txtи записва нашите Python библиотеки, за да можем да ги инсталираме отново по-късно.

pip3 freeze > requirements.txt

Запитване на модела Word2Vec

За да започнем, ще създадем файл, който да обработва отварянето и запитването на вградените думи.

touch model.py

След това ще добавим следните редове model.pyза импортиране на Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Можем да си играем с pymagnitudeпакета и модела за дълбоко обучение, като използваме queryметода, предоставяйки аргумент за дума.

cat_vector = vectors.query('cat')
print(cat_vector)

За ядрото на нашия API ще дефинираме функция за връщане на разликата в значението между две думи. Това е гръбнакът за повечето решения за дълбоко обучение за неща като двигатели за препоръки (т.е. показване на съдържание с подобни думи).

Ние можем да си поиграете с тази функция, като използвате similarityи most_similar функции.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Реализираме калкулатора на сходството, както следва. Този метод ще бъде извикан от Flask API в следващия раздел. Имайте предвид, че тази функция връща реална стойност между 0 и 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Създаване на REST API

Ще създадем нашия сървър във файл с име service.pyсъс следното съдържание. Ние импортираме flaskи requestобработваме нашите сървърни възможности и импортираме similarityдвигателя от модула, който написахме по-рано.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Нашият сървър е доста гол, но може лесно да бъде разширен чрез създаване на повече маршрути с помощта на @app.routeдекоратора.

Извършване на API обаждания

Можем да стартираме нашия Flask сървър, като изпълним следните команди, за да активираме нашата виртуална среда, да инсталираме нашите пакети и да стартираме свързания с него Python файл.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Нашият сървър ще бъде наличен на адрес localhost:8000. Можем да запитаме нашата база данни localhost:8000/similarity?word1=cat&word2=dogи да видим отговора или в нашия браузър, или чрез друг AJAX клиент.

Оставете коментар

Възходът на машините: Реални приложения на AI

Възходът на машините: Реални приложения на AI

Изкуственият интелект не е в бъдещето, тук е точно в настоящето. В този блог Прочетете как приложенията за изкуствен интелект са повлияли на различни сектори.

DDOS атаки: кратък преглед

DDOS атаки: кратък преглед

Вие също сте жертва на DDOS атаки и сте объркани относно методите за превенция? Прочетете тази статия, за да разрешите вашите запитвания.

Чудили ли сте се как хакерите печелят пари?

Чудили ли сте се как хакерите печелят пари?

Може би сте чували, че хакерите печелят много пари, но чудили ли сте се някога как печелят такива пари? нека обсъдим.

Революционни изобретения на Google, които ще улеснят живота ви.

Революционни изобретения на Google, които ще улеснят живота ви.

Искате ли да видите революционни изобретения на Google и как тези изобретения промениха живота на всяко човешко същество днес? След това прочетете в блога, за да видите изобретенията на Google.

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Концепцията за самоуправляващи се автомобили да тръгват по пътищата с помощта на изкуствен интелект е мечта, която имаме от известно време. Но въпреки няколкото обещания, те не се виждат никъде. Прочетете този блог, за да научите повече…

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Тъй като науката се развива с бързи темпове, поемайки много от нашите усилия, рискът да се подложим на необяснима сингулярност също нараства. Прочетете какво може да означава сингулярността за нас.

Функционалности на референтните архитектурни слоеве за големи данни

Функционалности на референтните архитектурни слоеве за големи данни

Прочетете блога, за да разберете различни слоеве в архитектурата на големи данни и техните функционалности по най-простия начин.

Еволюция на съхранението на данни – инфографика

Еволюция на съхранението на данни – инфографика

Методите за съхранение на данните може да се развиват от раждането на данните. Този блог обхваща развитието на съхранението на данни на базата на инфографика.

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

В този дигитално задвижван свят устройствата за интелигентен дом се превърнаха в решаваща част от живота. Ето няколко невероятни предимства на интелигентните домашни устройства за това как те правят живота ни струващ и по-опростен.

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Наскоро Apple пусна macOS Catalina 10.15.4 допълнителна актуализация за отстраняване на проблеми, но изглежда, че актуализацията причинява повече проблеми, водещи до блокиране на mac машини. Прочетете тази статия, за да научите повече