Як створити REST API глибокого навчання за допомогою Word2Vec і Flask

Традиційні підходи до розробки важко підтримувати при використанні складних моделей машинного навчання у виробництві. Розробка на ноутбуці або локальній машині може бути повільною для навчання моделі машинного навчання для інженерів глибокого навчання. У результаті ми зазвичай використовуємо хмарні машини з більш потужним обладнанням для навчання та запуску наших моделей машинного навчання. Це хороша практика, оскільки ми абстрагуємо складні обчислення і замість цього робимо запити AJAX за потреби. У цьому підручнику ми зробимо попередньо навчену модель глибокого навчання під назвою Word2Vec доступною для інших служб, створивши API REST з нуля.

Передумови

  • Примірник сервера Ubuntu 16.04 з принаймні 4 ГБ оперативної пам’яті. Для тестування та розробки ви можете вибрати екземпляр з 4 ГБ оперативної пам’яті
  • Розуміння того, як використовувати операційну систему Linux для створення/переміщення/редагування папок і файлів
  • sudoкористувач

Що таке вбудовування слова?

Вбудовування слів — це нещодавня розробка в обробці природної мови та глибокому навчанні, яка революціонізувала обидві галузі завдяки швидкому прогресу. Вбудовування слів – це по суті вектори, кожен з яких відповідає одному слову, так що вектори означають слова. Це можна продемонструвати певними явищами, такими як вектор для king - queen = boy - girl. Вектори Word використовуються для створення всього, від механізмів рекомендацій до чат-ботів, які насправді розуміють англійську мову.

Вбудовування слів не є випадковим; вони генеруються шляхом навчання нейронної мережі. Нещодавня потужна реалізація вбудовування слів надходить від Google під назвою Word2Vec, який навчається шляхом передбачення слів, які з’являються поруч із іншими словами в мові. Наприклад, для слова "cat"нейронна мережа передбачить слова "kitten"та "feline". Ця інтуїція слів, що з’являються поруч один з одним, дозволяє нам розмістити їх у векторному просторі.

Однак на практиці ми зазвичай використовуємо попередньо навчені моделі інших великих корпорацій, таких як Google, щоб швидко створити прототип і спростити процеси розгортання. У цьому посібнику ми завантажимо та використаємо попередньо навчені вбудовування слів від Google Word2Vec. Ми можемо зробити це, виконавши наступну команду в нашому робочому каталозі.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Встановлення пакетів Flask і Magnitude

Модель вбудовування слів, яку ми завантажили, має .magnitudeформат. Цей формат дозволяє нам ефективно запитувати модель за допомогою SQL, і тому є оптимальним форматом вбудовування для виробничих серверів. Оскільки нам потрібно мати можливість прочитати .magnitudeформат, ми встановимо pymagnitudeпакет. Ми також встановимо, flaskщоб пізніше обслуговувати передбачення глибокого навчання, зроблені моделлю.

pip3 install pymagnitude flask

Ми також додамо його до нашого трекера залежностей за допомогою наступної команди. Це створює файл з іменем requirements.txtі зберігає наші бібліотеки Python, щоб ми могли повторно встановити їх пізніше.

pip3 freeze > requirements.txt

Запит моделі Word2Vec

Для початку ми створимо файл для обробки відкриття та запиту вбудовування слів.

touch model.py

Далі ми додамо наступні рядки model.pyдля імпорту Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Ми можемо пограти з pymagnitudeпакетом і моделлю глибокого навчання, використовуючи queryметод, надавши аргумент для слова.

cat_vector = vectors.query('cat')
print(cat_vector)

Для ядра нашого API ми визначимо функцію, яка повертає різницю у значенні двох слів. Це основа більшості рішень глибокого навчання для таких речей, як механізми рекомендацій (тобто показ вмісту з подібними словами).

Ми можемо пограти з цією функцією, використовуючи функції similarityта most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Реалізуємо калькулятор подібності наступним чином. Цей метод буде викликано Flask API у наступному розділі. Зауважте, що ця функція повертає реальне значення від 0 до 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Створення REST API

Ми створимо наш сервер у файлі service.pyз наступним вмістом. Ми імпортуємо flaskта requestобробляємо можливості нашого сервера, а також імпортуємо similarityдвигун із модуля, про який ми писали раніше.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Наш сервер доволі звичайний, але його можна легко розширити, створивши більше маршрутів за допомогою @app.routeдекоратора.

Здійснення викликів API

Ми можемо запустити наш сервер Flask, виконавши такі команди, щоб активувати наше віртуальне середовище, встановити наші пакунки та запустити пов’язаний з ним файл Python.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Наш сервер буде доступний за адресою localhost:8000. Ми можемо запитувати нашу базу даних localhost:8000/similarity?word1=cat&word2=dogі переглянути відповідь у нашому браузері або через інший клієнт AJAX.


Встановіть Plesk на CentOS 7

Встановіть Plesk на CentOS 7

Використання іншої системи? Plesk — це власна панель керування веб-хостом, яка дозволяє користувачам адмініструвати свої персональні та/або клієнтські веб-сайти, бази даних

Установіть Lets Encrypt SSL у програму WordPress одним клацанням миші

Установіть Lets Encrypt SSL у програму WordPress одним клацанням миші

Вступ Lets Encrypt — це служба центру сертифікації, яка пропонує безкоштовні сертифікати TLS/SSL. Certbot спрощує процес встановлення,

Як налаштувати сервер Tekkit Classic на Ubuntu 16.10

Як налаштувати сервер Tekkit Classic на Ubuntu 16.10

Використання іншої системи? Що таке Tekkit Classic? Tekkit Classic — це модпак для гри, яку всі знають і люблять; Майнкрафт. Він містить деякі з вер

Як встановити та налаштувати PHP 7.0 або PHP 7.1 на Ubuntu 16.04

Як встановити та налаштувати PHP 7.0 або PHP 7.1 на Ubuntu 16.04

PHP та пов’язані з ним пакети є найбільш часто використовуваними компонентами під час розгортання веб-сервера. У цій статті ми дізнаємося, як налаштувати PHP 7.0 або PHP 7.1 o

Як встановити Lighttpd (LLMP Stack) на CentOS 6

Як встановити Lighttpd (LLMP Stack) на CentOS 6

Вступ Lighttpd — це форк Apache, який має набагато меншу ресурсомісткість. Він легкий, звідси його назва, і досить простий у використанні. Встановити

Три безкоштовні панелі керування сервером (швидке встановлення)

Три безкоштовні панелі керування сервером (швидке встановлення)

1. Virtualmin/Webmin Virtualmin — це потужна та гнучка панель керування веб-хостингом для систем Linux та UNIX на основі відомої веб-бази з відкритим вихідним кодом.

Налаштування програми Yii на Ubuntu 14.04

Налаштування програми Yii на Ubuntu 14.04

Yii — це PHP-фреймворк, який дозволяє розробляти програми швидше та легше. Установка Yii на Ubuntu проста, як ви дізнаєтеся

Використання Screen в Ubuntu 14.04

Використання Screen в Ubuntu 14.04

Screen — це програма, яка дозволяє багаторазово використовувати термінальні сеанси в одному вікні. Це дозволяє моделювати декілька вікон терміналу, де це ma

Використання Logrotate для керування файлами журналу

Використання Logrotate для керування файлами журналу

Вступ Logrotate — це утиліта для Linux, яка спрощує адміністрування файлів журналів. Зазвичай він запускається раз на день через завдання cron і керує базою журналів

Як встановити Apache Cassandra 3.11.x на Ubuntu 16.04 LTS

Як встановити Apache Cassandra 3.11.x на Ubuntu 16.04 LTS

Використання іншої системи? Apache Cassandra — це безкоштовна система керування базами даних NoSQL з відкритим вихідним кодом, яка розроблена для забезпечення масштабованості, високої

Як встановити Vanilla Forum на Ubuntu 16.04

Як встановити Vanilla Forum на Ubuntu 16.04

Використання іншої системи? Vanilla forum — це програма з відкритим вихідним кодом, написана на PHP. Це повністю настроюваний, простий у використанні та підтримує зовнішній вигляд

Як встановити Kanboard на Ubuntu 18.04 LTS

Як встановити Kanboard на Ubuntu 18.04 LTS

Використання іншої системи? Вступ Kanboard — це безкоштовна програма з відкритим вихідним кодом для управління проектами, яка призначена для полегшення та візуалізації

Як встановити Gitea на Ubuntu 18.04

Як встановити Gitea на Ubuntu 18.04

Використання іншої системи? Gitea — це альтернативна система контролю версій із відкритим вихідним кодом, яка працює на базі git. Gitea написана на Голанг і є

Встановлення Docker CE на Ubuntu 16.04

Встановлення Docker CE на Ubuntu 16.04

Використання іншої системи? Docker — це програма, яка дозволяє розгортати програми, які запускаються як контейнери. Це було написано в популярному програмі Go

Виправлення експлойту Dirty Cow на CentOS

Виправлення експлойту Dirty Cow на CentOS

Що таке Dirty Cow (CVE-2016-5195)? Уразливість Dirty Cow використовується через те, як Linux обробляє код. Це дозволяє непривілейованому користувачеві використовувати gai

Налаштуйте користувача без права root за допомогою Sudo Access в Ubuntu

Налаштуйте користувача без права root за допомогою Sudo Access в Ubuntu

Наявність лише одного користувача, який є root, може бути небезпечним. Тож давайте це виправимо. Vultr надає нам свободу робити з нашими користувачами та нашими серверами, що нам заманеться

Встановіть Adminer на Debian/Ubuntu

Встановіть Adminer на Debian/Ubuntu

Adminer — це легка альтернатива phpMyAdmin. Для порівняння, його загальний розмір пакета становить 400 КБ проти 4,2 МБ phpMyAdmin. На відміну від phpMyAdmin, який

Налаштуйте автентифікацію HTTP за допомогою Nginx на CentOS 7

Налаштуйте автентифікацію HTTP за допомогою Nginx на CentOS 7

У цьому посібнику ви дізнаєтеся, як налаштувати автентифікацію HTTP для веб-сервера Nginx, що працює на CentOS 7. Вимоги Щоб почати, вам знадобиться

Як встановити Nextcloud на Ubuntu 17.04

Як встановити Nextcloud на Ubuntu 17.04

У цьому посібнику ви навчитеся інсталювати програмне забезпечення NextCloud. Ми будемо використовувати Caddy для потреб нашого веб-сервера, оскільки це спрощує налаштування

Як встановити GoAccess на Ubuntu 16.04

Як встановити GoAccess на Ubuntu 16.04

Використання іншої системи? GoAccess — це аналізатор веб-журналів з відкритим вихідним кодом. Ви можете використовувати його для аналізу журналів у режимі реального часу в терміналі або

Повстання машин: застосування ШІ в реальному світі

Повстання машин: застосування ШІ в реальному світі

Штучний інтелект не в майбутньому, він тут прямо в сьогоденні У цьому блозі Прочитайте, як програми штучного інтелекту вплинули на різні сектори.

DDOS-атаки: короткий огляд

DDOS-атаки: короткий огляд

Ви також стали жертвою DDOS-атак і спантеличені методами запобігання? Прочитайте цю статтю, щоб вирішити свої запитання.

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Можливо, ви чули, що хакери заробляють багато грошей, але чи замислювалися ви коли-небудь, як вони заробляють такі гроші? давайте обговоримо.

Революційні винаходи від Google, які полегшать ваше життя.

Революційні винаходи від Google, які полегшать ваше життя.

Ви хочете побачити революційні винаходи Google і як ці винаходи змінили життя кожної людини сьогодні? Тоді читайте в блозі, щоб побачити винаходи Google.

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Концепція самокерованих автомобілів, щоб вирушати в дороги за допомогою штучного інтелекту, є мрією, яку ми давно мріємо. Але, незважаючи на кілька обіцянок, їх ніде не видно. Прочитайте цей блог, щоб дізнатися більше…

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Оскільки наука розвивається швидкими темпами, бере на себе багато наших зусиль, ризики піддати себе незрозумілій Сингулярності також зростає. Читайте, що може означати для нас сингулярність.

Еволюція зберігання даних – інфографіка

Еволюція зберігання даних – інфографіка

Методи зберігання даних можуть розвиватися з моменту народження Даних. Цей блог висвітлює еволюцію зберігання даних на основі інфографіки.

Функціональні можливості шарів еталонної архітектури великих даних

Функціональні можливості шарів еталонної архітектури великих даних

Прочитайте блог, щоб дізнатися про різні шари архітектури великих даних та їх функціональні можливості найпростішим способом.

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

У цьому цифровому світі пристрої розумного дому стали важливою частиною життя. Ось кілька дивовижних переваг пристроїв розумного дому щодо того, як вони роблять наше життя гідним життя та спрощують його.

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Нещодавно Apple випустила додаткове оновлення macOS Catalina 10.15.4, щоб виправити проблеми, але схоже, що оновлення викликає більше проблем, що призводять до блокування комп’ютерів Mac. Прочитайте цю статтю, щоб дізнатися більше