Ako vytvoriť hlboké učenie REST API s Word2Vec a Flask

Tradičné prístupy k vývoju sa ťažko udržujú pri použití zložitých modelov strojového učenia vo výrobe. Vývoj na prenosnom počítači alebo lokálnom počítači môže byť pomalý na trénovanie modelu strojového učenia pre inžinierov hlbokého učenia. V dôsledku toho zvyčajne využívame cloudové stroje s výkonnejším hardvérom na trénovanie a spúšťanie našich modelov strojového učenia. Toto je dobrá prax, pretože abstrahujeme zložité výpočty a namiesto toho podľa potreby vytvárame požiadavky AJAX. V tomto návode sprístupníme predtrénovaný model hlbokého učenia s názvom Word2Vec ďalším službám vytvorením REST API od základov.

Predpoklady

  • Inštancia servera Ubuntu 16.04 s najmenej 4 GB RAM. Na účely testovania a vývoja si môžete vybrať inštanciu so 4 GB RAM
  • Pochopenie toho, ako používať operačný systém Linux na vytváranie/navigáciu/úpravu priečinkov a súborov
  • sudoužívateľ

Čo sú vkladanie slov?

Vkladanie slov je nedávny vývoj v oblasti spracovania prirodzeného jazyka a hlbokého učenia, ktorý spôsobil revolúciu v oboch oblastiach vďaka rýchlemu pokroku. Vložené slová sú v podstate vektory, z ktorých každý zodpovedá jednému slovu, takže vektory znamenajú slová. To možno demonštrovať určitými javmi, ako je napríklad vektor pre king - queen = boy - girl. Slovné vektory sa používajú na zostavenie všetkého od odporúčacích nástrojov až po chatovacie roboty, ktoré skutočne rozumejú anglickému jazyku.

Vloženie slov nie je náhodné; vznikajú trénovaním neurónovej siete. Nedávna výkonná implementácia vkladania slov pochádza od spoločnosti Google s názvom Word2Vec, ktorá je trénovaná predpovedaním slov, ktoré sa objavujú vedľa iných slov v jazyku. Napríklad pre slovo "cat"neurónová sieť predpovedá slová "kitten"a "feline". Táto intuícia slov vyskytujúcich sa blízko seba nám umožňuje umiestniť ich do vektorového priestoru.

V praxi však máme tendenciu používať vopred pripravené modely iných veľkých korporácií, ako je Google, aby sme rýchlo vytvorili prototyp a zjednodušili procesy nasadenia. V tomto návode si stiahneme a použijeme vopred natrénované vloženie slov Word2Vec od Google. Môžeme to urobiť spustením nasledujúceho príkazu v našom pracovnom adresári.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Inštalácia balíkov Flask a Magnitude

Model vkladania slov, ktorý sme stiahli, je vo .magnitudeformáte. Tento formát nám umožňuje efektívne dopytovať model pomocou SQL, a preto je optimálnym formátom na vkladanie pre produkčné servery. Keďže musíme vedieť čítať .magnitudeformát, nainštalujeme pymagnitudebalík. Nainštalujeme tiež, flaskaby sme neskôr slúžili na predpovede hlbokého učenia vytvorené modelom.

pip3 install pymagnitude flask

Tiež ho pridáme do nášho nástroja na sledovanie závislostí pomocou nasledujúceho príkazu. Tým sa vytvorí súbor s názvom requirements.txta uloží sa naše knižnice Python, aby sme ich mohli neskôr znova nainštalovať.

pip3 freeze > requirements.txt

Dopyt na model Word2Vec

Na začiatok vytvoríme súbor, ktorý zvládne otváranie a dopytovanie slov vloženia.

touch model.py

Ďalej pridáme nasledujúce riadky model.pyna importovanie Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Môžeme sa pohrať s pymagnitudebalíkom a modelom hlbokého učenia pomocou querymetódy, ktorá poskytuje argument pre slovo.

cat_vector = vectors.query('cat')
print(cat_vector)

Pre jadro nášho API zadefinujeme funkciu, ktorá vráti rozdiel vo význame medzi dvoma slovami. Toto je chrbtica pre väčšinu riešení pre hlboké učenie pre veci, ako sú nástroje odporúčaní (tj zobrazovanie obsahu s podobnými slovami).

S touto funkciou sa môžeme pohrať pomocou funkcií similaritya most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Kalkulátor podobnosti implementujeme nasledovne. Túto metódu zavolá Flask API v ďalšej časti. Všimnite si, že táto funkcia vracia skutočnú hodnotu medzi 0 a 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Vytvorenie REST API

Náš server vytvoríme v súbore service.pys nasledujúcim obsahom. Importujeme flaska requestspracovávame naše funkcie servera a importujeme similarityengine z modulu, ktorý sme napísali predtým.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Náš server je skôr holý, ale dá sa ľahko rozšíriť vytvorením viacerých trás pomocou @app.routedekorátora.

Uskutočňovanie volaní API

Náš server Flask môžeme spustiť spustením nasledujúcich príkazov na aktiváciu nášho virtuálneho prostredia, inštaláciu našich balíkov a spustenie súvisiaceho súboru Python.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Náš server bude dostupný na adrese localhost:8000. Môžeme vyhľadávať v našej databáze localhost:8000/similarity?word1=cat&word2=doga zobraziť odpoveď buď v našom prehliadači alebo prostredníctvom iného klienta AJAX.


Install Plesk on CentOS 7

Install Plesk on CentOS 7

Using a Different System? Plesk is a proprietary web host control panel that allows users to administer their personal and/or clients websites, databases

Install Lets Encrypt SSL on One-Click WordPress App

Install Lets Encrypt SSL on One-Click WordPress App

Introduction Lets Encrypt is a certificate authority service that offers free TLS/SSL certificates. The process of installation is simplified by Certbot,

Ako nastaviť klasický server Tekkit na Ubuntu 16.10

Ako nastaviť klasický server Tekkit na Ubuntu 16.10

Používate iný systém? Čo je Tekkit Classic? Tekkit Classic je modpack pre hru, ktorú každý pozná a miluje; Minecraft. Obsahuje niektoré z ver

Creating a Jekyll Blog on Ubuntu 16.04

Creating a Jekyll Blog on Ubuntu 16.04

Using a Different System? Jekyll is a great alternative to WordPress for blogging or sharing content. It doesnt require any databases and it is very easy i

Ako nastaviť bezobslužné aktualizácie na Debian 9 (Stretch)

Ako nastaviť bezobslužné aktualizácie na Debian 9 (Stretch)

Používate iný systém? Ak si zakúpite server Debian, mali by ste mať vždy najnovšie bezpečnostné záplaty a aktualizácie, či už spíte alebo nie

Ako nainštalovať a nakonfigurovať PHP 7.0 alebo PHP 7.1 na Ubuntu 16.04

Ako nainštalovať a nakonfigurovať PHP 7.0 alebo PHP 7.1 na Ubuntu 16.04

PHP a súvisiace balíky sú najčastejšie používané komponenty pri nasadzovaní webového servera. V tomto článku sa naučíme, ako nastaviť PHP 7.0 alebo PHP 7.1 o

Ako nainštalovať Squid Proxy na CentOS

Ako nainštalovať Squid Proxy na CentOS

Squid je populárny bezplatný linuxový program, ktorý vám umožňuje vytvoriť webový proxy server na presmerovanie. V tejto príručke uvidíte, ako nainštalovať Squid na CentOS, aby vás zmenil

Ako nainštalovať Lighttpd (LLMP Stack) na CentOS 6

Ako nainštalovať Lighttpd (LLMP Stack) na CentOS 6

Úvod Lighttpd je fork Apache, ktorého cieľom je byť oveľa menej náročný na zdroje. Je ľahký, odtiaľ jeho názov, a jeho použitie je celkom jednoduché. Installin

Tri bezplatné ovládacie panely servera (rýchla inštalácia)

Tri bezplatné ovládacie panely servera (rýchla inštalácia)

1. Virtualmin/Webmin Virtualmin je výkonný a flexibilný ovládací panel webhostingu pre systémy Linux a UNIX založený na známej webovej základni Open Source

Nastavenie aplikácie Yii na Ubuntu 14.04

Nastavenie aplikácie Yii na Ubuntu 14.04

Yii je rámec PHP, ktorý vám umožňuje rýchlejšie a jednoduchšie vyvíjať aplikácie. Inštalácia Yii na Ubuntu je jednoduchá, ako sa presne dozviete

Používanie obrazovky na Ubuntu 14.04

Používanie obrazovky na Ubuntu 14.04

Screen je aplikácia, ktorá umožňuje viacnásobné použitie terminálových relácií v rámci jedného okna. To vám umožňuje simulovať viacero okien terminálu, kde je to možné

Nastavte si svoj vlastný DNS server na Debian/Ubuntu

Nastavte si svoj vlastný DNS server na Debian/Ubuntu

Tento tutoriál vysvetľuje, ako nastaviť server DNS pomocou Bind9 na Debiane alebo Ubuntu. V celom článku podľa toho nahraďte názov vašej-domény.com. Pri th

Používanie Logrotate na správu protokolových súborov

Používanie Logrotate na správu protokolových súborov

Úvod Logrotate je nástroj pre Linux, ktorý zjednodušuje správu protokolových súborov. Zvyčajne beží raz denne prostredníctvom úlohy cron a spravuje základňu protokolov

Konfigurácia statickej siete a IPv6 na CentOS 7

Konfigurácia statickej siete a IPv6 na CentOS 7

VULTR nedávno vykonal zmeny na ich konci a všetko by teraz malo fungovať dobre po vybalení so zapnutým NetworkManagerom. Ak chcete deaktivovať

Úprava Icinga2 na použitie modelu Master/Client na CentOS 6 alebo CentOS 7

Úprava Icinga2 na použitie modelu Master/Client na CentOS 6 alebo CentOS 7

Icinga2 je výkonný monitorovací systém a pri použití v modeli master-client môže nahradiť potrebu monitorovacích kontrol založených na NRPE. Hlavný klient

Nastavte Red5 Media Server na Ubuntu 16.04

Nastavte Red5 Media Server na Ubuntu 16.04

Používate iný systém? Red5 je mediálny server s otvoreným zdrojom implementovaný v jazyku Java, ktorý vám umožňuje spúšťať aplikácie Flash pre viacerých používateľov, ako napríklad živé vysielanie

Ako nainštalovať Apache Cassandra 3.11.x na Ubuntu 16.04 LTS

Ako nainštalovať Apache Cassandra 3.11.x na Ubuntu 16.04 LTS

Používate iný systém? Apache Cassandra je bezplatný a otvorený systém správy databáz NoSQL, ktorý je navrhnutý tak, aby poskytoval škálovateľnosť, vysokú

Ako nainštalovať Vanilla Forum na Ubuntu 16.04

Ako nainštalovať Vanilla Forum na Ubuntu 16.04

Používate iný systém? Vanilla forum je open source aplikácia fóra napísaná v PHP. Je plne prispôsobiteľný, ľahko použiteľný a podporuje externé

Ako nainštalovať Kanboard na Ubuntu 18.04 LTS

Ako nainštalovať Kanboard na Ubuntu 18.04 LTS

Používate iný systém? Úvod Kanboard je bezplatný a otvorený softvérový program na riadenie projektov, ktorý je navrhnutý tak, aby uľahčil a vizualizoval

Ako nainštalovať Kanboard na Debian 9

Ako nainštalovať Kanboard na Debian 9

Používate iný systém? Úvod Kanboard je bezplatný a otvorený softvérový program na riadenie projektov, ktorý je navrhnutý tak, aby uľahčil a vizualizoval

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Umelá inteligencia nie je v budúcnosti, je tu priamo v súčasnosti V tomto blogu si prečítajte, ako aplikácie umelej inteligencie ovplyvnili rôzne sektory.

Útoky DDOS: Stručný prehľad

Útoky DDOS: Stručný prehľad

Ste aj vy obeťou DDOS útokov a máte zmätok ohľadom metód prevencie? Ak chcete vyriešiť svoje otázky, prečítajte si tento článok.

Zaujímalo vás niekedy, ako hackeri zarábajú peniaze?

Zaujímalo vás niekedy, ako hackeri zarábajú peniaze?

Možno ste už počuli, že hackeri zarábajú veľa peňazí, ale premýšľali ste niekedy nad tým, ako môžu zarábať také peniaze? poďme diskutovať.

Revolučné vynálezy od spoločnosti Google, ktoré vám uľahčia život.

Revolučné vynálezy od spoločnosti Google, ktoré vám uľahčia život.

Chcete vidieť revolučné vynálezy od Google a ako tieto vynálezy zmenili život každého dnešného človeka? Potom si prečítajte na blogu a pozrite si vynálezy spoločnosti Google.

Piatok Essential: Čo sa stalo s autami poháňanými AI?

Piatok Essential: Čo sa stalo s autami poháňanými AI?

Koncept samoriadených áut vyraziť na cesty s pomocou umelej inteligencie je snom, ktorý máme už nejaký čas. Ale napriek niekoľkým prísľubom ich nikde nevidno. Prečítajte si tento blog a dozviete sa viac…

Technologická singularita: vzdialená budúcnosť ľudskej civilizácie?

Technologická singularita: vzdialená budúcnosť ľudskej civilizácie?

Ako sa veda vyvíja rýchlym tempom a preberá veľa nášho úsilia, zvyšuje sa aj riziko, že sa vystavíme nevysvetliteľnej singularite. Prečítajte si, čo pre nás môže znamenať singularita.

Vývoj ukladania dát – Infografika

Vývoj ukladania dát – Infografika

Spôsoby ukladania údajov sa môžu vyvíjať už od zrodu údajov. Tento blog sa zaoberá vývojom ukladania údajov na základe infografiky.

Funkcionality vrstiev referenčnej architektúry veľkých dát

Funkcionality vrstiev referenčnej architektúry veľkých dát

Prečítajte si blog, aby ste čo najjednoduchším spôsobom spoznali rôzne vrstvy architektúry veľkých dát a ich funkcie.

6 úžasných výhod toho, že máme v živote inteligentné domáce zariadenia

6 úžasných výhod toho, že máme v živote inteligentné domáce zariadenia

V tomto digitálnom svete sa inteligentné domáce zariadenia stali kľúčovou súčasťou života. Tu je niekoľko úžasných výhod inteligentných domácich zariadení o tom, ako robia náš život, ktorý stojí za to žiť, a ktorý zjednodušujú.

Aktualizácia doplnku macOS Catalina 10.15.4 spôsobuje viac problémov, ako ich rieši

Aktualizácia doplnku macOS Catalina 10.15.4 spôsobuje viac problémov, ako ich rieši

Spoločnosť Apple nedávno vydala doplnkovú aktualizáciu macOS Catalina 10.15.4 na opravu problémov, ale zdá sa, že táto aktualizácia spôsobuje ďalšie problémy, ktoré vedú k blokovaniu počítačov Mac. Prečítajte si tento článok a dozviete sa viac