Jak vytvořit hluboké učení REST API s Word2Vec a Flask

Tradiční přístupy k vývoji je obtížné udržet při použití složitých modelů strojového učení ve výrobě. Vývoj na notebooku nebo místním počítači může být pomalý při trénování modelu strojového učení pro inženýry hlubokého učení. V důsledku toho obvykle využíváme cloudové stroje s výkonnějším hardwarem k trénování a spouštění našich modelů strojového učení. To je dobrá praxe, protože abstrahujeme složité výpočty a místo toho podle potřeby vytváříme požadavky AJAX. V tomto tutoriálu zpřístupníme předtrénovaný model hlubokého učení s názvem Word2Vec dalším službám vytvořením REST API od základů.

Předpoklady

Instance serveru Ubuntu 16.04 s alespoň 4 GB RAM. Pro účely testování a vývoje si můžete vybrat instanci se 4GB RAM
Pochopení toho, jak používat operační systém Linux k vytváření/procházení/úpravě složek a souborů
sudouživatel

Co jsou vkládání slov?

Vkládání slov je nedávný vývoj v oblasti zpracování přirozeného jazyka a hlubokého učení, který způsobil revoluci v obou oblastech díky rychlému pokroku. Vložení slov jsou v podstatě vektory, z nichž každý odpovídá jednomu slovu, takže vektory znamenají slova. To lze demonstrovat určitými jevy, jako je vektor pro king - queen = boy - girl. Slovní vektory se používají k vytvoření všeho, od doporučovacích motorů po chatovací roboty, kteří skutečně rozumí angličtině.

Vložení slov není náhodné; jsou generovány trénováním neuronové sítě. Nedávná výkonná implementace vkládání slov pochází od společnosti Google s názvem Word2Vec, která je trénována předpovídáním slov, která se objevují vedle jiných slov v jazyce. Například pro slovo "cat", neuronová síť předpoví slova "kitten"a "feline". Tato intuice slov objevujících se blízko sebe nám umožňuje umístit je do vektorového prostoru.

V praxi však máme tendenci používat předem připravené modely jiných velkých korporací, jako je Google, abychom rychle vytvořili prototyp a zjednodušili procesy nasazení. V tomto tutoriálu si stáhneme a použijeme předem trénovaná vkládání slov Word2Vec od Googlu. Můžeme to udělat spuštěním následujícího příkazu v našem pracovním adresáři.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instalace balíčků Flask a Magnitude

Model vkládání slov, který jsme stáhli, je ve .magnitudeformátu. Tento formát nám umožňuje efektivně dotazovat model pomocí SQL, a je proto optimálním formátem pro vkládání pro produkční servery. Protože potřebujeme umět číst .magnitudeformát, nainstalujeme pymagnitudebalíček. Nainstalujeme také, flaskabychom později sloužili předpovědím hlubokého učení vytvořeným modelem.

pip3 install pymagnitude flask

Také jej přidáme do našeho sledování závislostí pomocí následujícího příkazu. Tím se vytvoří soubor s názvem requirements.txta uloží se naše Python knihovny, abychom je mohli později znovu nainstalovat.

pip3 freeze > requirements.txt

Dotaz na model Word2Vec

Pro začátek vytvoříme soubor, který zvládne otevírání a dotazování na vložení slova.

touch model.py

Dále přidáme následující řádky model.pyk importu Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Můžeme si pohrát s pymagnitudebalíčkem a modelem hlubokého učení pomocí querymetody, která poskytuje argument pro slovo.

cat_vector = vectors.query('cat')
print(cat_vector)

Jako jádro našeho API definujeme funkci, která vrátí rozdíl ve významu mezi dvěma slovy. Toto je páteř většiny řešení hlubokého učení pro věci, jako jsou nástroje doporučení (tj. zobrazování obsahu s podobnými slovy).

S touto funkcí si můžeme pohrát pomocí funkcí similaritya most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Podobnostní kalkulačku implementujeme následovně. Tato metoda bude volána rozhraním Flask API v další části. Všimněte si, že tato funkce vrací skutečnou hodnotu mezi 0 a 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Vytvoření REST API

Náš server vytvoříme v souboru service.pys následujícím obsahem. Importujeme flaska requestzpracováváme naše funkce serveru a importujeme similarityengine z modulu, který jsme napsali dříve.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Náš server je spíše holý, ale lze jej snadno rozšířit vytvořením více tras pomocí @app.routedekorátoru.

Provádění volání API

Náš Flask server můžeme spustit spuštěním následujících příkazů pro aktivaci našeho virtuálního prostředí, instalaci našich balíčků a spuštění souvisejícího souboru Python.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Náš server bude k dispozici na adrese localhost:8000. Můžeme se dotázat naší databáze na localhost:8000/similarity?word1=cat&word2=doga zobrazit odpověď buď v našem prohlížeči nebo prostřednictvím jiného klienta AJAX.

Zanechat komentář

Komentář *

Jméno *

Webová stránka

The Rise of Machines: Real World Applications of AI

Umělá inteligence není v budoucnosti, je zde přímo v současnosti V tomto blogu si přečtěte, jak aplikace umělé inteligence ovlivnily různé sektory.

Útoky DDOS: Stručný přehled

Jste také obětí DDOS útoků a nemáte jasno v metodách prevence? Chcete-li vyřešit své dotazy, přečtěte si tento článek.

Přemýšleli jste někdy, jak hackeři vydělávají peníze?

Možná jste slyšeli, že hackeři vydělávají spoustu peněz, ale napadlo vás někdy, jak takové peníze vydělávají? Pojďme diskutovat.

Revoluční vynálezy od Googlu, které vám usnadní život.

Chcete vidět revoluční vynálezy Google a jak tyto vynálezy změnily život každého dnešního člověka? Pak si přečtěte na blogu a podívejte se na vynálezy od Googlu.

Friday Essential: Co se stalo s auty řízenými umělou inteligencí?

Koncept aut s vlastním pohonem, která vyrazí na silnice s pomocí umělé inteligence, je snem, který už nějakou dobu máme. Ale přes několik slibů nejsou nikde vidět. Přečtěte si tento blog a dozvíte se více…

Technologická singularita: vzdálená budoucnost lidské civilizace?

Jak se věda vyvíjí rychlým tempem a přebírá mnoho našeho úsilí, stoupá také riziko, že se vystavíme nevysvětlitelné singularitě. Přečtěte si, co pro nás může znamenat singularita.

Funkcionality vrstev referenční architektury velkých dat

Přečtěte si blog, abyste co nejjednodušším způsobem poznali různé vrstvy v architektuře velkých dat a jejich funkce.

Evoluce ukládání dat – Infografika

Způsoby ukládání dat se mohou vyvíjet od narození dat. Tento blog se zabývá vývojem ukládání dat na základě infografiky.

6 úžasných výhod toho, že máme v životě zařízení pro chytrou domácnost

V tomto digitálním světě se chytrá domácí zařízení stala klíčovou součástí života. Zde je několik úžasných výhod chytrých domácích zařízení o tom, jak náš život stojí za to žít a zjednodušit jej.

Aktualizace doplňku macOS Catalina 10.15.4 způsobuje více problémů než řešení

Apple nedávno vydal doplňkovou aktualizaci macOS Catalina 10.15.4, která opravuje problémy, ale zdá se, že aktualizace způsobuje další problémy, které vedou k zablokování počítačů mac. Přečtěte si tento článek a dozvíte se více