Preduvjeti
Što su Word Embeddings?
Instaliranje paketa Flask i Magnitude
Postavljanje upita prema modelu Word2Vec
Izrada REST API-ja
Upućivanje API poziva
Tradicionalne pristupe razvoju teško je održati kada se u proizvodnji koriste složeni modeli strojnog učenja. Razvoj na prijenosnom računalu ili lokalnom stroju može biti spor za obuku modela strojnog učenja za inženjere dubokog učenja. Kao rezultat toga, obično koristimo strojeve u oblaku sa snažnijim hardverom za obuku i pokretanje naših modela strojnog učenja. Ovo je dobra praksa jer apstrahiramo složeno računanje i umjesto toga postavljamo AJAX zahtjeve prema potrebi. U ovom vodiču učinit ćemo unaprijed obučeni model dubokog učenja nazvan Word2Vec dostupnim drugim uslugama izgradnjom REST API-ja od temelja.
Preduvjeti
- Instanca poslužitelja Ubuntu 16.04 s najmanje 4 GB RAM-a. Za potrebe testiranja i razvoja možete odabrati instancu s 4 GB RAM-a
- Razumijevanje kako koristiti operativni sustav Linux za stvaranje/navigaciju/uređivanje mapa i datoteka
sudokorisnika
Što su Word Embeddings?
Ugrađivanje riječi nedavni je razvoj u obradi prirodnog jezika i dubokom učenju koji je revolucionirao oba polja zbog brzog napretka. Ugrađivanje riječi su u biti vektori od kojih svaki odgovara jednoj riječi tako da vektori znače riječi. To se može pokazati određenim pojavama kao što je vektor za king - queen = boy - girl. Vektori riječi koriste se za izgradnju svega, od mehanizama za preporuke do chat-bota koji zapravo razumiju engleski jezik.
Ugrađivanje riječi nije slučajno; generiraju se treniranjem neuronske mreže. Nedavna snažna implementacija ugrađivanja riječi dolazi od Googlea pod nazivom Word2Vec koji se trenira predviđanjem riječi koje se pojavljuju pored drugih riječi u jeziku. Na primjer, za riječ "cat", neuronska mreža će predvidjeti riječi "kitten"i "feline". Ova intuicija riječi koje se pojavljuju jedna blizu druge omogućuje nam da ih smjestimo u vektorski prostor.
Međutim, u praksi smo skloni koristiti unaprijed obučene modele drugih velikih korporacija kao što je Google kako bismo brzo izradili prototip i pojednostavili procese implementacije. U ovom vodiču ćemo preuzeti i koristiti Googleov Word2Vec unaprijed obučeni ugradnji riječi. To možemo učiniti pokretanjem sljedeće naredbe u našem radnom direktoriju.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Instaliranje paketa Flask i Magnitude
Model za ugradnju riječi koji smo preuzeli je u .magnitudeformatu. Ovaj nam format omogućuje učinkovito ispitivanje modela pomoću SQL-a i stoga je optimalan format za ugradnju za proizvodne poslužitelje. Budući da moramo moći čitati .magnitudeformat, instalirat ćemo pymagnitudepaket. Također ćemo instalirati flaskkako bismo kasnije poslužili predviđanjima dubokog učenja koje je napravio model.
pip3 install pymagnitude flask
Također ćemo ga dodati u naš alat za praćenje ovisnosti sa sljedećom naredbom. Time se stvara datoteka s imenom requirements.txti sprema naše Python biblioteke kako bismo ih kasnije mogli ponovno instalirati.
pip3 freeze > requirements.txt
Postavljanje upita prema modelu Word2Vec
Za početak ćemo izraditi datoteku za rukovanje otvaranjem i upitom za ugrađivanje riječi.
touch model.py
Zatim ćemo dodati sljedeće retke model.pyza uvoz Magnitude.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Možemo se poigrati s pymagnitudepaketom i modelom dubokog učenja korištenjem querymetode, dajući argument za riječ.
cat_vector = vectors.query('cat')
print(cat_vector)
Za jezgru našeg API-ja definirat ćemo funkciju koja vraća razliku u značenju između dvije riječi. Ovo je okosnica za većinu rješenja za duboko učenje za stvari kao što su mehanizam za preporuke (tj. prikazivanje sadržaja sa sličnim riječima).
Možemo se poigrati s ovom funkcijom pomoću mogućnosti similarityi most_similar funkcije.
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Kalkulator sličnosti implementiramo na sljedeći način. Ovu metodu će pozvati Flask API u sljedećem odjeljku. Imajte na umu da ova funkcija vraća stvarnu vrijednost između 0 i 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Izrada REST API-ja
Napravit ćemo naš poslužitelj u datoteci pod nazivom service.pysa sljedećim sadržajem. Uvozimo flaski requestupravljamo našim mogućnostima poslužitelja i uvozimo similaritymotor iz modula koji smo ranije napisali.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
Naš poslužitelj je prilično neobičan, ali se lako može proširiti stvaranjem više ruta pomoću @app.routedekoratora.
Upućivanje API poziva
Možemo pokrenuti naš Flask poslužitelj pokretanjem sljedećih naredbi za aktivaciju našeg virtualnog okruženja, instaliranje naših paketa i pokretanje pridružene Python datoteke.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
Naš poslužitelj će biti dostupan na adresi localhost:8000. Možemo postaviti upit u našu bazu podataka localhost:8000/similarity?word1=cat&word2=dogi vidjeti odgovor bilo u našem pregledniku ili putem drugog AJAX klijenta.