Requisits previs
Què són les incrustacions de paraules?
Instal·lació dels paquets Flask i Magnitude
Consulta del model Word2Vec
Creació d'una API REST
Realització de trucades a l'API
Els enfocaments tradicionals del desenvolupament són difícils de mantenir quan s'utilitzen models complexos d'aprenentatge automàtic en producció. El desenvolupament en un ordinador portàtil o una màquina local pot ser lent per entrenar el model d'aprenentatge automàtic per als enginyers d'aprenentatge profund. Com a resultat, normalment fem ús de màquines al núvol amb un maquinari més potent per entrenar i executar els nostres models d'aprenentatge automàtic. Aquesta és una bona pràctica, ja que abstraem càlculs complexos i, en canvi, fem sol·licituds AJAX segons sigui necessari. En aquest tutorial, posarem a disposició d'altres serveis un model d'aprenentatge profund pre-entrenat anomenat Word2Vec mitjançant la creació d'una API REST des de la base.
Requisits previs
- Una instància de servidor Ubuntu 16.04 amb almenys 4 GB de RAM. Amb finalitats de prova i desenvolupament, podeu triar una instància amb 4 GB de RAM
- Comprensió de com utilitzar el sistema operatiu Linux per crear/navegar/editar carpetes i fitxers
- Un
sudousuari
Què són les incrustacions de paraules?
Les incrustacions de paraules són un desenvolupament recent en el processament del llenguatge natural i l'aprenentatge profund que ha revolucionat ambdós camps a causa del ràpid progrés. Les incrustacions de paraules són essencialment vectors que corresponen cadascun a una sola paraula de manera que els vectors signifiquen les paraules. Això es pot demostrar amb certs fenòmens com el vector de king - queen = boy - girl. Els vectors de paraules s'utilitzen per crear tot, des de motors de recomanació fins a robots de xat que realment entenen l'idioma anglès.
Les incrustacions de paraules no són aleatòries; es generen entrenant una xarxa neuronal. Una implementació recent d'inserció de paraules potent prové de Google anomenada Word2Vec, que s'entrena predint paraules que apareixen al costat d'altres paraules en un idioma. Per exemple, per a la paraula "cat", la xarxa neuronal predirà les paraules "kitten"i "feline". Aquesta intuïció de paraules que apareixen unes a prop de les altres ens permet situar-les en l'espai vectorial.
Tanmateix, a la pràctica, tendim a utilitzar els models pre-entrenats d'altres grans corporacions com Google per tal de prototipar ràpidament i simplificar els processos de desplegament. En aquest tutorial descarregarem i utilitzarem les incrustacions de paraules pre-entrenadas de Word2Vec de Google. Ho podem fer executant la següent comanda al nostre directori de treball.
wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude
Instal·lació dels paquets Flask i Magnitude
El model d'inserció de paraules que hem baixat està en .magnitudeformat. Aquest format ens permet consultar el model de manera eficient mitjançant SQL i, per tant, és el format d'inserció òptim per als servidors de producció. Com que hem de poder llegir el .magnitudeformat, instal·larem el pymagnitudepaquet. També instal·larem flaskper servir més tard les prediccions d'aprenentatge profund fetes pel model.
pip3 install pymagnitude flask
També l'afegirem al nostre rastrejador de dependències amb l'ordre següent. Això crea un fitxer anomenat requirements.txti desa les nostres biblioteques de Python perquè les puguem tornar a instal·lar més endavant.
pip3 freeze > requirements.txt
Consulta del model Word2Vec
Per començar, crearem un fitxer per gestionar l'obertura i la consulta de les incrustacions de paraules.
touch model.py
A continuació, afegirem les línies següents a model.pyper importar la magnitud.
from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')
Podem jugar amb el pymagnitudepaquet i el model d'aprenentatge profund utilitzant el querymètode, proporcionant un argument per a una paraula.
cat_vector = vectors.query('cat')
print(cat_vector)
Per al nucli de la nostra API, definirem una funció per retornar la diferència de significat entre dues paraules. Aquesta és la columna vertebral de la majoria de solucions d'aprenentatge profund per a coses com ara els motors de recomanació (és a dir, mostrar contingut amb paraules similars).
Podem jugar amb aquesta funció utilitzant les funcions similarityi most_similar .
print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))
Implementem la calculadora de semblances de la següent manera. Aquest mètode serà cridat per l'API de Flask a la secció següent. Tingueu en compte que aquesta funció retorna un valor real entre 0 i 1.
def similarity(word1, word2):
return vectors.similarity(word1, word2)
Creació d'una API REST
Crearem el nostre servidor en un fitxer anomenat service.pyamb el contingut següent. Importem flaski requestgestionem les capacitats del nostre servidor i importem el similaritymotor des del mòdul que vam escriure anteriorment.
from flask import Flask, request
from model import similarity
app = Flask(__name__)
@app.route("/", methods=['GET'])
def welcome():
return "Welcome to our Machine Learning REST API!"
@app.route("/similarity", methods=['GET'])
def similarity_route():
word1 = request.args.get("word1")
word2 = request.args.get("word2")
return str(similarity(word1, word2))
if __name__ == "__main__":
app.run(port=8000, debug=True)
El nostre servidor és bastant senzill, però es pot ampliar fàcilment creant més rutes amb el @app.routedecorador.
Realització de trucades a l'API
Podem executar el nostre servidor Flask executant les ordres següents per activar el nostre entorn virtual, instal·lar els nostres paquets i executar el seu fitxer Python associat.
source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py
El nostre servidor estarà disponible a localhost:8000. Podem consultar la nostra base de dades a localhost:8000/similarity?word1=cat&word2=dogi veure la resposta ja sigui al nostre navegador o a través d'un altre client AJAX.