Com crear una API REST daprenentatge profund amb Word2Vec i Flask

Els enfocaments tradicionals del desenvolupament són difícils de mantenir quan s'utilitzen models complexos d'aprenentatge automàtic en producció. El desenvolupament en un ordinador portàtil o una màquina local pot ser lent per entrenar el model d'aprenentatge automàtic per als enginyers d'aprenentatge profund. Com a resultat, normalment fem ús de màquines al núvol amb un maquinari més potent per entrenar i executar els nostres models d'aprenentatge automàtic. Aquesta és una bona pràctica, ja que abstraem càlculs complexos i, en canvi, fem sol·licituds AJAX segons sigui necessari. En aquest tutorial, posarem a disposició d'altres serveis un model d'aprenentatge profund pre-entrenat anomenat Word2Vec mitjançant la creació d'una API REST des de la base.

Requisits previs

  • Una instància de servidor Ubuntu 16.04 amb almenys 4 GB de RAM. Amb finalitats de prova i desenvolupament, podeu triar una instància amb 4 GB de RAM
  • Comprensió de com utilitzar el sistema operatiu Linux per crear/navegar/editar carpetes i fitxers
  • Un sudousuari

Què són les incrustacions de paraules?

Les incrustacions de paraules són un desenvolupament recent en el processament del llenguatge natural i l'aprenentatge profund que ha revolucionat ambdós camps a causa del ràpid progrés. Les incrustacions de paraules són essencialment vectors que corresponen cadascun a una sola paraula de manera que els vectors signifiquen les paraules. Això es pot demostrar amb certs fenòmens com el vector de king - queen = boy - girl. Els vectors de paraules s'utilitzen per crear tot, des de motors de recomanació fins a robots de xat que realment entenen l'idioma anglès.

Les incrustacions de paraules no són aleatòries; es generen entrenant una xarxa neuronal. Una implementació recent d'inserció de paraules potent prové de Google anomenada Word2Vec, que s'entrena predint paraules que apareixen al costat d'altres paraules en un idioma. Per exemple, per a la paraula "cat", la xarxa neuronal predirà les paraules "kitten"i "feline". Aquesta intuïció de paraules que apareixen unes a prop de les altres ens permet situar-les en l'espai vectorial.

Tanmateix, a la pràctica, tendim a utilitzar els models pre-entrenats d'altres grans corporacions com Google per tal de prototipar ràpidament i simplificar els processos de desplegament. En aquest tutorial descarregarem i utilitzarem les incrustacions de paraules pre-entrenadas de Word2Vec de Google. Ho podem fer executant la següent comanda al nostre directori de treball.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instal·lació dels paquets Flask i Magnitude

El model d'inserció de paraules que hem baixat està en .magnitudeformat. Aquest format ens permet consultar el model de manera eficient mitjançant SQL i, per tant, és el format d'inserció òptim per als servidors de producció. Com que hem de poder llegir el .magnitudeformat, instal·larem el pymagnitudepaquet. També instal·larem flaskper servir més tard les prediccions d'aprenentatge profund fetes pel model.

pip3 install pymagnitude flask

També l'afegirem al nostre rastrejador de dependències amb l'ordre següent. Això crea un fitxer anomenat requirements.txti desa les nostres biblioteques de Python perquè les puguem tornar a instal·lar més endavant.

pip3 freeze > requirements.txt

Consulta del model Word2Vec

Per començar, crearem un fitxer per gestionar l'obertura i la consulta de les incrustacions de paraules.

touch model.py

A continuació, afegirem les línies següents a model.pyper importar la magnitud.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Podem jugar amb el pymagnitudepaquet i el model d'aprenentatge profund utilitzant el querymètode, proporcionant un argument per a una paraula.

cat_vector = vectors.query('cat')
print(cat_vector)

Per al nucli de la nostra API, definirem una funció per retornar la diferència de significat entre dues paraules. Aquesta és la columna vertebral de la majoria de solucions d'aprenentatge profund per a coses com ara els motors de recomanació (és a dir, mostrar contingut amb paraules similars).

Podem jugar amb aquesta funció utilitzant les funcions similarityi most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Implementem la calculadora de semblances de la següent manera. Aquest mètode serà cridat per l'API de Flask a la secció següent. Tingueu en compte que aquesta funció retorna un valor real entre 0 i 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Creació d'una API REST

Crearem el nostre servidor en un fitxer anomenat service.pyamb el contingut següent. Importem flaski requestgestionem les capacitats del nostre servidor i importem el similaritymotor des del mòdul que vam escriure anteriorment.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

El nostre servidor és bastant senzill, però es pot ampliar fàcilment creant més rutes amb el @app.routedecorador.

Realització de trucades a l'API

Podem executar el nostre servidor Flask executant les ordres següents per activar el nostre entorn virtual, instal·lar els nostres paquets i executar el seu fitxer Python associat.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

El nostre servidor estarà disponible a localhost:8000. Podem consultar la nostra base de dades a localhost:8000/similarity?word1=cat&word2=dogi veure la resposta ja sigui al nostre navegador o a través d'un altre client AJAX.

Deixa un comentari

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

La Intel·ligència Artificial no està en el futur, és aquí mateix en el present. En aquest bloc Llegiu com les aplicacions d'Intel·ligència Artificial han afectat diversos sectors.

Atacs DDOS: una breu visió general

Atacs DDOS: una breu visió general

També ets víctima d'atacs DDOS i estàs confós sobre els mètodes de prevenció? Llegiu aquest article per resoldre les vostres consultes.

Us heu preguntat mai com guanyen diners els pirates informàtics?

Us heu preguntat mai com guanyen diners els pirates informàtics?

Potser haureu sentit que els pirates informàtics guanyen molts diners, però us heu preguntat mai com guanyen aquest tipus de diners? anem a discutir.

Invents revolucionaris de Google que us facilitaran la vida.

Invents revolucionaris de Google que us facilitaran la vida.

Vols veure els invents revolucionaris de Google i com aquests invents van canviar la vida de tots els éssers humans actuals? A continuació, llegiu al bloc per veure els invents de Google.

Divendres essencial: què va passar amb els cotxes impulsats per IA?

Divendres essencial: què va passar amb els cotxes impulsats per IA?

El concepte de cotxes autònoms per sortir a les carreteres amb l'ajuda de la intel·ligència artificial és un somni que tenim des de fa temps. Però malgrat les diverses promeses, no es veuen enlloc. Llegeix aquest blog per saber-ne més...

Singularitat tecnològica: un futur llunyà de la civilització humana?

Singularitat tecnològica: un futur llunyà de la civilització humana?

A mesura que la ciència evoluciona a un ritme ràpid, fent-se càrrec de molts dels nostres esforços, també augmenten els riscos de sotmetre'ns a una singularitat inexplicable. Llegeix, què pot significar per a nosaltres la singularitat.

Funcionalitats de les capes darquitectura de referència de Big Data

Funcionalitats de les capes darquitectura de referència de Big Data

Llegeix el blog per conèixer de la manera més senzilla les diferents capes de l'Arquitectura Big Data i les seves funcionalitats.

Evolució de lemmagatzematge de dades – Infografia

Evolució de lemmagatzematge de dades – Infografia

Els mètodes d'emmagatzematge de les dades que han anat evolucionant poden ser des del naixement de les dades. Aquest bloc tracta l'evolució de l'emmagatzematge de dades a partir d'una infografia.

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

En aquest món digital, els dispositius domèstics intel·ligents s'han convertit en una part crucial de les vides. A continuació, es mostren alguns avantatges sorprenents dels dispositius domèstics intel·ligents sobre com fan que la nostra vida valgui la pena i sigui més senzilla.

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Recentment, Apple va llançar macOS Catalina 10.15.4, una actualització de suplements per solucionar problemes, però sembla que l'actualització està causant més problemes que provoquen el bloqueig de les màquines Mac. Llegiu aquest article per obtenir més informació