Com crear una API REST daprenentatge profund amb Word2Vec i Flask

Els enfocaments tradicionals del desenvolupament són difícils de mantenir quan s'utilitzen models complexos d'aprenentatge automàtic en producció. El desenvolupament en un ordinador portàtil o una màquina local pot ser lent per entrenar el model d'aprenentatge automàtic per als enginyers d'aprenentatge profund. Com a resultat, normalment fem ús de màquines al núvol amb un maquinari més potent per entrenar i executar els nostres models d'aprenentatge automàtic. Aquesta és una bona pràctica, ja que abstraem càlculs complexos i, en canvi, fem sol·licituds AJAX segons sigui necessari. En aquest tutorial, posarem a disposició d'altres serveis un model d'aprenentatge profund pre-entrenat anomenat Word2Vec mitjançant la creació d'una API REST des de la base.

Requisits previs

  • Una instància de servidor Ubuntu 16.04 amb almenys 4 GB de RAM. Amb finalitats de prova i desenvolupament, podeu triar una instància amb 4 GB de RAM
  • Comprensió de com utilitzar el sistema operatiu Linux per crear/navegar/editar carpetes i fitxers
  • Un sudousuari

Què són les incrustacions de paraules?

Les incrustacions de paraules són un desenvolupament recent en el processament del llenguatge natural i l'aprenentatge profund que ha revolucionat ambdós camps a causa del ràpid progrés. Les incrustacions de paraules són essencialment vectors que corresponen cadascun a una sola paraula de manera que els vectors signifiquen les paraules. Això es pot demostrar amb certs fenòmens com el vector de king - queen = boy - girl. Els vectors de paraules s'utilitzen per crear tot, des de motors de recomanació fins a robots de xat que realment entenen l'idioma anglès.

Les incrustacions de paraules no són aleatòries; es generen entrenant una xarxa neuronal. Una implementació recent d'inserció de paraules potent prové de Google anomenada Word2Vec, que s'entrena predint paraules que apareixen al costat d'altres paraules en un idioma. Per exemple, per a la paraula "cat", la xarxa neuronal predirà les paraules "kitten"i "feline". Aquesta intuïció de paraules que apareixen unes a prop de les altres ens permet situar-les en l'espai vectorial.

Tanmateix, a la pràctica, tendim a utilitzar els models pre-entrenats d'altres grans corporacions com Google per tal de prototipar ràpidament i simplificar els processos de desplegament. En aquest tutorial descarregarem i utilitzarem les incrustacions de paraules pre-entrenadas de Word2Vec de Google. Ho podem fer executant la següent comanda al nostre directori de treball.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Instal·lació dels paquets Flask i Magnitude

El model d'inserció de paraules que hem baixat està en .magnitudeformat. Aquest format ens permet consultar el model de manera eficient mitjançant SQL i, per tant, és el format d'inserció òptim per als servidors de producció. Com que hem de poder llegir el .magnitudeformat, instal·larem el pymagnitudepaquet. També instal·larem flaskper servir més tard les prediccions d'aprenentatge profund fetes pel model.

pip3 install pymagnitude flask

També l'afegirem al nostre rastrejador de dependències amb l'ordre següent. Això crea un fitxer anomenat requirements.txti desa les nostres biblioteques de Python perquè les puguem tornar a instal·lar més endavant.

pip3 freeze > requirements.txt

Consulta del model Word2Vec

Per començar, crearem un fitxer per gestionar l'obertura i la consulta de les incrustacions de paraules.

touch model.py

A continuació, afegirem les línies següents a model.pyper importar la magnitud.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Podem jugar amb el pymagnitudepaquet i el model d'aprenentatge profund utilitzant el querymètode, proporcionant un argument per a una paraula.

cat_vector = vectors.query('cat')
print(cat_vector)

Per al nucli de la nostra API, definirem una funció per retornar la diferència de significat entre dues paraules. Aquesta és la columna vertebral de la majoria de solucions d'aprenentatge profund per a coses com ara els motors de recomanació (és a dir, mostrar contingut amb paraules similars).

Podem jugar amb aquesta funció utilitzant les funcions similarityi most_similar .

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Implementem la calculadora de semblances de la següent manera. Aquest mètode serà cridat per l'API de Flask a la secció següent. Tingueu en compte que aquesta funció retorna un valor real entre 0 i 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Creació d'una API REST

Crearem el nostre servidor en un fitxer anomenat service.pyamb el contingut següent. Importem flaski requestgestionem les capacitats del nostre servidor i importem el similaritymotor des del mòdul que vam escriure anteriorment.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

El nostre servidor és bastant senzill, però es pot ampliar fàcilment creant més rutes amb el @app.routedecorador.

Realització de trucades a l'API

Podem executar el nostre servidor Flask executant les ordres següents per activar el nostre entorn virtual, instal·lar els nostres paquets i executar el seu fitxer Python associat.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

El nostre servidor estarà disponible a localhost:8000. Podem consultar la nostra base de dades a localhost:8000/similarity?word1=cat&word2=dogi veure la resposta ja sigui al nostre navegador o a través d'un altre client AJAX.


Instal·leu Plesk a CentOS 7

Instal·leu Plesk a CentOS 7

Utilitzeu un sistema diferent? Plesk és un tauler de control d'amfitrió web propietari que permet als usuaris administrar els seus llocs web personals i/o de clients, bases de dades

Instal·leu Lets Encrypt SSL a laplicació de WordPress dun sol clic

Instal·leu Lets Encrypt SSL a laplicació de WordPress dun sol clic

Introducció Lets Encrypt és un servei d'autoritat de certificació que ofereix certificats TLS/SSL gratuïts. El procés d'instal·lació està simplificat per Certbot,

Com configurar un servidor Tekkit Classic a Ubuntu 16.10

Com configurar un servidor Tekkit Classic a Ubuntu 16.10

Utilitzeu un sistema diferent? Què és Tekkit Classic? Tekkit Classic és un modpack per al joc que tothom coneix i estima; Minecraft. Conté algunes de la ver

Creació dun bloc Jekyll a Ubuntu 16.04

Creació dun bloc Jekyll a Ubuntu 16.04

Utilitzeu un sistema diferent? Jekyll és una gran alternativa a WordPress per crear blocs o compartir contingut. No requereix cap base de dades i és molt fàcil

Com configurar actualitzacions desateses a Debian 9 (Stretch)

Com configurar actualitzacions desateses a Debian 9 (Stretch)

Utilitzeu un sistema diferent? Si compres un servidor Debian, sempre hauríeu de tenir els darrers pedaços i actualitzacions de seguretat, tant si esteu adormit com si no.

Com instal·lar i configurar PHP 7.0 o PHP 7.1 a Ubuntu 16.04

Com instal·lar i configurar PHP 7.0 o PHP 7.1 a Ubuntu 16.04

PHP i els paquets relacionats són els components més utilitzats quan es desplega un servidor web. En aquest article, aprendrem a configurar PHP 7.0 o PHP 7.1 o

Com instal·lar Squid Proxy a CentOS

Com instal·lar Squid Proxy a CentOS

Squid és un popular programa Linux gratuït que us permet crear un servidor intermediari web de reenviament. En aquesta guia, veureu com instal·lar Squid a CentOS per convertir-vos-hi

Com instal·lar Lighttpd (LLMP Stack) a CentOS 6

Com instal·lar Lighttpd (LLMP Stack) a CentOS 6

Introducció Lighttpd és una bifurcació d'Apache destinada a ser molt menys intensiu en recursos. És lleuger, d'aquí el seu nom, i és bastant senzill d'utilitzar. Instal·lant

Tres panells de control de servidor gratuïts (instal·lació ràpida)

Tres panells de control de servidor gratuïts (instal·lació ràpida)

1. Virtualmin/Webmin Virtualmin és un tauler de control d'allotjament web potent i flexible per a sistemes Linux i UNIX basat en la coneguda base web de codi obert

Configuració duna aplicació Yii a Ubuntu 14.04

Configuració duna aplicació Yii a Ubuntu 14.04

Yii és un framework PHP que permet desenvolupar aplicacions de manera més ràpida i senzilla. Instal·lar Yii a Ubuntu és senzill, ja que aprendràs exactament

Ús de Screen a Ubuntu 14.04

Ús de Screen a Ubuntu 14.04

Screen és una aplicació que permet l'ús múltiple de sessions de terminal dins d'una finestra. Això us permet simular diverses finestres de terminal on es fa

Configura el teu propi servidor DNS a Debian/Ubuntu

Configura el teu propi servidor DNS a Debian/Ubuntu

Aquest tutorial explica com configurar un servidor DNS amb Bind9 a Debian o Ubuntu. Al llarg de l'article, substituïu el vostre-nom-domini.com en conseqüència. Al th

Ús de Logrotate per gestionar fitxers de registre

Ús de Logrotate per gestionar fitxers de registre

Introducció Logrotate és una utilitat Linux que simplifica l'administració dels fitxers de registre. Normalment s'executa un cop al dia mitjançant un treball cron i gestiona la base de registres

Configuració de xarxes estàtiques i IPv6 a CentOS 7

Configuració de xarxes estàtiques i IPv6 a CentOS 7

Recentment, VULTR ha fet canvis al seu extrem, i ara tot hauria de funcionar bé des de la caixa amb NetworkManager habilitat. Si voleu desactivar

Modificació dIcinga2 per utilitzar el model mestre/client a CentOS 6 o CentOS 7

Modificació dIcinga2 per utilitzar el model mestre/client a CentOS 6 o CentOS 7

Icinga2 és un sistema de supervisió potent i, quan s'utilitza en un model de client mestre, pot substituir la necessitat de controls de monitoratge basats en NRPE. El mestre-client

Configura Red5 Media Server a Ubuntu 16.04

Configura Red5 Media Server a Ubuntu 16.04

Utilitzeu un sistema diferent? Red5 és un servidor multimèdia de codi obert implementat a Java que us permet executar aplicacions Flash multiusuari com ara la transmissió en directe.

Compileu i instal·leu Nginx amb el mòdul PageSpeed ​​a Debian 8

Compileu i instal·leu Nginx amb el mòdul PageSpeed ​​a Debian 8

En aquest article, veurem com compilar i instal·lar la línia principal de Nginx des de les fonts oficials de Nginx amb el mòdul PageSpeed, que us permet

Com instal·lar Apache Cassandra 3.11.x a Ubuntu 16.04 LTS

Com instal·lar Apache Cassandra 3.11.x a Ubuntu 16.04 LTS

Utilitzeu un sistema diferent? Apache Cassandra és un sistema de gestió de bases de dades NoSQL gratuït i de codi obert dissenyat per proporcionar escalabilitat, alta

Com instal·lar Apache Cassandra 3.11.x a CentOS 7

Com instal·lar Apache Cassandra 3.11.x a CentOS 7

Utilitzeu un sistema diferent? Apache Cassandra és un sistema de gestió de bases de dades NoSQL gratuït i de codi obert dissenyat per proporcionar escalabilitat, alta

Com instal·lar Vanilla Forum a Ubuntu 16.04

Com instal·lar Vanilla Forum a Ubuntu 16.04

Utilitzeu un sistema diferent? Vanilla Forum és una aplicació de fòrum de codi obert escrita en PHP. És totalment personalitzable, fàcil d'utilitzar i admet externa

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

La Intel·ligència Artificial no està en el futur, és aquí mateix en el present. En aquest bloc Llegiu com les aplicacions d'Intel·ligència Artificial han afectat diversos sectors.

Atacs DDOS: una breu visió general

Atacs DDOS: una breu visió general

També ets víctima d'atacs DDOS i estàs confós sobre els mètodes de prevenció? Llegiu aquest article per resoldre les vostres consultes.

Us heu preguntat mai com guanyen diners els pirates informàtics?

Us heu preguntat mai com guanyen diners els pirates informàtics?

Potser haureu sentit que els pirates informàtics guanyen molts diners, però us heu preguntat mai com guanyen aquest tipus de diners? anem a discutir.

Invents revolucionaris de Google que us facilitaran la vida.

Invents revolucionaris de Google que us facilitaran la vida.

Vols veure els invents revolucionaris de Google i com aquests invents van canviar la vida de tots els éssers humans actuals? A continuació, llegiu al bloc per veure els invents de Google.

Divendres essencial: què va passar amb els cotxes impulsats per IA?

Divendres essencial: què va passar amb els cotxes impulsats per IA?

El concepte de cotxes autònoms per sortir a les carreteres amb l'ajuda de la intel·ligència artificial és un somni que tenim des de fa temps. Però malgrat les diverses promeses, no es veuen enlloc. Llegeix aquest blog per saber-ne més...

Singularitat tecnològica: un futur llunyà de la civilització humana?

Singularitat tecnològica: un futur llunyà de la civilització humana?

A mesura que la ciència evoluciona a un ritme ràpid, fent-se càrrec de molts dels nostres esforços, també augmenten els riscos de sotmetre'ns a una singularitat inexplicable. Llegeix, què pot significar per a nosaltres la singularitat.

Evolució de lemmagatzematge de dades – Infografia

Evolució de lemmagatzematge de dades – Infografia

Els mètodes d'emmagatzematge de les dades que han anat evolucionant poden ser des del naixement de les dades. Aquest bloc tracta l'evolució de l'emmagatzematge de dades a partir d'una infografia.

Funcionalitats de les capes darquitectura de referència de Big Data

Funcionalitats de les capes darquitectura de referència de Big Data

Llegeix el blog per conèixer de la manera més senzilla les diferents capes de l'Arquitectura Big Data i les seves funcionalitats.

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

En aquest món digital, els dispositius domèstics intel·ligents s'han convertit en una part crucial de les vides. A continuació, es mostren alguns avantatges sorprenents dels dispositius domèstics intel·ligents sobre com fan que la nostra vida valgui la pena i sigui més senzilla.

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Recentment, Apple va llançar macOS Catalina 10.15.4, una actualització de suplements per solucionar problemes, però sembla que l'actualització està causant més problemes que provoquen el bloqueig de les màquines Mac. Llegiu aquest article per obtenir més informació