Hur man skapar ett Deep Learning REST API med Word2Vec och Flask

Traditionella metoder för utveckling är svåra att upprätthålla när man använder komplexa maskininlärningsmodeller i produktionen. Utveckling på en bärbar dator eller lokal maskin kan vara långsam för att träna maskininlärningsmodellen för ingenjörer för djupinlärning. Som ett resultat använder vi vanligtvis molnmaskiner med kraftfullare hårdvara för att både träna och köra våra maskininlärningsmodeller. Detta är god praxis eftersom vi abstraherar komplexa beräkningar och istället gör AJAX-förfrågningar vid behov. I den här handledningen kommer vi att göra en förtränad modell för djupinlärning vid namn Word2Vec tillgänglig för andra tjänster genom att bygga ett REST API från grunden.

Förutsättningar

  • En Ubuntu 16.04-serverinstans med minst 4GB RAM. För test- och utvecklingsändamål kan du välja en instans med 4 GB RAM
  • Förståelse för hur man använder operativsystemet Linux för att skapa/navigera/redigera mappar och filer
  • En sudoanvändare

Vad är Word-inbäddningar?

Ordinbäddningar är en ny utveckling inom naturlig språkbehandling och djupinlärning som har revolutionerat båda områdena på grund av snabba framsteg. Ordinbäddningar är i huvudsak vektorer som var och en motsvarar ett enda ord så att vektorerna betyder orden. Detta kan demonstreras av vissa fenomen som vektorn för king - queen = boy - girl. Ordvektorer används för att bygga allt från rekommendationsmotorer till chat-bots som faktiskt förstår det engelska språket.

Ordinbäddningar är inte slumpmässiga; de genereras genom att träna ett neuralt nätverk. En nyligen kraftfull implementering av ordinbäddning kommer från Google med namnet Word2Vec som tränas genom att förutsäga ord som visas bredvid andra ord på ett språk. Till exempel, för ordet "cat", kommer det neurala nätverket att förutsäga orden "kitten"och "feline". Denna intuition av ord som dyker upp nära varandra tillåter oss att placera dem i vektorrymden.

Men i praktiken tenderar vi att använda de förutbildade modellerna från andra stora företag som Google för att snabbt skapa prototyper och förenkla implementeringsprocesser. I den här handledningen kommer vi att ladda ner och använda Googles Word2Vec förtränade ordinbäddningar. Vi kan göra detta genom att köra följande kommando i vår arbetskatalog.

wget http://magnitude.plasticity.ai/word2vec/GoogleNews-vectors-negative300.magnitude

Installation av kolv- och magnitudepaket

Ordet inbäddningsmodell vi laddade ner är i ett .magnitudeformat. Detta format tillåter oss att fråga modellen effektivt med SQL, och är därför det optimala inbäddningsformatet för produktionsservrar. Eftersom vi måste kunna läsa .magnitudeformatet kommer vi att installera pymagnitudepaketet. Vi kommer också att installera för flaskatt senare tjäna de djupinlärningsförutsägelser som modellen gör.

pip3 install pymagnitude flask

Vi lägger också till den i vår beroendespårare med följande kommando. Detta skapar en fil med namnet requirements.txtoch sparar våra Python-bibliotek så att vi kan installera om dem vid ett senare tillfälle.

pip3 freeze > requirements.txt

Frågar efter Word2Vec-modellen

Till att börja med skapar vi en fil för att hantera öppning och fråga efter ordet inbäddningar.

touch model.py

Därefter lägger vi till följande rader för model.pyatt importera Magnitude.

from pymagnitude import Magnitude
vectors = Magnitude('GoogleNews-vectors-negative300.magnitude')

Vi kan leka med pymagnitudepaketet och modellen för djupinlärning genom att använda querymetoden och ge ett argument för ett ord.

cat_vector = vectors.query('cat')
print(cat_vector)

För kärnan i vårt API kommer vi att definiera en funktion för att returnera skillnaden i betydelse mellan två ord. Detta är ryggraden för de flesta djupinlärningslösningar för saker som rekommendationsmotorer (dvs. att visa innehåll med liknande ord).

Vi kan leka med den här funktionen genom att använda similarityoch most_similar funktioner.

print(vectors.similarity("cat", "dog"))
print(vectors.most_similar("cat", topn=100))

Vi implementerar likhetskalkylatorn enligt följande. Denna metod kommer att anropas av Flask API i nästa avsnitt. Observera att den här funktionen returnerar ett reellt värde mellan 0 och 1.

def similarity(word1, word2):
    return vectors.similarity(word1, word2)

Skapa ett REST API

Vi skapar vår server i en fil som heter service.pyföljande innehåll. Vi importerar flaskoch requesthanterar vår serverkapacitet och vi importerar similaritymotorn från modulen vi skrev tidigare.

from flask import Flask, request
from model import similarity

app = Flask(__name__)

@app.route("/", methods=['GET'])
def welcome():
    return "Welcome to our Machine Learning REST API!"

@app.route("/similarity", methods=['GET'])
def similarity_route():
    word1 = request.args.get("word1")
    word2 = request.args.get("word2")
    return str(similarity(word1, word2))

if __name__ == "__main__":
    app.run(port=8000, debug=True)

Vår server är ganska nakna, men kan enkelt utökas genom att skapa fler rutter med hjälp av @app.routedekoratorn.

Ringa API-anrop

Vi kan köra vår Flask-server genom att köra följande kommandon för att aktivera vår virtuella miljö, installera våra paket och köra dess associerade Python-fil.

source venv/bin/activate
pip3 install -r requirements.txt
python3 service.py

Vår server kommer att finnas tillgänglig kl localhost:8000. Vi kan fråga vår databas på localhost:8000/similarity?word1=cat&word2=dogoch se svaret antingen i vår webbläsare eller via en annan AJAX-klient.


Installera Plesk på CentOS 7

Installera Plesk på CentOS 7

Använder du ett annat system? Plesk är en egen kontrollpanel för webbhotell som tillåter användare att administrera sina personliga och/eller klienters webbplatser, databaser

Installera Cacti på Debian Jessie

Installera Cacti på Debian Jessie

Introduktion Cacti är ett övervaknings- och grafverktyg med öppen källkod som är helt baserat på RRD-data. Genom Cacti kan du övervaka nästan vilken typ av enhet som helst

Installera Lets Encrypt SSL på One-Click WordPress-appen

Installera Lets Encrypt SSL på One-Click WordPress-appen

Introduktion Lets Encrypt är en certifikatmyndighetstjänst som erbjuder gratis TLS/SSL-certifikat. Installationsprocessen förenklas av Certbot,

Hur man ställer in en Tekkit Classic-server på Ubuntu 16.10

Hur man ställer in en Tekkit Classic-server på Ubuntu 16.10

Använder du ett annat system? Vad är Tekkit Classic? Tekkit Classic är ett modpack för spelet som alla känner och älskar; Minecraft. Den innehåller några av ver

Konfigurera iRedMail på Debian Wheezy

Konfigurera iRedMail på Debian Wheezy

Använder du ett annat system? Den här handledningen visar dig hur du installerar groupware iRedMail på en ny installation av Debian Wheezy. Du bör använda en serve

Hur man installerar och konfigurerar PHP 7.0 eller PHP 7.1 på Ubuntu 16.04

Hur man installerar och konfigurerar PHP 7.0 eller PHP 7.1 på Ubuntu 16.04

PHP och relaterade paket är de mest använda komponenterna när du distribuerar en webbserver. I den här artikeln kommer vi att lära oss hur du ställer in PHP 7.0 eller PHP 7.1 o

Hur man installerar Squid Proxy på CentOS

Hur man installerar Squid Proxy på CentOS

Squid är ett populärt, gratis Linux-program som låter dig skapa en webbproxy för vidarebefordran. I den här guiden ser du hur du installerar Squid på CentOS för att förvandla dig

Hur man installerar Lighttpd (LLMP Stack) på CentOS 6

Hur man installerar Lighttpd (LLMP Stack) på CentOS 6

Inledning Lighttpd är en apachegaffel som syftar till att vara mycket mindre resurskrävande. Den är lätt, därav namnet, och är ganska enkel att använda. Installera

Tre gratis serverkontrollpaneler (snabbinstallation)

Tre gratis serverkontrollpaneler (snabbinstallation)

1. Virtualmin/Webmin Virtualmin är en kraftfull och flexibel kontrollpanel för webbhotell för Linux- och UNIX-system baserad på den välkända Open Source-webbasen

Konfigurera en Yii-applikation på Ubuntu 14.04

Konfigurera en Yii-applikation på Ubuntu 14.04

Yii är ett PHP-ramverk som låter dig utveckla applikationer snabbare och enklare. Att installera Yii på Ubuntu är enkelt, eftersom du kommer att lära dig exakt

Använder skärmen på Ubuntu 14.04

Använder skärmen på Ubuntu 14.04

Screen är ett program som tillåter flera terminalsessioner inom ett fönster. Detta låter dig simulera flera terminalfönster där det ma

Konfigurera din egen DNS-server på Debian/Ubuntu

Konfigurera din egen DNS-server på Debian/Ubuntu

Denna handledning förklarar hur man ställer in en DNS-server med Bind9 på Debian eller Ubuntu. Genomgående i artikeln, byt ut ditt-domännamn.com i enlighet med detta. Vid th

Använda Logrotate för att hantera loggfiler

Använda Logrotate för att hantera loggfiler

Inledning Logrotate är ett Linux-verktyg som förenklar administrationen av loggfiler. Den körs vanligtvis en gång om dagen via ett cron-jobb och hanterar loggbasen

Konfigurera statiskt nätverk och IPv6 på CentOS 7

Konfigurera statiskt nätverk och IPv6 på CentOS 7

VULTR har nyligen gjort ändringar på deras sida, och allt borde nu fungera bra direkt när NetworkManager är aktiverat. Om du vill inaktivera

Ändra Icinga2 för att använda Master/Client Model på CentOS 6 eller CentOS 7

Ändra Icinga2 för att använda Master/Client Model på CentOS 6 eller CentOS 7

Icinga2 är ett kraftfullt övervakningssystem, och när det används i en master-klient-modell kan det ersätta behovet av NRPE-baserade övervakningskontroller. Master-klienten

Konfigurera Red5 Media Server på Ubuntu 16.04

Konfigurera Red5 Media Server på Ubuntu 16.04

Använder du ett annat system? Red5 är en mediaserver med öppen källkod implementerad i Java som låter dig köra Flash fleranvändarapplikationer som livestreamin

Kompilera och installera Nginx med PageSpeed-modulen på Debian 8

Kompilera och installera Nginx med PageSpeed-modulen på Debian 8

I den här artikeln kommer vi att se hur man kompilerar och installerar Nginx mainline från de officiella källorna för Nginx med PageSpeed-modulen, som låter dig t

Hur man installerar Apache Cassandra 3.11.x på Ubuntu 16.04 LTS

Hur man installerar Apache Cassandra 3.11.x på Ubuntu 16.04 LTS

Använder du ett annat system? Apache Cassandra är ett gratis NoSQL-databashanteringssystem med öppen källkod som är designat för att ge skalbarhet, hög

Hur man installerar Apache Cassandra 3.11.x på CentOS 7

Hur man installerar Apache Cassandra 3.11.x på CentOS 7

Använder du ett annat system? Apache Cassandra är ett gratis NoSQL-databashanteringssystem med öppen källkod som är designat för att ge skalbarhet, hög

Hur man installerar Vanilla Forum på Ubuntu 16.04

Hur man installerar Vanilla Forum på Ubuntu 16.04

Använder du ett annat system? Vanilla forum är en open source forumapplikation skriven i PHP. Det är en helt anpassningsbar, enkel att använda och stöder externa

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Artificiell intelligens är inte i framtiden, det är här i nuet I den här bloggen Läs hur Artificiell intelligens-applikationer har påverkat olika sektorer.

DDOS-attacker: En kort översikt

DDOS-attacker: En kort översikt

Är du också ett offer för DDOS-attacker och förvirrad över de förebyggande metoderna? Läs den här artikeln för att lösa dina frågor.

Har du någonsin undrat hur hackare tjänar pengar?

Har du någonsin undrat hur hackare tjänar pengar?

Du kanske har hört att hackare tjänar mycket pengar, men har du någonsin undrat hur de tjänar den typen av pengar? låt oss diskutera.

Revolutionerande uppfinningar från Google som gör ditt liv lätt.

Revolutionerande uppfinningar från Google som gör ditt liv lätt.

Vill du se revolutionerande uppfinningar av Google och hur dessa uppfinningar förändrade livet för varje människa idag? Läs sedan till bloggen för att se uppfinningar av Google.

Fredag ​​Essential: Vad hände med AI-drivna bilar?

Fredag ​​Essential: Vad hände med AI-drivna bilar?

Konceptet med att självkörande bilar ska ut på vägarna med hjälp av artificiell intelligens är en dröm vi har ett tag nu. Men trots flera löften finns de ingenstans att se. Läs den här bloggen för att lära dig mer...

Technological Singularity: A Distant Future of Human Civilization?

Technological Singularity: A Distant Future of Human Civilization?

När vetenskapen utvecklas i snabb takt och tar över en hel del av våra ansträngningar, ökar också riskerna för att utsätta oss för en oförklarlig singularitet. Läs, vad singularitet kan betyda för oss.

Utveckling av datalagring – Infographic

Utveckling av datalagring – Infographic

Lagringsmetoderna för data har utvecklats kan vara sedan födelsen av data. Den här bloggen tar upp utvecklingen av datalagring på basis av en infografik.

Funktioner för Big Data Reference Architecture Layers

Funktioner för Big Data Reference Architecture Layers

Läs bloggen för att känna till olika lager i Big Data Architecture och deras funktionaliteter på enklaste sätt.

6 fantastiska fördelar med att ha smarta hemenheter i våra liv

6 fantastiska fördelar med att ha smarta hemenheter i våra liv

I denna digitala värld har smarta hemenheter blivit en avgörande del av livet. Här är några fantastiska fördelar med smarta hemenheter om hur de gör vårt liv värt att leva och enklare.

macOS Catalina 10.15.4 tilläggsuppdatering orsakar fler problem än att lösa

macOS Catalina 10.15.4 tilläggsuppdatering orsakar fler problem än att lösa

Nyligen släppte Apple macOS Catalina 10.15.4, en tilläggsuppdatering för att åtgärda problem, men det verkar som om uppdateringen orsakar fler problem som leder till att mac-datorer blir murade. Läs den här artikeln för att lära dig mer