Hur man använder tokenizers i Hugging Face Transformers?

Natural Language Processing (NLP) arbetar på den råa formen av data. Maskininlärningsmodeller tränas på komplexa data, men de kan inte förstå rådata. Denna råa form av data måste ha något numeriskt värde kopplat till sig. Detta värde bestämmer värdet och betydelsen av ordet i data och på grundval av detta utförs beräkningar.

Den här artikeln ger en steg-för-steg-guide om hur du använder Tokenizers i Hugging Face Transformers.

Vad är en Tokenizer?

Tokenizer är ett viktigt koncept för NLP, och dess huvudmål är att översätta den råa texten till siffror. Det finns olika tekniker och metoder för detta ändamål. Det är dock värt att notera att varje teknik tjänar ett specifikt syfte.
Hur man använder tokenizers i Hugging Face Transformers?

Hur man använder tokenizers i Hugging Face Transformers?

Tokenizer-biblioteket måste först installeras innan du använder det och importerar funktioner från det. Efter det tränar du en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering.

Hugging Face introducerar tre huvudkategorier av tokenisering som ges nedan:

Ordbaserad Tokenizer
Karaktärsbaserad Tokenizer
Underordsbaserad Tokenizer

Här är en steg-för-steg-guide för att använda Tokenizers i Transformers:

Steg 1: Installera Transformers
För att installera transformatorer, använd kommandot pip i följande kommando:

! pip Installera transformatorer

Steg 2: Importera klasser
Från transformatorer, importera rörledning , och AutoModelForSequenceClassification bibliotek för att utföra klassificering:

från transformatorer import pipeline, AutoModelForSequenceClassification

Steg 3: Importera modell
den ' AutoModelForSequenceClassification ” är en metod som tillhör Auto-Class för tokenisering. De from_pretrained() metod används för att returnera rätt modellklass baserat på modelltypen.

Här har vi angett namnet på modellen i ' modellnamn ' variabel:

modellnamn = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modellnamn )

Steg 4: Importera AutoTokenizer
Ange följande kommando för att generera tokens genom att skicka ' modellnamn ' som argument:

från transformatorer importera AutoTokenizer

generatetoken =AutoTokenizer.from_pretrained ( modellnamn )

Steg 5: Generera token
Nu kommer vi att generera tokens på en mening “Jag älskar god mat” genom att använda ' generatetoken ' variabel:

ord =generatetoken ( 'Jag älskar god mat' )
skriva ut ( ord )

Utgången ges enligt följande:

Koden till ovanstående Google Co ges här.

Slutsats

För att använda Tokenizers i Hugging Face, installerar du biblioteket med hjälp av pip-kommandot, tränar en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering. Genom att använda tokenisering, tilldela vikter till orden baserat på vilka de är sekvenserade för att behålla meningen med meningen. Denna poäng avgör också deras värde för analys. Den här artikeln är en detaljerad guide om hur du använder Tokenizers i Hugging Face Transformers.

Hur man använder tokenizers i Hugging Face Transformers?

Vad är en Tokenizer?

Hur man använder tokenizers i Hugging Face Transformers?

Slutsats

Kategori

Populära Inlägg

Hur man startar om SSH Service i Linux

Hur man döljer appar på iPhone

Vad är Shebang: Bash Script Header on First Line?

Hur man åtgärdar Discord-ljudavbrott under röstsamtal

Hur man rensar Git Local Cache

MicroPython HC-SR04 Ultraljudssensor – ESP32 och Thonny IDE

Hur man får en pistol i East Brickton Roblox

Hur man laddar upp datauppsättning på Hugging Face – Steg-för-steg-metod

Hur man använder Kubernetes lagringsklasser

Hur man hittar de dolda filerna från Linux-kommandoraden

Hur man hittar storleken på en fil i C-programmering

Hur man ökar högtalarens bas med hjälp av kondensator

Vad är Logstash och hur man konfigurerar det med Elasticsearch?

Använda MpCmdRun.exe för att uppdatera Windows Defender och köra en snabbsökning på en gång - Winhelponline

Hur man vänster trim och höger trim sträng i JavaScript

Hur man använder kommandot 'Get-Command' i PowerShell

Tkinter Listbox

Hur man löser felet 'Ingen modul med namnet Sklearn' i Python

Hur man identifierar kondensator

Så här löser du felet 'Tillstånd nekad (offentlig nyckel)'.