Hur man använder tokenizers i Hugging Face Transformers?

Hur Man Anvander Tokenizers I Hugging Face Transformers



Natural Language Processing (NLP) arbetar på den råa formen av data. Maskininlärningsmodeller tränas på komplexa data, men de kan inte förstå rådata. Denna råa form av data måste ha något numeriskt värde kopplat till sig. Detta värde bestämmer värdet och betydelsen av ordet i data och på grundval av detta utförs beräkningar.

Den här artikeln ger en steg-för-steg-guide om hur du använder Tokenizers i Hugging Face Transformers.

Vad är en Tokenizer?

Tokenizer är ett viktigt koncept för NLP, och dess huvudmål är att översätta den råa texten till siffror. Det finns olika tekniker och metoder för detta ändamål. Det är dock värt att notera att varje teknik tjänar ett specifikt syfte.
Hur man använder tokenizers i Hugging Face Transformers?







Hur man använder tokenizers i Hugging Face Transformers?

Tokenizer-biblioteket måste först installeras innan du använder det och importerar funktioner från det. Efter det tränar du en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering.



Hugging Face introducerar tre huvudkategorier av tokenisering som ges nedan:



  • Ordbaserad Tokenizer
  • Karaktärsbaserad Tokenizer
  • Underordsbaserad Tokenizer

Här är en steg-för-steg-guide för att använda Tokenizers i Transformers:





Steg 1: Installera Transformers
För att installera transformatorer, använd kommandot pip i följande kommando:

! pip Installera transformatorer



Steg 2: Importera klasser
Från transformatorer, importera rörledning , och AutoModelForSequenceClassification bibliotek för att utföra klassificering:

från transformatorer import pipeline, AutoModelForSequenceClassification

Steg 3: Importera modell
den ' AutoModelForSequenceClassification ” är en metod som tillhör Auto-Class för tokenisering. De from_pretrained() metod används för att returnera rätt modellklass baserat på modelltypen.

Här har vi angett namnet på modellen i ' modellnamn ' variabel:

modellnamn = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modellnamn )

Steg 4: Importera AutoTokenizer
Ange följande kommando för att generera tokens genom att skicka ' modellnamn ' som argument:

från transformatorer importera AutoTokenizer

generatetoken =AutoTokenizer.from_pretrained ( modellnamn )

Steg 5: Generera token
Nu kommer vi att generera tokens på en mening “Jag älskar god mat” genom att använda ' generatetoken ' variabel:

ord =generatetoken ( 'Jag älskar god mat' )
skriva ut ( ord )

Utgången ges enligt följande:

Koden till ovanstående Google Co ges här.

Slutsats

För att använda Tokenizers i Hugging Face, installerar du biblioteket med hjälp av pip-kommandot, tränar en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering. Genom att använda tokenisering, tilldela vikter till orden baserat på vilka de är sekvenserade för att behålla meningen med meningen. Denna poäng avgör också deras värde för analys. Den här artikeln är en detaljerad guide om hur du använder Tokenizers i Hugging Face Transformers.