Den här artikeln ger en steg-för-steg-guide om hur du använder Tokenizers i Hugging Face Transformers.
Vad är en Tokenizer?
Tokenizer är ett viktigt koncept för NLP, och dess huvudmål är att översätta den råa texten till siffror. Det finns olika tekniker och metoder för detta ändamål. Det är dock värt att notera att varje teknik tjänar ett specifikt syfte.
Hur man använder tokenizers i Hugging Face Transformers?
Hur man använder tokenizers i Hugging Face Transformers?
Tokenizer-biblioteket måste först installeras innan du använder det och importerar funktioner från det. Efter det tränar du en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering.
Hugging Face introducerar tre huvudkategorier av tokenisering som ges nedan:
- Ordbaserad Tokenizer
- Karaktärsbaserad Tokenizer
- Underordsbaserad Tokenizer
Här är en steg-för-steg-guide för att använda Tokenizers i Transformers:
Steg 1: Installera Transformers
För att installera transformatorer, använd kommandot pip i följande kommando:
Steg 2: Importera klasser
Från transformatorer, importera rörledning , och AutoModelForSequenceClassification bibliotek för att utföra klassificering:
Steg 3: Importera modell
den ' AutoModelForSequenceClassification ” är en metod som tillhör Auto-Class för tokenisering. De from_pretrained() metod används för att returnera rätt modellklass baserat på modelltypen.
Här har vi angett namnet på modellen i ' modellnamn ' variabel:
modellnamn = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modellnamn )
Steg 4: Importera AutoTokenizer
Ange följande kommando för att generera tokens genom att skicka ' modellnamn ' som argument:
generatetoken =AutoTokenizer.from_pretrained ( modellnamn )
Steg 5: Generera token
Nu kommer vi att generera tokens på en mening “Jag älskar god mat” genom att använda ' generatetoken ' variabel:
skriva ut ( ord )
Utgången ges enligt följande:
Koden till ovanstående Google Co ges här.
Slutsats
För att använda Tokenizers i Hugging Face, installerar du biblioteket med hjälp av pip-kommandot, tränar en modell med AutoTokenizer och ger sedan indata för att utföra tokenisering. Genom att använda tokenisering, tilldela vikter till orden baserat på vilka de är sekvenserade för att behålla meningen med meningen. Denna poäng avgör också deras värde för analys. Den här artikeln är en detaljerad guide om hur du använder Tokenizers i Hugging Face Transformers.