Hur applicerar man pipelines på en datamängd i transformatorer?

Hur Applicerar Man Pipelines Pa En Datamangd I Transformatorer



Funktionen pipeline() är en integrerad del av Transformer-biblioteket. Det krävs flera ingångar där vi kan definiera en slutledningsuppgift, modeller, tokeniseringsmekanism, etc. En pipeline()-funktion används huvudsakligen för att utföra NLP-uppgifter på en eller flera texter. Den utför förbearbetning av indata och efterbearbetning baserat på modellen för att generera läsbar utdata och exakt förutsägelse med maximal noggrannhet.

Den här artikeln tar upp följande aspekter:







Vad är Hugging Face Dataset Library?

Ett datauppsättningsbibliotek för Hugging Face är ett API som innehåller flera offentliga datauppsättningar och ger ett enkelt sätt att ladda ner dem. Det här biblioteket kan importeras och installeras i programmet genom att använda ' pip ” kommando. För en praktisk demonstration för att ladda ner och installera dataset från Hugging Face-biblioteket, besök detta Google Colab-länk. Du kan ladda ner flera datamängder från Kramar Face Dataset Hub.



Läs mer om hur pipeline()-funktionen fungerar genom att hänvisa till den här artikeln ' Hur använder man Pipeline()-funktionen i transformatorer? ”.



Hur applicerar man pipelines på en datauppsättning i Hugging Face?

Hugging Face tillhandahåller flera olika offentliga datauppsättningar som enkelt kan installeras genom att använda enradskod. I den här artikeln kommer vi att se en praktisk demonstration av hur pipelines tillämpas på dessa datamängder. Det finns två sätt på vilka pipelines kan implementeras på datamängden.





Metod 1: Använd iterationsmetoden

Funktionen pipeline() kan också itereras över en datauppsättning och modell. För detta ändamål, följ nedanstående steg:

Steg 1: Installera Transformer Library

För att installera Transformer-biblioteket, ange följande kommando:



!pip installera transformatorer

Steg 2: Importera pipelines

Vi kan importera pipelinen från Transformer-biblioteket. För detta ändamål, ange följande kommando:

från transformatorer import pipeline

Steg 3: Implementera Pipeline

Här är pipeline()-funktionen implementerad på modellen ' gpt2 ”. Du kan ladda ner modeller från Hugging Face Model Hub:

def imp_pipeline():
för x i intervallet(1000):
yield f'Implementation Dataset{x}'


generera_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
för utdata i generera_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])

I den här koden är ' generera_pipeline ” är en variabel som innehåller pipeline()-funktionen med modellen ” gpt2 ”. När det anropas med ' imp_pipeline() ”-funktionen känner den automatiskt igen data som ökas med intervallet specificerat till 1000:

Detta kommer att ta lite tid att träna. Länken till Google Co ges också.

Metod 2: Använda Dataset Library

I den här metoden kommer vi att demonstrera implementering av pipeline med hjälp av 'dataset'-biblioteket:

Steg 1: Installera Transformer

För att installera Transformer-biblioteket, ange följande kommando:

!pip installera transformatorer

Steg 2: Installera Dataset Library

Som den ' datauppsättningar ”-biblioteket innehåller alla offentliga datauppsättningar, vi kan installera det genom att använda följande kommando. Genom att installera ' datauppsättningar ”-bibliotek, kan vi direkt importera vilken datauppsättning som helst genom att ange dess namn:

!pip installera datamängder

Steg 3: Dataset Pipeline

För att bygga en pipeline på datasetet, använd följande kod. KeyDataset är en funktion som endast matar ut de värden som intresserar användaren:

från transformers.pipelines.pt_utils importera KeyDataset
från transformatorer import pipeline
importera load_dataset från dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')för utdata i gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Skriver ut output nu')
skriv ut ('----------------')
print (output)

Utdata från ovanstående kod ges nedan:

Det är allt från den här guiden. Länken till Google Co nämns också i denna artikel

Slutsats

För att tillämpa pipelines på datamängden kan vi antingen iterera över en datauppsättning genom att använda en pipeline()-funktion eller använda ' datauppsättningar ” bibliotek. Hugging Face tillhandahåller GitHub-repository-länken till sina användare för både datauppsättningar och modeller som kan användas baserat på kraven. Den här artikeln har tillhandahållit en omfattande guide för att tillämpa pipelines på en datauppsättning i Transformers.