Hur applicerar man pipelines på en datamängd i transformatorer?

Funktionen pipeline() är en integrerad del av Transformer-biblioteket. Det krävs flera ingångar där vi kan definiera en slutledningsuppgift, modeller, tokeniseringsmekanism, etc. En pipeline()-funktion används huvudsakligen för att utföra NLP-uppgifter på en eller flera texter. Den utför förbearbetning av indata och efterbearbetning baserat på modellen för att generera läsbar utdata och exakt förutsägelse med maximal noggrannhet.

Den här artikeln tar upp följande aspekter:

Vad är Hugging Face Dataset Library?
Hur applicerar man pipelines på en datauppsättning i Hugging Face?

Vad är Hugging Face Dataset Library?

Ett datauppsättningsbibliotek för Hugging Face är ett API som innehåller flera offentliga datauppsättningar och ger ett enkelt sätt att ladda ner dem. Det här biblioteket kan importeras och installeras i programmet genom att använda ' pip ” kommando. För en praktisk demonstration för att ladda ner och installera dataset från Hugging Face-biblioteket, besök detta Google Colab-länk. Du kan ladda ner flera datamängder från Kramar Face Dataset Hub.

Läs mer om hur pipeline()-funktionen fungerar genom att hänvisa till den här artikeln ' Hur använder man Pipeline()-funktionen i transformatorer? ”.

Hur applicerar man pipelines på en datauppsättning i Hugging Face?

Hugging Face tillhandahåller flera olika offentliga datauppsättningar som enkelt kan installeras genom att använda enradskod. I den här artikeln kommer vi att se en praktisk demonstration av hur pipelines tillämpas på dessa datamängder. Det finns två sätt på vilka pipelines kan implementeras på datamängden.

Metod 1: Använd iterationsmetoden
Metod 2: Använda Dataset Library

Metod 1: Använd iterationsmetoden

Funktionen pipeline() kan också itereras över en datauppsättning och modell. För detta ändamål, följ nedanstående steg:

Steg 1: Installera Transformer Library

För att installera Transformer-biblioteket, ange följande kommando:

!pip installera transformatorer

Steg 2: Importera pipelines

Vi kan importera pipelinen från Transformer-biblioteket. För detta ändamål, ange följande kommando:

från transformatorer import pipeline

Steg 3: Implementera Pipeline

Här är pipeline()-funktionen implementerad på modellen ' gpt2 ”. Du kan ladda ner modeller från Hugging Face Model Hub:

def imp_pipeline():
för x i intervallet(1000):
yield f'Implementation Dataset{x}'

generera_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
för utdata i generera_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])

I den här koden är ' generera_pipeline ” är en variabel som innehåller pipeline()-funktionen med modellen ” gpt2 ”. När det anropas med ' imp_pipeline() ”-funktionen känner den automatiskt igen data som ökas med intervallet specificerat till 1000:

Detta kommer att ta lite tid att träna. Länken till Google Co ges också.

Metod 2: Använda Dataset Library

I den här metoden kommer vi att demonstrera implementering av pipeline med hjälp av 'dataset'-biblioteket:

Steg 1: Installera Transformer

För att installera Transformer-biblioteket, ange följande kommando:

!pip installera transformatorer

Steg 2: Installera Dataset Library

Som den ' datauppsättningar ”-biblioteket innehåller alla offentliga datauppsättningar, vi kan installera det genom att använda följande kommando. Genom att installera ' datauppsättningar ”-bibliotek, kan vi direkt importera vilken datauppsättning som helst genom att ange dess namn:

!pip installera datamängder

Steg 3: Dataset Pipeline

För att bygga en pipeline på datasetet, använd följande kod. KeyDataset är en funktion som endast matar ut de värden som intresserar användaren:

från transformers.pipelines.pt_utils importera KeyDataset
från transformatorer import pipeline
importera load_dataset från dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')för utdata i gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Skriver ut output nu')
skriv ut ('----------------')
print (output)

Utdata från ovanstående kod ges nedan:

Det är allt från den här guiden. Länken till Google Co nämns också i denna artikel

Slutsats

För att tillämpa pipelines på datamängden kan vi antingen iterera över en datauppsättning genom att använda en pipeline()-funktion eller använda ' datauppsättningar ” bibliotek. Hugging Face tillhandahåller GitHub-repository-länken till sina användare för både datauppsättningar och modeller som kan användas baserat på kraven. Den här artikeln har tillhandahållit en omfattande guide för att tillämpa pipelines på en datauppsättning i Transformers.

Hur applicerar man pipelines på en datamängd i transformatorer?

Vad är Hugging Face Dataset Library?

Hur applicerar man pipelines på en datauppsättning i Hugging Face?

Metod 1: Använd iterationsmetoden

Steg 1: Installera Transformer Library

Steg 2: Importera pipelines

Steg 3: Implementera Pipeline

Metod 2: Använda Dataset Library

Steg 1: Installera Transformer

Steg 2: Installera Dataset Library

Steg 3: Dataset Pipeline

Slutsats

Kategori

Populära Inlägg

GitHub-åtgärder i Ansible

Hur man ställer in textdekorationsstilen i Tailwind CSS

Generera slumpmässiga nummer med ESP32 och Arduino IDE

Kubectl Annotate Command

Hur man skapar If Statement One-Liners med hjälp av JavaScript

Hur man använder stripos()-funktionen i PHP

Hur infogar jag data i en specifik rad i MySQL?

Kan du programmera Arduino online

Hur man installerar Synology Assistant-appen på Ubuntu 24.04 LTS

Hur man använder par i C#

Vad är Vertex AI? Förklara i detalj

Vad är histogram i MATLAB-exempel

Så här löser du felet 'Windows Search är inaktiverat som standard Windows 10'.

Hur man stänger av Auto Caps på iPhone

Vad är strukturer i Golang

Vad betyder felkod 279 i Roblox?

Vad gör onmouseover Event i JavaScript

Sekventiella logiska kretsar och SR flip flop

Hur återställer jag ett Git-förråd till en tidigare commit?

Hur man skapar en tabell i Oracle med hjälp av PRIMÄRKEY?