Hugging Face Filter() Metod

Hugging Face Filter Metod



Hugging Face har flera modeller och datauppsättningar för naturlig språkbehandling (NLP). Dessa enorma datamängder innehåller mycket information som hjälper till att träna modellen exakt. Men ibland behöver vi inte hela datasetet eftersom vi bara behöver en liten del av det för att möta våra nuvarande behov. Om vi ​​vill använda samma datauppsättning som vanligt med all information tar modellträningen och optimeringen mycket tid vilket är slöseri med tid.

Så vi behöver någon form av metod eller paket som kan extrahera relevant information från datamängderna. På ett enkelt språk kan vi säga att vi behöver ett extra filteralternativ för att filtrera datamängderna enligt våra krav.

Hugging Face ger olika alternativ för att filtrera datamängderna vilket hjälper användarna att skapa de anpassade datamängderna som bara innehåller exempel eller information som uppfyller specifika villkor.







Välj() metod

Denna metod fungerar på en lista med index vilket innebär att vi måste definiera en lista. Inuti den listan måste vi nämna alla de radernas indexvärden som vi vill extrahera. Men den här metoden fungerar bara för små datamängder och inte för stora datamängder, eftersom vi inte kan se hela datamängden om den är i GBs (gigabyte) eller TBs (terabytes).



Exempel :

new_dataset = dataset. Välj ( [ 0 , elva , tjugoett , Fyra fem , femtio , 55 ] )

skriva ut ( endast ( new_dataset ) )

I det här exemplet använde vi metoden 'select' för att filtrera den nödvändiga informationen från datamängden.



Filter() Metod

Metoden filter() övervinner processproblemen select() eftersom det inte finns något specifikt villkor. Metoden filter() returnerar alla rader som matchar en viss situation eller villkor.





Exempel: Vi sparar detta Python-program med namnet 'test.py'.

från datauppsättningar importera load_dataset

# Steg 1: Ladda datauppsättningen
dataset = load_dataset ( 'imdb' )

# Steg 2: Definiera filtreringsfunktionen
def custom_filter ( exempel ) :
'''
En anpassad filtreringsfunktion för att behålla exempel med positiva
sentiment (etikett == 1).
'''

lämna tillbaka exempel [ 'märka' ] == 1

# Steg 3: Använd filtret för att skapa en ny filtrerad datauppsättning
filtrerad_dataset = dataset. filtrera ( custom_filter )

# Steg 4: Kontrollera de tillgängliga kolumnnamnen i den filtrerade datamängden
skriva ut ( 'Tillgängliga kolumner i den filtrerade datamängden:' ,
filtrerad_dataset. kolumnnamn )

# Steg 5: Få tillgång till information från den filtrerade datamängden
filtrerade_exempel = filtrerad_dataset [ 'tåg' ]
num_filtred_examples = endast ( filtrerade_exempel )

# Steg 6: Skriv ut det totala antalet filtrerade exempel
skriva ut ( 'Totalt filtrerade exempel:' , num_filtred_examples )

Produktion:



Förklaring:

Rad 1: Vi importerar det nödvändiga load_dataset-paketet från datamängderna.

Rad 4: Vi laddar 'imdb'-datauppsättningen med hjälp av load_dataset.

Rad 7 till 12: Vi definierar den anpassade filtreringsfunktionen ' custom_filter ' att behålla exemplen med positiva känslor (etikett == 1). Denna funktion returnerar endast de rader vars etikettvärde är 1.

Rad 15: Den här raden visar att datauppsättningen har 'imdb'-filmgranskningsdata. Vi tillämpar nu filterfunktionen på den här databasen för att separera de positiva recensionerna från databasen som ytterligare lagras i 'filtered_dataset.'

Rad 18 och 19: Nu kontrollerar vi vilka kolumnnamn som är tillgängliga i filtered_dataset. Så, koden 'filtered_dataset.column_names' ger detaljerna om våra krav.

Rad 22 och 23: På dessa rader filtrerar vi kolumnen 'tåg' i filtered_dataset och skriver ut det totala antalet (längden) av tågkolumnen.

Rad 26: På denna sista rad skriver vi ut resultatet från rad nummer 23.

Filter() med index

Metoden filter() kan också användas med index som ses i select()-läget. Men för det måste vi nämna att nyckelordet 'with_indices=true' måste anges utanför metoden filter() som visas i följande exempel:

odd_dataset = dataset. filtrera ( lambda exempel , idx: idx % 2 != 0 , with_index = Sann )

skriva ut ( endast ( odd_dataset ) )

I det här exemplet använde vi metoden filter() för att filtrera den nödvändiga informationen från datamängden, inklusive endast de rader som är udda.

Den fullständiga informationen om varje parameter i filter()-metoden kan hittas här länk .

Slutsats

Datauppsättningsbiblioteket Hugging Face tillhandahåller en kraftfull och användarvänlig verktygsuppsättning för att effektivt arbeta med olika datauppsättningar, särskilt i samband med Natural Language Processing (NLP) och uppgifter för maskininlärning. Filter()-funktionen som presenteras i programmet tillåter forskare och praktiker att extrahera relevanta delmängder av data genom att definiera de användardefinierade filtreringskriterierna. Med den här funktionen kan användarna enkelt skapa nya datauppsättningar som uppfyller specifika villkor som att bibehålla positiva känslor i filmrecensioner eller extrahera specifik textdata.

Denna steg-för-steg-demonstration illustrerar hur enkelt det är att ladda en datauppsättning, tillämpa de anpassade filterfunktionerna och komma åt den filtrerade datan. Dessutom möjliggör flexibiliteten hos funktionsparametrarna anpassade filtreringsoperationer, inklusive stöd för flera bearbetningar för stora datamängder. Med datauppsättningsbiblioteket Hugging Face kan användarna effektivisera sina data.