Hur man använder Dataset för Hugging Face

Tillämpligheten och användbarheten av Machine Learning-modeller testas på data. Testernas tillförlitlighet beror i hög grad på kvantiteten och kvaliteten på de data som dessa modeller tillämpas på. Det är en komplett uppgift i och för sig att skapa, skaffa och rengöra en passande stor datamängd för att testa din ' Naturlig språkbehandling (NLP) ” Machine Learning-modell.

Hugging Face erbjuder en snygg lösning för detta med sitt exceptionellt stora bibliotek med datauppsättningar att välja mellan och hitta den som passar dina krav perfekt. Här kommer vi att visa dig hur du hittar den perfekta datamängden och förbereder den för att på ett adekvat sätt testa din modell.

Hur man använder Hugging Face Dataset?

Vi kommer att visa dig hur du använder Hugging Face Dataset med hjälp av exemplet på ' TinyStories ” Dataset från Hugging Face.

Exempel

TinyStories Dataset har mer än 2 miljoner rader med data i tågdelningen och det har mer än 2 tusen nedladdningar på Hugging Face-plattformen. Vi kommer att använda det i koden i Google Colab som anges nedan:

! pip Installera transformatorer
! pip Installera datauppsättningar

från dataset import load_dataset

dataset = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
exempel_sträng = dataset [ 'tåg' ] [ TinyStories_Story ] [ 'text' ]

skriva ut ( exempelsträng )

I den här koden, överväg nedan angivna steg:

Steg 01 : Det första steget är ' installation ” av transformatordatauppsättningar.

Steg 02 : Importera sedan den nödvändiga datamängden, ' TinyStories ” i ditt projekt.

Steg 03 : Ladda sedan den valda datamängden med hjälp av ' load_dataset() ' funktion.

Steg 04 : Nu anger vi det artikelnummer vi vill ha från TinyStories Dataset. Vi har angett numret 03 i vårt kodexempel.

Steg 05 : Slutligen kommer vi att använda metoden “print()” för att visa resultatet.

Produktion

Notera: Koden och utdata kan också ses direkt i vår Google Colab .

Slutsats

' Kramar ansiktsdatauppsättningar ” gör det otroligt effektivt för användare att testa sina Machine Learning-modeller samtidigt som de direkt importerar stora datamängder från deras onlinebibliotek. Som ett resultat har tillämpningen av NLP-algoritmer blivit enklare och snabbare eftersom programmerare kan få sina projekt testade mot en datauppsättning som har både kvalitet och kvantitet.

Hur man använder Dataset för Hugging Face

Hur man använder Hugging Face Dataset?

Exempel

Produktion

Slutsats

Kategori

Populära Inlägg

Git-kommandon när du arbetar med fjärrlager

Viktiga Proxmox VE 8 PCI/PCIE Passthrough-justeringar, korrigeringar och lösningar

Maximalt sub-arrayproblem i C++

Hur använder man metoden Node.js path.resolve()?

Hur man lägger till GitHub till Discord

Hur man går med i MrBeast Gaming Discord

Hur förhindrar man att flexföremål växer eller krymper i medvind?

Hur man installerar Brave Browser på Linux Mint 21

Hur man kör Linux-kommandon i bakgrunden

Hur man använder StringTokenizer i Java

Hur man återställer säkerhetskopiering på Android

Hur gillar man ett meddelande på WhatsApp?

Hur man lägger till Xbox Live till Discord

Hur man installerar Sublime Text 4 i Ubuntu 22.04 LTS

Windows 11 AI-driven Microsoft Store

Hur man inaktiverar IPv6 på Ubuntu 24.04

Bästa sättet att koda Celsius-symbolen på webbsidan

Vad är Amazon Cognito och hur fungerar det?

Hur man återställer förlorat Roblox-inloggningslösenord

Hur läser man en tabell i MATLAB?