Att importera data…

Tillhör du dem som stundtals importerar stora datamängder för att kunna skapa rapporter efteråt? Händer det kanske att en del rader inte kan matchas mot de nycklar som de borde göra? Brukar du få höra ”skit in – skit ut” av kollegor?

 

Svaret på ovanstående frågor är SSIS (SQL Server 2005 Integration Services) och de komponenter som finns för datatvättning. De mest intressanta är de som jobbar med ”Fuzzy Logic” och heter ”Fuzzy Lookups” och ”Fuzzy Grouping”.

 

Med dessa komponenter kan man åstadkomma matchningar som är lite smartare än en enkel strängmatchning. Vid ren strängmatchning så får man ingen matchning om två bokstäver i ett ord skulle ha bytt plats medan detta är möjligt med dessa komponenter.

 

Genom att styra graden av hur ”olika” två parametrar till en matchning kan vara kan man släppa igenom olika nivåer av kvalitet på sitt data när man importerar det.

 

SSIS är definitivt något som alla utvecklare bör titta på som importerar data, även om man inte behöver tvätta det då prestanda och enkelhet  i att skapa importeringar är mycket bra. Läs gärna mer om just datatvätt i artikeln nedan:

 

Fuzzy Lookups and Groupings Provide Powerful Data Cleansing Capabilities