Professionele vertalingen van CSV-bestanden – waar moet je rekening mee houden?

Projectmanager-Hendrik

Onze IT-specialisten helpen u graag verder met CSV-bestanden.

CSV staat voor comma-separated values of character-separated values. Zoals de naam al doet vermoeden, worden de values (waarden) hierbij gescheiden door bepaalde characters (tekens). Er is geen officiële standaard voor het gebruik van dit bestandsformaat, maar RFC 4180 gaat er wel diep op in. CSV-bestanden zijn prima geschikt voor vertalingen, hoewel we wel met een aantal zaken rekening dienen te houden.

Welke systemen maken gebruik van CSV?

CSV-bestanden worden over het algemeen gebruikt door bedrijfseigen of gepatenteerde systemen. Teksten worden vaak met behulp van CSV geëxporteerd vanuit databases, bijvoorbeeld naar contentmanagementsystemen. Databases kunnen bij het importeren en exporteren overweg met een groot aantal bestandsformaten. CSV is vaak de makkelijkste oplossing. Het XML-formaat geeft een betere controle op de structuur en een XML-bestand kan worden gevuld met gegevens uit een CSV-bestand.

Tekensets of codetabellen

Een tekenset, ook wel een codetabel genoemd, brengt cijfers en andere tekens in kaart. Het meest gebruikte formaat is Unicode, en voor Unicode-tekens wordt UTF-8 het vaakst gebruikt als codetabel. CSV-bestanden met UTF-8-codering kunnen worden vertaald naar elke andere taal. Bestanden met andere tekensets in principe ook, maar houd er wel rekening mee dat een CSV-bestand niet aangeeft in welk formaat het is gecodeerd. Dit kan problemen geven.

Als het bestand bijvoorbeeld in het ANSI-formaat is met de West-Europese tekenset en moet worden vertaald naar een Oost-Europese variant, zullen we al snel zien dat dezelfde codes daar andere tekens opleveren. Er zijn dus maar beperkte mogelijkheden om bestanden in het ANSI-formaat te vertalen. Daarom is het aan te raden om vanaf het begin al Unicode te gebruiken, bijvoorbeeld UTF-8.

Hoe maak je foutloze CSV-bestanden?

De uitdaging bij CSV-bestanden zit hem erin dat je nooit mag onderschatten hoe complex ze zijn opgebouwd. Stel dat je een database hebt, met daarin een tabel met meerdere velden en dat je deze wilt omzetten naar een CSV-bestand. Dat gaat dan als volgt:

Velden worden van elkaar gescheiden door een teken, zoals een komma of puntkomma. Een dataset eindigt met een nieuwe regel in het document. Over het algemeen staan op de eerste regel van een CSV-document de namen van de velden in de tabel, oftewel: de kolomtitels.

Als er in de teksten in de tabel geen komma staat, is alles in orde en heb je een CSV-bestand zonder fouten gemaakt. Maar wat als er wel een komma staat? Dit zorgt voor een onbedoelde verandering, en er kan bijvoorbeeld plotseling tekst staan in velden die geen kolomtitel hebben.

Hoe kun je dan een veld aanmaken met een komma, die van zichzelf bedoeld is als scheiding tussen velden? In dat geval moet het veld beginnen en eindigen met dubbele aanhalingstekens. Sommigen gebruiken deze methode altijd, anderen alleen als het echt niet anders kan.

Maar wat nu als er in de tekst zelf dubbele aanhalingstekens staan? In zo’n geval heb je speciale codering nodig, zodat de aanhalingstekens nooit aan het einde van een veld terechtkomen. In Microsoft Excel zet je dan gewoon twee keer dubbele aanhalingstekens neer. In andere programma’s kun je soms zelf bepalen welk teken er wordt weergegeven, zodat het veld niet eindigt bij de dubbele aanhalingstekens. Op die manier kun je teksten invoeren van meerdere regels lang.

Welke gegevens kun je kwijt in een CSV-bestand?

In principe kun je alle teksten in een CSV-bestand zetten. Onze projectmanagers hebben al ervaring met HTML en XML in CSV-bestanden. Beide werken zonder problemen. We hebben wel één keer gehad dat er standaardprogramma’s werden gebruikt om een bestand als CSV te exporteren. In eerste instantie zag alles er goed uit, maar vervolgens kwamen we erachter dat het programma geen velden kon exporteren die langer waren dan 32.768 tekens. Dit is uiteraard een speciaal geval, het komt zelden voor. In dit specifieke geval hebben we de klant op tijd op de hoogte kunnen brengen en zo verdere problemen kunnen voorkomen.

2017-05-29T09:14:26.4000410Z

Geertruide Koenen
Wilt u meer weten?

Onze specialist beantwoordt graag direct uw vragen.

Female83950
customer service

American Translators Association Logo

Wij zijn een zakelijk lid van ATA, de Vereniging van Amerikaanse Vertalers

Logo van EUATC en VViN

Als uw vertaling benodigd is voor Europese markten, werken wij volgens EUATC (Europese) standaarden

Proz logo

De meeste vertalers die voor ons werken zijn gecertificeerde leden van Proz

DIN CERTCO logo

Onze Europese dochteronderneming is, vanwege onze ruime ervaring in life sciences vertalingen, geregistreerd bij DIN CERTCO

Kiva supporter logo

Snelvertaler.nl is een trotse sponsor van het KIVA-programma.