» Poradna » Ostatní

*.csv export ze zabordelené databáze

 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

Zdravím,dostal se mi do ruky *.csv (comma delimited) soubor, který ovšem má několik problémů díky databázi ze které pochází (JIRA Atlasian - to jsou viníci).Seznam problémů (aspoň těch, které jsem objevil):1) Jedna z kolonek je očividně svoje vlastní webová stránka a pokud uživatel použil rich text tak to okamžitě bortí celé csv a dělá to další řádek záznamu i tam kde není2) Některé kolonky jsou svoje vlastní csv, ale oddělené středníkem ... takže mám mix, kdy nadpisy jsou správně, ale část obsahu řádků je oddělená čárkou a část středníkem3) text je běžně uzavřen mezi uvozovkami "" , jenže se jim ty uvozovky dostávají i mimo text takže některé řádky csv přímo uvozovkou začínají.4) JIRA očividně neumí pracovat se vstupy od uživatelů s různými OS, takže když si to csv otevřu v notepad++ tak vidím hned 3 druhy zalomení řádků podle toho jaký OS uživatel měl (\n nebo \r nebo \r\n)zkoušel jsem i jiné typy exportu (xml, html, text ... ) ale tyto mi nevrací právě tu kolonku která je formátovaná jako webová stránka - a tu já právě potřebuju, protože mi do ní někteří uživatelé píšou detaily, které měly být v dedikovaných kolonkách ...jasně - chtělo by to poučit uživatele a změnit způsob zápisu, ale to je běh na dlouhou trať (já nejsem ani vlastníkem systému, jenom příjemce dat, které mi nikdo není schopen dodat, protože to neumí řádně vyexportovat)Proč se ptám? Má někdo nějaký nápad jak data vyčistit (v tom exportu) nebo zkušenosti s JIRA popř nějaké nastavení, kterého jsme si nevšimli?Díky

Odpovědi na otázku

avatar
 | Linux Firefox 60.0

To zavani nutnosti napsat si nejaky vlastni parser :( Nemelo by to to byt tak slozite. Muzes nekam hodit ukazku? Nezavrhoval bych to XML, pokud si nejsi na 100% jisty, ze tam ta data nejsou. Tyhle systemy obvykle funguji tak, ze rozhodovani o formatu exportu ja az posledni vrstva a data byvaji ve vsech formatech stejna.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

no ono nakonec to xml ma ten stejnej problem .. to jedno pole ktere obsahuje rich text to prostě celé zboří ... , kdybych věděl jak ho izolovat tak by to asi šlo ... zkusil jsem to exportovat bez toho pole a pak to pole zvlášť ale mám pak dva problémy - jeden že nemám stejný count záznamů (zase jira shit) a druhý že to pole samotné vynechává prázdné záznamy ... Vím že se dá hooknout na webovou stránku třeba pomocí pythonu, ale to zase neumím, resp by mi to zabralo příliš času ... vzorek bych mohl postnout, ale musím nahradit data něčím umělým, protože prostě confidential ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
 | Linux Firefox 60.0

Jasne, chapu. Idealni by bylo, kdyby JIRA dokazala do toho XML ten "neporadek" vlozit jako CDATA, ale to bych chtel asi moc.Pokud bys par desitek radku z toho tveho XML nebo CSV "vycistit" a poskytnout, muzu se na to mrknout. Uz jsem nemalo podobnych veci delal.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

Už jsem se hnul z místa ... teda aspoň pro tentokrát ... find and replace je to sice pruda, ale výsledek je "použitelný".V podstatě jsem nejdřív odebral všechny \r a \n vyčistil string na začátku řádků aby začínali stejně. Vrátil zpátky \r před ten čistý string a pak začal čistit "bordel" ... zatím nahrazuju třeba "", za ",,"" za ,"tabulátor za mezeru;;;;;;;; po dvojicích ;; za ;atd ... budu si na to muset napsat postup abych to příště nemusel vymýšlet už tu mám asi 20 věcí co se musí vyměnit ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 7 Firefox 52.0

K nahrazení používám fart.ke stažení na https://sourceforge.net/projects/fart-it/manual:http://fart-it.sourceforge.net/Uděláš si bat soubor a jedeš.Příklad co jsem si kdysi dělal:Vytvoříš např. soubor prenos.batsoubor fart.exe musí být v tom samém adresáři.a do něj napíšešfart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart Ukázat celý příspěvek

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 7 Firefox 52.0

Příklad jsem uvedl, ale po odeslání odpovědi s příkladem ty mezery co jsem v tom příkladu uvedl se v odpovědí nezobrazily. A všechny řádky jsou stejné.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

No s jirou trochu dělám v práci, ale jen jako běžný uživatel, né admin. Takže o nastavení vím kulový. Ale co jsem si teď tak zkusil XML export tak alespoň u mě je v pořádku a validní. A to jsou součástí exportu i komentáře, kde se nachází HTML odstavce a různé odkazy apod.Ovšem na tvůj problém bych zkusil kombinaci dvou exportů. CSV a XML. Pokud obsahují stejná data, tak bych načetl XML a pomocí něj "pároval/odmazával" CSV, až odstraníš vše co se dalo vyčíst z XML tak to co ti zůstane je to humus pole co máš jen v CSV a díky tomu párování ho dokážeš přiřadit ke správnému záznamu v XML. Je to trocha programování, ale asi by to šlo. No ale těžko říct, neviděl jsem data (a asi ani neuvidím) tak nic lepšího neporadím. Načítání zmršeného exportu je vždy oříšek a záleží na datech, čím a jak je to zmršené, a tedy co musíš udělat aby jsi to dostal do čitelné podoby.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.77

Jak říkám je tam celkově víc problémů ... to nejproblémovější pole se jmenuje Description a je to pole s rich textem (nejsem si uplně jistej ale je možné že je to custom field).Co mě třeba ale překvapilo, že JIRA má problém exportovat i pitomej text qualifier (tedy uvozovky) - občas celý záznam začíná uvozovkou, což by rozhodně neměl, protože první pole je typ incidentu tedy přednastavený výběr ... určitě si za to částečně můžeme sami, ale JIRA bude pěknej bordel i sám o sobě.Někde jsem našel nějakej komentář od někoho z Attlasianu a ten říkal: "Odstranili jsme export do excelu a zavedli lepší způsoby exportu" - já říkám "tak pěkně děkuju" ...

Souhlasím  |  Nesouhlasím  |  Odpovědět

Související témata: Webová stránka, Trať, Comma, Uvozovky


Určitě si přečtěte

Jak uložit dokument z Wordu, aby vydržel celé roky? Je to těžší než cesta na Mars

Jak uložit dokument z Wordu, aby vydržel celé roky? Je to těžší než cesta na Mars

** Jak uložit soubory, aby vydržely vnoučatům? ** A co kdyby měly přečkat celá staletí? ** Teď se o to pokouší GitHub a je to oříšek i pro lingvisty

Jakub Čížek | 118

Podívejte se na Windows z roku 1990. Před 30 lety přišly Windows 3.0 a líbily se nám

Podívejte se na Windows z roku 1990. Před 30 lety přišly Windows 3.0 a líbily se nám

** 22. května 1990 uvedl Microsoft Windows 3.0 ** Systém z Microsoftu definitivně udělal lídra na desktopu ** Tehdejší Windows byly vlastně grafickou nadstavbou nad MS-DOS

Jakub Čížek | 76

WindowsFX: Nainstalujte to mamce a taťkovi. Ani nepoznají, že to je Linux

WindowsFX: Nainstalujte to mamce a taťkovi. Ani nepoznají, že to je Linux

** Po dvou měsících tu máme další linuxovou kopii ** Tentokrát jde o imitaci Desítek ** Sestavili ji brazilští geekové nad Ubuntu

Jakub Čížek | 135

Deset kotev, které i v roce 2020 táhnou Android ke dnu

Deset kotev, které i v roce 2020 táhnou Android ke dnu

** Android existuje skoro 12 let a za tu dobu v mnoha směrech dospěl ** Dnes běží na sedmi z deseti telefonů, ale čemu za to vděčí? ** Našli jsme 10 kotev, které táhnou tento operační systém ke dnu

Karel Kilián | 167

Windows 10 May 2020 Update je venku. Odstraňuje hesla a přináší Linux

Windows 10 May 2020 Update je venku. Odstraňuje hesla a přináší Linux

** Jarní aktualizace Desítek přináší dost novinek, jsou ale spíš menší ** Zlepšují se stabilita, rychlost i komfort ovládání ** Revoluce ve Windows 10 teprve přijde

Vladislav Kluska | 93


Aktuální číslo časopisu Computer

Megatest: nejlepší notebooky do 20 000 Kč

Test 8 levných IP kamer

Jak vybrat bezdrátová sluchátka

Testujeme Android 11