» Poradna » Ostatní

*.csv export ze zabordelené databáze

 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

Zdravím,dostal se mi do ruky *.csv (comma delimited) soubor, který ovšem má několik problémů díky databázi ze které pochází (JIRA Atlasian - to jsou viníci).Seznam problémů (aspoň těch, které jsem objevil):1) Jedna z kolonek je očividně svoje vlastní webová stránka a pokud uživatel použil rich text tak to okamžitě bortí celé csv a dělá to další řádek záznamu i tam kde není2) Některé kolonky jsou svoje vlastní csv, ale oddělené středníkem ... takže mám mix, kdy nadpisy jsou správně, ale část obsahu řádků je oddělená čárkou a část středníkem3) text je běžně uzavřen mezi uvozovkami "" , jenže se jim ty uvozovky dostávají i mimo text takže některé řádky csv přímo uvozovkou začínají.4) JIRA očividně neumí pracovat se vstupy od uživatelů s různými OS, takže když si to csv otevřu v notepad++ tak vidím hned 3 druhy zalomení řádků podle toho jaký OS uživatel měl (\n nebo \r nebo \r\n)zkoušel jsem i jiné typy exportu (xml, html, text ... ) ale tyto mi nevrací právě tu kolonku která je formátovaná jako webová stránka - a tu já právě potřebuju, protože mi do ní někteří uživatelé píšou detaily, které měly být v dedikovaných kolonkách ...jasně - chtělo by to poučit uživatele a změnit způsob zápisu, ale to je běh na dlouhou trať (já nejsem ani vlastníkem systému, jenom příjemce dat, které mi nikdo není schopen dodat, protože to neumí řádně vyexportovat)Proč se ptám? Má někdo nějaký nápad jak data vyčistit (v tom exportu) nebo zkušenosti s JIRA popř nějaké nastavení, kterého jsme si nevšimli?Díky

Odpovědi na otázku

avatar
 | Linux Firefox 60.0

To zavani nutnosti napsat si nejaky vlastni parser :( Nemelo by to to byt tak slozite. Muzes nekam hodit ukazku? Nezavrhoval bych to XML, pokud si nejsi na 100% jisty, ze tam ta data nejsou. Tyhle systemy obvykle funguji tak, ze rozhodovani o formatu exportu ja az posledni vrstva a data byvaji ve vsech formatech stejna.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

no ono nakonec to xml ma ten stejnej problem .. to jedno pole ktere obsahuje rich text to prostě celé zboří ... , kdybych věděl jak ho izolovat tak by to asi šlo ... zkusil jsem to exportovat bez toho pole a pak to pole zvlášť ale mám pak dva problémy - jeden že nemám stejný count záznamů (zase jira shit) a druhý že to pole samotné vynechává prázdné záznamy ... Vím že se dá hooknout na webovou stránku třeba pomocí pythonu, ale to zase neumím, resp by mi to zabralo příliš času ... vzorek bych mohl postnout, ale musím nahradit data něčím umělým, protože prostě confidential ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
 | Linux Firefox 60.0

Jasne, chapu. Idealni by bylo, kdyby JIRA dokazala do toho XML ten "neporadek" vlozit jako CDATA, ale to bych chtel asi moc.Pokud bys par desitek radku z toho tveho XML nebo CSV "vycistit" a poskytnout, muzu se na to mrknout. Uz jsem nemalo podobnych veci delal.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

Už jsem se hnul z místa ... teda aspoň pro tentokrát ... find and replace je to sice pruda, ale výsledek je "použitelný".V podstatě jsem nejdřív odebral všechny \r a \n vyčistil string na začátku řádků aby začínali stejně. Vrátil zpátky \r před ten čistý string a pak začal čistit "bordel" ... zatím nahrazuju třeba "", za ",,"" za ,"tabulátor za mezeru;;;;;;;; po dvojicích ;; za ;atd ... budu si na to muset napsat postup abych to příště nemusel vymýšlet už tu mám asi 20 věcí co se musí vyměnit ...

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 7 Firefox 52.0

K nahrazení používám fart.ke stažení na https://sourceforge.net/projects/fart-it/manual:http://fart-it.sourceforge.net/Uděláš si bat soubor a jedeš.Příklad co jsem si kdysi dělal:Vytvoříš např. soubor prenos.batsoubor fart.exe musí být v tom samém adresáři.a do něj napíšešfart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv " #" "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"fart -c -r -i *.csv "# " "#"Řešil jsem tak zbytečné mezery i když oddělovač #

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 7 Firefox 52.0

Příklad jsem uvedl, ale po odeslání odpovědi s příkladem ty mezery co jsem v tom příkladu uvedl se v odpovědí nezobrazily. A všechny řádky jsou stejné.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.67

No s jirou trochu dělám v práci, ale jen jako běžný uživatel, né admin. Takže o nastavení vím kulový. Ale co jsem si teď tak zkusil XML export tak alespoň u mě je v pořádku a validní. A to jsou součástí exportu i komentáře, kde se nachází HTML odstavce a různé odkazy apod.Ovšem na tvůj problém bych zkusil kombinaci dvou exportů. CSV a XML. Pokud obsahují stejná data, tak bych načetl XML a pomocí něj "pároval/odmazával" CSV, až odstraníš vše co se dalo vyčíst z XML tak to co ti zůstane je to humus pole co máš jen v CSV a díky tomu párování ho dokážeš přiřadit ke správnému záznamu v XML. Je to trocha programování, ale asi by to šlo. No ale těžko říct, neviděl jsem data (a asi ani neuvidím) tak nic lepšího neporadím. Načítání zmršeného exportu je vždy oříšek a záleží na datech, čím a jak je to zmršené, a tedy co musíš udělat aby jsi to dostal do čitelné podoby.

Souhlasím  |  Nesouhlasím  |  Odpovědět
 |   |  Microsoft Windows 10 Chrome 70.0.3538.77

Jak říkám je tam celkově víc problémů ... to nejproblémovější pole se jmenuje Description a je to pole s rich textem (nejsem si uplně jistej ale je možné že je to custom field).Co mě třeba ale překvapilo, že JIRA má problém exportovat i pitomej text qualifier (tedy uvozovky) - občas celý záznam začíná uvozovkou, což by rozhodně neměl, protože první pole je typ incidentu tedy přednastavený výběr ... určitě si za to částečně můžeme sami, ale JIRA bude pěknej bordel i sám o sobě.Někde jsem našel nějakej komentář od někoho z Attlasianu a ten říkal: "Odstranili jsme export do excelu a zavedli lepší způsoby exportu" - já říkám "tak pěkně děkuju" ...

Souhlasím  |  Nesouhlasím  |  Odpovědět

Související témata: Webová stránka, Trať, Comma, Uvozovky


Určitě si přečtěte

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

Bývalý zaměstnanec Nokie vysvětluje, proč telefony s Windows Phone neuspěly

** Za neúspěchem Microsoftu v mobilech stojí i Windows 8 ** Microsoft pozdě naskočil do rozjetého vlaku ** Uživatelé neměli zásadní důvody, proč přejít

Karel Kilián | 138

Jak doma vylepšit signál Wi-Fi: Pomůže repeater, více routerů, ale nejlépe systémy mesh

Jak doma vylepšit signál Wi-Fi: Pomůže repeater, více routerů, ale nejlépe systémy mesh

** Máte špatný signál Wi-Fi? Mesh systémy to vyřeší ** Už vás nezruinují, meziročně ceny příjemně spadly ** Jak systém funguje a čím je výjimečný?

Jiří Kuruc | 106


Aktuální číslo časopisu Computer

Megatest 20 procesorů

Srovnání 15 True Wireless sluchátek

Vyplatí se tisknout fotografie doma?

Vybíráme nejlepší základní desky