MS Excel dokáže zobraziť 1 048 576 riadkov. Aj keď sa to pri bežnom používaní môže zdať naozaj veľké číslo, existuje veľa scenárov, kde to nestačí.
Či už si prezeráte protokolové súbory alebo veľké súbory údajov, je ľahké naraziť na súbory CSV s miliónmi riadkov alebo obrovské textové súbory. Keďže Excel nedokáže podporovať takéto veľké súbory, ako ich presne otvárate? Poďme zistiť.

Prečo normálne textové editory neotvoria skutočne veľké súbory?
Počítač má gigabajty úložného priestoru, tak prečo textové editory nemôžu otvárať veľké súbory?
V hre sú dva faktory. Niektoré aplikácie majú pevne zakódovaný limit množstva údajov, ktoré môžu zobraziť. Nezáleží na tom, koľko pamäte má váš počítač, jednoducho ju nevyužijú.
Druhým problémom je RAM. Mnoho textových editorov nemá pevný limit na počet riadkov, ale nedokáže zobraziť veľké súbory kvôli obmedzeniam pamäte. Načítajú celý súbor do systémovej RAM, takže ak táto pamäť nie je dostatočne veľká, proces zlyhá.
Metóda č. 1: Použitie bezplatných editorov
Najlepší spôsob, ako zobraziť extrémne veľké textové súbory, je použiť... textový editor. Nie hocijaký textový editor, ale nástroje určené na písanie kódu. Takéto aplikácie si zvyčajne bez problémov poradia s veľkými súbormi a sú zadarmo.
Prehliadač veľkých textových súborov je pravdepodobne najjednoduchšia z týchto aplikácií. Je skutočne jednoduchý na používanie, pracuje rýchlo a má veľmi nízku náročnosť na zdroje. Jediná nevýhoda? Nemôže upravovať súbory. Ak si však chcete prezerať iba veľké súbory CSV, je to najlepší nástroj pre túto prácu.

Na úpravu veľkých textových súborov by ste mali vyskúšať Emacs . Pôvodne vytvorený pre systémy Unix, funguje perfektne aj na Windows a dokáže spracovať veľké súbory. Podobne Neovim a Sublime Text sú dve ľahké IDE, ktoré možno použiť na otváranie textových súborov CSV s veľkosťou gigabajtu.

Ak všetko, čo hľadáte, je vyhľadávanie údajov prostredníctvom veľkých protokolových súborov, potom je klogg práve pre vás nástrojom. Táto aplikácia, aktualizačná vidlica populárneho glogg , vám umožňuje ľahko vykonávať zložité operácie vyhľadávania prostredníctvom obrovských textových súborov. Keďže počítačom generované protokolové súbory môžu mať často milióny riadkov, klogg je navrhnutý tak, aby bez problémov pracoval s takýmito veľkosťami súborov.

Metóda #2: Rozdelenie na viacero častí
Celý problém pri pokuse o otvorenie veľkých súborov CSV spočíva v tom, že sú príliš veľké. Ale čo keby ste ich rozdelili do viacerých menších súborov?
Toto je obľúbené riešenie, pretože vo všeobecnosti nezahŕňa učenie sa rozhrania nového textového editora. Namiesto toho môžete použiť jeden z mnohých rozdeľovačov CSV dostupných online na rozdelenie veľkého súboru na množstvo ľahko otvárateľných súborov. Ku každému z týchto súborov je potom možné normálne pristupovať.

Toto však nie je najlepší spôsob. Rozdelenie veľkého súboru môže často viesť k podivným preklepom alebo nesprávne nakonfigurovaným súborom. Okrem toho otváranie každého bloku oddelene vám bráni filtrovať všetky údaje naraz.
Metóda #3: Import do databázy
Textové súbory a súbory .csv s veľkosťou niekoľkých gigabajtov sú vo všeobecnosti veľké množiny údajov. Tak prečo ich jednoducho neimportovať do databázy?
SQL je v súčasnosti najbežnejším databázovým značkovacím jazykom. Používa sa veľa verzií SQL , ale najjednoduchšia je pravdepodobne MySQL. A ako šťastie, je možné previesť súbor CSV na tabuľku MySQL .

Toto nie je v žiadnom prípade najjednoduchší spôsob práce s veľkými súbormi CSV, takže to odporúčame iba vtedy, ak chcete pravidelne pracovať s veľkými súbormi údajov. Ak vám MySQL znie príliš ťažko, vždy môžete namiesto toho importovať súbory .csv do MS Access .
Metóda č. 4: Analýza pomocou knižníc Pythonu
Keď pracujete so súborom .csv s miliónmi riadkov s údajmi, očividne z toho nebudete vedieť porozumieť manuálne. Pravdepodobne budete chcieť filtrovať údaje a spustiť konkrétne dotazy, aby ste pochopili trendy.

Tak prečo nenapísať kód Python , aby ste to urobili?
Ešte raz, toto nie je užívateľsky najpríjemnejšia metóda. Aj keď Python nie je najťažší programovací jazyk na učenie , je to kódovanie, takže to pre vás nemusí byť najlepší prístup. Napriek tomu, ak zistíte, že musíte denne analyzovať naozaj veľké súbory CSV, možno budete chcieť túto úlohu zautomatizovať pomocou nejakého kódu Python .
Metóda č. 5: S prémiovými nástrojmi
Textové editory, ktoré sme videli v prvej metóde, neboli špeciálne nástroje určené na spracovanie CSV. Boli to univerzálne nástroje, ktoré sa dali použiť aj na prácu s veľkými súbormi .csv.
Ale čo špecializované aplikácie? Neexistujú žiadne aplikácie, ktoré by boli vytvorené na vyriešenie tohto problému?
V skutočnosti existujú. Napríklad CSV Explorer stavia na samotnom procese, ktorý sme opísali v posledných dvoch metódach (databáza SQL a kód Python), na vytvorenie aplikácie schopnej prezerať a upravovať súbory CSV ľubovoľnej veľkosti. Môžete robiť všetko, čo očakávate od tabuľkového procesora, ako je vytváranie grafov alebo filtrovanie údajov v CSV Explorer.

Ďalšou možnosťou je UltraEdit . Na rozdiel od predchádzajúceho nástroja to nie je určené len pre súbory .csv, ale pre akýkoľvek typ textového súboru. Dokáže ľahko spracovať textové súbory a súbory CSV v rozsahu niekoľkých gigabajtov s rozhraním podobným mnohým bezplatným editorom, o ktorých sme hovorili vyššie.

Jedinou nevýhodou týchto nástrojov je, že ide o prémiové aplikácie, ktoré vyžadujú, aby ste získali platenú licenciu, aby ste ich mohli používať. Vždy môžete vyskúšať ich bezplatné skúšobné verzie, aby ste si overili ich funkcie, alebo ak máte len jednorazové použitie.
Aký je najlepší spôsob otvárania veľkých textových súborov a súborov CSV?
V tomto veku veľkých dát nie je nezvyčajné naraziť na textové súbory s veľkosťou gigabajtov, ktoré môže byť ťažké dokonca zobraziť pomocou vstavaných nástrojov, ako je Poznámkový blok alebo MS Excel. Aby ste mohli otvárať takéto veľké súbory CSV, musíte si stiahnuť a použiť aplikáciu tretej strany.
Ak všetko, čo chcete, je prezerať si takéto súbory, potom je pre vás najlepšou voľbou prehliadač veľkých textových súborov. Ak ich chcete skutočne upraviť, môžete vyskúšať textový editor s bohatými funkciami, ako je Emacs, alebo použiť prémiový nástroj, ako je CSV Explorer.
Techniky, ako je rozdelenie súboru CSV alebo jeho import do databázy, zahŕňajú príliš veľa krokov. Ak zistíte, že veľa pracujete s obrovskými textovými súbormi, je lepšie získať platenú licenciu špeciálneho prémiového nástroja.