MS Excel dokáže zobrazit 1 048 576 řádků. I když se to při běžném používání může zdát jako opravdu velké číslo, existuje spousta scénářů, kdy to nestačí.
Ať už se díváte na soubory protokolu nebo velké soubory dat, je snadné narazit na soubory CSV s miliony řádků nebo obrovské textové soubory. Protože Excel nepodporuje soubory tak velké, jak přesně je otevřete? Pojďme to zjistit.
Proč normální textové editory nemohou otevřít opravdu velké soubory?
Počítač má gigabajty úložiště, tak proč textové editory nemohou otevírat velké soubory?
Zde hrají roli dva faktory. Některé aplikace mají pevně zakódovaný limit množství dat, které mohou zobrazit. Nezáleží na tom, kolik paměti má váš počítač, prostě ji nevyužijí.
Druhý problém je RAM. Mnoho textových editorů nemá pevný limit na počet řádků, ale nemohou zobrazovat velké soubory kvůli omezení paměti. Načtou celý soubor do systémové RAM, takže pokud tato paměť není dostatečně velká, proces selže.
Metoda č. 1: Použití bezplatných editorů
Nejlepší způsob, jak zobrazit extrémně velké textové soubory, je použít… textový editor. Nejen jakýkoli textový editor, ale nástroje určené pro psaní kódu. Takové aplikace si obvykle bez problémů poradí s velkými soubory a jsou zdarma.
Prohlížeč velkých textových souborů je pravděpodobně nejjednodušší z těchto aplikací. Je to opravdu snadné použití, funguje rychle a má velmi nízkou náročnost na zdroje. Jediná nevýhoda? Nemůže upravovat soubory. Pokud však chcete prohlížet pouze velké soubory CSV, je to pro tuto práci nejlepší nástroj.
Pro úpravy velkých textových souborů byste měli vyzkoušet Emacs . Původně vytvořen pro systémy Unix, funguje perfektně i na Windows a zvládne velké soubory. Podobně Neovim a Sublime Text jsou dvě odlehčená IDE, která lze použít k otevírání textových souborů CSV o velikosti gigabajtů.
Pokud vše, co hledáte, je vyhledávání dat prostřednictvím velkých souborů protokolu, pak je klogg právě pro vás tím pravým nástrojem. Tato aplikace, aktualizační větev populárního glogg , vám umožňuje snadno provádět složité vyhledávací operace prostřednictvím obrovských textových souborů. Protože počítačem generované soubory protokolu mohou mít často miliony řádků, je klogg navržen tak, aby s takovými velikostmi souborů bez problémů fungoval.
Metoda #2: Rozdělení na více částí
Celý problém při pokusu o otevření velkých souborů CSV spočívá v tom, že jsou příliš velké. Ale co kdybyste je rozdělil do několika menších souborů?
Toto je oblíbené řešení, protože obecně nevyžaduje učení se rozhraní nového textového editoru. Místo toho můžete použít jeden z mnoha rozdělovačů CSV dostupných online k rozdělení velkého souboru na několik snadno otevíraných souborů. Ke každému z těchto souborů pak lze normálně přistupovat.
To však není nejlepší způsob, jak na to jít. Rozdělení velkého souboru může často vést k podivným překlepům nebo nesprávně nakonfigurovaným souborům. Navíc otevření každého bloku zvlášť vám zabrání filtrovat všechna data najednou.
Metoda č. 3: Import do databáze
Textové soubory a soubory .csv dosahující více gigabajtů jsou obecně velké datové sady. Proč je tedy rovnou neimportovat do databáze?
SQL je dnes nejběžnějším značkovacím jazykem databáze. Používá se mnoho verzí SQL , ale nejjednodušší je pravděpodobně MySQL. A jako štěstí je možné převést soubor CSV na tabulku MySQL .
Toto není v žádném případě nejjednodušší způsob práce s velkými soubory CSV, takže to doporučujeme pouze v případě, že chcete pravidelně pracovat s velkými soubory dat. Pokud vám MySQL zní příliš složitě, můžete místo toho své soubory .csv importovat do MS Access .
Metoda č. 4: Analýza pomocí knihoven Pythonu
Když pracujete se souborem .csv s miliony řádků dat, očividně z toho nebudete schopni manuálně porozumět. Pravděpodobně budete chtít filtrovat data a spustit konkrétní dotazy, abyste porozuměli trendům.
Proč tedy nenapsat kód Pythonu, abyste to udělali?
Opět se nejedná o uživatelsky nejpřívětivější metodu. I když Python není nejtěžší programovací jazyk na naučení , je to kódování, takže to pro vás nemusí být nejlepší přístup. Přesto, pokud zjistíte, že musíte denně analyzovat opravdu velké soubory CSV, možná budete chtít automatizovat úlohu pomocí nějakého kódu Python .
Metoda č. 5: S prémiovými nástroji
Textové editory, které jsme viděli v první metodě, nebyly vyhrazené nástroje určené pro zpracování CSV. Byly to univerzální nástroje, které bylo možné použít i pro práci s velkými soubory .csv.
Ale co specializované aplikace? Neexistují žádné aplikace, které by byly vytvořeny k vyřešení tohoto problému?
Ve skutečnosti existují. Například CSV Explorer staví na samotném procesu, který jsme popsali v posledních dvou metodách (databáze SQL a kód Python), aby vytvořil aplikaci schopnou prohlížet a upravovat soubory CSV libovolné velikosti. V Průzkumníku CSV můžete dělat vše, co očekáváte od tabulkového procesoru, jako je vytváření grafů nebo filtrování dat.
Další možností je UltraEdit . Na rozdíl od předchozího nástroje to není určeno pouze pro soubory .csv, ale pro jakýkoli typ textového souboru. Dokáže snadno zpracovat text a soubory CSV v rozsahu několika gigabajtů s rozhraním podobným mnoha bezplatných editorů, o kterých jsme hovořili dříve.
Jedinou nevýhodou těchto nástrojů je, že se jedná o prémiové aplikace, které vyžadují, abyste získali placenou licenci, abyste je mohli používat. Vždy můžete vyzkoušet jejich bezplatné zkušební verze a vyzkoušet jejich funkce, nebo pokud máte pouze jednorázové použití.
Jaký je nejlepší způsob, jak otevřít velké textové soubory a soubory CSV?
V tomto věku velkých dat není neobvyklé narazit na textové soubory o velikosti gigabajtů, které může být obtížné dokonce zobrazit pomocí vestavěných nástrojů, jako je Poznámkový blok nebo MS Excel. Abyste mohli otevřít tak velké soubory CSV, musíte si stáhnout a použít aplikaci třetí strany.
Pokud vše, co chcete, je prohlížet takové soubory, pak je pro vás Prohlížeč velkých textových souborů tou nejlepší volbou. Chcete-li je skutečně upravovat, můžete vyzkoušet textový editor s bohatými funkcemi, jako je Emacs, nebo použít prémiový nástroj, jako je CSV Explorer.
Techniky, jako je rozdělení souboru CSV nebo jeho import do databáze, zahrnují příliš mnoho kroků. Pokud často pracujete s velkými textovými soubory, je lepší získat placenou licenci specializovaného prémiového nástroje.