Hemsida » hur » Varför kan Zip Able komprimera enskilda filer bättre än flera filer med samma innehåll?

    Varför kan Zip Able komprimera enskilda filer bättre än flera filer med samma innehåll?

    Att kunna komprimera våra filer så att det är lättare att dela och / eller transportera dem kan göra våra elektroniska liv mycket enklare, men ibland kan vi se udda eller oväntade limningsresultat efter att vi har komprimerat dem. Varför är det så? Dagens SuperUser Q & A-inlägg har svaren på en förvirrad läsares frågor.

    Dagens Question & Answer-session kommer till oss med tillstånd av SuperUser-en indelning av Stack Exchange, en community-driven gruppering av Q & A-webbplatser.

    Foto med tillstånd av Jean-Etienne Minh-Duy Poirrier (Flickr).

    Frågan

    SuperUser-läsaren sixtyfootersdude vill veta varför zip kan komprimera enkla filer bättre än flera filer med samma typ av innehåll:

    Antag att jag har 10.000 XML-filer och vill skicka dem till en vän. Innan jag skickar dem vill jag komprimera dem.

    Metod 1: Komprimera inte dem

    Resultat:

    Metod 2: Zip varje fil separat och skicka honom 10 000 zip-XML-filer

    Kommando:

    Resultat:

    Metod 3: Skapa en enkel zip-fil som innehåller alla 10 000 XML-filer

    Kommando:

    Resultat:

    Metod 4: Sammanfoga filerna till en enda fil och Zip It

    Kommando:

    Resultat:

    frågor

    • Varför får jag så dramatiskt bättre resultat när jag bara sipprar en enda fil?
    • Jag väntade mig att få drastiskt bättre resultat med metod 3 snarare än metod 2, men det gör jag inte. Varför är detta?
    • Är detta beteende specifikt för zip? Om jag försökte använda Gzip, skulle jag få olika resultat?

    Ytterligare info

    Metadata

    En av de givna svaren tyder på att skillnaden är systemets metadata som lagras i zip-filen. Jag tror inte att detta kan vara fallet. För att testa det gjorde jag följande:

    Den resulterande zip-filen är 1,4 MB. Det betyder att det fortfarande finns ungefär tio MB oförklarligt utrymme.

    Varför kan zip komprimera enkla filer bättre än flera filer med samma typ av innehåll?

    Svaret

    SuperUser-bidragsgivare Alan Shutko och Aganju har svaret för oss. Först upp, Alan Shutko:

    Zip-komprimering är baserad på repetitiva mönster i de data som ska komprimeras och komprimeringen blir bättre ju längre filen är, eftersom fler och längre mönster kan hittas och användas.

    Förenklad, om du komprimerar en fil, innehåller ordlistan som kartlägger (korta) koder till (längre) mönster nödvändigtvis i varje resulterande zip-fil; Om du zip en lång fil, är ordlistan "återanvänd" och blir ännu effektivare över allt innehåll.

    Om dina filer är till och med lite likartade (som texten alltid är) blir återanvändningen av "ordboken" mycket effektiv och resultatet är en mycket mindre total zip-fil.

    Följt av svaret från Aganju:

    I zip, komprimeras varje fil separat. Det motsatta är fast kompression, det vill säga filer komprimeras tillsammans. 7-zip och Rar använder som standard komprimering som standard. Gzip och Bzip2 kan inte komprimera flera filer, så Tar används först och har samma effekt som solid kompression.

    Eftersom xml-filer har liknande struktur (och förmodligen liknande innehåll), om filerna komprimeras tillsammans kommer komprimeringen att vara högre.

    Om exempelvis en fil innehåller strängen ""Och kompressorn har redan hittat den strängen i en annan fil, kommer den att ersätta den med en liten pekare till föregående match. Om kompressorn inte använder solid kompression spelas den första förekomsten av strängen i filen in som en bokstavlig, vilket är större.


    Har du något att lägga till förklaringen? Ljud av i kommentarerna. Vill du läsa mer svar från andra tech-savvy Stack Exchange-användare? Kolla in hela diskussionsgängan här.