Ang proseso ng pagbabawas ng dami ng impormasyon ng mga file ay tinatawag. Ang konsepto ng data compression. Pag-archive ng mga file. Tingnan kung ano ang "Compression ng impormasyon" sa iba pang mga diksyunaryo

Maraming mga gumagamit ngayon ang nag-aalala tungkol sa proseso ng pag-compress ng impormasyon upang makatipid ng libreng espasyo sa kanilang hard drive. Isa ito sa pinakamabisang paraan para magamit ang kapaki-pakinabang na espasyo sa imbakan.


Ang mga modernong gumagamit ay madalas na nahaharap sa problema ng kakulangan ng libreng espasyo sa kanilang hard drive. Marami, sa pagtatangkang magbakante ng kahit kaunting libreng espasyo, subukang tanggalin ang lahat ng hindi kinakailangang impormasyon mula sa hard drive. Gumagamit ang mga mas advanced na user ng mga espesyal na algorithm ng compression upang bawasan ang dami ng data. Sa kabila ng pagiging epektibo ng prosesong ito, maraming mga gumagamit ang hindi pa nakarinig tungkol dito. Subukan nating maunawaan kung ano ang ibig sabihin ng compression ng data, anong mga algorithm ang maaaring gamitin para dito at kung anong mga bentahe ang ibinibigay ng bawat isa sa kanila.

Bakit i-compress ang impormasyon?

Ngayon, ang pag-compress ng impormasyon ay isang medyo mahalagang pamamaraan na kinakailangan para sa bawat gumagamit ng PC. Ngayon, ang sinumang user ay kayang bumili ng modernong data storage device, na nagbibigay ng kakayahang gumamit ng malaking halaga ng memorya. Ang ganitong mga aparato ay karaniwang nilagyan ng mga high-speed na channel para sa impormasyon sa pagsasahimpapawid. Gayunpaman, ito ay nagkakahalaga ng noting na bawat taon ang dami ng impormasyon na kinakailangan ng mga gumagamit ay nagiging mas at higit pa. Sampung taon lamang ang nakalipas, ang laki ng isang karaniwang video film ay hindi lalampas sa 700 Megabytes. Ngayon, ang dami ng mga pelikula sa kalidad ng HD ay maaaring umabot ng ilang sampu-sampung gigabytes.

Kailan kailangan ang data compression?

Hindi ka dapat umasa ng marami mula sa proseso ng pag-compress ng impormasyon. Ngunit mayroon pa ring mga sitwasyon kung saan ang pag-compress ng impormasyon ay kailangan lang at lubhang kapaki-pakinabang. Tingnan natin ang ilan sa mga kasong ito.

1. Maglipat sa pamamagitan ng email.

Kadalasan mayroong mga sitwasyon kung kailan kailangan mong magpadala ng malaking halaga ng data sa pamamagitan ng email. Salamat sa compression, maaari mong makabuluhang bawasan ang laki ng mga inilipat na file. Ang mga gumagamit na gumagamit ng mga mobile device upang magpadala ng impormasyon ay lalo na pahalagahan ang mga benepisyo ng pamamaraang ito.

2. Paglalathala ng data sa mga website at portal.

Ang pamamaraan ng compression ay kadalasang ginagamit upang bawasan ang dami ng mga dokumentong ginagamit para sa paglalathala sa iba't ibang mapagkukunan ng Internet. Nagbibigay-daan ito sa iyo na makabuluhang makatipid sa trapiko.

3. Nagse-save ng libreng espasyo sa disk.

Kapag hindi posible na magdagdag ng mga bagong paraan para sa pag-iimbak ng impormasyon sa system, maaari mong gamitin ang pamamaraan ng compression upang makatipid ng libreng puwang sa disk. Nangyayari na ang badyet ng gumagamit ay lubhang limitado, at walang sapat na libreng espasyo sa hard drive. Ito ay kung saan ang pamamaraan ng compression ay dumating upang iligtas.

Bilang karagdagan sa mga sitwasyong nakalista sa itaas, mayroon pa ring malaking bilang ng mga kaso kung saan ang proseso ng pag-compression ng data ay maaaring maging lubhang kapaki-pakinabang. Inilista lang namin ang mga pinakakaraniwan.

Mga paraan ng pag-compress ng impormasyon

Ang lahat ng umiiral na mga paraan ng pag-compress ng impormasyon ay maaaring nahahati sa dalawang pangunahing kategorya. Ang mga ito ay lossless compression at lossless compression. Ang unang kategorya ay may kaugnayan lamang kapag may pangangailangan na ibalik ang data na may mataas na katumpakan nang hindi nawawala ang isang piraso ng orihinal na impormasyon. Ang tanging kaso kung saan kinakailangan na gamitin ang diskarte na ito ay kapag nag-compress ng mga dokumento ng teksto.

Kung sakaling walang partikular na pangangailangan para sa pinakatumpak na pagpapanumbalik ng naka-compress na impormasyon, kinakailangan na magbigay para sa posibilidad ng paggamit ng mga algorithm na may ilang mga pagkalugi sa compression. Ang pangunahing bentahe ng lossy compression algorithm ay ang kanilang kadalian ng pagpapatupad. Gayundin, ang mga naturang algorithm ay nagbibigay ng medyo mataas na compression ratio.

Lossy compression

Ang mga lossy compression algorithm ay nagbibigay ng mas mahusay na file compression habang pinapanatili pa rin ang sapat na impormasyon para sa pagbawi. Ang paggamit ng naturang mga algorithm ay sa karamihan ng mga kaso ay angkop para sa pag-compress ng analog data, tulad ng mga tunog o mga imahe. Sa ganitong mga kaso, ang huling resulta ay maaaring mag-iba nang malaki mula sa orihinal. Gayunpaman, ang isang tao na walang espesyal na kagamitan ay hindi mapapansin ang pagkakaibang ito.

Compression nang walang pagkawala ng impormasyon

Nagbibigay-daan ang mga lossless compression algorithm para sa pinakatumpak na pagpapanumbalik ng orihinal na data. Ang anumang pagkalugi ay hindi kasama. Gayunpaman, ang pamamaraang ito ay may isang makabuluhang disbentaha: kapag gumagamit ng gayong mga algorithm, ang compression ay hindi masyadong epektibo.

Mga unibersal na pamamaraan

Mayroon ding mga espesyal na pamamaraan na maaaring magamit upang i-compress ang impormasyon na nakaimbak sa mga hard drive upang mabawasan ang laki nito. Ito ang mga tinatawag na unibersal na pamamaraan. Sa kabuuan, tatlong teknolohiya ang maaaring makilala.

1. Daloy ng conversion.

Ang paglalarawan ng papasok na hindi naka-compress na impormasyon ay nangyayari sa pamamagitan ng mga file na na-convert na. Sa prosesong ito, walang mga probabilidad na kinakalkula. Ang pag-encode ng character ay nangyayari lamang batay sa mga file na iyon na sumailalim na sa proseso ng pagproseso.

2. Statistical compression.

Ang ganitong uri ng proseso ng pag-compress ng impormasyon ay maaaring nahahati sa dalawa pang uri: mga pamamaraan ng block at mga paraan ng adaptive. Kapag gumagamit ng mga block algorithm, ang bawat indibidwal na bloke ng impormasyon ay hiwalay na kinakalkula at idinaragdag sa bloke na na-compress na. Kasama sa mga adaptive algorithm ang pagkalkula ng mga probabilidad batay sa impormasyong naproseso na sa panahon ng proseso ng compression. Kasama sa ganitong uri ng pamamaraan ang adaptive na Shannon-Fano algorithm.

3. I-block ang conversion.

Sa panahon ng proseso ng compression, ang lahat ng na-convert na impormasyon ay ipinamamahagi sa ilang magkakahiwalay na mga bloke. Mayroong holistic na pagbabago ng impormasyon.

Dapat pansinin na ang ilang mga pamamaraan, lalo na ang mga batay sa muling pagsasaayos ng ilang mga bloke, ay maaaring humantong sa pagbawas sa dami ng impormasyong nakaimbak sa disk. Ang pangunahing bagay ay upang maunawaan na pagkatapos ng pagproseso, ang istraktura ng impormasyon na nakaimbak sa disk ay pinabuting at na-optimize. Bilang resulta, ang kasunod na pag-compress gamit ang iba pang mga pamamaraan at algorithm ay magiging mas madali at mas mabilis.

Pag-compress ng impormasyon kapag kinokopya

Isa sa pinakamahalagang bahagi kapag nagba-back up ng impormasyon ay ang device kung saan ililipat ang impormasyon. Kung mas malaki ang dami ng impormasyong kailangan mo, mas malaki ang device na kakailanganin mong gamitin. Ang problema ng kakulangan ng libreng espasyo ay maaaring malutas sa pamamagitan ng paggamit ng proseso ng pag-compress ng impormasyon.

Kapag nagsasagawa ng backup, ang data compression ay maaaring makabuluhang bawasan ang oras na ginugugol ng isang user sa pagkopya ng kinakailangang impormasyon. Nagbibigay-daan din ito sa iyo na mas mahusay na gamitin ang libreng espasyo sa naaalis na media. Kapag isinasagawa ang pamamaraan ng compression, ang kinopyang impormasyon ay ilalagay sa naaalis na media nang mas mabilis at mas compact.

Makakatipid ito sa iyo ng pera na kailangan para makabili ng mas malaking drive. Bilang karagdagan, sa pamamagitan ng pagpapailalim sa impormasyong kailangan mo sa karagdagang compression, binabawasan mo ang oras na ginugol sa pagdadala ng data na ginamit sa server. Ang parehong naaangkop sa pagkopya ng impormasyon sa network. Para sa mga layunin ng backup, maaaring i-compress ang impormasyon sa isa o higit pang mga file.

Ang lahat ay nakasalalay lamang sa programa na iyong ginagamit upang i-compress ang impormasyon. Kapag pumipili ng isang compression utility, siguraduhing bigyang-pansin kung paano ang program na iyong pinili ay may kakayahang mag-compress ng data. Ang pagiging epektibo ng compression ay magdedepende rin sa uri ng impormasyon na iyong kino-convert. Halimbawa, ang kahusayan ng compression ng mga text file at dokumento ay maaaring umabot sa 90%. Ngunit kapag nag-compress ng mga imahe, posible na makamit ang kahusayan ng ilang porsyento lamang.

Konklusyon

Ngayon, sa panahon ng impormasyon, sa kabila ng katotohanan na halos bawat gumagamit ay may access sa mga high-speed data transmission channels at large-volume media, ang isyu ng data compression ay nananatiling may kaugnayan. May mga sitwasyon kung saan ang data compression ay isang kinakailangang operasyon lamang. Sa partikular, nalalapat ito sa pagpapadala ng data sa pamamagitan ng email at pag-post ng impormasyon sa Internet.

Ang layunin ng aralin: upang bumuo ng pagkaasikaso, katalinuhan, at linangin ang interes sa paksa.
Kagamitan: mga computer, laboratoryo disk, naaangkop na software, mga card na may pagsubok na gawain.

Pag-unlad ng aralin

1. Bahagi ng organisasyon.
2. Pag-update ng mga pangunahing kaalaman.
3. Pag-aaral ng bagong materyal
4. Pagsasama-sama ng bagong materyal.
5. Takdang-Aralin.
6. Pagbubuod ng aralin.

Pag-aaral ng bagong materyal

1. Ano ang pag-archive. Ang konsepto ng data compression.
2. Mga pangunahing uri ng mga programa sa archiver.
3. WIN-RAR archiver program.
4. Paano magdagdag ng isang file sa archive, pati na rin i-extract ito mula sa archive.

Sa pag-unlad ng teknolohiya ng impormasyon, ang tanong ng mga paraan upang mag-imbak ng data ay naging talamak. Mula noong 40s ng ikadalawampu siglo, ang mga siyentipiko ay bumuo ng mga pamamaraan para sa pagpapakita ng data kung saan ang espasyo sa storage media ay gagamitin nang mas matipid. Ang resulta nito ay ang teknolohiya ng data compression at data archiving (backup).

Ang pag-archive ng data ay ang pagsasama-sama ng ilang file o direktoryo sa iisang archive file.

Data compression - pagbabawas ng laki ng source file sa pamamagitan ng pag-aalis ng kalabisan na impormasyon.

Upang maisagawa ang mga gawaing ito mayroong mga programa sa pag-archive na nagbibigay compression ng data: sa partikular, pag-archive ng file. Gamit ang mga espesyal na algorithm, inaalis ng mga archiver ang lahat ng kalabisan na impormasyon mula sa mga file, at sa panahon ng reverse unpacking operations, ibinabalik nila ang impormasyon sa orihinal nitong anyo. Ang laki ng naka-compress na file ay dalawa hanggang sampung beses na mas maliit kaysa sa orihinal na file. Sa kasong ito, ang compression at pagbawi ng impormasyon ay nangyayari nang walang pagkawala. May kaugnayan ang lossless compression kapag nagtatrabaho sa mga text at program file, at sa mga gawain sa cryptography. Mayroon ding mga lossy compression na paraan.

Ang antas ng compression ay depende sa uri ng mga file at ang archiver program. Ang mga text file ay pinakamaraming naka-compress, ang mga file ng audio at video ay ang pinakamaliit na naka-compress.

Pag-archive ng mga file. Mga gawain

Hanggang ngayon, pinag-uusapan natin ang tungkol sa isang layunin ng pag-archive ng data - ito ay mas matipid kaysa sa paggamit ng storage media. Gayunpaman, sa tulong ng pag-archive maaari kang magsagawa ng isang buong hanay ng mga gawain:
1. Pagbabawas ng dami ng mga file (may kaugnayan hindi lamang para sa pag-save ng espasyo sa media, kundi pati na rin para sa mabilis na paglilipat ng mga file sa network).
2. I-backup sa panlabas na media upang mag-imbak ng mahalagang impormasyon.

3. Pag-archive kapag nag-e-encrypt ng data upang mabawasan ang posibilidad na ma-hack ang cryptosystem.

Ang proseso ng pagtatala ng impormasyon sa isang archive file ay tinatawag na archive.
Pag-extract ng mga file mula sa isang archive - pag-unzipping.

Ang mga unang programa ng archiver ay lumitaw noong kalagitnaan ng 80s. Nakatuon sila sa pagtatrabaho sa MS-DOC at sinusuportahan ang mga sikat na format ng archive: ARC, ICE, ARJ, ZIP at RAR, atbp. Mayroon ding grupo ng mga archiver na nag-pack ng data sa mga self-extracting archive - mga file na may mga extension. ehe,. com. Ang mga resident archiver ay nilikha upang i-compress ang buong disk. Ginawa nilang posible na madagdagan ang kahusayan ng paggamit ng puwang sa disk sa pamamagitan ng paglikha ng malalaking archive file - "compression" na mga disk.

Ang pagtatrabaho sa mga archive ay naging mas maginhawa sa pagdating ng mga bersyon ng Windows at Windows ng mga archiver. Kabilang sa mga dating format ng archive, ARJ at ZIP - mga program na nag-unpack ng mga file - ay talagang nag-ugat sa mga gumagamit ng Windows. Maaaring ilagay ang malalaking archive file sa ilang floppy disks (volume). Ang ganitong mga archive ay tinatawag na multi-volume.

Ang volume ay isang mahalagang bahagi ng isang multi-volume na archive.

Mayroon na ngayong dose-dosenang mga programa ng archiver na ginagamit, na naiiba sa listahan ng mga pag-andar at mga parameter ng operating, ngunit ang pinakamahusay sa kanila ay may humigit-kumulang na parehong mga katangian. Alam namin na ang pag-pack at pag-unpack ng mga file ay ginagawa ng parehong programa, ngunit sa ilang mga kaso ito ay isinasagawa ng iba't ibang mga programa, halimbawa, ang PKZIP program ay nag-pack ng mga file, at ang PKUNZIP ay nag-unpack ng mga file.
Binibigyang-daan ka ng mga archive program na lumikha ng mga archive kung saan hindi mo kailangan ng anumang mga programa upang kunin ang mga ito, dahil ang mga file ng archive ay naglalaman ng isang self-extracting program. Ang ganitong mga archive ay tinatawag na SFX archive.

Paglalagay ng mga file sa isang archive: Simulan ang WINRAR Program o bilang isang shortcut sa Desktop.

Universal archiver WINRAR

Ang WINRAR archiver ay dinisenyo din para sa pag-archive ng mga file. Mayroon itong maginhawang graphical na interface at sumusuporta sa teknolohiyang Drag and Drop. Pinapayagan ka ng programang WINRAR na magtrabaho hindi lamang sa mga rar archive file, kundi pati na rin sa iba pang mga format ng archive: zip, cab, arj, lzh. Ang WINRAR ay inilunsad sa alinman sa mga posibleng paraan na ibinigay sa Windows. Ilunsad ang program gamit ang Main menu ng Start Programs WINRAR WINRAR button o gamit ang shortcut sa Desktop.

Subukan ang survey sa mga pangunahing kaalaman sa pagtatrabaho sa mga disk.
Takdang-Aralin.
Pagsusuri sa sarili ng aralin.

Upang maisagawa ang mga gawaing ito, mayroong mga programa sa pag-archive na nagbibigay ng parehong pag-archive at compression ng data. Gamit ang mga espesyal na algorithm, inaalis ng mga archiver ang lahat ng kalabisan na impormasyon mula sa mga file, at sa panahon ng reverse unpacking operations, ibinabalik nila ang impormasyon sa orihinal nitong anyo. Ang laki ng naka-compress na file ay dalawa hanggang sampung beses na mas maliit kaysa sa orihinal na file.

MGA ARCHIVERS

Pag-compress ng impormasyon ay ang proseso ng pagbabago ng impormasyon na nakaimbak sa isang file sa pamamagitan ng pagbabawas ng data redundancy. Ang layunin ng prosesong ito ay bawasan ang volume na inookupahan ng data.

I-archive ang file ay isang espesyal na nilikhang file na naglalaman ng isa o higit pang mga file sa naka-compress na anyo.

Compression ratio: K c =V c /V o *100%

Kc- ratio ng compression, V c– dami ng naka-compress na file, V o– paunang laki ng file.

Ang ratio ng compression ay nakasalalay sa:

1) ang program na ginamit - archiver,

2) paraan ng compression,

3) uri ng source file: text, graphic, video, sound, atbp.

Ang mga program na nag-i-pack at nag-unpack ng mga file ay tinatawag na mga archiver. Ang pinakakaraniwan ay: ARJ, ZIP, RAR. Ang extension ng mga archive file ay tumutugma sa pangalan ng archiver na ginamit upang gawin ang mga ito.

Binibigyang-daan ka ng mga archiver na lumikha ng mga self-extracting archive file, i.e. Upang i-unpack ang mga ito, hindi mo kailangang ilunsad ang archiver program, dahil sila mismo ay naglalaman ng isang unpacking program. Ang mga archive na ito ay tinatawag na SFX archive
(SelF-eXtracting). Ang extension ng naturang mga file ay *.EXE.


Mga prinsipyo ng pag-compress ng impormasyon

Mayroong paulit-ulit na mga character sa anumang teksto. Posibleng tukuyin ang isang karakter at ang bilang ng mga pag-uulit. Ang kahusayan ng algorithm na ito ay mas mataas pa kapag inilapat sa mga graphic na file. Kung titingnan mo ang monitor, makikita mo ang maraming paulit-ulit na tuldok na may parehong kulay. Ang PCX graphic file format ay nakabatay sa prinsipyong ito ng information compression. Itinatampok ng mga modernong archiver hindi lamang ang mga umuulit na character, kundi pati na rin ang mga chain ng mga character at indibidwal na mga salita.

Kung ang teksto ay hindi gumagamit ng lahat ng mga character ng alpabeto ng PC, pagkatapos ay upang i-encode ang mga ito maaari mong gamitin ang isang byte, 8 bits, o isang mas maliit na numero. Ang prinsipyong ito ay ginagamit sa telegraph apparatus, kung saan ang mga malalaking letrang Ruso lamang ang ginagamit upang kumatawan sa kanila, na nagpapahintulot sa tatlong mga character na maisulat sa dalawang byte.

3. Ang sumusunod na prinsipyo ay gumagamit ng pattern na ang mga titik ay nangyayari sa teksto na may iba't ibang frequency. Halimbawa, sa tekstong ito ang espasyo ay ang pinakakaraniwang karakter; Ang mga madalas na nagaganap na mga character na ito ay maaaring katawanin bilang isang maikling pagkakasunud-sunod ng mga bit, habang ang iba pang mga character ay maaaring i-encode bilang isang mas mahabang sequence. Halimbawa:

4. Sa pisikal, ang PC ay naglalaan ng espasyo upang ilagay ang mga file sa disk sa mga kumpol - sa mga bloke ng 4 kB. Imposibleng i-highlight ang mas kaunti. Halimbawa, kung ang isang file ay 8193 bytes ang laki (8 kB at 1 byte), ito ay pisikal na sasakupin ang 16 kB o 16384 byte. Ang pagsasama-sama ng isang pangkat ng mga file sa isa ay nagbibigay-daan sa iyo upang makatipid sa mga tira na ito. Nagbibigay ito ng malaking pagtitipid kapag nag-iimpake ng maliliit na file.

Sa kabuuan, kapag naglalagay ng mga file nang hiwalay, 6 kB ang hindi ginagamit, na 100% ng mga nilalaman ng mga file. Sa pangalawang kaso, 2 kB, 33%, ay nananatiling hindi nagamit.


Zip ng archiver

Pag-pack ng mga file pkzip [keys]<имя архива>[mga path ng file]

Mga susi: -rp pag-archive gamit ang mga subdirectory habang pinapanatili ang istraktura

S P.W.D. proteksyon ng password sa archive (PWD)

Isang magdagdag ng mga file sa archive

M ilipat ang mga file sa archive

V tingnan ang mga nilalaman ng archive

Kung ang lahat ng mga file sa isang direktoryo ay ini-archive, pagkatapos ito ay kinakailangan upang tukuyin ang mask *.*

Pag-unpack ng mga pkunzip file [mga switch]<имя архива>[mga pangalan ng file]

Mga Susi: -d pag-unpack gamit ang mga subdirectory habang pinapanatili ang istraktura

SPWD archive password (PWD)


Archiver arj

arj<команда>[mga susi]<имя архива>[mga pangalan ng file]

Para sa arj archiver, ang isang file ay gumaganap ng parehong pag-unpack at pagpapakete.

Mga Koponan: a pag-archive

e unpacking nang hindi pinapanatili ang istraktura ng direktoryo

x pag-unpack habang pinapanatili ang istraktura

l tinitingnan ang mga nilalaman ng archive

m ilipat ang mga file sa archive

d tanggalin ang mga file mula sa archive

Mga Susi: -r pag-iimpake ng mga subdirectory habang pinapanatili ang istraktura

V breakdown ng archive sa mga volume na may volume na vol (kung tinukoy)

ang laki para sa karaniwang mga floppy disk (360, 720, 1200, 1440) ay ipinahiwatig sa kilobytes, ang laki ng hindi karaniwang mga floppy disk ay ipinahiwatig sa mga byte

Ang V ay ipinahiwatig kapag nag-unpack ng isang multi-volume na archive

G P.W.D. i-archive ang password ( P.W.D.)

Pag-iimpake ng mga file

Pag-unpack ng mga file

©2015-2019 site
Lahat ng karapatan ay pag-aari ng kanilang mga may-akda. Hindi inaangkin ng site na ito ang pagiging may-akda, ngunit nagbibigay ng libreng paggamit.
Petsa ng paggawa ng page: 2016-08-08

Mga prinsipyo ng pag-compress ng impormasyon

Ang batayan ng anumang paraan ng pag-compress ng impormasyon ay ang modelo ng mapagkukunan ng impormasyon, o, mas partikular, ang modelo ng redundancy. Sa madaling salita, upang i-compress ang impormasyon, ang ilang impormasyon ay ginagamit tungkol sa kung anong uri ng impormasyon ang na-compress - nang walang anumang impormasyon tungkol sa impormasyon, imposibleng gumawa ng ganap na walang mga pagpapalagay tungkol sa kung anong uri ng pagbabago ang magbabawas sa dami ng mensahe. Ginagamit ang impormasyong ito sa proseso ng compression at decompression. Ang modelo ng redundancy ay maaari ding buuin o i-parameter sa panahon ng compression phase. Ang mga pamamaraan na nagpapahintulot sa pagbabago ng modelo ng redundancy ng impormasyon batay sa data ng input ay tinatawag na adaptive. Ang mga non-adaptive na algorithm ay kadalasang lubos na partikular, na ginagamit upang gumana nang may mahusay na tinukoy at hindi nagbabagong mga katangian. Ang napakaraming karamihan ng medyo unibersal na mga algorithm ay umaangkop sa isang antas o iba pa.

Ang anumang paraan ng pag-compress ng impormasyon ay may kasamang dalawang kabaligtaran na pagbabago:

  • conversion ng compression;
  • conversion ng compression.

Tinitiyak ng pagbabago ng compression na ang isang naka-compress na mensahe ay nakuha mula sa orihinal na mensahe. Tinitiyak ng decompression na ang orihinal na mensahe (o ang pagtatantya nito) ay nakuha mula sa naka-compress.

Ang lahat ng mga pamamaraan ng compression ay nahahati sa dalawang pangunahing klase

  • nang walang pagkawala,
  • may pagkalugi.

Ang pangunahing pagkakaiba sa pagitan ng dalawa ay ang lossless compression ay nagbibigay-daan para sa tumpak na muling pagtatayo ng orihinal na mensahe. Ang lossy compression ay nagbibigay-daan sa iyo na makakuha lamang ng isang tiyak na pagtatantya ng orihinal na mensahe, iyon ay, naiiba sa orihinal, ngunit sa loob ng mga limitasyon ng ilang paunang natukoy na mga error. Ang mga error na ito ay dapat matukoy ng isa pang modelo - ang modelo ng receiver, na tumutukoy kung aling data at kung anong katumpakan ang ipinakita ay mahalaga para sa tatanggap, at kung alin ang maaaring itapon.

Mga katangian ng compression algorithm at applicability

Compression Ratio

Ang compression ratio ay ang pangunahing katangian ng compression algorithm, na nagpapahayag ng pangunahing kalidad ng application. Ito ay tinukoy bilang ang ratio ng laki ng hindi naka-compress na data sa naka-compress na data, iyon ay:

k = S o/ S c ,

saan k- ratio ng compression, S o ang laki ng hindi naka-compress na data, at S c - laki ng naka-compress. Kaya, mas mataas ang ratio ng compression, mas mahusay ang algorithm. Dapat itong tandaan:

  • Kung k= 1, kung gayon ang algorithm ay hindi nagsasagawa ng compression, iyon ay, tumatanggap ito ng isang mensahe ng output na may sukat na katumbas ng input;
  • Kung k < 1, то алгоритм порождает при сжатии сообщение большего размера, нежели несжатое, то есть, совершает «вредную» работу.

Ang sitwasyon sa k < 1 вполне возможна при сжатии. Невозможно получить алгоритм сжатия без потерь, который при любых данных образовывал бы на выходе данные меньшей или равной длины. Обоснование этого факта заключается в том, что количество различных сообщений длиной n Pattern:E:bit ay eksaktong 2 n. Pagkatapos ay ang bilang ng iba't ibang mga mensahe na may haba na mas mababa sa o katumbas ng n(kung mayroong kahit isang mensahe na mas maikli ang haba) ay mas mababa sa 2 n. Nangangahulugan ito na imposibleng natatanging imapa ang lahat ng orihinal na mensahe sa isang naka-compress: alinman sa ilang orihinal na mensahe ay hindi magkakaroon ng naka-compress na representasyon, o ilang orihinal na mensahe ang magkakaroon ng parehong naka-compress na representasyon at samakatuwid ay hindi maaaring makilala.

Ang compression ratio ay maaaring maging isang pare-parehong koepisyent (ilang algorithm para sa pag-compress ng tunog, imahe, atbp., halimbawa A-law, μ-law, ADPCM), o variable. Sa pangalawang kaso, maaari itong tukuyin para sa isang partikular na mensahe, o masuri ayon sa ilang pamantayan:

  • average (kadalasan sa ilang set ng data ng pagsubok);
  • maximum (kaso ng pinakamahusay na compression);
  • minimum (kaso ng pinakamasamang compression);

o anumang iba pa. Ang lossy compression ratio sa kasong ito ay lubos na nakasalalay sa pinahihintulutang error sa compression o nito kalidad, na kadalasang nagsisilbing parameter ng algorithm.

Pagpaparaya sa mga pagkalugi

Ang pangunahing criterion para sa pagkilala sa pagitan ng mga algorithm ng compression ay ang pagkakaroon o kawalan ng mga pagkalugi na inilarawan sa itaas. Sa pangkalahatan, ang lossless compression algorithm ay unibersal sa kahulugan na magagamit ang mga ito sa anumang uri ng data, habang ang paggamit ng lossy compression ay dapat na makatwiran. Ang ilang uri ng data ay hindi tumatanggap ng anumang pagkawala:

  • simbolikong data, pagbabago na hindi maiiwasang humahantong sa pagbabago sa kanilang mga semantika: mga programa at kanilang pinagmulang teksto, binary arrays, atbp.;
  • mahahalagang data, mga pagbabago kung saan maaaring humantong sa mga kritikal na error: halimbawa, nakuha mula sa mga medikal na kagamitan sa pagsukat o mga control device ng sasakyang panghimpapawid, spacecraft, atbp.
  • data na paulit-ulit na na-compress at na-decompress: gumaganang graphic, tunog, mga video file.

Gayunpaman, ang lossy compression ay nagbibigay-daan para sa mas mataas na mga ratio ng compression sa pamamagitan ng pagtatapon ng hindi nauugnay na impormasyon na hindi nakaka-compress nang maayos. Kaya, halimbawa, ang lossless audio compression algorithm FLAC, sa karamihan ng mga kaso ay nagbibigay-daan sa iyo upang i-compress ang tunog ng 1.5-2.5 beses, habang ang lossy algorithm Vorbis, depende sa set na parameter ng kalidad, ay maaaring mag-compress ng hanggang 15 beses habang pinapanatili ang katanggap-tanggap na kalidad ng tunog. .

Mga kinakailangan sa sistema ng algorithm

Ang iba't ibang mga algorithm ay maaaring mangailangan ng iba't ibang halaga ng mga mapagkukunan ng computer system kung saan ang mga ito ay isinasagawa:

  • RAM (para sa intermediate na data);
  • permanenteng memorya (para sa program code at constants);
  • oras ng CPU.

Sa pangkalahatan, ang mga kinakailangang ito ay nakasalalay sa pagiging kumplikado at katalinuhan ng algorithm. Ayon sa pangkalahatang ugali, mas mabuti at mas unibersal ang algorithm, mas malaki ang mga hinihingi nito sa makina. Gayunpaman, sa mga partikular na kaso, ang mga simple at compact na algorithm ay maaaring gumana nang mas mahusay. Tinutukoy ng mga kinakailangan ng system ang kanilang mga katangian ng consumer: mas hindi gaanong hinihingi ang algorithm, mas simple, at samakatuwid ay mas compact, maaasahan at murang sistema na maaari itong gumana.

Dahil gumagana nang magkapares ang mga algorithm ng compression at decompression, mahalaga din ang ratio ng mga kinakailangan ng system sa kanila. Kadalasan, sa pamamagitan ng pagpapakumplikado ng isang algorithm, maaari mong makabuluhang pasimplehin ang isa pa. Kaya maaari tayong magkaroon ng tatlong pagpipilian:

Ang compression algorithm ay higit na nangangailangan ng mapagkukunan kaysa sa decompression algorithm.

Ito ang pinakakaraniwang ratio, at ito ay pangunahing naaangkop sa mga kaso kung saan ang isang beses na naka-compress na data ay gagamitin nang paulit-ulit. Ang isang halimbawa ay mga digital audio at video player.


Ang mga algorithm ng compression at decompression ay may humigit-kumulang pantay na mga kinakailangan.

Ang pinaka-katanggap-tanggap na opsyon para sa isang linya ng komunikasyon ay kapag ang compression at decompression ay nangyayari nang isang beses sa dalawang dulo nito. Halimbawa, ito ay maaaring telephony.

    Ang compression algorithm ay hindi gaanong hinihingi kaysa sa decompression algorithm.- compaction ng impormasyon - [L.G. English-Russian na diksyunaryo sa teknolohiya ng impormasyon. M.: State Enterprise TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan Mga kasingkahulugan ng impormasyon compaction EN pagbabawas ng impormasyon ...

    COMPRESSION NG IMPORMASYON- (data compression) representasyon ng impormasyon (data) na may mas maliit na bilang ng mga bit kumpara sa orihinal. Batay sa pag-aalis ng redundancy. Mayroong S. at. nang walang pagkawala ng impormasyon at pagkawala ng ilang impormasyon na hindi mahalaga para sa mga gawaing nilulutas. SA…… Encyclopedic Dictionary of Psychology and Pedagogy

    lossless adaptive information compression- - [L.G Sumenko. English-Russian na diksyunaryo sa teknolohiya ng impormasyon. M.: State Enterprise TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan EN adaptive lossless data compressionALDC ... Gabay ng Teknikal na Tagasalin

    compaction/compression ng impormasyon- - [L.G Sumenko. English-Russian na diksyunaryo sa teknolohiya ng impormasyon. M.: State Enterprise TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan EN compaction ... Gabay ng Teknikal na Tagasalin

    digital information compression- - [L.G Sumenko. English-Russian na diksyunaryo sa teknolohiya ng impormasyon. M.: State Enterprise TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan EN compression ... Gabay ng Teknikal na Tagasalin

    Ang tunog ay isang simpleng alon, at ang isang digital na signal ay isang representasyon ng alon na iyon. Ito ay nakakamit sa pamamagitan ng pag-iimbak ng amplitude ng analog signal ng maraming beses sa loob ng isang segundo. Halimbawa, sa isang ordinaryong CD ang signal ay kabisado ng 44,100 beses bawat... ... Wikipedia

    Isang proseso na nagpapababa sa dami ng data sa pamamagitan ng pagbabawas ng data redundancy. Ang compression ng data ay nauugnay sa compact arrangement ng mga bahagi ng data ng isang karaniwang laki. May mga compression na may pagkawala at walang pagkawala ng impormasyon. Sa Ingles: Data... ... Financial Dictionary

    compression ng digital cartographic na impormasyon- Pagproseso ng digital cartographic na impormasyon upang bawasan ang volume nito, kabilang ang pag-aalis ng redundancy sa loob ng kinakailangang katumpakan ng presentasyon nito. [GOST 28441 99] Mga paksa digital cartography Pangkalahatang termino pamamaraan at teknolohiya... ... Gabay ng Teknikal na Tagasalin

Ang pagbuo ng mga algorithm ng compression ng impormasyon ay kabilang sa isa sa mga sangay ng inilapat na matematika. Ang mga ito ay batay sa prinsipyo ng pag-aalis ng natural na kalabisan.

Ang mga paraan ng pag-compress ng impormasyon ay karaniwang nahahati sa dalawang hindi magkakapatong na klase: nawawalang compression At compression nang walang pagkawala ng impormasyon.

Lossy compression nangangahulugan na pagkatapos i-unpack ang naka-compress na archive, ang data na nakuha ay bahagyang naiiba mula sa kung ano ang sa pinakadulo simula. Malinaw, kung mas mataas ang ratio ng compression, mas malaki ang pagkawala at vice versa.

Siyempre, ang mga naturang algorithm ay hindi naaangkop sa mga dokumento ng teksto, mga talahanayan ng database at mga programa. Ang mga maliliit na pagbaluktot sa simpleng hindi naka-format na teksto ay maaari pa ring mabuhay kahit papaano, ngunit ang pagbaluktot ng kahit isang bit sa programa ay gagawin itong ganap na hindi nagagamit.

Kasabay nito, mayroong data kung saan maaari mong isakripisyo ang ilang porsyento ng impormasyon upang makakuha ng compression ng sampu-sampung beses, halimbawa, mga litrato, video at audio na materyales. Ang pagkawala ng impormasyon sa panahon ng compression at kasunod na decompression ng naturang data ay nakikita bilang ang hitsura ng ilang karagdagang "ingay".

Kasama sa mga lossy compression algorithm ang mga algorithm tulad ng JPEG(ginagamit kapag nag-compress ng mga larawang larawan) at MPEG(ginagamit para sa video at audio compression). Ang mga lossy compression algorithm ay ginagamit lamang para sa mga gawain ng consumer.

Ang halaga ng pinahihintulutang pagkawala ng compression ay karaniwang maaaring kontrolin, na nagbibigay-daan sa pinakamabuting kalagayan na sukat/kalidad na ratio na makamit. Sa mga photographic na ilustrasyon na nilalayong kopyahin sa screen, ang pagkawala ng 5% ng impormasyon ay karaniwang hindi kritikal, at sa ilang mga kaso ang pagkawala ng 20-25% ay maaaring tiisin.

Pamamaraan compression nang walang pagkawala ng impormasyon ay ginagamit kapag nagtatrabaho sa mga tekstong dokumento at programa at hindi pinapayagan ang pagkawala ng impormasyon. Ang mga ito ay batay lamang sa pag-aalis ng kalabisan nito.

Halimbawa 1. Ang wikang Ukrainian ay may 32 titik, sampung numero at humigit-kumulang isang dosenang mga bantas at iba pang espesyal na karakter. Para sa isang teksto na nakasulat lamang sa malalaking titik (tulad ng sa mga telegrama), animnapung magkakaibang kahulugan ay sapat na. Gayunpaman, ang bawat karakter ay karaniwang naka-encode ng isang byte, na naglalaman ng 8 bits at maaaring magpahayag ng 256 iba't ibang mga code. Ito ang unang dahilan ng redundancy. Para sa text na "telegraph", sapat na ang anim na bit bawat character.

kanin. 1. Morse code

Halimbawa 2. Sa internasyonal na pag-encode ng character ng ASCII, ang parehong bilang ng mga bits (8) ay inilalaan upang i-encode ang anumang character. Kasabay nito, malinaw na makatuwirang i-encode ang pinakamadalas na paglitaw ng mga character na may mas kaunting mga character. Kaya, halimbawa, sa Morse code ang mga titik na "E" at "T", na madalas na nangyayari, ay naka-encode ng isang character (isang tuldok at isang gitling, ayon sa pagkakabanggit). At ang mga bihirang titik tulad ng "Yu" (--) at "C" (- -) ay naka-code na may apat na character. Ang hindi mahusay na pag-encode ang pangalawang dahilan ng redundancy.

Ang mga program na nagsasagawa ng pag-compress ng impormasyon ay maaaring magpasok ng kanilang sariling pag-encode (iba para sa iba't ibang mga file) at mag-attach ng isang tiyak na talahanayan (diksyonaryo) sa naka-compress na file, kung saan natutunan ng decompressing program kung paano naka-encode ang ilang mga character o kanilang mga grupo sa file na ito. Ang mga algorithm na batay sa recoding ng impormasyon ay tinatawag Mga algorithm ng Huffman.

Ang pagkakaroon ng paulit-ulit na mga fragment ay ang ikatlong batayan para sa kalabisan. Ito ay bihira sa mga teksto, ngunit sa mga talahanayan at mga graphic na pag-uulit ng mga code ay karaniwan. Kaya, halimbawa, kung ang numero 0 ay paulit-ulit nang dalawampung beses sa isang hilera, kung gayon walang punto sa paglalagay ng dalawampung zero byte. Sa halip, naglalagay sila ng isang zero at isang koepisyent na 20. Ang mga ganitong algorithm batay sa pagtukoy ng mga pag-uulit ay tinatawag na mga pamamaraan run length encoding(RLE,Patakbuhin ang Haba ng Encoding). Ang mga graphic na ilustrasyon ay partikular na nakikilala sa pamamagitan ng malalaking paulit-ulit na pagkakasunud-sunod ng magkaparehong mga byte. Ang pamamaraan ay medyo epektibo para sa mga graphic na larawan sa byte-per-pixel na format (halimbawa, mga format PCX o BMP).

Kapag lumilikha ng mga backup sa mga hard drive, may isa pang pagkakataon na makakuha ng workspace kapag nag-compress ng mga file, na hindi nauugnay sa kalabisan ng impormasyon, ngunit sa paraan ng pag-aayos ng file system ng computer. Ang kakanyahan nito ay nakasalalay sa katotohanan na ang anumang file, malaki o maliit, ay maaari lamang maghawak ng isang integer na bilang ng mga kumpol sa disk. Sa FAT16 file system, ang isang hard disk ay hindi maaaring magkaroon ng higit sa 65536 clusters (2 16). Nangangahulugan ito na para sa mga disk na may sukat mula 1 hanggang 2 GB, ang laki ng kumpol ay 32 KB.

Kapag pinagsama ang isang malaking grupo ng mga file sa isang file, ang matitipid ay umaabot sa hindi bababa sa 16 KB bawat file sa pamamagitan lamang ng pagbabawas ng mga pagkalugi mula sa hindi makatwirang organisasyon ng file system.

Para sa FAT32, ang pakinabang ay mas maliit, ngunit sa kasong ito ang pinakamababang laki ng kumpol ay 4 KB, kaya kung ikaw ay nakikitungo sa isang malaking bilang ng mga maliliit na file, pagkatapos ay mayroon ding isang bagay na i-save.

Bagama't maraming iba't ibang paraan ng compression, may ilan mga prinsipyo at tuntunin, na karaniwan sa lahat ng paraan ng compression. Kailangang kilalanin sila at gamitin nang tama.

1. May limitasyon ang bawat compression, mga. Ang pag-compaction ng isang dating na-compact na file, sa pinakamahusay, ay hindi nagbibigay ng anumang pakinabang, at sa pinakamasamang kaso, maaari itong humantong sa pagkawala sa laki ng resultang file.