读数据压缩入门笔记06_上下文转换-全球今亮点

博客园 2023-06-17 07:06:23

(资料图片仅供参考)

1.压缩算法可归为两类

1.1.统计压缩（即VLC）

1.2.字典压缩（如LZ78）

1.3.从不同的角度利用了给定数据流中存在的统计冗余信息

2.上下文变换

2.1.contextual transform

2.2.给定一组相邻的符号集，对它们进行某种方式的变换使其更容易压缩

3.行程编码

3.1.run-length encoding，RLE

3.2.过去40多年来看似很简单、实则很高效的编码技术

3.3.单字符上下文模型

3.3.1.对任何给定的符号，在编码时我们都只考虑它的前一个符号

3.3.1.1.如果这两个符号是相同的，那么行程继续

3.3.1.2.如果不相同，那么当前行程终止

3.4.主要针对的是连续出现的相同符号聚类的现象，它会用包含符号值及其重复出现次数的元组，来替换某个符号一段连续的“行程”（run）

3.5.将最短码字分配给最大的值（因为它表示的是最长的行程）

3.5.1.如果我们从绝对值的角度理解每个行程的开始，那么长度值表示的是数据流中符号变化之间的距离

3.6.最适用于大多数符号都连续重复出现的数据集

3.6.1.如果要处理的数据集没有这样的性质，那么RLE算法并不适用

3.6.2.会将最短的编码分配给那些连续重复出现的符号

3.7.示例

3.7.1.AAAABBBBBBBBCCCCCCCC

3.7.2.[A,4][B,8][C,8]

3.8.编码工作就是找到一个符号并向前扫描看看其行程有多长

3.9.解码工作则相反，给定某个符号值及其长度值的二元组，只需要将正确个数的符号添加到输出流之后就行了

3.10.短行程是RLE作为一种算法面临的大问题

3.10.1.存储短行程的开销极大地影响了数据压缩后的大小

3.11.数据流中交错出现字面值是会出问题的

3.11.1.在数据集中增加一个二进制位流，来表示某个给定的符号流中各个符号是否连续重复出现

3.12.对干扰符号十分敏感

4.从压缩角度来说，数值型数据算是最令人讨厌的数据类型之一

4.1.GPS的坐标信息

4.2.搜索引擎的倒排索引信息

4.3.返回的用户ID

4.4.因为大多数时候，我们找不到可以利用的统计信息

5.增量编码

5.1.delta coding

5.2.将一组数据转换为各个相邻数据之间的相对差值（即增量）的过程

5.3.思想

5.3.1.给定一组数据，相关的或相似的数据往往会集中在一起。如果这样，有了两个相邻值之间的差，就可以用其中一个值以及该差值来表示另外一个值

5.3.2.它依靠的是相邻性

5.4.在数值型数据这样普遍而其熵值又如此偏高的情况下，增量编码提供了一种不依靠统计的转换

5.5.目的就是缩小数据集的变化范围

5.5.1.为了减少表示数据集中的每个值所需要的二进制位数

5.5.2.当相邻数值之间的差相对较小时，增量编码最有效

5.5.3.如果差值变大，情况就会变糟

5.6.最适用于处理时间序列数据以及音频和图像数据这类多媒体数据

5.6.1.比如每10秒检测一次温度的传感器所产生的数据

5.6.2.这类数据中邻近的数据之间存在着时间上的关联

5.7.减法增量编码算法的问题是，结果中可能会出现负数，进而产生各种问题

5.7.1.负数不仅在存储的时候需要额外的二进制位，此外还可能会增大数据的变化范围

5.8.如果增量编码能做到以下两点，那么我们就可以认为它生成的数据更容易压缩

5.8.1.将数据集中的最大值变小，因此缩小了数值的变化范围

5.8.2.生成了许多重复值，可以让统计压缩的效率更高

6.XOR增量编码

6.1.通过使用按位异或运算（bitwise exclusive OR，XOR）代替减法运算

6.2.完全绕开了负数出现的问题，因为整数之间的XOR根本不可能产生负数

7.参照系增量编码

7.1.参照系方法通过让其他数减去最小的数

7.2.“参照系”（frame of reference，FOR）中那个“参照数”（frame）的选取，与将转换恰当地应用到数据集上有关

7.2.1.因此需要将数据集细分为更小的数据组

7.3.FOR最初的设计目的是，尽可能地将更多数值匹配到单个整数的空间之内（通常是32位或者128位的整数

7.3.1.使数值在运行时更容易处理（因为计算机处理经过字节对齐，是 2的幂的那些数值会更容易），同时还可以将它当作一种漂亮的内存压缩表示

7.3.2.提供了一种非常简单的压缩方法。将 10个整数压缩到32个二进制位的空间内，这样的压缩效果可以说很好了，其结果是产生了一种性能很强的方法，可以在一秒内解码数十亿个整数值，代价则是那些没有充分利用空间的整数需要额外的开销

7.4.修正的参照系增量编码

7.4.1.Patched Frame of Reference Delta Coding，PFOR

7.4.2.Zukowski等人提出

8.前移编码

8.1.move-to-front coding，MTF

8.2.最简单的动态统计转换形式之一

8.3.数据的排列次序中包含着一些有助于编码未来符号的信息

8.4.MTF是局部自适应的

8.4.1.会根据输入流中局部区域符号的出现频次进行调整

8.4.2.符号在短时间内重复出现时，MTF会重新分配一个较小的值

8.5.对干扰符号这类问题不敏感

8.6.问题

8.6.1.一些捣乱的符号会打乱前面存在的符号流

8.6.1.1.真实数据中普遍存在

8.7.解决方法

8.7.1.不是一读到某个符号就将它移到最前面，而是采取一些探索式方法慢慢地将它移到最前面

9.伯罗斯–惠勒变换

9.1.Burrows-Wheeler transform，BWT

9.1.1.1994年

9.1.2.Burrows与Wheeler合作

9.2.工作原理

9.2.1.通过打乱数据流次序来让重复的子串聚集在一起

9.2.2.这一操作本身不能压缩数据，却可以为后续的压缩系统提供转换好的数据流，方便压缩

9.3.顺序很重要

9.3.1.熵作为度量单位，它的一个问题是没有考虑符号之间的顺序

9.3.1.1.事实上符号之间的顺序很重要

9.3.2.通过转换数据流中符号之间的顺序，可以让数据流更容易压缩

9.3.3.在对数据排序后，如果没有更多额外的信息指明它是如何变化的，我们无法让数据重新回到未排序的状态

9.3.4.字典序排列

9.3.4.1.lexicographical permutation

9.3.4.2.BWT会打乱数据流中符号的顺序，并试图让相同的符号簇彼此靠近

9.3.4.3.找出原始数据集的一种排列，根据其顺序，该排列可能更容易压缩

9.3.5.通过BWT，在编码与解码时无须增加太多的额外信息

9.4.示例

9.4.1.BANANA

9.4.2.在接下来的每一行，我们都会对该字符串进行一次循环右移一位操作

9.4.3.BANANA

ABANANNABANAANABANNANABAANANABBANANA

9.4.4.对表中的每一行按字典顺序排序

9.4.5.ABANAN

ANABANANANABBANANANABANANANABA

9.4.6.每个字符串的最后一个字符，从上到下

9.4.7.NNBAAA

9.4.7.1.与BANANA相比更好地将相同的字符聚集在了一起

9.4.8.0 ABANAN

1 ANABAN2 ANANAB3 BANANA4 NABANA5 NANABA

9.4.9.行索引3就是源字符串

9.5.最引人注目的特点在于只需要极小的数据开销，它所进行的变换操作就是可逆的（reversible）

9.6.对DNA来说是一种理想的变换，可以使其更容易压缩、查询和检索

9.7.具体实现

9.7.1.将整个文件分为许多1 MB大小的数据块，然后在每个数据块上分别应用该算法

9.8.最常见的用法

9.8.1.将BWT的输出作为MTF的输入，经过处理后接着用统计编码算法处理

9.8.1.1.BZIP2的内部工作原理

X 关闭

读数据压缩入门笔记06_上下文转换-全球今亮点

博客园 06-17

天天速递！电竞业亟需实用复合型人才

经济日报 06-17

给运动员一个温馨舒适的“家”

人民网－人民日报 06-17

每日视点！供暖试压时暖气会热吗（供暖试压后是不是就开始升温了）

互联网 06-17

郑州到上海火车时刻表硬卧郑州到上海火车时刻表

城市网 06-17

6尺床的长宽是多少厘米_6尺床的长宽是多少_天天讯息

互联网 06-17

建筑工程的主要材料有哪些内容_建筑工程的主要材料有哪些全球热点评

互联网 06-17

学化妆出来工资高吗_跟妆师一天多少钱_世界速看

互联网 06-17

全球聚焦：黑龙江工商学院官网_黑龙江工商职业技术学院

互联网 06-16

试乘免费！闹猛像过年！今天上海这条地铁里一片鲜格格

新民晚报 06-16

龙韵股份(603729.SH)：截至6月1日，公司股东人数为9066户-天天热文

格隆汇 06-16

【聚看点】全国十二城联动 DS 9深圳兴茂上市售24.99万起

深圳汽车网 06-16

全球今日讯！能链智电第一季度净收入同比增长150% 充电量增长112%

中新经纬 06-16

一图读懂“亮剑浦江”上海个人信息保护专项行动：为期半年，“剑”指八大消费场景新动态

澎湃新闻 06-16

环球百事通！什么是砌筑工程施工（什么是砌筑工程）

互联网 06-16

今日快看!蔷薇开花后怎么养蔷薇开花的养护方法

伊秀经验网 06-16

常州金坛端午节赛龙舟时间+赛程安排(最新) 世界最新

本地宝 06-16

玻利维亚热带农业区遭遇罕见冰雪

央视新闻客户端 06-16

富信科技：公司应用于400G、800G高速光模块的MicroTEC产品尚未形成收入

和讯王治强 06-16

河西社区：门前三包落责任美好家园共守护

供稿 06-16

环球微速讯：csgo勋章怎么买_csgo冠军勋章有什么用

互联网 06-16

国家药监局发布关于中药保护品种的公告

国家药监局网站 06-16

十大高发电信网络诈骗类型公布刷单返利类诈骗占发案总量近三分之一

法治日报 06-16

基石药业择捷美治疗Ⅳ期非小细胞肺癌研究登陆Nature子刊每日热讯

新京报 06-16

A股平均股价11.02元 84股股价不足2元_世界新消息

证券时报网 06-16

天天头条：酷睿i5型号排名_酷睿i5型号排行

互联网 06-16

科创板平均股价34.16元 68股股价超百元|环球资讯

证券时报网 06-16

就在明晚！“家门口的好学校”上新，这次来做客的学校是……

百度新闻 06-16

生化危机4重制版现已降价20%以上推出以来的最低价当前关注

乐拇指 06-16

短讯！淘宝主图视频尺寸怎样修改_淘宝主图视频尺寸

互联网 06-16

银行主动停息挂账是不是已起诉？银行会同意停息挂账吗？

中国物联网 06-16

环球观速讯丨深·看｜一线贯通，无问西东！苏州11号线开启“无界”时代！

小苏侃江南 06-16

第九届上交会联合国工业发展组织主题日活动举行

和讯刘海美 06-16

观察：彩票，中一千万和赚一千万哪个更容易？

猫友2023060861 06-16

【播资讯】空港新城举办城市环境暨共有产权房推介会

企鹅in陕西 06-16

雪浪算力中心发力城市新基建算力共享帮助企业降本增效|热门

无锡日报 06-16

第一次买保险应该注意哪些问题这些要注意_当前热点

探其财经 06-16

MLF利率下调10个基点 LPR下行概率大-全球今日讯

经济参考报 06-16

焦点讯息：新任省级工会副主席座谈会在京召开

中工网 06-16

下真功、出实招！四川省国资系统推动主题教育入脑入心-天天速讯

四川新闻网 06-16

暴风雨来了，汽车行业要变天了

山东讯息 06-16

小米14将提前发布外观正式曝光全球快播

站长之家 06-16

联合国教科文组织将在6月底召开特别会议决定美国能否重新加入

金台资讯 06-16

大运会火炬传递哈尔滨站启动，成都实小校长李蓓手擎“蓉火”，传递梦想

成都市实验小学 06-16

周末有雨！洛阳发布重要天气报告

洛阳发布 06-16

环球快看：江西五十铃新款瑞迈上市售8.28万元起

爱卡汽车网 06-16

“浙”村有点“潮”

环球网 06-16

电加热导热油夹层锅如何改成天燃气_电加热导热油夹层锅_要闻速递

互联网 06-16

【新股提示】广康生化（300804）公布中签结果

南方财富网 06-16

人民币对墨西哥比索汇率今日 6月15日墨西哥比索汇率查询_世界热讯

小宋财经有料 06-16

李子园：发行可转债6亿元申购日为6月20日

每日经济新闻 06-15

华硕主板618价格抢先知至高12期免息

科技快报网 06-15

科技助力运动训练　张善政秒成神射手|当前关注

中评网 06-15

股价创历史新高股一览

证券时报网 06-15

百度被必应超越？中国第一搜索引擎巨头，地位还稳吗-焦点信息

赛雷三分钟 06-15

纳微科技(688690.SH)220万股限售股将于6月26日上市流通

智通财经 06-15

肺囊肿能活多久

互联网 06-15

阿尔特涨14.10%-讯息

中国经济网 06-15

伟星股份主板再融资审核状态更新为“注册生效”_焦点简讯

机会报 06-15

焦点滚动:上海将推动低碳零碳负碳技术创新开展产品碳足迹核算和碳效评价

上海证券报·中国证券网 06-15

速讯：掌阅科技6月15日盘中跌停

东方财富Choice数据 06-15

当前关注：致200米运动员赞词_致100米运动员赞词

互联网 06-15

天天即时：《怪物猎人崛起：曙光》新活动任务奖励报酬迅炼丹

侠游戏网 06-15

当前要闻：show me your pen是什么意思中文

互联网 06-15

“‘粤’升湾区阔潮涌看中国" 连通中国与世界的广州南沙港最新资讯

央广网 06-15

利好！央行重磅官宣：降息！

证券时报 06-15

自制芝麻脆饼_芝麻脆饼的做法平底锅-全球焦点

互联网 06-15

我国查明矿产资源品种近四成储量上升

新华网 06-15

教育学认为青少年最大的特点是什么（青少年教育的重要性简介介绍）|世界球精选

互联网 06-15

世界通讯！现在什么油烟机好?当然是科恩免清洗烟机

搜狐焦点 06-15

滚动：海风招标爆发在即机构建议关注今年海陆景气共振带来的板块性机会(附概念股)

智通财经 06-15

摔角动态阿莱克萨·布里斯夺冠 HHH送上祝福

互联网 06-15

这是最高性价比的“奢华型汽车”_世界信息

大家车言论 06-15

贝尼特斯：曼城会在控球上占据主动，国米的反击将很有威胁_世界快消息

直播吧 06-15

一条传闻，连拉两涨停！紧急澄清|环球最资讯

中国基金报 06-15

全球看点：Galaxy S10 5G不仅仅支持更快的5G网络还具有许多前所未见的功能

互联网 06-15

演员刘涛简历_演员刘涛个人资料介绍聚看点

互联网 06-15

苹果4版本升级_iphone4系统升级

互联网 06-15

世界今日报丨央视美女主持刘芳菲下场，声援被川大张薇霸凌女生，发文感慨良多

盖饭娱乐 06-14

拿来带来的英文_带来的英文-热头条

互联网 06-14

视讯！上市公司退市的条件_上市公司退市后散户股票怎么办

互联网 06-14

天天快资讯丨构建亮丽风景线！苏州工业园区唯亭街道多方共建花圃，共享美丽家园

扬子晚报 06-14

当前快报:高铁如何调整座椅靠背一等座（高铁如何调整座椅靠背）

互联网 06-14

环球快报:持续回购，京信通信（02342）能否收回跌去的六成市值？

智通财经 06-14

起拍楼面价10331元/㎡！扬州西黄金地块即将拍卖！|当前观察

扬州生活网房产 06-14

科润智控：拟10派1元，共分派1840.86万元

犀牛之星 06-14

京东手机拍卖怎么回事（京东拍卖的手机为什么那么便宜）

互联网 06-14

天天快看：自制酵素保质期多久_自制酵素

互联网 06-14

天天日报丨中国星辰丨遥远“天宫”的回信让藏族少年次仁达杰的梦想更近了：要像中国航天人一样，勇敢追梦，无惧困难！

中国日报网 06-14

澳门会议团建活动攻略 | 解锁徒步团建创意玩法 → 城市徒步主题团建

商引团建 06-14

【库存】2023年6月14日国内港口鱼粉库存

饲料行业信息网 06-14

江西将迎今年持续时间最长、影响范围最广强降水！当前热议

南昌晚报 06-14

【世界聚看点】约旦击落一架载有毒品的无人机

新华网 06-14

玉马遮阳：外遮阳产品作为公司重点项目之一，正在加快产品研发及市场推广|环球速讯

每日经济新闻 06-14

江苏欧文托普自控阀门有限公司_关于江苏欧文托普自控阀门有限公司简述

互联网 06-14

2019年国家公务员考试职位表（2019年国家公务员考试职位表下载）世界微头条

互联网 06-14

天天快看：邮报评沙特联潜在梦之队：C罗内马尔本泽马三叉戟，德赫亚在列

手机网易网 06-14

中央气象台：西南地区华南等地仍多降雨内蒙古华北东部黄淮北部有高温过程

中央气象台 06-14

速看：内容正在升级改造，请稍后再试！

和讯 06-14

焦点播报:有关英雄的读书名言警句

互联网 06-14