MP3与无损(flac.APE)的本质区别和音质差异…
大家现在最常听的格式应该就是MP3了吧(据调查百分之九十的机油在听MP3.这其中包括使用专业播放器,手机,电脑等听歌的机油。而百分之七的机油会听ogg,aac等小格式音乐,而只有百分之三的机油会听flac,APE等无损音乐),很少有人会听无损音乐,很大一部分原因是因为是目前的便携式播放器对无损格式支持的太少,即使有这样的产品也常常价格不菲,让人望而生畏。
有很多机油到现在都还对无损音乐不了解,甚至有点都还没听过(我有好多朋友都这样),今天我就简单的对现在的主流音乐格式介绍一下吧。
当人们把歌手的歌声录制成数字音乐的原文件时,那么此时的音乐文件是非常大的,这样不便于储存,于是人们便把它进行压缩,现在流行的几乎所有数字音乐格式都是经过压缩的,就像包括flac.APE等,只是他们各自的压缩编码方式不一样而已,我们常说的无损(flac.APE)那是无损压缩,而前面的那些MP3等小格式是有损压缩。
无损压缩就好像是把一块面包把它压扁,体积变小了,可是质量不变。我们所录下来的声音中,其实大部分因为频率太高或太低,是我们人耳听不见的(某些动物如蝙蝠,狗等能听见一部分),既然听不见那我们还留着干什么?于是我们就把这一部分听不见的声音数据删调,而留下的那一部分人耳能听见的音乐数据就会变得很小,便于储存,这种压缩方式我们叫做有损压缩(如MP3) 。
我们结婚了 珍惜夫妇那么无损和有损得音质差异在哪呢?
机油们是否有过这样的经历,同样的歌曲我们下一首MP3和一首flac,然后戴上耳机一听,却无论如何也不到音质上的区别!可是如果你听一整天的MP3和听一整天的无损,那将是不同的感受!听一整天的MP3耳朵容易疲劳,而听无损则没多大问题(只要你不睡着了,呵呵)!
这是什么原因造成的呢?这就是我今天所说的无损跟有损的音质差异了!我们知道,音乐是有节奏的,节奏与节奏是有差异的,如高音和低音之间无论这首歌有多么急骤或缓慢,它总会有个过度的,无损音乐的特点就是无论在节奏之间有没有声音(无论我们能不能听见),它的数据总是平稳流动,让你耳机里的磁快震动平稳,发出的声音自然而真实;而MP3等有损格式由于舍去了人耳听不见部分的数据,所以你耳机里的磁块震动不自然,导致有声音的时候震动,无声音的时候不震动,这样磁块震动过度不平稳,会产生毛刺的杂音,也许你听不见,但这样长时间听歌耳朵就会不爽啦(当然,有的好耳机也能避免这种毛刺音,可大部分机油买不起
)!
常常有人去嘲笑那些音乐发烧友,须知,听歌无罪,发烧有理!听无损的不一定发烧,但发烧的一定会听无损!
1.wav音频格式的三大参数,及各参数对于音频文件的含义
wav文件有4个参数,分别是采样频率,声道数,量化位数,以及码率共4个
而这4个参数里最好理解的就是声道数,所以不对此参数进行介绍
那么我将要介绍的参数就是采样频率F,量化位数B,和码率R
采样频率
在三个参数里面最重要的是采样频率,后面两个参数都是基于在传输存储过程中根据要求而得到的,唯独采样频率,它是把模拟世界的信号带到数字世界的桥梁。
在讲采样频率前,我们可以先回忆一下我们初中时学抛物线时的情景。
在初中时,老师教我们画抛物线时,是用什么方法画的??
如果大家回想起来的话,就应该记得,是5点法。
是的,用5个点就可以近似的把抛物线给画出来。
音频信号是啥米,其实是余弦波,只是这个余弦波的频率和幅值都是随时间的变量而已。
我们要对这个音频信号进行记录,不可能把每一时刻的值都记录,但是,我们可以参考画抛物线的方法,用尽量少的点去精确的描绘这个音频信号。
而采样频率,它干的就是这个活,也就是一秒内我们要记录这个音频信号多少个点,就能近似精确的表达这个音频信号。
在信号处理,有这么一个定理,叫奈奎斯特定理。
这个定理怎么得来,你们不用知道,这个是信号处理专业的人才需要知道,例如我。undefined
我们只需了解的是,这个定理它告诉我们,如果我们要精确的记录一个信号,我们的采样频率必须大于等于音频信号的最大频率的两倍,记住,是最大频率。
也就是
刘若英的老公是谁F>=2*fmax。
而在wav格式里,F=44.1kHz。
我们知道,人耳的听音频率范围是20-20kHz,也就是说,如果我们要精确记录这个音频信号,采样频率最低起码是40kHz。
至于为啥是44.1kHz而不是其他的频率,对不起,我也不知道。undefined
不过,起码我们能确定的是44.1kHz这个采样频率,可以精确记录小于22.05kHz的音频信号,这个是足够了。
量化位数
虽然有了采样频率,我们可以精确记录音频信号,然而,这些记录过的音频信号是模拟量,对于计算机而言,是无法处理的。
讲到这里,我们会出现一个新的概念,模拟量和数字量。
模拟量和数字量是有区别的,我简单的介绍一下。
例如0-1这个范围。
一个线段内我们可以任意的取一个点,这个点的值可以确定,这个点的取值范围可以确定,唯独这个点的可取值的个数无法确定,这就是模拟量。
一个可能取值个数无法
确定的量,计算机是无法处理的。
而数字量则是其余一样,第三点不一样,可取值的个数是可以确定的,这样,计算机可以处理了。
0-1这个范围,根据精度要求,我们可以确定需要取值的个数。
而量化位数,这是干这活,确定音频信号的一个记录点,它的取值的可能个数。
我们知道,wav的量化位数B是16,这个是一个2进制的位数。
他告诉我们,一个记录点可以取值的个数是2的16次方,也就是65536。
0-1-平分65536次,我想,这个精度也是够了。undefined
码率
现在,采样频率和量化精度都讲了,轮到码率,先喝口水先。undefined
码率是怎么得来的?非常简单,就是采样频率X量化位数X声道数,也就是R=F*B*2。
R=44.1kHz*16b*2=1411.2kbps~=1411kbps。
码率1411就是这么得来的,虽然码率是通过计算得到,但是,他却有一个确切的含义,就是一秒内它能存储的信息量,记住是信息量。
讲到这里,大家可能会联想到,MP3的320kbps,aac的512kbps,无损压缩格式的700+kbps。
然后有人疑惑,是不是,码率越大就越好??
对于有损格式而言,那么,码率越大是越好
然而,这里有一个前提,被转换的歌必须是从正版cd刻录下来的无损格式,并且转换是同一种有损格式,例如都是MP3。
文章为什么放弃姚笛不然,你用一个128kbs的MP3的歌转成320kbps码率的MP3,音质是不会有改善的。
对于无损压缩格式而言,码率的大小比较将没有意义。码率的大小只是告诉你,他的压缩算法是否足够好而已。
不过,我得提醒一句,这个码率的意义也就这样,他不能告诉你,这些保存的信息是好是坏,他只能告诉你,他存了这么多信息而已。
是的,他其实是一个仓库,他不管仓库里放的啥,他只管放满没。undefined
好了,到此,wav格式的三大参数都讲完了,也许会有很多人疑惑,为啥我先讲wav这个这么古董的格式,而不是MP3啊aac啦这些有损格式,或者flac、ape这些无损压缩格式。理由很简单,因为wav是最接近模拟量的数字量,是最原始的数据,后面的格式都是基于wav根据自己的特进行处理而已。而且,上面讲到的三个参数,后面的格式依然用到。自然,先把wav这个老大先介绍咯undefined
2.有损格式的压缩原理
在这部分里以及后面的无损格式压缩原理,我不专门对某个格式讲行介绍,而是介绍,这些格式是基于什么理念得到。
当我们了解wav格式三大参数的含义后,可能有人会疑惑,既然wav是最接近模拟量的数字格式,为啥还整来后面的有损格式和无损格式呢,直接wav多好啊。
是的,直接wav很好,然而,他的码率太大了。1411kbps,啥米概念,就是说一个10
秒的音频,居然要用到3.36MB去存储!!!、
在过去存储技术不发达的年代,这个量太大了,让人无法接收。
因此,必须压缩,必须把没用或者不重要的信息给去掉减少存储量。
因此,有损格式诞生了。undefined
那么,有损格式又是基于什么原理得到的,接下来就是我将要讲的内容。
银耳凉拌菜的做法对于一个音频信号而言,他是一个时间相关的信号,也就是说,前后两个记录点,他们有时间上的顺序。
然而,对于计算机而言,处理与时间相关的信息,这个不是强项。因此,必须对这个两个记录点的信息进行变换,变换成对时间顺序无关,彼此是独立的一个信息。
在这里,感谢早期那些数字信号处理的科学家,他们提供了这么个方法,就是快速傅里叶变换,简称FFT。
我们不需知道FFT是怎么来的,我们只需知道,一个信号经过FFT变换后,这个信号变成与频率相关的信息,而频率相关的信息,是可以被计算机处理。
我们可以回想一下,音频信号是一个个余弦波,处理一个余弦波无非是处理频率、幅值,初相角。
初相角我们不管,幅值和频率这个在经过FFT变换之后,就可以处理了。
经过FFT变换之后,如果用图来表示,就是频谱图。
我就来一张频谱图吧
这个频谱图的横坐标就是频率,纵坐标是对应频率的增益,或者理解成强度也行。
对于人耳而言,我们接受的音频信号大部分都集中在中低频部分,高频部分我们相对不是那么敏感。
既然这样,我们就可以把不敏感的高频部分,直接去掉,这样,就减少了信息量,这是方法之一。
还有另一个,对于音频信号而言,相邻的几个记录点,他们的取值范围是非常接近的。
既然非常接近,我们可以用一个平均值,以及取这个平均值的点的个数来记录。
举个例子,有5个记录点,0.45 0.446 0.461 0.45 0.447,我们可以用0.45(5)来记录。
这样,记录的信息量同样少了,其实还有其他压缩方法,但是,大概的意思是和上面两种方法差不多,就不介绍了。undefined
通过各种手法,我们把不需要的信息去掉,把不重要的信息用近似值代替,从而达到有损压缩。、
同样用码率这个参数做对比。
同样一个10秒音频,经过有损压缩后,其码率值为320kbp,则大小才787KB!!!为wav格式的五分之一!!!
用尽量少的数据,存储尽量多有用的信息,有损格式做到了!!!这也是为啥有损格式流行起来的原因。undefined
3.无损压缩格式的压缩原理
随着存储技术的发展,我们可以存储的信息量变得越来越大,存储wav格式变得毫无鸭梨了。
既然毫无鸭梨,为啥要推出无损压缩格式?
理由很简单,既然我40MB可以存储2首无损压缩格式,为啥我还存储1首wav格式,这不是跟自己过不去嘛。
所以,无损压缩格式发展起来了。
郭采洁图片
无损压缩格式和有损格式有个共同点,就是压缩。不同点是,无损。
那么,要怎么才能做到无损压缩呢,我们可以参考有损压缩的第二个方法。
举个例子,同样是5个记录点,0.4 0.4 0.5 0.5 0.3,如果要无损压缩,我们只需这样记录0.4(2),0.5(2),0.3(1)。
这样,我们只需用三个记录点,就能记录原来需要5个记录点,同样压缩了。
而且,做到无损压缩。这是其中一种思路,但是,他告诉我们,无损压缩对于信息处理而言,是可以做到的。
要完整记录一个音频,不需用到wav格式,无损压缩就行了。
同样用码率这个参数做比较,一个10秒音频,经过无损压缩后,码率值为727kbps,大小为1.73MB。大概为wav的一半。
大容量播放器支持无损压缩格式,小容量播放器则玩转有损格式,各有各的位置,技术发展确实是一件好事啊undefined
经常见到有人问wav、flac和ape是不是有区别,那么我就在这里做个总结。
经过上面的算法原理介绍,我们可以了解到,如果单纯从文件本身,wav和其他所有无损压缩格式在保存的信息上是无区别的。
在论坛上,经常会看到有人问无损格式相关的两个问题:无损压缩格式之间有没有区别和无损压缩格式与wav有没有区别。
第一个问题,我现在就可以回答,有。
但,区别不是在信息记录的完整程,而是其压缩算法以及算法所采用的格式的区别。
这也是为啥,同一首歌,ape格式比flac小,因为算法不同。
至于音质表现将会和第二个问题一起,在第五部分讲到
4.音频文件频谱分析
这一部分是对不同的音频格式以及同一音频格式不同的码率进行分析。
专门为那些选择哪种音频格式而烦恼的人提供参考的。
待分析的音频格式有MP3,aac三种格式,无损格式作为参考格式。
由于本人用fb转换,MP3格式只有vbr模式和最高的cbr320。所以,可能与大家熟悉的码率有所不同。
不过,我用括号标明了其对应的码率值,是个大概值,不一定准,不过可以参考。
MP3的码率有VBR的V5(~130kbps)V2(~190kbps)V0(~245kbps)和CBR的320kbps。
为了对应MP3的VBR模式,aac同样采用VBR模式
aac的码率有,q04(125kbps)q05(175kbps)q06(225kbps)q08(325kbps)q10(400bps)
之所以这么选择,是因为大家习惯的码率值有128kbps 196kbps 256kbps 和320kbps。
在选择MP3的转换模式时其参考码率尽量靠近习惯码率值。
因为aac在编码上比MP3优秀得多,所以aac的转换模
式是转换后的文件体积大小尽量接近MP3大小。
至于来个q10模式,则是与无损压缩格式做对比的。
先来张各音频格式与对应码率的文件体积对比图
[attach]76054[/attach]
事先说明,该音频文件截取的是eason的十年(40s-60s)这段范围,用的是网上下载的无损,截取软件用goldwave。
先来个体积分析。
显然,这里体积最小的是V5MP3(130kbps),对应是的q04aac(125kbps)。
第二档次是V2MP3(~192kbps)对应q05aac(175kbps)。
第三档次是V0MP3(245kbps)对应q08aac(225kbps)。
第四档次是cbrMP3(320kbps)与对应的q08aac(325kbps)。
传感器的原理
最后是q10aac(400kbps)与对应的flac。
假设原盘是正版的,则其对应的音质档次是低级、初级、中级、高级、以及最高。
先上最高级别的声谱图
无损声谱图
q10aac声谱图
先说明一下,横坐标是时间,纵坐标是频率,点的白度程度是对应时间与频率的声音强度。所以叫声谱图。
通过对比,我们发现,q10aac在声音的频率再现范围与无损无差别,干到22kHz无压力。
但是声音的频率再现强度则有缺陷,在一些时间段的频率声音强度缺失
上图
q10aac缺陷
红圈住部分则是缺失的部分。
可以看出,q10aac在细节部分依然无法完美记录(毕竟是有损),但是,从整体而言,其保留的信息已经非常接近无损。个人认为,作为高保真的格式,高码率aac是合格的。
然后是高级档次的声谱对比图
q08aac
320MP3
通过对比,我们可以发现,320MP3的声谱就是一刀切,把高于20kHz的频率都去掉,而q08aac则是干到22khz无鸭梨,在细节上,两者都差不多,我就不上图了,所以,这回合aac赢了。
中级档次声谱对比图
q06aac
v0mp3
到了中级档次,MP3格式在频谱再现范围达到19kHz,而aac则是18kHz。在声音细节方面,两者基本差不多,这回合,是MP3格式胜了。
初级档次声谱图
q05aac
v2mp3
在初级档次,MP3格式的频率平均在16kHz,不少能上到18kHz,而aac格式,同样如此。但是,在细节呈现方面,aac超过16kHz的声音比MP3多得多。
而低于16kHz部分,两者差不多。所以说,这回合aac赢了。
低级档次
q04aac
v5mp3
在低级档次,MP3是一刀切的到16kHz,而aac则是平均16kHz下不少能干到17kHz。
低于16kHz部分,aac记录的反而没有MP3完整。个人认为,这回合打和。
通过这次对比,我们可以发现MP3与aac在有损压缩的理念区别,MP3是在他能记录的频率范围内,尽量保留。
而aac则是牺牲低频部分细节