当前位置: CNMO > 评测 > 正文

技术宅:浅谈Hi-Fi中的采样率和压缩率

CNMO 【原创】 作者:马俊杰,杨辰 2016-03-30 05:30
评论(0
分享

  【手机中国 评测】掐指一算,笔者也有一段时间没有更新Hi-Fi音频类技术解析文章,还记得之前承诺写一篇关于“采样率和压缩率”的文章分享给各位读者,一拖就是一两个月,不好意思,今天我们来解决这笔债务。根据大学物理知识,AD转换(模拟信号转换为数字信号)过程中需要经过采样、量化、编码三个步骤,其中前两个步骤和今天这篇Hi-Fi文章要讨论的采样速度和量化位数相对应。

技术宅:浅谈Hi-Fi中的采样率和压缩率

  还记得在之前的文章中,我们分享过下面这张原理图:

技术宅:浅谈Hi-Fi中的采样率和压缩率
声音的传播过程

  更多和手机Hi-Fi有关的文章,请参考:

  高保真还原 手机Hi-Fi芯片是噱头还是干货

  实用还是鸡肋 手机Hi-Fi音效剖析指南

  追本溯源 探究Hi-Fi和无损音乐之间关系

  带你领略Hi-Fi手机上视听功能之音频篇

  带你领略Hi-Fi手机上视听功能之视频篇

  如果对上面这些原理已经了解的读者,可以直接开始看下面的内容了:

技术宅:浅谈Hi-Fi中的采样率和压缩率
输入过程(采样率和压缩率)

  今天我们重点对输入过程中的采样率和压缩率进行探讨,也是声音的收集阶段。以往我们都将注意力集中在那些Hi-Fi芯片上,例如ESS的ES9018K2M芯片最高支持192kHz/32bit采样率歌曲的解码,有解码自然就有编码,也就是收集声音(录音)的过程。下面我们就从192kHz/32bit这个指标开始聊起。


采样速度和量化位数

  毫不夸张地说,主宰Hi-Fi音质准确还原的核心是录音过程,如果音源本身出现了问题,即使Hi-Fi芯片如何出色,解码得到的音乐也只是受损的音质。歌手们总不可能在嘈杂不堪的背景中录音,经过Hi-Fi芯片一回放就能够达到录音室那种天籁美声吧?所以音源录制环境很重要,除非你喜欢听刘德华或者陈奕迅在菜市场唱歌,否则你不会希望背景噪声比歌手的声音还要大。而采样率和压缩率就是对音源起关键作用的另外两个指标。

  采样率又分为采样速度和量化位数,回到192kHz/32bit这个指标上,192kHz就是采样速度,32bit就是量化位数。这对组合是能够经常变化的,理论上两个数值都是越高越好。

不同Hi-Fi芯片拥有不同的采样率

技术宅:浅谈Hi-Fi中的采样率和压缩率
常见的Hi-Fi芯片

  如上图所示,笔者挑选了几款比较有代表性的Hi-Fi手机解码芯片和各位读者分享一下采样率的内容,Cirrus Logic经典的CS4398和ESS为智能手机定制的ES9018K2M两块芯片相比较,前者能够解码最高用192kHz/24bit采样率采样的歌曲,后者则能够解码最高用192kHz/32bit采样率采样的歌曲,主要区别在于量化位数上。

  关于量化位数的标准定义,各位读者可以上网自行学习一下,今天我们用一个形象一点,不是十分严谨的比喻解释一下,同样采样速度的两首歌曲,例如都是192kHz采样速度下的《小苹果》,如何进一步突显其中一首歌曲的解析力更加丰富呢?

  会不会是听到“你是我的小呀小苹果儿”的时候,拥有“金耳朵”的读者会发现其中一首歌曲在音调上多了一些变化,众所周知,普通话只有四个音调,但是在唱歌时候我们未必会准确地发出阴平、阳平、上声、去声这四个音调,所以部分“金耳朵”的大神们往往会听到好像不止四个音调的情况,如果是乐器演奏,不同乐器加起来的音调肯定不止四个。量化位数更多的音频文件就能够听到更多的音调变化。

  另一个例子,上次我们讨论过范玮琪那首“一比一”歌曲,歌曲中出现了多个“一”字,“金耳朵”的人能够或多或少听到这些“一”字部分发音是一个调,部分发音就是另一个调,“木耳”的伙伴们可能听完整首歌曲,大概都会以为这些“一”字都在一个调上吧。至于究竟有多少个调呢?这就要问创作人才知道了。

  简而言之,量化位数越多,我们能够听到的高中低三频的种类可能越多,以低音为例,量化位数少的音频文件可能只能够听到低音和中低音,但是量化位数多的音频文件,我们能够听到更多层次的低音,例如轻微低音和重低音。聊到这里,估计你们也感觉到了,量化位数影响的就是音频界常说的动态范围。

  经常使用PS绘画的伙伴们也会发现,PS对于颜色空间的管理是有一套规则的,用8bit、16bit、256bit表示的颜色空间,其实逐步提高了颜色的层次感。量化位数少一点的颜色空间可能只有红、橙、黄几种暖色,但是随着量化位数不断增加,红色和橙色之间又会衍生出深红色、浅红色,进一步增加量化位数,深红色又在划分出深一点的深红色和浅一点的深红色。所以说拍照和绘画领域的部分知识其实是能够和音频界知识相关联的。

  回到录音的环节,CS4398和ES9018K2M就是有这种能力,能够将这些细节充分还原出来,对于那些“金耳朵”的发烧友算是福音了。需要注意的是,CS4398和ES9018K2M这两块芯片并没有集成ADC模块,还是上面那张表格,AKM的AK4961则同时集成了ADC和DAC、耳放在里面,这在之前的文章中也有介绍过。所以,搭载AK4961这颗DSP的手机,不仅能够解码(回放音乐)192kHz/32bit的音源,还能够编码(录制音频)生成192kHz/32bit的音源,这就是为什么某手机品牌在宣传自家手机Hi-Fi性能时候特别强调“达到专业的录音棚品质”缘故。

技术宅:浅谈Hi-Fi中的采样率和压缩率
AK4961同时集成了ADC和DAC功能

  接着我们聊聊采样速度的问题,还是用大伙熟悉的Hi-Fi芯片举例子,ES9018K2M采样率为192kHz/32bit,小幅升级版SABRE9018C2M采样率为384kHz/32bit,区别主要在采样速度上。

  一段声音的录制,我们首先需要将其从声波转为电信号,接着就是模拟信号转为数字信号的过程,如下图所示:

技术宅:浅谈Hi-Fi中的采样率和压缩率
自然界声音波形

  自然界声音用模拟信号表示时候是一条曲线,我们以前介绍过,需要先将其转变为数字信号才能够在信道上传输,这时候就需要确定其采样速度和量化位数,之后才能够编码成数字信号。

技术宅:浅谈Hi-Fi中的采样率和压缩率
用数字信号表示模拟信号第一步(不同采样速度)

  如上图所示,将这条曲线放在直接坐标系之中,我们能够给出每一个点的x和y坐标,但是能否穷举呢?答案是不行的,无论我们如何缩小点与点之间距离,0.1和0.2之间还是有0.11、0.12......这些点,0.11和0.12之间还是有0.111、0.112......这些点。虽然对上述这段曲线上每一个点都进行标注是不可能的,但是我们能够通过不断地增加点的坐标,从而无限逼近最完美的结果,什么结果?大伙将所有坐标点连在一起之后,是不是发现红色那条折线有点像黑色那条曲线,而且随着坐标点增加,这种相似程度越来越明显,右边的那张图红色折线和黑色曲线是不是比左边那张图更加形影不离?小结,用坐标点表示模拟信号的方式称为采样,这也是模拟信号转换为数字信号的第一步。

  以前我们介绍过,数字信号是离散型数值,模拟信号则是连续型数值,上面的例子再一次印证了这一结论,那么我们应该如何采样呢?像笔者上面这种做法其实是不科学的,我们需要有一定间距去采样,否则就会出现部分信号区域采样过分密集,部分信号区域采样过分稀疏,从而导致最终的折线不够平滑,影响了录音时候的音质。

  根据物理学定义,采样速度就是指每秒钟采用多少个点记录一段音频曲线,正如上文演示那样,采用的点越多,采样速度越高,获得的折线越接近原本的曲线。如下图所示:

技术宅:浅谈Hi-Fi中的采样率和压缩率
此图片来自互联网

  如上图所示,无论是采用多少个点进行采样,均采用了一定间隔进行采样。另外,每秒44.1k(4万4千1百)个采样点其实就是指44.1kHz采样速度,每秒192k(19万2千)个采样点则是指192kHz采样速度。

  前者就是当年CD所使用的采样速度,后者则是如今Hi-Fi手机热衷于追求的采样速度。

  由于篇幅所限,关于SRC问题留待以后有机会再聊。我们继续用生动的例子帮助各位读者理解采样速度,不严谨地打个比方,张三向李四说了一句话,刚开始的时候,现场环境比较嘈杂,李四只能够听到“我爱你”这三个字,两个大男人基情四射,吓得李四一身冷汗。当现场环境开始没那么嘈杂的时候,张三重新说了那句话,这次李四听到的版本是“我其实真的很爱你,么么哒”。李四已经频临崩溃的边缘,这时候环境终于比较安静了,张三再次说了那句话,“我其实真的很爱你们家的小猫咪,样子么么哒”。

  这个例子虽然比较离谱,不过正好表达了采样速度的重要性。采样速度太低会丢失很多细节,采样速度过高浪费硬件资源。44.1kHz这个CD采样速度其实是经过了很多科学实验之后,才确立出来的,一般“木耳”的朋友听这种采样速度的音频文件就已经觉得音质不错了。

  采样速度和量化位数其实等同于拍照时候我们需要先对照片选择分辨率大小(1300万像素、800万像素)和存储画质(例如:高、标准、低),说到这里,部分读者应该恍然大悟,其实就是所谓的精度。分辨率越高,存储时候画质越高(丢掉和压缩细节越少),生成的照片解析力越高。同理,采样速度越高,量化位数越多,生成的音频文件解析力也越高,至于你听不听得到,那是人耳结构的问题,和音源无关了,哈哈!

  最后补充说明一句,vivo Xplay5旗舰版上面首次使用了两块ES9028 DAC,支持对左声道和右声道获得的数据同时处理。而之前联想乐檬X3上面那两块解码芯片并不是同时间工作的,一块用于Standard Hi-Fi模式,另一块用于Turbo Hi-Fi模式。

压缩率的回顾

  聊完采样率,接着我们看看压缩率。之前介绍无损音源的文章,其实已经接触过压缩率这个概念,今天我们从另一个角度切入,进一步探究压缩率的内容,先看看下面的一些例子:

技术宅:浅谈Hi-Fi中的采样率和压缩率
128kbps和320kbps下音频文件容量大小相比

  同一首歌采用不同的比特率进行传输,存储容量大小可以相差接近5MB。这还只是有损格式(.mp3格式)的歌曲之间对比,我们看看无损格式和有损格式的歌曲存储容量可以相差多少?

技术宅:浅谈Hi-Fi中的采样率和压缩率
有损音乐和无损音乐间所占空间区别

  看完上面的对比,“木耳”的伙伴们是不是开始悔恨以前的自己听少了那么多细节?心中是不是已经立下誓言,从今不管听不听得到那些细节,一律只听无损格式音源?

  我们再看看四种常见无损格式音频之间的存储容量对比,如下图所示:

技术宅:浅谈Hi-Fi中的采样率和压缩率
无损音乐所占空间还是挺大的

  如上图所示,这三种无损音频在Windows中并没有显示出比特率,由于三首歌曲并不相同,所以不同格式文件之间容量大小不具有可比性,但是相比普通那些MP3歌曲,无损音频所占系统容量还是挺大的。当然,在某些手机系统的音乐播放器中,我们还是能够看到这些无损音频的比特率究竟是多少。

技术宅:浅谈Hi-Fi中的采样率和压缩率
在音乐播放器可以看到比特率(码率)

  最后一种无损音频格式WAV曲目,我们能够从Windows系统中直接看到它的比特率。拥有更高比特率的WAV文件正好解释了为什么无损音频相比有损音频的容量更大。

技术宅:浅谈Hi-Fi中的采样率和压缩率
MP3和WAV两种文件格式的区别

  那么什么是比特率呢?根据百度百科定义,比特率就是指每秒传送的比特(bit)数,单位是bps(bit per second)。比特率越高,每秒钟能够传送更多的二进制信息。作为消费者,我们只需要分清楚下面这四个专业术语的关系即可:压缩率、码率、比特率和采样率。

  码率和比特率其实就是同样的意思,而压缩率就是决定码率/比特率的关键因素,压缩率越高,码率/比特率就会越低,丢失的细节就会越多,一般来说,有损格式的算法都会选择将中高频细节进行删减,因为那部分的细节丢失,对于一般人耳朵来说都是察觉不到的,不排除“金耳朵”可能会察觉到。这就是Hi-Fi界前辈让我们多听无损格式、高码率的音乐的原因。

  在以前文章介绍过,FLAC、APE、WAV这些无损音源几乎没有经过压缩,或者只是压缩得很少,所以能够尽量地保留着录音时候原汁原味的音质。这就是指它们的压缩率低,码率高,而不是指采样率。采样率上文已经介绍过,分为采样速度和量化位数,192kHz和32bit这些数字才是属于采样率的,320kbps这种数字则是属于压缩率的。

  高采样率的音频文件用高压缩率进行加工之后,生成的MP3文件经常被吐槽音质差,问题不是出在采样阶段,而是在压缩阶段。同样地,低采样率的音频文件无论用什么无损格式进行保存,最终生成的音乐文件还是音质比较差。采样率和压缩率就好比食材和厨师,食材新鲜,还需要厨师手艺赞,两者缺一不可。

DSD和PCM两种编码方式

  众所周知,APE、FLAC和WAV三种无损格式的音频采用的是PCM编码,而第四种常见无损音频格式经常被人误称为DSD,其实DSD只是编码方式,和PCM对应,而DSD编码下生成的DIFF/DFF音频文件才是第四种常见无损音频格式,后缀为.dff。之前和各位介绍过,DFF这种音频格式是飞利浦和索尼合作的产物,索尼那边一般改称为DSF文件,其实都是指同一种无损音频格式。

技术宅:浅谈Hi-Fi中的采样率和压缩率
几种常见无损音频格式之间关系

  几种常见无损音频格式之间关系如上图所示,下面我们重点介绍一下PCM和DSD编码之间区别。

  笔者钻研了很久,觉得如果直接和各位读者介绍PCM和DSD编码原理上区别,大伙估计会关闭浏览器,肯定会关闭才对。所以还是举个生动一点,但是又不那么严谨的例子。

  excel大伙肯定会用,每个刚开始接触excel表格软件的伙伴们都会遇到如何区分绝对地址和相对地址的困惑,在公式中输入地址时候,如果你输入的是A1、B1这些具体的单元格名称,那么调用的将会是相对地址,而在A1、B1的字母和数字前面加上$符号之后,生成的$A$1、$B$1就会是绝对地址。那么我们延伸一下,将相对地址延伸到相对位置,绝对地址延伸到绝对位置概念。

技术宅:浅谈Hi-Fi中的采样率和压缩率
绝对位置(地址)和相对位置(地址)区别

  小明、小吉、小白、小黑排成一列,国哥想插进入这条队列,指挥官开始指示国哥应该插到哪里,我们先看看绝对地址(绝对位置)的情况,指挥官发出指令,请国哥插入到A5这个位置,或者让国哥插入到A4这个位置,小黑同学往A5这个位置挪动。

  我们再来看看相对地址(相对位置)的情况,指挥官这次换了一种表达方式,请国哥插入到小明同学后面的第四个位置,或者让国哥插入到小明同学后面的第三个位置,原位置那位同学往后挪动一个位置。

  看完上面这个例子,相信各位读者对绝对位置和相对位置的区别应该有所了解,接着我们套进去PCM和DSD编码中解释一下,上文我们提及到,经过了采样和量化两个步骤之后接着进入编码过程,PCM编码讲求的是将每一个点用绝对位置的坐标记录在直角坐标系中,DSD编码则是强调每一个点相对于上一个点发生的位置改变,很明显,前者是指绝对位置,后者是指相对位置。

  具体的编码原理不展开阐述了,毕竟不是本文重点内容,在计算机编程课程中,关于编码的内容可以用几节课时间介绍。简而言之,经过采样、量化和编码之后,无论是PCM那种绝对位置的描点,还是DSD那种相对位置的描点,最终将这些点连成一条折线的时候,我们能够发现其实都是一种用折线逼近曲线的方法,也就是用数字信号描述模拟信号的方式。

  总结:以前我们喜欢关注Hi-Fi芯片的参数,对于这些192kHz/32bit的指标尤为感兴趣,但是并不知道它们具体是指什么,通过阅读本文,大伙应该对采样速度和量化位数(统称为采样率),以及压缩率都有一定的了解。遇到以下的问题估计也能够自行解答了:

  很多年前被我们经常称为好音质的CD采用了44.1kHz/16bit的采样率,而如今很多标榜自己的采样率高达192kHz/24bit的MP3文件反而不如CD的音质,通过阅读本文之后,读者应该知道问题落在压缩率上。拥有相同数量歌曲的MP3文件相比CD压缩率高很多,码率/比特率相对低上不少,当然体积也相对更小,换来的代价就是丢失了不少中高频细节,这就好比即使用上了好的食材,厨师在加工时候大量流失了食材本身的鲜味,最终在饭桌上出现的贵价菜也沦为了大排档那种货色。

分享

加入收藏

网友评论 0条评论
用其他账号登录:
请稍后,数据加载中...
查看全部0条评论 >
火热围观
潮机范儿

Copyright © 2007 - 北京沃德斯玛特网络科技有限责任公司.All rights reserved 发邮件给我们
京ICP证-070681号 京ICP备09081256号 京公网安备 11010502036320号