一种基于Python的音乐检索方法的研究

出了“听歌识曲”。这个应用在国内众多的音乐类APP火热上线，受到社会媒体及大众的一致好评，比如网易云音乐，QQ音乐。用户可以通过这个功能识别当前环境里播放器里播放的音乐或别人哼唱的悦耳的音乐，从而第一时间留住音乐，丰富自己的最爱乐库。

21世纪随着大数据数字化经济的发展，2008年，shazam率先在iOS和Android上发布了APP，并且用最快的速度以领头羊的身份整合了iTunes/Amazon MP3store 歌曲购买服务，2013年，shazam被国外媒体评价为年度十大最受欢迎的手机应用，由此听歌识曲迎来了一波火热狂潮，音乐检索也成为各大网络科

技公司的重要项目之一。

1 音乐检索的研究现状

音乐检索按搜索的目标分类，大致可以分为两类，一种是检索乐谱，另外一种是检索音频。检索乐谱是把音乐转化成字符串的形式，而检索音频是将一段音频分割成小段，提取每一小段的听觉感知特征，通过比较特征序列来检索。音频的处理比字符串的效率高了许多。尤其是在复杂环境下采用声纹能够出其不意，达到事倍功半的效果。声纹是提取我们所需音乐的基频然后采用动态时间规整比较两个基频序列的相似度[1]。

2 音乐检索的意义及目的

音乐检索具有重大意义。作为一种重要的媒体资源，音乐的检索对于音乐数据库和数字图书馆建设有着非常重要的意义。网络上多媒体资源量非常巨大，人们需要高效的搜索引擎从浩如烟海的数据中出需要的音乐资源。另外，音乐检索在卡拉oK检索以及辅助视频检索等方面都有广阔的研究前景和巨大的应用价值。所以不论从科技发展还是从大众的娱乐的角度去看，音乐检索的意义深厚而且未来的任务次应用在KTV 里的点唱系统中，可以使点歌更加简便快捷，而不需要层层的选择。大大减少了失误的效率，提高速度，方便娱乐消遣；另外，哼唱检索技术应用于现有的音乐设备上，如MP3、音乐手机等，可以提供更加自动化及直观的搜寻。

3 音乐检索的研究方法

音乐检索的方法有很多，如基于文本的检索，基于哼唱的检索，基于发音的检索，基于指纹的音乐检索等等，下面针对其中的基于哼唱的音乐检索和基于指纹的音乐检索方法进行展开说明[3][4][5]。

■3.1 基于哼唱的音乐检索

如图1所示，该图是基于哼唱的音乐检索流程图，首先用户哼唱一段音乐，然后系统会帮助你进行处理检索，识别音乐的特征，与此同时自己数据库的信息与用户哼唱的音乐进行比对，以尽可能快的速度去探索，然后也同样进行特征提取，一路一路看哪部分会大量重合，建立好后近似匹配识别出最接近结果的那一个，最后向用户显示检索结果。哼唱检索的核心是基频序列之间的相似度匹配，由于用户哼唱的片段跟实际音乐片段不可能完全相似，所以哼唱检索是一种模糊匹配。针对模糊匹配，我们的研究方法很多，我们通常采用动态时间规整算法(DTW)进行处理，并可以配合GPU、FPGA等硬件进行加速。

■3.2 基于指纹的音乐检索

如图2所示，是基于指纹的音乐检索流程图，该流程大致过程如下：首先是利用FFT变换将原始的时域波形转换到频域，转换之后会得到一个频谱图，频谱图是一个三维图，X坐标是时间，Y坐标是频率，

Z坐标是能量；然后从频谱图中求得一系列极大值点，也就是求得了landmark；然后就是构造指纹，构造方法是将每一个landmark和

82 | 电子制作 2019年07月

www�ele169�com | 83

该landmark 对应的targetzone 构成一个指纹，这个targetzone 是人为指定的，一个指纹有三部分组成：两个

landmark 的频率和时间差；最后一部就是检索歌曲，通过

检索指纹库，从而返回要检索的歌曲。

图1 基于哼唱检索的音乐检索流程图

基于指纹的音乐检索是一种新型的音乐检索方式，它是

让用户录制一段正在播放的音乐，然后上传到服务器上进行匹配，最后就会返回检索到的歌曲，由于录制的是原始播放的音乐，因此基于指纹的音乐检索是一种精准匹配，而不是模糊匹配，这一点跟基于哼唱的音乐检索方式有很大的不同。基于指纹的音乐检索核心是从原始的波形音乐中提取指

纹，然后利用指纹进行匹配。

图2 基于指纹的音乐检索流程图

4 利用Python 进行听歌识曲实验

■4.1 听歌识曲实验流程

如图3所示，该图为听歌识曲的实验流程图，首先利

用librosa 库提取音乐搜索库歌曲的节奏点，并创建音乐节奏搜索库；然后将每首歌的名字和歌曲特征存放在一个字典中，以供测试识别时可以进行快速查，此处需要说明的一点是，我们保存的特征是连续两个节奏点的时间坐标的插

值；最后，我们打开一首待识别歌曲，通过电脑的麦克风对待识别歌曲进行录音，同样提取它的节奏间隔特征，并与音乐节奏搜索库中的所有歌曲进行序列匹配，利用动态时间规整(DTW)算法，[6]返回用来表征两个时间序列的距离，距离越小则歌曲相似度越高，从而打印输出与待识别歌曲最相

似的歌曲[7]。

■4.2 实验结果分析如图4所示，我用刘德华的笨小孩进行测试得到的实

验结果，实验发现程序可以很轻松就识别出来了笨小孩这首歌曲，输出的有待识别歌曲与音乐库中所有歌曲之间的时间

序列距离，并将距离最小的歌曲作为匹配的最相似歌曲，实验中笨小孩的时间序列距离是0.1603012，更好也是相对其他歌曲的时间序列距离最小。通过实验测试，发现实验有一个不足之处是，如果待识别歌曲不在音乐搜索库当中，此时仍然会将两个时间序列距离最小的歌曲作为识别到的歌曲，

因此这就对音乐检索库的歌曲量有一个更高的要求，这也是本实验需要改进的一个地方，随着检索库中歌曲量的增多，听歌识曲的精准度会进一步得到提升[8]。

图4 听歌识曲实验测试结果图

5 结语

本文开头简要讲述了音乐检索的发展历程，接着对它的

与目的进行回答分为两大种类检索音频和检索乐谱通过字

符串乐纹来编辑距离计算。音乐检索意义结合大众的娱乐和未来计算机行业的发展。研究方法上主要

针对哼唱检索进行大规模讲述，以实验为基础。但本文仍有不足在介绍方法是不能把音乐检索的功能检索和算法的具体实施操作讲的那么清楚，对于实验的次数较少，不能得到最精确的结果，对于未来的基于Python 的音乐检索我会在录音和音频频率以及

DTW 和landmark 算法上多下点儿功夫，做出更好的成绩[9][10]。

参考文献

＊ [1]张燕, 唐振民, 李燕萍，等. 基于内容的音乐检索综述[J]. 金陵科技学院学报, 2007, 23(2):25-29.

＊ [2]

王昉. 音乐检索现状及发展趋势研究[J]. 科技广场, 2008(3):65-68.

图3 听歌识曲实验流程图

（下转第85页）

首先建立的是机房模型，机房模型分为两个房间，机房的模型遵循由下至上的方法建立。检修工具模型比较复杂，建立模型时不仅要考虑必须和实物完全一模一样，而且还要考虑要实现和实物一样的功能，因此，每个模型都要根据具体的功能采取适当的方法进行建模。

■3.3 电力通讯故障检修培训过程实现

打开电脑进入Unity3d软件，打开工程项目，进入系统启动界面，进入系统启动界面之后，会有语音提示，提醒培训人员进入光纤焊接培训，然后用手柄扣动扳机发射射线点击开始培训，正式进入培训场景。

点击开始培训按钮之后，培训人员会置身于室内场景之中，培训人员通过控制手柄，操作多功能触摸板控制场景的左右，前后移动，当走到门前用手柄触摸左边的门禁打开门进入第一个房间，进入房间后移动到电脑旁用手柄触摸鼠标打开电脑，如果电力通讯线路有问题电脑会出现报警提示，培训人员通过控制手柄，操作抓取按钮抓取桌子上的光时域反射仪，抓住光时域反射仪进入第二个房间，培训人员来到第二个房间机柜前，先把光时域反射仪放在一旁，用手柄抓取机柜门，打开机柜，然后把光

时域反射仪放入机柜中。培训人员操作手柄使尾纤一端和设备连接，尾纤另一端和光时域反射仪连接，进行检测，连接成功之后，操作手柄查看光时域反射仪，培训人员可以根据光时域反射仪提供的位置准确的到线路损坏的位置进行维修。

培训人员根据光时域反射仪得到线路损坏的具体位置之后，携带维修工具到室外场景，到维修工程车，驾驶维修车到达指定维修地点进行维修。培训人员到达室外线路损坏的指定位置之后，打开维修车后备箱，取出维修工具，搭建简单的维修工作台以备接下来的维修操作。取出维修工具后依次按顺序摆放好熔接机、切割机、光纤、棉花团和光纤钳等工具。工具摆放整齐后，依次使用相对应的工具进行剥纤。剥纤之后需要用切割机进行切割，以备熔接。切割之后要先用棉花进行两次擦拭，然后进行熔接操作，在熔接的过程中，操作人员需要把熔接好的光纤放入机槽内进行处理，然后熔接处要套上透明胶管进行保护，至此熔接部分就已完成，接下来需要返回机房查看电脑报警是否解除。

■3.4 电力通讯故障检修培训结果实现

该系统首先在室内查询报警系统是否报警，如果报警从工具箱中取出检测工具到检测系统房间检测对故障进行定位，然后带上维修工具驾驶维修车辆到指定地点进行维修。结果如图1所示。

（a）登录界面（b）报警系统界面

手机mp3歌曲下载

（c）检测操作（d）维修操作

图1 电力故障培训系统

从最终实现的效果来看，电力故障培训系统完全再现了实际操作过程中的所有流程，首先操作人员在室内实现了对故障线路位置的准确检测，然后操作人员驾驶维修工程车到室外进行维修。在整个操作过程中都有语音提示和界面显示，用于规范操作人员的操作技能。通过本系统的培训，操作人员能够很快掌握电力故障检修的具体操作技能。

参考文献

＊ [1]俞云，黄鑫 .VR技术在变电站技能培训中的应用[J].电子技术与软件工程. 2017(24): 69.

＊ [2]陈丽丹，张哲，梁丰驿，刘蕴樟.基于VR设备的跌落式熔断器操作虚拟实训系统设计[J]. 实验技术与管理. 2017.34(9): 109-112.

＊ [3]宋星华. 基于哼唱的音乐检索[D]. 南京理工大学, 2008.＊ [4]佚名. 基于哼唱搜索的音乐检索系统研究[D]. 电子科技大学, 2015.

＊ [5]郭永帅. 基于音频指纹和版本识别的音乐检索技术研究[D]. 哈尔滨工业大学, 2014.

＊ [6]Shanker A P, Rajagopalan A N. Off-line signature verification using DTW[J]. Pattern Recognition

Letters, 2007, 28(12):1407-1414.＊ [7]态度哥. 听歌识曲,QQ音乐也行[J]. 少年电脑世界：高年级, 2014(6):21-21.

＊ [8]Faundez-Zanuy M. On-line signature recognition based on VQ-DTW ☆[J]. Pattern Recognition, 2007, 40(3):981-992.＊ [9], 周明全, 夏小亮，等. 音乐检索新方法的研究与实现[J]. 北京邮电大学学报, 2010, 33(3):62-66.

＊ [10]马希荣, 梁景莲. 基于情感音乐模板的音乐检索系统研究[J]. 计算机科学, 2009, 36(1):239-241.

（上接第83页）

www�ele169�com | 85

一种基于Python的音乐检索方法的研究

发布评论取消回复

最近发表

热门文章

标签列表