快看点丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

2023-04-25 11:06:17来源：腾讯云

试想一下，当我们在观看一段视频时，如果遇上字幕缺失，观感是不是会大打折扣？

(相关资料图)

近些年，短视频、直播等线上娱乐方式快速发展，直接拉动了旅游、电商、影视创作等行业新风潮；而要呈现出一段好的视频效果，不仅仅考验好的拍摄技法，后期处理也是重中之重。以视频字幕为例，有字幕的视频总能“一气呵成”的顺畅看完，而无字幕的，总令人觉得缺失了一种味道。事实上，纯手工添加字幕，也费时费力，面对较大时长与批量化字幕处理的，多少有些苦不堪言，那有没有更智能化的方式呢？

接下来，本文将分享一下，如何借助录音文件识别服务给无字幕视频自动生成字幕。

一、分析调研

给无字幕视频自动生成字幕，其实就是先对视频文件导出的音频文件进行识别，得到识别文字，再根据识别得到的文字与短句的时间信息处理得到视频srt字幕文件，在视频文件中导入srt字幕文件即可得到效果。

实现思路如下：

1.借助ffmpeg从视频中提取音频

2.调用录音文件识别服务，对音频文件进行识别

3.对识别得到的文字与短句的时间信息进行处理得到视频srt字幕文件

4.将命名相同的视频文件与srt文件放在同一目录下，用暴风影音或其他播放器打开，即可得到有字幕的视频。

二、代码开发

1.借助ffmpeg从视频中提取音频

项目使用了ffmpeg依赖，需先下载安装，并设置环境变量。之后就可通过引入subprocess库，执行ffmpeg命令，启动一个新进程，完成对音频的提取。

import subprocessdef extract_audio(video, tmpAudio):ret = subprocess.run("ffmpeg -version", shell=True)if ret.returncode != 0:print("请先安装 ffmpeg 依赖 ，并设置环境变量")returnret = subprocess.check_call(["ffmpeg", "-i", video, "-vn", "-ar", "16000", tmpAudio], shell=False)if ret.returncode != 0:print("error:", ret)

2.识别音频文件

在这里笔者选择的录音文件识别服务是腾讯云ASR的录音文件识别，通过调研，腾讯云的录音文件识别，可以在调用时直接根据语句之间的停顿智能断句、加标点，无需再调用其他接口进行语句拆分，同时返回结果数据也可根据不同需求进行多种选择，如是否过滤脏词、是否过滤语气词等。

服务具体详细信息这里不再赘述，详情见官方文档见腾讯云ASR。

(1)要访问腾讯云的服务，则需要SecertId与SecretKey，该API密钥可在API密钥管理页面新建与查询，稍后配置到config文件中即可。

笔者项目配置在tencent/config.py当中

class Config(object):OUTPUT_PATH = "/XXX/video-srt/audio/" #输出文件目录APP_ID = "******" # 对应上述APPIDSECRET_ID = "******" # 对应上述SecretIdSECRET_KEY = "******" # 对应上述SecretKey

(2)使用官网提供的sdk

找到腾讯云语音识别服务下的录音文件识别的API文档，滑动到下方，找到开发者资源，这里笔者选择调用Python SDK。

可以看到录音文件识别是个异步服务，可通过CreateRecTask接口发送录音文件识别请求，之后可通过DescribeTaskStatus接口查询识别结果。

笔者项目中函数create_rec、函数query_rec_task分别对CreateRecTask接口和DescribeTaskStatus接口进行了封装。详细介绍如下：

CreateRecTask：

在请求时除需传入EngineModelType（引擎模型类型）、ChannelNum（识别声道数）、ResTextFormat（识别结果返回形式）、SourceType（语音数据来源）等这些必选参数外，还可根据需要传入FilterDirty（是否过滤脏词）、FilterModal（是否过滤语气词）等参数。

该请求成功后将返回RequestId、TaskId等信息。

def create_rec(engine_type, file_url):client = create_client(Config.SECRET_ID, Config.SECRET_KEY)req = models.CreateRecTaskRequest()params = {"ChannelNum": 1, "ResTextFormat": 2, "SourceType": 0, "ConvertNumMode": 1}req._deserialize(params)req.EngineModelType = engine_typereq.Url = file_urltry:resp = client.CreateRecTask(req)logger.info(resp)requesid = resp.RequestIdtaskid = resp.Data.TaskIdreturn requesid, taskidexcept Exception as err:logger.info(traceback.format_exc())return None, None

这里需要注意两个参数：

一是，ResTextFormat。识别结果返回形式有三种，这里笔者因在后续生成srt文件时，还根据单句识别结果的标点进行了一层分隔，所以选用了“词级别粒度的详细识别结果(包含标点、语速值)”的形式，若是不需要多一层划分，可直接选用“识别结果文本(含分段时间戳)”的形势。

二是，SourceType。语音数据来源分为两种，分别是语音 URL和语音数据（post body），笔者这里选用的是语音 URL，具体实现为，将本地音频上传到腾讯云的cos存储桶中，则语音URL为固定地址+音频文件名，即可实现调用。也可通过其他方式得到音频的url。

import subprocessdef upload_file(tmpAudio):objectName = tmpAudio.split("/")[-1]ret = subprocess.run(["coscmd", "-s", "upload", tmpAudio, objectName], shell=False)if ret.returncode != 0:print("error:", ret)

DescribeTaskStatus：

在请求时需传入TaskId。

该请求成功后将返回RequestId和识别结果。

def query_rec_task(taskid):client = create_client(Config.SECRET_ID, Config.SECRET_KEY)req = models.DescribeTaskStatusRequest()params = "{"TaskId":" + str(taskid) + "}"req.from_json_string(params)result = ""while True:try:resp = client.DescribeTaskStatus(req)resp_json = resp.to_json_string()logger.info(resp_json)resp_obj = json.loads(resp_json)if resp_obj["Data"]["StatusStr"] == "success":result = resp_obj["Data"]["ResultDetail"]breakif resp_obj["Data"]["Status"] == 3:return False, ""time.sleep(1)except TencentCloudSDKException as err:logger.info(err)return False, ""return True, result

这里笔者将根据ResultDetail的信息生成srt文件，所以函数query_rec_task的返回值为DescribeTaskStatus接口返回的data中的ResultDetail。

3.处理识别结果生成srt字幕文件

笔者这里生成的srt文件除了根据调用接口已自动划分的句子进行时间的标注外，当自动划分的句子的长度较长时，还会根据当前句子的标点，结合ResultDetail中的OffsetEndMs、StartMs、EndMs等信息对句子进行再一次分割，避免字幕一行展示过多的情况。

def to_srt(src_txt):flag_word = ["。", "？", "！", "，"]basic_line = 15srt_txt = ""count = 1    for i in range(len(src_txt)):        current_sentence = src_txt[i]["FinalSentence"]        last_time = ms_to_hours(src_txt[i]["StartMs"])        len_rec = len(current_sentence)        if len_rec > basic_line:            start_rec = 0            last_time = ms_to_hours(src_txt[i]["StartMs"])             while(len_rec > basic_line):                flag = True                for j in flag_word:                     if j in current_sentence[start_rec:start_rec+basic_line]:                          loc_rec = current_sentence.index(j, start_rec, start_rec+basic_line) + 1                         flag = False                        break                if flag:                    loc_rec = start_rec + basic_line                current_txt = current_sentence[start_rec:loc_rec] + "\n"                 start_time = last_time                end_time = ms_to_hours(src_txt[i]["Words"][loc_rec]["OffsetEndMs"]+src_txt[i]["StartMs"])                if current_sentence[start_rec:] != "" and current_sentence[start_rec:] != None:                    srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_txt + "\n"                    count += 1                start_rec = loc_rec                last_time = end_time                len_rec = len(current_sentence[loc_rec:])            current_txt = current_sentence[start_rec:] + "\n"            start_time = last_time            end_time = ms_to_hours(src_txt[i]["EndMs"])            if current_sentence[start_rec:] != "" and current_sentence[start_rec:] != None:                srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_txt + "\n"                count += 1        else:            start_time = last_time            end_time = ms_to_hours(src_txt[i]["EndMs"])            srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_sentence + "\n"+"\n"            count += 1return srt_txt

这里srt文件最终生成的位置与Config文件中的OUTPUT_PATH相关。

4.得到有字幕的视频。

(1)原视频文件的名称需与srt文件相同

(2)选择打开方式

(3)有字幕的视频

至此，给无字幕视频生成字幕已经实现，完整工程代码放在附录中，除去修改一些配置，使用起来较为简便，欢迎感兴趣的同学前来使用！

附录

工程代码：https://github.com/ForestSkyzzx/video-srt

腾讯云智能录音文件识别：https://cloud.tencent.com/product/asr

标签：

热文推荐

快看点丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

近些年，短视频、直播等线上娱乐方式快速发展，直接拉动了旅游、电商、影视创作等行业新风潮；而要呈现出一
世界观热点：晨会纪要

第一时间提供各大券商研究所报告，最大程度减少个人投资者与机构之间信息上的差异，使个人投资者更早的了解
开启ap隔离就上不了网了（开启ap隔离能防蹭网吗）|新视野

1、打开ap隔离也不能防止网络蹭网。仅开启ap隔离并不能有效阻止他人上网。要防止上网，首先要设置复杂的安
2023年教师招聘考试每日一练第66期答案_热门看点

相关推荐：2023年教师招聘考试每日一练第66期1 【答案】C。中公教育解析：班主任接管一个教育基础较差的班
天天微头条丨呼和浩特首批治堵整改方案来了！

对于接打手机造成路口通行效率降低以及随意变道加塞的违法行为，交管部门已经加强路口监控探头的抓拍，路口
世界聚焦：沪指重返3200~3300点箱体

作者|丁臻宇，编辑|wjx来源：巨丰投顾、好股票应用巨丰观点4月24日，A股震荡走低，上证指数下跌0 78%，深证
精选！2022年我国举办经贸类展览超1800个

2022年我国举办经贸类展览超1800个
广交会进入第二期，轻工企业将成线下展览主角|世界看点

App4月25日消息，第133届广交会从4月15日至5月5日分三期举办，每期举办时间为5天。4月23日，第二期正式开展
中印举行第十八轮军长级会谈

2023年4月23日，中印两军在莫尔多楚舒勒会晤点中方一侧举行第十八轮军长级会谈。双方本着友好和坦诚的精神
焦点要闻：中国黄金协会：一季度我国黄金产量84.972吨，同比增长1.88％

据中国黄金(600916)协会最新统计数据显示：2023年一季度，国内原料黄金产量为84 972吨，与2022年同期相比增
大摩：FDIC抛售MBS或令市场陷入不确定性

据报道，摩根士丹利的分析师团队指出，美国联邦存款保险公司（FDIC）开始出售抵押贷款担保证券（MBS）之举
1-0又赢，2冠王射17脚，将改33年格局，令穆帅羡慕，2负米兰遗憾

在意甲第31轮比赛中，那不勒斯再次对决尤文图斯，首回合斯帕莱蒂带队在主场5-1大破“斑马军团”，令人始料
HDIC 2023第二届健康显示创新大会召开京东方艺云健康显示新品开启“械”字号时代世界新要闻

4月24日，由京东方艺云科技有限公司主办的“HDIC2023第二届健康显示创新大会暨京东方艺云健康显示新品发布
快消息！TheShy一语成谶，被Faker单杀三次，0-9结果赢下比赛，上单真不行

看了这局比赛，很多观众都感叹这个版本上单是真不行，之前TheShy曾在直播中说过，他觉得这个版本的上单太垃
1-0后，五大联赛变了，新历史第1现，皇马阻挡不了，梅西不用来？|全球今亮点

根据统计，“红蓝军团”距离西甲11场1-0取胜的纪录，只有1场比赛之差而已，同时也真切改变了五大联赛的格局
王曼昱王楚钦实际到手为何不到一半？国乒150万奖金分配方案出炉！樊振东孙颖莎能拿多少？

比起世乒赛单打，以及WTT大满贯赛和WTT世界杯总决赛，WTT冠军赛的积分和奖金并不算很高，但夺冠后35000美元
世界乒联最新排名！马龙陈梦澳门夺亚重返前三，樊振东劲敌上升快

陈梦在参加澳门冠军赛之前排名世界第四位，在本站比赛获得亚军拿到700积分，总分达到5765分，超越王艺迪的5
国网伊川县供电公司：多措并举抓实纪检干部队伍教育整顿工作

4月24日，国网伊川县供电公司开展了纪检干部队伍教育整顿集中学习。据了解，今年以来，该公司将纪检干部队
黄金巴巴托斯人马座高达模型-环球热点

无论是什么形态的巴巴托斯高达模型人气都很高，模友们喜欢用巴巴托斯高达模型进行各种改造。接下来为大家带
信达证券给予东方电热买入评级，23Q1收入稳健增长，期待预镀镍业务放量天天日报

信达证券04月25日发布研报称，给予东方电热（300217 SZ，最新价：5 53元）买入评级。评级理由主要包括：1）
【环球热闻】北京怀柔：多家高校为山区小学捐书

原标题：北京怀柔：多家高校为山区小学捐书4月23日是第28个“世界读书日”。北京市教育工会近日组织北京科
动画版《全职高手》曝预告， 7月8日在日本上映|环球速读

讲述18岁少年叶秋与好友苏沐秋，在网吧老板陶轩的协助下，组建了草根电竞战队“嘉世”，这群怀揣梦想的少年
世界今亮点！中国航天日航天员刘洋讲述“梦想的力量”

航天员,国航,学生,梦想的力量,刘洋
天天消息！全力拼经济各地在行动丨一季度河南全省四水同治项目开工近八成完成投资413.23亿元

4月24日，从省水利厅传来消息，我省四水同治项目建设进展顺利，今年一季度已经开工近八成，完成年度投资计
全球观点：【贵州日报评论员文章】提升贵州人才发展的辨识度影响力美誉度

　　辨识度、影响力、美誉度，是衡量品牌竞争力的重要标准。在求贤若渴、百舸争流的人才竞争中，提升辨识度
大干大支持多干多支持不干不支持，甘肃“真金白银”支持县域经济发展

大干大支持多干多支持不干不支持，甘肃“真金白银”支持县域经济发展
头条焦点：市民出行热度高涨看温州各地“五一”新玩法

泰顺，春日文兴桥。翁卿仑摄楠溪江，镬炉村，麦田。翁卿仑摄游学南浦溪。南风摄据温州南站最新预售车票数据
梅西与巴萨老队友共商未来西甲官方暗示回归在即

巴萨跟队记者罗梅罗爆料称，在席间几人谈到了未来规划，布斯克茨明确尔表示将会与巴萨续约一年，不过，罗梅
每日聚焦：张本智和目标曝光！视樊振东为最强对手，渴望世界第一+奥运金牌

首先张本智和被问到了目标，对于这个问题，张本智和明确表示，成为世界第一，但现在自己还没有这种信心，不
曼谷首日赛程！国乒迎3场中日对决，血战张本智和，林高远迎内战

具体赛程如下，11点00分林高远陈幸同对阵林诗栋蒯曼，11点35分袁励岑对阵周启豪，12点10分齐菲吴洋晨对

快看点丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

一、分析调研

二、代码开发

1.借助ffmpeg从视频中提取音频

2.识别音频文件

3.处理识别结果生成srt字幕文件

4.得到有字幕的视频。

附录

热文推荐

房产

家居

商业

要闻排行