关于这个crapID仓库:
在电视语音转文本(“ craption”)和将文本转换为“ crapID”的过程中进行实验,以匹配电视剪辑!
掷骰子:
使用非常基本的语音转文本包,我们从节目音频中制作了质量较差的字幕,又名“字幕”。
废话
使用标准的ubuntu(unix)OS软件包“ ”,我们提取每个Craptioned片段并将其哈希到一个约288字节的哈希文件。 我们称其为“ crapID”。 我们可以使用相同的“ simhash”程序比较两个废话ID并计算相似度(相似度的值[0..1])。 我对主C文件进行了一些修改,使其最终匹配速度提高了1000倍。 (为此将进行单独的回购)。
实验输入:
一群志愿者在美国电视录像的宾夕法尼亚州费城地区找到了电视政治广告,并发现了8000多个广告。
实验目标:
看看我们是否可以使用广告的“ crapID”来搜索整天或整个星期的节目,以查看是否