前面介绍的这些向量化字符串操作方法非常适合用来处理现实中那些凌乱的数据。下面将通过一个从不同网站获取的公开食谱数据库的案例来进行演示。我们的目标是将这些食谱数据解析为食材列表,这样就可以根据现有的食材快速找到食谱。
获取数据:https://github.com/fictivekin/openrecipes
由于书中提供的下载链接已失效,经过本人多方找寻,附上由作者之一最新提供的食谱数据文件。
数据下载(浏览器打开,右键另存为):https://s3.amazonaws.com/openrecipes/20170107-061401-recipeitems.json.gz