<a href="http://github.com/baidu/Familia">
<img style="vertical-align: top;" src="https://raw.githubusercontent.com/wiki/baidu/Familia/img/logo.png?raw=true" alt="logo" height="140px">
</a>
[![Build Status][image-1]][1]
[![License][image-2]]()
**Familia** 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型,以及这些模型在工业界的典型应用方式,助力主题模型技术的科研和落地。
## 应用介绍
**Familia**目前包含的主题模型的对应论文介绍可以参考[相关论文][3]。
主题模型在工业界的应用范式可以抽象为两大类: 语义表示和语义匹配。
- **语义表示 (Semantic Representation)**
对文档进行主题降维,获得文档的语义表示,这些语义表示可以应用于文本分类、文本内容分析、CTR预估等下游应用。
- **语义匹配 (Semantic Matching)**
计算文本间的语义匹配度,我们提供两种文本类型的相似度计算方式:
- 短文本-长文本相似度计算,使用场景包括文档关键词抽取、计算搜索引擎查询和网页的相似度等等。
- 长文本-长文本相似度计算,使用场景包括计算两篇文档的相似度、计算用户画像和新闻的相似度等等。
更详细的内容及工业界应用案例可以参考[**Familia Wiki**][4]
## 代码编译
第三方依赖包括`gflags-2.0`,`glogs-0.3.4`,`protobuf-2.5.0`, 同时要求编译器支持C++11, `g++ >= 4.8`, 兼容Linux和Mac操作系统。
默认情况下执行以下脚本会自动获取依赖并安装。
$ sh build.sh # 包含获取并安装第三方依赖的过程
## 模型下载
$ cd model
$ sh download_model.sh
* 关于模型的详细配置说明可以参考[模型说明][5]
我们会陆续开放不同领域的多种主题模型,来满足更多不同的场景需求。
## Demo
**Familia**自带的Demo包含以下功能:
- **语义表示计算**
利用主题模型对输入文档进行主题推断,以得到文档的主题降维表示。
- **语义匹配计算**
计算文本之间的相似度,包括短文本-长文本、长文本-长文本间的相似度计算。
- **模型内容展现**
对模型的主题词,近邻词进行展现,方便用户对模型的主题有直观的理解。
具体的Demo使用说明可以参考[使用文档][6]
## 注意事项
* 若出现找不到libglog.so, libgflags.so等动态库错误,请添加third\_party至环境变量的`LD_LIBRARY_PATH`中。
`export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH`
* 代码中内置简易的FMM分词工具,只针对主题模型中出现的词表进行正向匹配。若对分词和语义准确度有更高要求,建议使用商用分词工具,并使用自定义词表的功能导入主题模型中的词表。
## 问题咨询
欢迎提交任何问题和Bug Report至[Github Issues][7].
或者发送咨询邮件至{ familia } at baidu.com
## Citation
The following article describes the Familia project and industrial cases powered by topic modeling. It bundles and translates the Chinese documentation of the website. We recommend citing this article as default.
Di Jiang, Zeyu Chen, Rongzhong Lian, Siqi Bao and Chen Li. 2017. [Familia: An Open-Source Toolkit for Industrial Topic Modeling][8]. arXiv preprint arXiv:1707.09823.
@article{jiang2017familia,
author = {Di Jiang and Zeyu Chen and Rongzhong Lian and Siqi Bao and Chen Li},
title = {{Familia: An Open-Source Toolkit for Industrial Topic Modeling}},
journal = {arXiv preprint arXiv:1707.09823},
year = {2017}
}
## Copyright and License
Familia is provided under the [BSD-3-Clause License][9].
[1]: http://travis-ci.org/baidu/Familia
[3]: https://github.com/baidu/Familia/wiki/%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE
[4]: https://github.com/baidu/Familia/wiki
[5]: https://github.com/baidu/Familia/blob/master/model/README.md
[6]: https://github.com/baidu/Familia/wiki/Demo%E4%BD%BF%E7%94%A8%E6%96%87%E6%A1%A3
[7]: https://github.com/baidu/Familia/issues
[8]: https://arxiv.org/pdf/1707.09823.pdf
[9]: LICENSE
[image-1]: https://travis-ci.org/baidu/Familia.svg?branch=master
[image-2]: https://img.shields.io/pypi/l/Django.svg
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
2017年7月4日,百度开源了一款主题模型项目,名曰:Familia。 InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节。 什么是Familia Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。
资源推荐
资源详情
资源评论
收起资源包目录
Familia-master.zip (56个子文件)
Familia-master
.travis.yml 221B
run_show_topic_demo.sh 188B
run_query_doc_sim_demo.sh 211B
depends.mk 1KB
run_word_distance_demo.sh 199B
model
download_model.sh 384B
README.md 2KB
python
run_slda_infer_demo.sh 176B
run_query_doc_sim_demo.sh 196B
run_word_distance_demo.sh 186B
cpp
familia_wrapper.cpp 15KB
run_lda_infer_demo.sh 174B
demo
query_doc_sim_demo.py 1KB
topic_word_demo.py 1KB
word_distance_demo.py 1KB
lda_infer_demo.py 992B
slda_infer_demo.py 1KB
familia_wrapper.py 8KB
doc_distance_demo.py 1KB
README.md 1KB
run_doc_distance_demo.sh 175B
run_topic_word_demo.sh 183B
include
familia
document.h 3KB
util.h 3KB
tokenizer.h 2KB
semantic_matching.h 7KB
sampler.h 4KB
model.h 3KB
vocab.h 1000B
inference_engine.h 2KB
vose_alias.h 1KB
run_inference_demo.sh 175B
LICENSE 1KB
src
util.cpp 729B
vocab.cpp 1KB
semantic_matching.cpp 4KB
vose_alias.cpp 2KB
model.cpp 3KB
inference_engine.cpp 3KB
sampler.cpp 12KB
tokenizer.cpp 3KB
demo
topic_word_demo.cpp 4KB
inference_demo.cpp 3KB
show_topic_demo.cpp 5KB
doc_distance_demo.cpp 3KB
query_doc_sim_demo.cpp 4KB
word_distance_demo.cpp 2KB
document.cpp 3KB
AUTHORS 384B
.gitignore 105B
Makefile 3KB
README.md 5KB
proto
config.proto 751B
build.sh 68B
run_doc_distance_demo.sh 178B
run_topic_word_demo.sh 226B
共 56 条
- 1
资源评论
- 艾伦·布拉德2018-11-08怎么用啊,倒是说说
Antilogy
- 粉丝: 8
- 资源: 36
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功