ByteCup2018国际机器学习竞赛23名（水滴队）代码.zip资源-CSDN文库

共77个文件

py：19个

pyc：19个

txt：17个

需积分: 5 86 浏览量 2024-05-08 10:09:35 上传评论收藏 963KB ZIP 举报

【标题解析】：“Byte Cup 2018国际机器学习竞赛 23 名（水滴队）代码.zip” 这个标题揭示了我们关注的是一个关于机器学习的竞赛项目。"Byte Cup 2018" 指的是由字节跳动公司主办的2018年机器学习竞赛，这通常是一个旨在推动技术创新、吸引全球顶尖人才的比赛。而“23名（水滴队）”意味着这个压缩包中的代码是参赛队伍“水滴队”的作品，他们在比赛中获得了第23名的成绩。【描述解析】：“Byte Cup 2018国际机器学习竞赛 23 名（水滴队）代码.zip” 描述与标题相同，再次强调了这是参赛队伍“水滴队”在Byte Cup 2018竞赛中的代码提交，他们最终排名为第23位。这个描述虽然简洁，但暗示了我们可以期待看到一套完整的机器学习解决方案，包括模型训练、数据处理、特征工程等部分。：由于没有提供具体的标签，我们无法直接得知具体涉及的技术领域，但从标题和描述中可以推测，此压缩包可能包含以下标签：机器学习、深度学习、算法、数据竞赛、Python编程、数据预处理、模型评估等。【文件名称列表】：未提供具体的文件列表，但根据一般的机器学习竞赛项目，我们可以预期以下常见文件和文件夹： 1. 数据集：通常包含训练数据和测试数据，可能有CSV或JSON格式的文件。 2. 数据预处理脚本：用于清洗、转换和标准化原始数据，可能是Python或R语言的脚本。 3. 特征工程：创建新的特征或处理现有特征的代码。 4. 模型文件：包含了参赛团队使用的各种机器学习模型，可能包括神经网络、随机森林、支持向量机等。 5. 训练脚本：执行模型训练的代码，可能涉及参数调整和超参数优化。 6. 预测脚本：对新数据进行预测的代码。 7. 结果提交：按照比赛要求格式化的预测结果文件。 8. 读取和评估脚本：用于读取测试数据、生成预测并评估模型性能的代码。 9. 日志和报告：记录训练过程、模型性能和团队策略的文档。这个压缩包作为一个完整的机器学习项目实例，对于学习者来说极具价值。通过研究这些代码，可以了解实际竞赛中如何处理大数据、优化模型以及如何在有限的时间内提高预测精度。同时，也可以学习到团队协作、代码组织和文档编写等方面的经验。

资源推荐

资源详情

资源评论

收起资源包目录

Byte Cup 2018国际机器学习竞赛 23 名（水滴队）代码.zip （77个子文件）

content

src

__init__.py 0B

.DS_Store 8KB

replay_buffer.pyc 12KB

helper

newsroom_data_maker.py 7KB

cnn_dm_data_maker.py 4KB

README.rst 4KB

cnn_dm_data_merger.py 5KB

cnn_dm_downloader.py 3KB

filter_files.txt 665KB

decode.py 12KB

rouge_tensor.pyc 7KB

util.py 2KB

attention_decoder.py 39KB

inspect_checkpoint.py 1KB

attention_decoder.pyc 22KB

replay_buffer.py 10KB

model.py 50KB

beam_search.py 10KB

rouge_tensor.py 7KB

dqn.py 6KB

data.pyc 12KB

data.py 13KB

batcher.py 18KB

rouge.py 11KB

file_spliter.py 843B

batcher.pyc 15KB

__pycache__

beam_search.cpython-35.pyc 8KB

util.cpython-35.pyc 2KB

replay_buffer.cpython-35.pyc 10KB

dqn.cpython-35.pyc 6KB

batcher.cpython-35.pyc 15KB

decode.cpython-35.pyc 10KB

attention_decoder.cpython-35.pyc 21KB

rouge_tensor.cpython-35.pyc 6KB

model.cpython-35.pyc 34KB

__init__.cpython-35.pyc 175B

data.cpython-35.pyc 11KB

rouge.cpython-35.pyc 10KB

model.pyc 36KB

rouge.pyc 11KB

run_summarization.py 54KB

filter_files.txt 665KB

.idea

vcs.xml 180B

results

rising_sample_r .txt 1KB

rising_greedy_r.txt 1KB

base_eta=0_lr=0.15.txt 1KB

base_dropout_0 .8 5.txt 1KB

history

lr=0.0001 383B

base_no_temporal_attention 1KB

baseline.txt 1KB

base_eta=0_lr=0.15 1KB

risng_greedy_rouge_lr=0.15 415B

risng_greedy_rouge_lr=1 403B

lr=0.05 375B

noself_critic_lr=1 411B

scripts.txt 6KB

base_p=1_no_temporal.txt 1KB

lr=10 367B

rising_greedy_r_no_temporal_after_pre-train.txt 1KB

base_sample_p=1 1KB

nointradecoder-notemporal-withpretraining-after-RL.txt 1KB

lr=0.15 415B

avg_reward_lr=0.15 388B

lr=1 363B

lr=100 371B

sample_p=1_after_pretrain 1KB

policy_gradient 3KB

sample_p=1_lr=0.15 1KB

AC_DDQN 2KB

code_test 419B

nointradecoder-notemporal-withpretraining-before-RL.txt 1KB

base_dropout_0 .8.txt 1KB

new_rising_greedy_r_lr=1.5.txt 2KB

base_dropout_0 .7.txt 1KB

base_dropout_0 .9.txt 1KB

rising_greedy_r_dropout_0.9.txt 1KB

README.md 4KB

这个仓库是[字节跳动比赛 Byte Cup 2018，自动生成新闻标题](https://biendata.com/competition/bytecup2018/)，水滴队（最终成绩23名）的代码。有关比赛的总结，欢迎移步博客：https://blog.csdn.net/taoyafan/article/details/84879285 ## Requirements python3.5 或以上 tensorflow 1.12（接近的几个版本应该也可以） ## 程序说明修改自程序[**RLSeq2Seq**](https://github.com/yaserkl/RLSeq2Seq) 主要改动如下：（1）更换 python 版本为 python3。（2）对 policy gradient 部分进行了大量的修改，原程序存在很多错误，如计算 ROUGE 时没有将 decode mask 去掉，前向计算时 greedy 和 sample 没有分开，decode 的输入也是一样的。（3）训练的同时增加 eval，并保存在验证集效果最好的最后三个模型。（4）增加对[**pointer-generator**](https://github.com/abisee/pointer-generator)的模型的兼容性，可以直接使用其预训练模型。（5）对 policy gradient 的修改，将论文[A Deep Reinforced Model for Abstractive Summarization](https://arxiv.org/abs/1705.04304)中的公式（15）改为 $$ L_{rl}=(r(y^{s}) - r(y^{g}))\sum_{t=1}^{n'}{\rm log}p(y_{t}^{g}|y_{1}^{g},...y_{t-1}^{g},x) $$ 即将 sample 得到的结果当做 baseline，根据 greedy 得到的结果对来计算梯度。 ## 使用说明参考程序[**RLSeq2Seq**](https://github.com/yaserkl/RLSeq2Seq) 和 [**pointer-generator**](https://github.com/abisee/pointer-generator)，他们介绍的很清楚，只是这里只用在比赛中，生成的标题较短，且数据集来自官方。数据的预处理参考 cnn-dailymail 中的 [**make_datafiles.ipynb**](https://github.com/taoyafan/cnn-dailymail/tree/master/bytecup)。 ### 文件说明 [src](https://github.com/taoyafan/abstractive_summarization/tree/master/src) 中为源代码，其中[run_summarization.py](https://github.com/taoyafan/abstractive_summarization/blob/master/src/run_summarization.py)为主程序。 [results](https://github.com/taoyafan/abstractive_summarization/tree/master/results)中为不同模型的运行命令（参数）。 ### 参数说明基本命令同[**RLSeq2Seq**](https://github.com/yaserkl/RLSeq2Seq)，增加参数如下： | 参数 | 说明 | | -------------------------- | ------------------------------------------------------------ | | convert_version_old_to_new | 为 True 时可加载 [**pointer-generator**](https://github.com/abisee/pointer-generator) 提供的预训练模型 | | eval_data_path | 验证集路径 | | dropout_keep_p | 在 encoder 和 decoder 的 LSTM 的 cell 中增加 drop out，对 input、output 和 state 使用相同的 keep_p，默认为1，即不使用 drop out | | rising_greedy_r | 为 True 时 policy gradient 使用更改后的公式，即目标为提升 greedy 得到的 reward，为 False 时为原公式，但是占用显存增大一倍 | ### 运行说明在 results 中寻找对应模型的命令，如基准模型 [base_eta=0_lr=0.15.txt](https://github.com/taoyafan/abstractive_summarization/blob/master/results/base_eta%3D0_lr%3D0.15.txt) 在训练时执行命令： ``` python3 run_summarization.py --mode=train --data_path=../finished_files/chunked/train* --eval_data_path=../finished_files/chunked/test* --vocab_path=../finished_files/vocab --log_root=../log --exp_name=base_eta=0_lr=0.15 --batch_size=20 --use_temporal_attention=False --intradecoder=False --eta=0 --rl_training=True --lr=0.15 --sampling_probability=0 --fixed_eta=True --scheduled_sampling=True --fixed_sampling_probability=True --greedy_scheduled_sampling=True ``` 经过实验 drop out 取 0.8 时效果最好，不过最终没来得及使用，最终成绩所使用的模型为：基础模型（有pointer_gen，无coverage，无rl），然后使用 policy gradient。

评论收藏

内容反馈