基于Java实现的自动提取PDF论文文章标题作为该PDF的文件名源码+项目说明.zip

共27个文件

java：8个

xml：6个

jar：4个

版权申诉

毕业设计

课程设计

课程大作业

期末大作业

Java

5星 · 超过95%的资源 87 浏览量 2023-10-27 09:29:22 上传评论收藏 18.51MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Java实现的自动提取PDF论文文章标题作为该PDF的文件名源码+项目说明.zip （27个子文件）

PdfAutoRenameTools.iml 1KB

项目说明.md 697B

nlpr

cip

GetPaperName.java 2KB

Pair.java 528B

TextLocationExtender.java 3KB

utils.java 1KB

src

nlpr

cip

Pair.java 528B

TextLocationExtender.java 3KB

Main.java 2KB

utils.java 1KB

out

artifacts

PdfAutoRenameTools_jar

PdfAutoRenameTools.jar 9.52MB

production

PdfAutoRenameTools

nlpr

cip

Main.class 4KB

utils.class 2KB

TextLocationExtender.class 5KB

Pair.class 848B

.idea

project-template.xml 89B

description.html 97B

artifacts

PdfAutoRenameTools_jar.xml 778B

misc.xml 491B

compiler.xml 169B

modules.xml 276B

.gitignore 47B

encodings.xml 159B

pdfbox-app-2.0.23.jar 9.46MB

fontbox-3.0.0-RC1.jar 1.52MB

commons-logging-1.2.jar 60KB

META-INF

MANIFEST.MF 49B

package nlpr.cip; import java.io.*; import org.apache.pdfbox.text.*; import java.util.stream.*; import java.util.*; public class TextLocationExtender extends PDFTextStripper { public List<Pair> wordSizes; public TextLocationExtender() throws IOException { this.wordSizes = new ArrayList<Pair>(); } @Override protected void writeString(final String string, final List<TextPosition> textPositions) throws IOException { float max_font_size = -1.0f; for (final TextPosition textPosition : textPositions) { if (textPosition.getFontSizeInPt() > max_font_size && textPosition.getDir() == 0.0 && !string.equals(" ")) { max_font_size = textPosition.getFontSizeInPt(); } } if (max_font_size > 0.0f) { //System.out.println(string + " " + max_font_size + " " + textPositions.get(0).getX() + " " + textPositions.get(0).getY()); this.wordSizes.add(new Pair(string, max_font_size, textPositions.get(0).getX(), textPositions.get(0).getY())); } } public String getTitle() { final List<Float> valid_pos = this.get_title_y_position(); final List<String> char_lst = this.wordSizes.stream().filter(x -> valid_pos.contains(x.getY())).map(Pair::getCharacter).collect(Collectors.toList()); final String title = utils.JoinString(char_lst, " "); return title; } private List<Float> get_title_y_position() { final float max_title_font = this.get_max_font(); //System.out.println(max_title_font); final Set<Float> output = this.wordSizes.stream().filter(wordSize -> wordSize.getFontSize() >= max_title_font).map(Pair::getY).collect(Collectors.toSet()); // System.out.println(" "); // for (Float y: output) // { // System.out.println(y); // } // System.out.println(" "); final List<Float> valid_position = output.stream().sorted().limit(3L).collect(Collectors.toList()); final List<Float> output_position = new ArrayList<Float>(); float title_size = Float.MIN_VALUE; for (Float y: valid_position) { //System.out.println(y); //System.out.println("test"); //先找到这个位置的字体大小 for (int i = 0; i < this.wordSizes.size(); i++) { Pair p = (Pair)this.wordSizes.get(i); if (p.getY() == y) { if (title_size == Float.MIN_VALUE) { output_position.add(y); title_size = p.getFontSize(); //System.out.println(title_size); } else if (p.getFontSize() == title_size) { output_position.add(y); } break; } } } return output_position; } private float get_max_font() { final List<Float> list = this.wordSizes.stream().map(Pair::getFontSize).distinct().sorted(Comparator.reverseOrder()).collect(Collectors.toList()); //list.forEach(System.out::println); return list.get(list.size() / 3); } }

评论收藏

内容反馈

版权申诉