github: code2497/3119005347 (github.com)
这个作业属于哪个课程 | < 网工1934-软件工程 > |
---|---|
这个作业要求在哪里 | 作业要求 |
这个作业的目标 | 代码实现论文查重,性能分析,psp记录 |
PSP | Personal Software Process Stages | 预估耗时(分钟 | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | 40 | 35 |
Estimate | 估计这个任务需要多少时间 | 35 | 20 |
Development | 开发 | 700 | 650 |
Analysis | 需求分析(包括学习新技术) | 500 | 600 |
Design Spec | 生成设计文档 | 20 | 10 |
Design Review | 设计复审 | 20 | 15 |
Coding Standard | 代码规范 (为目前的开发制定合适的规范) | 30 | 20 |
Design | 具体设计 | 15 | 5 |
Coding | 具体编码 | 150 | 200 |
Code Review | 代码复审 | 100 | 20 |
Test | 测试(自我测试,修改代码,提交修改) | 200 | 300 |
Reporting | 报告 | 60 | 40 |
Test Repor | 测试报告 | 60 | 30 |
Size Measurement | 计算工作量 | 15 | 10 |
Postmortem & Process Improvement Plan | 事后总结, 并提出过程改进计划 | 10 | 10 |
Total | 总计 | 1955 | 1965 |
1. word: 分词功能,并提供相似度计算接口
CalSimilarity类 : 继承word中TextSimilarity类,提供词权重计算、海明距离计算、分词功能以及最终的文本相似度算法
Hash类:提供simHash、hash算法
IOTxt:文件读写
Main:项目入口
simHash算法与hash算法
权重和最终相似度计算
可以看出消耗太大的主要是int[]、BigInteger和word分词包
由于word分词器的默认词典比较大,所以需要耗费较多的时间加载
各测试类如下
由于word分词包过于庞大,一些测试不得已超过4s
Jacoco覆盖率报告
CalSimilarity类覆盖率低的原因是seg分词函数为private以及构造函数无法覆盖
java -jar duplicate-checking-1.0-SNAPSHOT-jar-with-dependencies.jar C:\Users\code\Desktop\text\orig.txt C:\Users\code\Desktop\text\orig_0.8_del.txt C:\Users\code\Desktop\text\result.txt