试着理解一下你的题目:有多篇英文文章,要查找计算出每个英文单词的出现频次,可以这样理解吗?想了个不太复杂的解决方案:
1. pdf先转成txt,如果文字可选,就直接复制或另存,如果不可选就用ocr识别后再转换。
2. 在文本编辑器(如word)中将空格全部替换为回车,目的是将文章转换为每词一行,可以先多次将2个空格替换为1个,避免出现空行,如果出现空行,可以用2个空行替换为1个空行进行批量删除。
3. 将所有单词复制到excel中,直接用数据透视表计算频次,或者增加辅助列计算。
试了篇短文,可行。
写程序?还是?你的目的是什么呢???感觉不是很简单,先文字识别,借助工具,然后拆分恩爱。单词,然后遍历,找重复
将多个PDF合并成一份
我可以帮到您,我在校的研究生,中外数据库可以找到这个文献,把您的邮箱发给我。我给您发过来、