pdf内嵌的文字没办法转换出来啊。。。我用的Solid Converter PDF转换出来只有图片没有文字啊。。

2024-11-17 06:13:05
推荐回答(3个)
回答1:

如何将PDF格式转换为WORD文档
经常在PDF形式上看到有好的文件时,想把它拿出来,但是却是不行,所以我第一步就是找一下有没有可以到PDF格式与WORD文档的转换,在网上找了一下,原来还真的有很多,今天我就把这些方法也传上来,不过我也发现一个问题,就是如果PDF本身是图片的话,那也没办法转换,不知道还有没有其它方法可以把PDF图片格式也转换过来那就最好了,不过还是希望Adobe Acrobat 公司在开发上能够和OFFICE 相结合,那对我们来说使用就更方便了.

1、实现工具:Office 2003中自带的Microsoft Office Document Imaging

应用情景:目前国外很多软件的支持信息都使用PDF方式进行发布,如果没有Adobe Reader,无法查看其内容,如果没有相关的编辑软件又无法编辑PDF文件。转换为DOC格式则可以实现编辑功能。尽管有些软件也可以完成PDF转换为DOC的工作,但很多都不支持中文,我们利用Office 2003中的Microsoft Office Document Imaging组件来实现这一要求最为方便。

使用方法:

第一步:首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。

编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。

第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。

编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。

2、实现工具:Solid Converter PDF

应用情景:利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转Word文档在一定程度上的确可以实现PDF文档到Word文档的转换,但是对于很多“不规则”的PDF文档来说,利用上面的方法转换出来的Word文档中常常是乱码一片。为了恢复PDF的原貌,推荐的这种软件可以很好地实现版式的完全保留,无需调整,而且可以调整成需要的样板形式。

使用方法:

1、下载安装文件Solid Converter PDF,点击安装。

编辑提示:安装前有个下载安装插件的过程,因此需要保证网络连接通畅。

2、运行软件,按工具栏要求选择需要转换的PDF文档,点击右下的“转换”(Convert)按扭,选择自己需要的版式,根据提示完成转换。

一,PDF转换WORD篇
如何提取PDF中的文字,图片等特效
我们日常工作学习中有关的学术论文或学术报告或者课程教材等等都以pdf格式保存,如何把它们转换成可编辑的word文档或者提取相应的重要信息。网上有不少 pdf 到 word 的转换软件或插件,可是大都对英文等识别姣好,一些繁体的软件又不适合我们,我们可以利用office2003的组件microsoft office Document Imaging可以实现从PDF中任意提取任何页面的文字和图像等功能。
先来介绍一下最简单的提取方法吧,打开PDF的文件资料,利用本身的文本提取工具可以完全提取了,但是有的PDF是增加了128位秘钥的,想要提取是不会那么简单的,即使用软件或者简单复制的时候,出来的效果却是乱码之类的东西。
而且单纯的用文本工具只能把PDF中的文字提取出来,其他的特效:图片等是无法显示出来的,首先看一例文本提取:
我想提取下图的文字:具有SAP的企业系统。

直接在ADOBE READER 的“工具”选项那就轻松可以实现:

或者直接利用快捷方式中的图形直接提取就可以了:

直接提取的效果就是我们通常所说的“复制”到“粘贴”,文字东西少还是可以,如果有300页的PDF我怕只有“傻瓜”才会那么做吧!呵呵!玩笑!下面的图片我们怎么办(举个例子)如果是报表的数据图呢?如何人、放到WORD里呢?

所以只有求助office2003的组件microsoft office Document Imaging的功能了,即使它不是最好的,在ADOBE READER 那有一个“打印机”的图标,进入后来到如下的画面,在名称那选择“microsoft office Document Imaging”,下面还有设置的打印范围,可以选择所有的PDF文件或者选择想要提取的页面也可以,或者指定多少页到多少页都是可以实现的,页面处理功能就是保持页面的大小或者根据你要打印的纸张的大小选择就可以了,页数就是处理后的页数。

根据需要我最后进行了选择,什么都保持原来的大小和清晰度等,然后我们确认就可以了:

之后会出现“保存”的对话框,注意下面的文件名,可以更改或者改变的,但是下面的保存类型千万不要变,保持MDI格式就可以了:

之后会出现所预览的页面,也就是你上面选择参数后的结果,这时候的图片和PDF还是一样的:

之后在[color[red]“工具”这个选项上选择“将文本发送到WROD”这个选项:

然后出现一个可选择的对话框,选择的时候要注意选择“输出时候保持文件不变”,然后保存到想要的位置:

如果机器之前设置了OCR擦件选项,需要更新的,不过不要紧的,系统会自动给你安装的,选择确定就可以,时间也不会很久的,我的机器3秒OK了:

然后安装开始:

之后就是安装的进度条了,很快安装OVER,功能可以用了:

最后呈现在你面前的就是转换后的文字了,其实应该是黑色字体,5号字的大小的,我从新给调整了和以前的模式,是不是一样的呢?
图片的实现和文字的实现是一样的,不过WORD一定要支持图片模版的,2003版本的可以,2000没尝试,经过很多的使用,可以说95%的文字都是可以清晰的提取出来的,这点没问题的!呵呵!

二,WORD转换PDF篇
利用5D PDF CREATER 转换PDF
WORD转换到PDF可以实现的软件简直太多了,但是本人在学习应用的时候觉得还是5D-PDF最好不过了,毕竟支持微软的产品实在是太少了,相对这款软件才真正实现了WORD PPT EXCEL FRONTPAGE等众多OFFICE软件的转换,而且效果和速度都是一流的。
首先还是用WORD或者PPT等打开我们需要转换的文件,这里以WORD为例子,就是我编写的这个帖子吧:

然后在“文件”选项那选择“打印”的选项:

之后来到打印的属性窗口中,在这里可以有很多属性可以供我们选择,可谓是功能强大啊,在名称中选择“5D PDF CREATER”,打印内容中可以选择本版面的文字和所有版面的文字等,而且还可以设置页数和大小,想变成什么样的PDF都可以,而且在打印机属性中还可以设置变成PDF后的颜色,使它更加个性化:

另外在“打印”属性中可以有如下选择,调节A4的纸张大小和形状,打印成PDF的文字。XML信息等等,而且选择隐藏和背景色,最后确定:

最后会弹出对话框,我们可以更改文件名,保存的类型也很多,大家可以自己尝试的,我们在这变换的是PDF形式,下面的就是5D PDF CREATER最强大的地方了,我们选的是“PRESS READY”这里可以自己研究着,里面有好多想不到的东西呢!呵呵!最后确定:

最后我们看看转换的效果吧,由于我没有加任何的特效所以很一样的,大家可以根据自己的爱好著名自己的信息等等,防止别人更改等,很多人性的东西:

3.ScanSoft PDF Converter For Microsoft Word
我们平时下载的资料中,有许多都是以PDF格式发布的,但有时需要将PDF文档中的信息转换到Word中进行编辑,使用复制粘贴的方法虽然可以将文字、图片等信息转移到Word中,但是原PDF文档中的格式、字体等信息就会丢失,编辑起来很不方便,我们可以使用ScanSoft公司发布的“PDF Converter”插件来完成从PDF文档向Word文档的转换工作。
下载并安装“PDF Converter”后,将Word文档的“打开”对话框的“文件类型”改为“所有文件”,使用Word加载PDF文档,插件会自动启动并进行转换,转换后的格式、图片位置等信息基本上可以保持原有PDF文档的风格。
说明:
文中介绍的插件和模板都是基于Word2003的。大部分第三方插件都是基于Word中的宏来嵌入和运行。Word2003出于对文档安全性的考虑,将宏的安全性默认为“高”,使得一些第三方插件无法运行。您在使用本文介绍的插件时,可以将Word2003中的“宏安全性”设置为“中”。
具体设置方法为:打开一个Word文档,将||下的“安全级”设置为“中”。在运行下面介绍的插件时,Word会弹出“安全警告”对话框,如果确认是自己所安装的插件,就可以单击“启用宏”来运行此插件。

4.举办国际会议,有时候会遇到外国参加者无法阅读我们制作的pdf文件
那是因为我们用中文系统,转化之后,对方无法辨识中文字符集。
这时候可以用嵌入字体和调整颜色设置来解决,当然,相应的,文件也会变得比较大。
具体操作如下:
1,安装acrobat 完整版(不是Acrobat Reader,是Acrobat)。
2,打开word(ppt)文档 。
3,单击菜单中“文件”,选择“打印” 。
4,在打印机中选择 Acrobat Distiller,单击右侧的“属性” 。
5,点到“Adobe PDF 设置”,选择“编辑转换设置” 。
6,点到“字体”,把“嵌入所有字体”打上勾(这一步很关键啊!)。
7,点到“颜色”,把”设置文件“从“无”改为“欧洲印前默认设置”(关键!关键!) 。
8,点击右侧的“确定”或者“另存为”,都会跳出对话框,让你保存当前设置。(选个好记的名字吧,比如gUT)
9,存好后,再次点击“确定”退回到“Adobe PDF 设置”,这时候的转换设置已经变成新设置了,如“gUT”。
10,点击“确定”,再点击“确定”打印,就产出一个能够在非中文系统中辨认的pdf文件了。
11,记得下次重新开启office并进行Distiller打印的时候,要重新选择一下转换设置,在设置中选中“gUT”就可以了

5.将带有链接的DOC文件转成PDF
如果将100多个带有大量链接的DOC文件转换PDF文件,应该怎么做?
利用Adobe Acrobat6.0的“从网页创建PDF”(快捷键为“Shift+Ctrl+O”)转换功能就可以轻松实现上述要求。
1.将需要转换的DOC文件放置于同一个文件夹中,打开Word2003,依次打开“文件→新建→新建文档→模板→本机上的模板→其他文档→转换向导”,启用“转换向导”。
2.单击“下一步”按钮选择转换方式,这里选择将DOC文件转换为HTML文件,继续选择“源文件夹”和“目标文件夹”,最后确定需要转换的文件,点击“完成”。至此,就完成了文件格式的转换。
接下来你应该知道怎么做了吧。只有打开Acrobat将一个个HTML文件转换为PDF文件,就可以轻松完成这个看似繁重的任务。

6.免费的PDF打印机,我试过用它把doc文件转成pdf文件,非常好用!!
介绍:

下载地址:
Free Download (1.6MB) (Vista Ready)

开发者:

需要PS2PDF converter 的支持,可以从 这里下载免费的 GPL Ghostscript 8.15 。

7.如何用acrobat 8.0 8.1将PDF转换导出为DOC?中文版兼容于vista。以前我们想将PDF转换为word(*.doc),通常用以下两种方法:
ScanSoft PDF Converter for Microsoft Word 它是由ScanSoft公司和微软共同组队开发的一个Word的插件,它可以让你在没有Adobe Acrobat软件的情况下,将PDF文档转化为Word文档。它首先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将其统一到Word格式,并且基本上完全保留原来的格式和版面设计。所以它的转化效果是比较理想的了,但是软件比较大(我当初用的版本有200MB左右,现在似乎小了不少,但是我没有再用过它),而且转化速度比较慢。
该软件安装完成后,会自动嵌入到word中。如果没有嵌入,可以在word工具栏的空白处单击鼠标右键,将它打勾选择。它可以作为单独的软件启动,也可以在word界面中启动。它的转化方法如下:
1. 在Word界面,直接通过“文件”?>“打开”来打开需要转化的PDF文件。
2. 此时插件会自动弹出,在分析完PDF文件后即可自动转换成DOC格式的文档。
总结:在以前的使用过程当中,我发现它的转化效果很理想。比如,把一篇doc文档转换为pdf之后,用它转换为doc;然后又把它转换为pdf,再转换为doc;如此反复多次之后,doc文档的资料丢失率很低,版面保持得不错,不是很乱。所以,它是比较理想的转换工具。
PDF 2 Word PDF 2 Word是一个独立运行的小软件,而非插件。它的版本很多,有的版本不需要安装,直接运行exe程序后,在软件界面中选择pdf、设置doc输出路径即可。
总结:它在载入比较大的pdf文件时会稍慢一些,转换速度非常快,对于图片和文档格式的识别不是很好。转化后,文字基本保持格式,且都是在文本框当中;图片则会有些错位,不好进行设置,且容易和带文字的文本框重叠。但是,它基本很少丢失东西,对于这样小巧玲珑的软件,这就不错了。
以前即便用acrobat professional 7.0来转换pdf,出来的结果也是惨不忍睹, 现在好了,Adobe Acrobat 8.0 8.1 Professional 简体中文版 进行转换真是又快又好。方法也很简单,直接在文件菜单上选择 另存为 save as,就可以在保存的文件类型中选择 word格式了。
在测试的PDF中包括 图片,表格,还有文字但是没有公式。转换以后版式保持很完整,没有变形。今天尝试转换了一个544页带图片,文字的PDF文件花费20

回答2:

帮别人就是帮助自己,下面是我整理的相关资料,希望对你有所帮助。
PDF TO WORD(TXT)和PDF格式编辑软件很多:
1.ABBYY FineReader,最好的Pdf转换成Word的软件,也可以进行OCR识别成WORD格式,识别率高,网上有PJ。
2.汉王HW_PDF_OCR_80可以转换成word或txt,免费软件,也可以进行OCR识别成txt;
3.用Solid Converter PDF Professional 可以在PDF与WORD互相转换,也就可以编辑了;
4.用AdreamSoft_PDF_toWord以转换成WORD,就可以编辑了;
5.汉王Pdf_Converter,免费软件,可以让PDF转换成WORD或TXT;
6.用Foxit PDF Editor可以直接编辑了,网上有PJ的软件;
7.用Foxit Phantom可以直接编辑了,网上有PJ的软件。
8.abobe acrobat Professional 也有部分编辑功能,网上有PJ的软件。
9.AnyBizSoft PDF to Word是一款专业的PDF转Word格式的免费转换软件。
10.小丑鱼PDF转换器,免费软件。

PDF文件如果加密了:对于一些不允许做修改、复制、打印等的PDF文件(就是加密加了权限的PDF),那么就先要去除密码或者去除数字证书,软件有:
1.PDF Password Remover
2.Adult PDF Password Recovery

如果不是图片类做成的PDF 你可以转换成WORD格式后进行编辑, 但是如果是内嵌了字体的,那么就要看情况了,因为有的字体你系统里面有,转出来就没有问题,如果系统里面没有,那么转出来就是一堆乱码;一些用户为了避免别人转换,特意引入了一些特殊字体,复制和转换出来都是乱码。对于是图片和没有字体(乱码)做成的PDF文件,那么我们就需要用OCR类软件进行识别了,软件有:清华紫光OCR;尚书七号;Leadtools OCR;赛酷OCR;汉王文豪7600(图形OCR识别成WORD或EXCEL);汉王HW_PDF_OCR_81(推荐:PDF文件、图形,OCR识别成WORD或EXCEL);ABBYY FineReader(推荐)

我用汉王HW_PDF_OCR_81,可在汉王官方网站 主页右下角有免费的正版下载,下载地址:www.hw99.com/
不明白时,在百度Hi中联系

回答3:

首先打开最近编辑的PDF文件,也可以点击打开更多文件,PDF文件打开之后就可以进行下一步。