李宣美的腿:急!!!用什么方法可以识别PDF格式中(扫描的图片)的文字并复制

来源:百度文库 编辑:高考问答 时间:2024/04/27 15:23:41
有的PDF格式的文档中的文字无法选择并复制,我用的是Adobe Acrobat 7.0 Professional版本的,只能识别部分文字,而且粘贴后是乱码。
一句话;怎样将其文字复制到Word文档中

用ScanSoft PDF Converte,安装完成后不须任何设置,它会自动整合到Word中。当我们在Word中点击“打开”菜单时,在“打开”对话框的“文件类型”下拉菜单中可以看到“PDF”选项,这就意味着我们可以用Word直接打开PDF文档了!

ScanSoft PDF Converter的工作原理其实很简单,它先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将它们统一成Word格式。由于Word在打开 PDF文档时,会将PDF格式转换成DOC格式,因此打开速度会较一般的文件慢。打开时会显示PDF Converter转换进度。转换完毕后可以看到,文档中的文字格式、版面设计保持了原汁原味,没有发生任何变化,表格和图片也完整地保存下来了,可以轻松进行编辑。

除了能够在Word中直接打开PDF文档外,右击PDF文档,在弹出菜单中选择“Open PDF in Word”命令也可打开该文件。另外,它还会在Outlook中加入一个工具按钮,如果收到的电子邮件附件中有PDF文档,就可以直接点击该按钮将它转换成Word文件。

有时我们在网上搜索到PDF格式的文件,同样可以通过右键菜单的相关命令直接在Word中打开它。

请用 Arcrobat Reader来打开你的文件.
然后在'文件'选项里有个'保存为文本'选项.
你可以直接用这个把文件里的文字内容另存下来.
乱码的原因可能是你的系统字库有问题或者是PDF文件生成时在识别字符的时候发生记录错误导致字符代码有误.

把生成的文本内容复制到你的WORD文件里就可以了.但是格式需要你自己调整.
目前好象没有专门的把PDF格式转化为WORD格式的东东,或者我清楚有没有这么个软件.

PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。是Internet上进行电子文档发行和数字化信息传播的一种理想文档格式。目前PDF格式文件目前已成为数字化信息事实上的一个工业标准。
但你的问题好像没说清楚,这种格式是电子文档格式,如何能扫描下来。扫描下来的应是图像格式,比如说BMP或JPG等,不分PDF或是DOC格式,只需扫描仪相应的识别软件(ocr)即可识别。

acrobat reader(看图)
ocr(识别)