本页主题: 如何从pdf文件中提取文本??? 打印 | 加为IE收藏 | 复制链接 | 收藏主题 | 上一主题 | 下一主题

AAArcher
级别: 新手上路


精华: 0
发帖: 28
威望: 48 点
金钱: 981 静电币
支持度: 0 点
在线时间:0(小时)
注册时间:2002-10-09
最后登录:2004-12-07

 如何从pdf文件中提取文本???

这可是个老问题,但一直也没有一个完美的解决方案
许多软件号称有此功能,但不是骗人就是不好用。我也一直为这头痛。
1、adobe reader5.1chs可以在有些文件中直接提取,有的根本不行,我对比了两种文件的属性、协议版本,没发现什么不同,真实搞不明白!?
(6.01我始终无法稳定地使用,一点按钮或右键就死机,郁闷)
2、docview(pdf阅读器)好象根本没有提取文本的功能。(难道是我太笨,每找到?)
jaw's editer(ttdown 有下)吹的挺厉害,但也不能用,且浏览速度奇慢
pdf2txt以前用过,记得可以用,只是对分栏的文挡效果很差,单现在也不能用。(一份三页的文挡输出为文本后,打开一看,倒!!!只有page1 page2 page3几个字)
pdf2html也不行
pdf2word更搞笑,直接把文件转化成图片贴到word里,被骗!!!
3、插件我只装过万方ocr插件,但总说我没有安装reader,搞笑,我明明刚装的
4、有人说把文件转换成图片,再用ocr识别,最好在识别前先用photoshop处理一下。我没用过,这也太麻烦了吧
……
以上是一点经验教训,希望对大家有用
那位大哥有好方法,赶快共享一下,感激不尽!!!
Posted: 2004-03-24 16:40 | [楼 主]
帖子浏览记录 版块浏览记录
狗狗静电BBS - wwW.DoGGiEhoMe.CoM » 电脑全方位 Computer Guide

沪ICP备05008186号
Powered by PHPWind Styled by MagiColor