如何正确选择文本分析软件
Reamy说,第一步是要花一些时间来了解您的公司情况,并解答一些您希望文本分析工具解决的问题。他还提到对公司信息环境进行深入评估将发现许多此类问题所在。
但是,咨询公司Alta Plana的创始人Seth Grimes说,一定要小心选择信息源。
他说,“并非每一个组织都需要分析Facebook每一页消息或呼叫中心的记录。而且,您可能不能收集内部最重要的内容,其中您需要考虑一些新的外部信息源。”
确定内容及其用户类型 下一个重要步骤是“标出所有不同类型的内容,并确定谁在使用它,以及使用的方式,”Reamy说。
Jamie Popkin是Garner副总裁和知名分析师,他认同这一点。文本分析软件需要考虑的任务评估不仅包括内容的类型及其产生的方法。
作为平台的方法分析 “要考虑将文本分析作为一个平台并激活技术,而不要作为将在一个应用程序中使用的工具,”Reamy说。即使您最初只考虑软件的一个应用程序,“您也可能会遇到新的应用程序,而您将需要一些[其他的]功能。”
然而,根据Grimes的观点,大多数组织都能够很好地将文本分析作为更广泛的运营或分析解决方案使用。他建议希望那些采用基于项目的文本分析软件的组织“应该寻求一些将文本分析整合到关键业务线应用程序和BI/分析解决方案中的解决方案。您希望得到的全面整合的分析软件,而不是另一个孤立的系统。”
如果一个公司已经使用一个具备搜索功能的企业内容管理平台,那么它应该考虑依托供应商来完成分析功能。
“供应商可能将文本分析软件做得很好,而您已经购买了这个软件,”Popkin说。如果组织忽略了一种企业方法,那么专门采用可能最终导致多个部门使用多个产品。“然后,他们决定使用一个产品,并向IT部门指示说,‘你们需要处理这个问题,它们需要整合在一起。’当完成之后,您通常需要重新开始。”
解决现有的业务问题 另一方面,在文本分析软件能够发挥作用的地方确定一个实际的业务问题是很有意义的。
“要一个关注的业务问题开始,先解决它,以便获得经验和建立支持,”Grimes建议说。“要寻找一个可行的项目,以相对较短的时间内产生结果,然后使用这个结果。”
Grimes指出,这与搜索一个满足多个部门需要的技术是很不一样的。
Reamy认同一点,通过实际例子来进行概念验证将能够产生最佳评估结果。“它关系到语言、语义和意义,而唯一的测试方法是通过实际的语言,”他说。“测试您遇到的所有可能的用例是很重要的。”
许多供应商将会免费或低廉的价格提供一些有限的概念验证尝试,Grimes说。还有很多的Software as a Service和开源软件可供您使用。
使用软件功能和特性作为评估过滤器 “文本分析软件与传统软件不同,而记住何时进行软件评估是很重要的,”Reamy说。“在文本分析中,记分卡绝对没有意义。”
我在做文本数据挖掘,要用到聚类分析,想请问matlab、weka这两款软件哪一个更加适合文本聚类分析呢,谢谢
数据量小的话可以用Weka,数据量大一点可以考虑Spss或者Sas. Matlab不是专门干这个的.
什么软件可以把扫描的文章直接分析重新复制文本?(就不用打字了,因为字太多!)
汉王文豪里的ocr识别,不过不能保证正确率100%.
常用的文本处理软件是什么?
Office系列的Word…… Windows自带的记事本…… 专业一点用来编东西的还有UltraEdit……
OCR是什么软件,有什么用处,如何使用?
OCR(Optical Character Recognition,光学字符识别),是属于图型识别(Pattern Recognition,PR)的一门学问。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料。
由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。
在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。
一、OCR的发展
要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。
一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。其处理流程如下图:
(在下面的站点上)
从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
在此逐一介绍:
影象输入:欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
影象前处理:影像前处理是OCR系统中,须解决问题最多的一个模块,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。在影像处理方面,在学理及技术方面都已达成熟阶段,因此在市面上或网站上有不少可用的链接库;在文件前处理方面,则凭各家本领了;影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的题纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。
文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。
字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
字词数据库:为字词后处理所建立的词库。
人工校正:OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。
结果输出:其实输出是件简单的事,但却须看使用者用OCR到底为了什么?有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。
shell脚本做文本解析同php和python比哪个效率更高
N年前为了每天分析数十GB的日志,正好做过测试.测试是在Linux环境下(Redhat ES 3),测试处理一个数百兆的日志文件进行汇总分析(邮件日志),分别用C, Perl, Python,Shell做同样的处理.处理速度排名是C>>Perl>python>shell.C是最快的,比别的快上至少 一个数量级;其次是Perl,毕竟是为文本处理而生,最强的内置正则表达式;Python比Perl慢了点,记得速度是Perl的60%左右;shell 最慢,虽然sed, grep,awk都不慢(其实都是C写的),但通过shell组合在一起效率还是差了不少.
文本情感分析有什么好资料,网站,工具推荐
判断的标准有很多,现在主要流行的工具是alexa工具栏和google工具栏,都可以嵌入IE浏览器使用.
大数据分析一般用什么工具分析
本人比较稀饭研究和试用各种数据可视化分析工具,这几款了解比较不错吧,可以试下!国外:tableau、qilkview、domo等;国内:BDP个人版、永洪等;当然,还有大家最常见的excel啦!各有春秋吧,目前我比较经常用BDP个人版和excle.
哪位朋友有这个软件: 守柔Word文本筛——文档重复段落和相似段落分析工具. 急需,谢谢.
复制后先粘到记事本,以便去除格式.然后再重新复制到WORD中,用查找替换功能去掉多余的空行和空格,再进行排版(全文选定 -》段落对话框 -》道行缩进2字符 -》OK)
python 用于文本挖掘有哪些比较好的开源工具
直接用python进行文本处理,不需要开源的工具. python会提供一些包用于科学计算,你可以用大概有 pycharm、numpy、scipy、matplotlib、scikit、gensim、PIL、Op