pythoncut函数,python lcut函数

如何用 Python 从海量文本抽取主题

代码

我们提供的服务有:网站设计制作、成都网站制作、微信公众号开发、网站优化、网站认证、西华ssl等。为成百上千家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的西华网站制作公司

我们在Jupyter Notebook中新建一个Python 2笔记本,起名为topic-model。

为了处理表格数据,我们依然使用数据框工具Pandas。先调用它。

import pandas as pd

然后读入我们的数据文件datascience.csv,注意它的编码是中文GB18030,不是Pandas默认设置的编码,所以此处需要显式指定编码类型,以免出现乱码错误。

df = pd.read_csv("datascience.csv", encoding='gb18030')

我们来看看数据框的头几行,以确认读取是否正确。

df.head()

显示结果如下:

没问题,头几行内容所有列都正确读入,文字显式正常。我们看看数据框的长度,以确认数据是否读取完整。

df.shape

执行的结果为:

(1024, 3)

行列数都与我们爬取到的数量一致,通过。

下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。

我们首先调用jieba分词包。

import jieba

我们此次需要处理的,不是单一文本数据,而是1000多条文本数据,因此我们需要把这项工作并行化。这就需要首先编写一个函数,处理单一文本的分词。

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

有了这个函数之后,我们就可以不断调用它来批量处理数据框里面的全部文本(正文)信息了。你当然可以自己写个循环来做这项工作。

下面这一段代码执行起来,可能需要一小段时间。请耐心等候。

df["content_cutted"] = df.content.apply(chinese_word_cut)

执行过程中可能会出现如下提示。没关系,忽略就好。

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache

Loading model cost 0.406 seconds.

Prefix dict has been built succesfully.

执行完毕之后,我们需要查看一下,文本是否已经被正确分词。

df.content_cutted.head()

python运行错误怎么办?

一、python的错误处理:

在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错以及出错的原因。

在操作系统提供的调用中,返回错误码非常常见。比如打开文件的函数open(),成功时返回文件的描述符(就是一个整数),出错时返回-1用错误码来表示是否出错十分不便,因为函数本身应该返回的正常结果和错误码混在一起,造成调用者必须大量的代码来判断是否出错:def foo():

r = somefunction()    if r == (-1):        return (-1)    return rdef bar():

r = foo()    if r == (-1):        print("Error")    else:        pass一旦出错,还要一级一级上报,直到某个函数可以处理该错误(比如,给用户输出一个错误信息)

所以,高级语言通常都内置了一套try...except...finally...的错误处理机制,python也不例外。try

让我们用一个例子来看看try的机制try:    print("try....")

r = 10 / 0    print("result", r)except ZeroDivisionError as e:    print("except:", e)finally:    print("finally...")print("END....")

当我们认为某些代码可能会出错时,就可以用try来运行这段代码,如果执行出错,则后续代码不会继续执行

而是直接跳转至错误处理代码,即except语句块

执行完except后,如果有finally语句块,则执行finally语句块,至此,执行完毕。

上面的代码在计算10 / 0时 会产生一个除法运算错误:try....except: division by zerofinally...

END....从输出可以看到,当错误发生时,后续语句print("result:", r)不会被执行,except由于捕获到ZeroDivisionError因此被执行。

最后,finally语句被执行。然后,程序继续按照流程往下走。

如果把除数0 变成2,则执行结果如下try....

result 5.0finally...

END....由于没有错误发生,所以except语句块不会被执行,但是finally如果有则一定会被执行,当然finally也可以没有

你还可以猜测,错误应该有很多种类,日过发生了不同类型的错误,应该由不同的except语句块处理。

没错,可以有多个except来捕获不同类型的错误:try:    print("try.....")

r = 10 / int("a")    print("result:", r)except ValueError as e:    print("ValueError:", e)except ZeroDivisionError as e:    print("ZeroDivisionError:", e)finally:    print("finally...")print("END...")

int()函数可能会抛出ValueError,所以我们用一个except捕获ValueError,用另一个except捕获ZeroDivisionError

此外,如果没有错误发生,可以再except语句块后面加一个else,当没有错误发生时,会自动执行else语句。try:    print("try...")

r = 10 / int("2")    print("result:", r)except ValueError as e:    print("ValueError:", e)except ZeroDivisionError as e:    print("ZeroDivisionError:", e)else:    print("No error!")finally:    print("finally...")print("END")

python的错误其实也是class,所有的错误类型都继承自BaseException,

所以在使用except时需要注意的是,它不但捕获该类型的错误,还把其子类也“一网打尽”。

比如:try:

foo()except ValueError as e:    print("ValueError")except UnicodeError as e:    print("UnicodeError")

第二个except永远也捕获不到UnicodeError, 因为UnicodeError是ValueError的子类

如果有,也是被第一个except给捕获了。

python所有的错误都是BaseException类派生的。

所有常见的错误类型和继承关系看这里:

使用try...exccept捕获错误还有一个巨大的好处,就是可以跨越多层调用,比如函数main()调用foo()

foo()调用bar(),结果bar()出错了,这时,只要main()捕获到了,就可以处理:def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar("0")    except Exception as e:        print("Error:", e)    finally:        print("finally...")

也就是说,不需要在每个可能出错的地方去捕获异常,只要在合适的层次去捕获就可以了。

这样一来,就大大减少了写 try...except...finally的麻烦。

二、调用堆栈

如果错误没有被捕获,他就会一直往上抛,最后被python解释器捕获,打印一个错误信息,然后程序退出。def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():

bar("0")

main()

执行结果为:

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

main()

File "C:/Python36/test.py", line 8, in main

bar("0")

File "C:/Python36/test.py", line 5, in bar    return foo(s) * 2

File "C:/Python36/test.py", line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

出错并不可怕,可怕的时不知道哪里出错了。解读错误信息时定位错误的关键。

我们从上往下可以看到整个错误的调用函数链。

错误第一行:

Traceback (most recent call last):

这告诉我们的是错误的跟踪信息。

File "C:/Python36/test.py", line 10, in module main()

说明调用main()出错了,在代码文件test.py中第10行,但是原因是第8行:

File"C:/Python36/test.py", line8, in main

bar("0")

调用bar("0")出错了,在代码文件test.py中第8行,但原因是第5行:

File"C:/Python36/test.py", line5, in barreturn foo(s) * 2调用return foo(s) * 2时出错了,在test.py中第5行,但原因是第2行

File "C:/Python36/test.py", line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

这时我们找到了源头,原来在第2行调用return 10 / int(s)出错了,错误为ZeroDivisionError

三、记录错误

如果不捕获错误,自然可以让python解释器来打印出错误堆栈,但是程序也被结束了。

既然我们能捕获错误,就可以把错误堆栈打印出来,然后分析错误原因,同时,让程序继续执行下去。

python内置的logging模块可以非常容易地记录错误信息:import loggingdef foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar("0")    except Exception as e:

logging.exception(e)

main()print("END")

输出结果为:

ERROR:root:division by zero

Traceback (most recent call last):

File "C:/Python36/test.py", line 12, in main

bar("0")

File "C:/Python36/test.py", line 8, in bar    return foo(s) * 2

File "C:/Python36/test.py", line 5, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

END

同样是出错,但程序打印完错误信息后会继续执行,并正常退出。

通过配置,logging还可以把错误记录到日志文件里,方便事后排查。

四、抛出错误

因为错误是class,捕获一个错误就是捕获到该class的一个实例。

因此,错误并不是凭空产生的,而是有意创建并抛出的。

python的内置函数会抛出很多类型的错误,我们自己编写的函数也可以抛出错误。

如果要抛出错误,首先根据需要,可以定义一个错误的class,选择好继承关系,然后用raise语句抛出一个错误的实例:class FooError(ValueError):    passdef foo(s):

n =  int(s)    if n == 0:        raise FooError("invalid value: %s" % s)    return 10 / n

foo("0")

输出结果:

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

foo("0")

File "C:/Python36/test.py", line 7, in foo    raise FooError("invalid value: %s" % s)

FooError: invalid value: 0

只有在必要的时候才定义我们自己的错误类型。

如果可以选择python已有的内置错误类型(比如ValueError, TypeError),尽量使用python内置的错误类型。

最后,我们来看另一种错误处理方式:def foo(s):

n = int(s)    if n == 0:        raise ValueError("invalid value: %s" % s)    return 10 / ndef bar():    try:

foo("0")    except ValueError as e:        print("ValieError")        raisebar()

在bar()函数中,我们明明已经捕获了错误,但是,打印一个ValueError之后

又通过raise语句抛出去了。这不是有病吗

其实,这种错误处理方式不但没病,而且相当常见。

捕获错误目的只是记录一下,便于或许追踪。

但是,由于当前函数不知道应该怎么处理该错误,所以,最恰当的方式是继续往上抛,让顶层调用者去处理。

好比一个员工处理不了一个问题时,就把问题一直往上抛,最终会抛给CEO去解决。

注意:raise语句如果不带参数,就会把当前错误原样抛出。

此外,在except中raise一个Error,还可以改写错误类型try:    10 / 0except ZeroDivisionError:    raise ValueError("do not input zero!")

输出结果:

Traceback (most recent call last):

File "C:/Python36/test.py", line 4, in module    raise ValueError("do not input zero!")

ValueError: do not input zero!只要是合理的转换逻辑就可以,但是,绝不应该把一个IOError转成毫不相干的valueError.

总结:

python内置的 try...except...finally 用来处理错误十分方便。

出错时,会分析错误信息并定位错误发生的代码位置才是关键的。

程序也可以主动抛出错误,让调用者来处理相应的错误。

但是应该在文档中写清楚可能会抛出哪些错误,以及错误产生的原因。

Python pandas用法

在Python中,pandas是基于NumPy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。

使用下面格式约定,引入pandas包:

pandas有两个主要数据结构:Series和DataFrame。

Series是一种类似于一维数组的对象,它由 一组数据 (各种NumPy数据类型)以及一组与之相关的 数据标签(即索引) 组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ,第二个参数是Series中数据的索引,可以省略。

Series类型索引、切片、运算的操作类似于ndarray,同样的类似Python字典类型的操作,包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型,每列值类型可以不同,是最常用的pandas对象。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

pd.DataFrame(data,columns = [ ],index = [ ]) :columns和index为指定的列、行索引,并按照顺序排列。

如果创建时指定了columns和index索引,则按照索引顺序排列,并且如果传入的列在数据中找不到,就会在结果中产生缺失值:

数据索引 :Series和DataFrame的索引是Index类型,Index对象是不可修改,可通过索引值或索引标签获取目标数据,也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法:

重新索引 :能够改变、重排Series和DataFrame索引,会创建一个新对象,如果某个索引值当前不存在,就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) :index/columns为新的行列自定义索引;fill_value为用于填充缺失位置的值;method为填充方法,ffill当前值向前填充,bfill向后填充;limit为最大填充量;copy 默认True,生成新的对象,False时,新旧相等不复制。

删除指定索引 :默认返回的是一个新对象。

.drop() :能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时,用单引号指定索引,删除多行时用列表指定索引。

如果删除的是列索引,需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数,可以就地修改对象,不会返回新的对象。

在pandas中,有多个方法可以选取和重新组合数据。对于DataFrame,表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数 :传入axis='columns'或axis=1将会按行进行运算。

.describe() :针对各列的多个统计汇总,用统计学指标快速描述数据的概要。

.sum() :计算各列数据的和

.count() :非NaN值的数量

.mean( )/.median() :计算数据的算术平均值、算术中位数

.var()/.std() :计算数据的方差、标准差

.corr()/.cov() :计算相关系数矩阵、协方差矩阵,是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。

.corrwith() :利用DataFrame的corrwith方法,可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series(针对各列进行计算),传入一个DataFrame则会计算按列名配对的相关系数。

.min()/.max() :计算数据的最小值、最大值

.diff() :计算一阶差分,对时间序列很有效

.mode() :计算众数,返回频数最高的那(几)个

.mean() :计算均值

.quantile() :计算分位数(0到1)

.isin() :用于判断矢量化集合的成员资格,可用于过滤Series中或DataFrame列中数据的子集

适用于Series的基本统计分析函数,DataFrame[列名]返回的是一个Series类型。

.unique() :返回一个Series中的唯一值组成的数组。

.value_counts() :计算一个Series中各值出现的频率。

.argmin()/.argmax() :计算数据最大值、最小值所在位置的索引位置(自动索引)

.idxmin()/.idxmax() :计算数据最大值、最小值所在位置的索引(自定义索引)

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。

在许多数据分析工作中,缺失数据是经常发生的。对于数值数据,pandas使用浮点值NaN(np.nan)表示缺失数据,也可将缺失值表示为NA(Python内置的None值)。

替换值

.replace(old, new) :用新的数据替换老的数据,如果希望一次性替换多个值,old和new可以是列表。默认会返回一个新的对象,传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head():查询数据的前五行

df.tail():查询数据的末尾5行

pandas.cut()

pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。

pandas.date_range() 返回一个时间索引

df.apply() 沿相应轴应用函数

Series.value_counts() 返回不同数据的计数值

df.aggregate()

df.reset_index() 重新设置index,参数drop = True时会丢弃原来的索引,设置新的从0开始的索引。常与groupby()一起用

numpy.zeros()


新闻名称:pythoncut函数,python lcut函数
文章源于:http://pcwzsj.com/article/dscipic.html