带后台网站模板,青岛可以做网站的公司,雷锋书签制作图片,网站开发的开题报告引言导读#xff1a;Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库#xff0c;又有第三方库和工具。 这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理… 导读Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库又有第三方库和工具。 这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。 作者宋天龙 来源大数据IDhzdashuju 为了区分不同对象的来源和类型本文将在描述中通过以下方法进行标识 Python内置函数Python自带的内置函数。函数无需导入直接使用。例如要计算-3.2的绝对值直接使用abs函数方法是 abs(-3.2) Python标准库Python自带的标准库。Python标准库无需安装只需要先通过import方法导入便可使用其中的方法。例如导入string模块然后使用其中的find方法
import stringstring.find(abcde,b) 第三方库Python的第三方库。这些库需要先进行安装部分可能需要配置。 外部工具非Python写成的库或包用于Python数据工作的相关工具。 「推荐度」3星最高1星最低。 01 文件读写 文件的读写包括常见的txt、Excel、xml、二进制文件以及其他格式的数据文本主要用于本地数据的读写。 1. open(name[, mode[, buffering]]) 类型Python内置函数 描述Python默认的文件读写方法 推荐度★★★ 2. numpy.loadtxt、numpy.load和numpy.fromfile 类型第三方库 描述Numpy自带的读写函数包括loadtxt、load和fromfile用于文本、二进制文件读写 推荐度★★★ 3. pandas.read_* 类型第三方库 描述Pandas自带的read文件方法例如ead_csv、read_fwf、read_table等用于文本、Excel、二进制文件、HDF5、表格、SAS文件、SQL数据库、Stata文件等的读写 推荐度★★★ 4. xlrd 类型第三方库 描述用于Excel文件读取 推荐度★★ 5. xlwt 类型第三方库 描述用于Excel文件写入 推荐度★★ 6. pyexcel-xl 类型第三方库 描述用于Excel文件读写 推荐度★★ 7. xluntils 类型第三方库 描述用于Excel文件读写 推荐度★★ 8. pyExcelerator 类型第三方库 描述用于Excel文件读写 推荐度★ 9. openpyxl 类型第三方库 描述用于Excel文件读写 推荐度★ 10. lxml 类型第三方库 描述xml和HTML读取和解析 推荐度★★★ 11. xml 类型Python标准库 描述xml对象解析和格式化处理 推荐度★★★ 12. libxml2 类型第三方库 描述xml对象解析和格式化处理 推荐度★ 13. xpath 类型第三方库 描述xml对象解析和格式化处理 推荐度★★ 14. win32com 类型第三方库 描述有关Windows系统操作、OfficeWord、Excel等文件读写等的综合应用库 推荐度★ 02 网络抓取和解析 网络抓取和解析用于从互联网中抓取信息并对HTML对象进行处理有关xml对象的解析和处理的库在“01 文件读写”中找到。 15. requests 类型第三方库 描述网络请求库提供多种网络请求方法并可定义复杂的发送信息 推荐度★★★ 16. urllib 类型Python标准库 描述Python自带的库简单的读取特定URL并获得返回的信息 推荐度★★ 17. urllib2 类型Python标准库 描述Python自带的库读取特定URL并获得返回的信息相对于urllib可处理更多HTTP信息例如cookie、身份验证、重定向等 推荐度★★ 18. urlparse 类型Python标准库 描述Python自带的URL解析库可自动解析URL不同的域、参数、路径等 推荐度★★★ 19. HTMLParser 类型Python标准库 描述Python自带的HTML解析模块能够很容易的实现HTML文件的分析 推荐度★★★ 20. Scapy 类型第三方库 描述分布式爬虫框架可用于模拟用户发送、侦听和解析并伪装网络报文常用于大型网络数据爬取 推荐度★★★ 21. Beautiful Soup 类型第三方库 描述Beautiful Soup是网页数据解析和格式化处理工具通常配合Python的urllib、urllib2等库一起使用 推荐度★★★ 03 数据库连接 数据库连接可用于连接众多数据库以及访问通用数据库接口可用于数据库维护、管理和增、删、改、查等日常操作。 22. mysql-connector-python 类型第三方库 描述MySQL官方驱动连接程序 推荐度★★★ 23. pymysql 类型第三方库 描述MySQL连接库支持Python3 推荐度★★★ 24. MySQL-python 类型第三方库 描述MySQL连接库 推荐度★★ 25. cx_Oracle 类型第三方库 描述Oracle连接库 推荐度★★★ 26. psycopg2 类型第三方库 描述Python编程语言中非常受欢迎的PostgreSQL适配器 推荐度★★★ 27. redis 类型Python标准库 描述Redis连接库 推荐度★★★ 28. pymongo 类型第三方库 描述MongoDB官方驱动连接程序 推荐度★★★ 29. HappyBase 类型第三方库 描述HBase连接库 推荐度★★★ 30. py2neo 类型第三方库 描述Neo4j连接库 推荐度★★★ 31. cassandra-driver 类型第三方库 描述Cassandra1.2和DataStax Enterprise3.1连接库 推荐度★★★ 32. sqlite3 类型Python标准库 描述Python自带的模块用于操作SQLite数据库 推荐度★★★ 33. pysqlite2 类型第三方库 描述SQLite 3.x连接库 推荐度★★ 34. bsddb3 类型第三方库 描述Berkeley DB连接库 35. bsddb 类型Python标准库 描述Python自带的模块提供了一个到Berkeley DB库的接口 推荐度★★ 36. dbhash 类型Python标准库 描述Python自带的模块dbhash模块提供了使用BSD数据库库打开数据库的功能。该模块镜像了提供对DBM样式数据库访问的其他Python数据库模块的接口。bsddb模块需要使用dbhash 推荐度★★ 37. adodb 类型第三方库 描述ADOdb是一个数据库抽象库支持常见的数据和数据库接口并可自行进行数据库扩展该库可以对不同数据库中的语法进行解析和差异化处理具有很高的通用性 推荐度★★★ 38. SQLObject 类型第三方库 描述SQLObject是一种流行的对象关系管理器用于向数据库提供对象接口其中表为类、行为实例、列为属性 推荐度★★ 39. SQLAlchemy 类型第三方库 描述SQLAlchemy是Python SQL工具包和对象关系映射器为应用程序开发人员提供了SQL的全部功能和灵活性控制 推荐度★★ 40. ctypes 类型第三方库 描述ctypes是Python的一个外部库提供和C语言兼容的数据类型可以很方便地调用C DLL中的函数 推荐度★★★ 41. pyodbc 类型第三方库 描述Python通过ODBC访问数据库的接口库 推荐度★★★ 42. Jython 类型第三方库 描述Python通过JDBC访问数据库的接口库 推荐度★★★ 04 数据清洗转换 数据清洗转换主用于数据正式应用之前的预处理工作。 43. frozenset([iterable]) 类型Python内置函数 描述返回一个新的frozenset对象可选择从iterable取得的元素 推荐度★★★ 44. int(x) 类型Python内置函数 描述返回x的整数部分 推荐度★★★ 45. isinstance(object, classinfo) 类型Python内置函数 描述返回object是否是指定的classinfo实例信息 推荐度★★★ 46. len(s) 类型Python内置函数 描述返回对象的长度或项目数量 推荐度★★★ 47. long(x) 类型Python内置函数 描述返回由字符串或数字x构造的长整型对象 推荐度★★★ 48. max(iterable[, key]) 类型Python内置函数 描述返回一个可迭代或最大的两个或多个参数中的最大项 推荐度★★★ 49. min(iterable[, key]) 类型Python内置函数 描述返回一个可迭代或最大的两个或多个参数中的最小项 推荐度★★★ 50. range(start, stop[, step]) 类型Python内置函数 描述用于与for循环一起创建循环列表通过指定start开始、stop结束和step步长控制迭代次数并获取循环值 推荐度★★★ 51. raw_input(prompt) 类型Python内置函数 描述捕获用户输入并作为字符串返回不推荐使用input作为用户输入的捕获函数 推荐度★★★ 52. round(number[, ndigits]) 类型Python内置函数 描述返回number小数点后ndigits位的四舍五入的浮点数 推荐度★★★ 53. set([iterable]) 类型Python内置函数 描述返回一个新的集合对象可选择从iterable获取的元素 推荐度★★★ 54. slice(start, stop[, step]) 类型Python内置函数 描述返回表示由范围start、stop、step指定的索引集的切片对象 推荐度★★ 55. sorted(iterable[, cmp[, key[, reverse]]]) 类型Python内置函数 描述从iterable的项中返回一个新的排序列表 推荐度★★★ 56. xrange(start, stop[, step]) 类型Python内置函数 描述此函数与range()非常相似但返回一个xrange对象而不是列表 推荐度★★★ 57. string 类型Python标准库 描述字符串处理库可实现字符串查找、分割、组合、替换、去重、大小写转换及其他格式化处理 推荐度★★★ 58. re 类型Python标准库 描述正则表达式模块在文本和字符串处理中经常使用 推荐度★★★ 59. random 类型Python标准库 描述该模块为各种分布实现伪随机数生成器支持数据均匀分布、正态高斯分布、对数正态分布、负指数分布、伽马和β分布等 推荐度★★★ 60. os 类型Python标准库 描述用于新建、删除、权限修改、切换路径等目录操作以及调用执行系统命令 推荐度★★★ 61. os.path 类型Python标准库 描述针对目录的遍历、组合、分割、判断等操作常用于数据文件的判断、查找、合并 推荐度★★★ 62. prettytable 类型Python标准库 描述格式化表格输出模块 推荐度★★ 63. json 类型Python标准库 描述Python对象与json对象的转换 推荐度★★★ 64. base64 类型Python标准库 描述将任意二进制字符串编码和解码为文本字符串的Base16Base32和Base64 推荐度★★★ 05 数据计算和统计分析 数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。 65. numpy 类型第三方库 描述NumPy是Python科学计算的基础工具包很多Python数据计算工作库都依赖它 推荐度★★★ 66. scipy 类型第三方库 描述Scipy是一组专门解决科学和工程计算不同场景的主题工具包 推荐度★★★ 67. pandas 类型第三方库 描述Pandas是一个用于Python数据分析的库它的主要作用是进行数据分析。Pandas提供用于进行结构化数据分析的二维的表格型数据结构DataFrame类似于R中的数据框能提供类似于数据库中的切片、切块、聚合、选择子集等精细化操作为数据分析提供了便捷 推荐度★★★ 68. statsmodels 类型第三方库 描述Statsmodels是Python的统计建模和计量经济学工具包包括一些描述性统计、统计模型估计和统计测试集成了多种线性回归模型、广义线性回归模型、离散数据分布模型、时间序列分析模型、非参数估计、生存分析、主成分分析、核密度估计以及广泛的统计测试和绘图等功能 推荐度★★★ 69. abs(x) 类型Python内置函数 描述返回x的绝对值 推荐度★★★ 70. cmp(x, y) 类型Python内置函数 描述比较两个对象x和y并根据结果返回一个整数。如果x y则返回值为负数如果x y则为零如果x y则返回值为正 推荐度★★ 71. float(x) 类型Python内置函数 描述返回从数字或字符串x构造的浮点数 推荐度★★★ 72. pow(x, y[, z]) 类型Python内置函数 描述返回x的y次幂。如果z存在则返回x的y次幂模z 推荐度★★★ 73. sum(iterable[, start]) 类型Python内置函数 描述从左到右依次迭代返回总和 推荐度★★★ 74. math 类型Python标准库 描述数学函数库包括正弦、余弦、正切、余切、弧度转换、对数运算、圆周率、绝对值、取整等数学计算方法 推荐度★★★ 75. cmath 类型Python标准库 描述与math基本一致区别是cmath运算的是复数 推荐度★★ 76. decimal 类型Python标准库 描述10进制浮点运算 推荐度★★ 77. fractions 类型Python标准库 描述分数模块提供对有理数算术的支持 推荐度★★ 06 自然语言处理和文本挖掘 自然语言处理和文本挖掘库主要用于以自然语言文本为对象的数据处理和建模。 78. nltk 类型第三方库 描述NLTK是一个Python自然语言处理工具它用于对自然语言进行分类、解析和语义理解。目前已经有超过50种语料库和词汇资源 推荐度★★★ 79. pattern 类型第三方库 描述Pattern是一个网络数据挖掘Python工具包提供了用于网络挖掘如网络服务、网络爬虫等、自然语言处理如词性标注、情感分析等、机器学习如向量空间模型、分类模型等、图形化的网络分析模型 推荐度★★★ 80. gensim 类型第三方库 描述Gensim是一个专业的主题模型发掘文字中隐含主题的一种统计建模方法Python工具包用来提供可扩展统计语义、分析纯文本语义结构以及检索语义上相似的文档 推荐度★★★ 81. 结巴分词 类型第三方库 描述结巴分词是国内流行的Python文本处理工具包分词模式分为三种模式精确模式、全模式和搜索引擎模式支持繁体分词、自定义词典等是非常好的Python中文分词解决方案可以实现分词、词典管理、关键字抽取、词性标注等 推荐度★★★ 82. SnowNLP 类型第三方库 描述SnowNLP是一个Python写的类库可以方便的处理中文文本内容。该库是受到了TextBlob的启发而针对中文处理写的类库和TextBlob不同的是这里没有用NLTK所有的算法都是自己实现的并且自带了一些训练好的字典 推荐度★★ 83. smallseg 类型第三方库 描述Smallseg是一个开源的、基于DFA的轻量级的中文分词工具包。可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力 推荐度★★ 84. spaCy 类型第三方库 描述spaCy是一个Python自然语言处理工具包它结合Python和Cython使得自然语言处理能力达到了工业强度 推荐度★★★ 85. TextBlob 类型第三方库 描述TextBlob 是一个处理文本数据的Python库可用来做词性标注、情感分析、文本翻译、名词短语抽取、文本分类等 推荐度★★ 86. PyNLPI 类型第三方库 描述PyNLPI是一个适合各种自然语言处理任务的集合库可用于中文文本分词、关键字分析等尤其重要的是其支持中英文映射支持UTF-8和GBK编码的字符串等 推荐度★★★ 87. synonyms 类型第三方库 描述中文近义词工具包可用于自然语言理解的很多任务文本对齐推荐算法相似度计算语义偏移关键字提取概念提取自动摘要搜索引擎等。 推荐度★★★ 07 图像和视频处理 图像处理和视频处理主要适用于基于图像的操作、处理、分析和挖掘如人脸识别、图像识别、目标跟踪、图像理解等。 88. PIL/Pillow 类型第三方库 描述PIL是一个常用的图像读取、处理和分析的库提供了多种数据处理、变换的操作方法和属性。PIL仅支持到2.7版本且已经很久没有更新一群志愿者基于PIL发布了新的分支Pillow。Pillow同时支持Python2和Python3并且加入很多新的功能 推荐度★★ 89. OpenCV 类型第三方库 描述OpenCV是一个强大的图像和视频工作库。它提供了多种程序接口支持跨平台包括移动端应用。OpenCV的设计效率很高它以优化的C / C 编写库可以利用多核处理。除了对图像进行基本处理外还支持图像数据建模并预制了多种图像识别引擎如人脸识别 推荐度★★★ 90. scikit-image 类型第三方库 描述scikit-image也称skimage是一个图像处理库支持颜色模式转换、滤镜、绘图、图像处理、特征检测等多种功能 推荐度★★ 91. imageop 类型Python标准库 描述Python自带的函数对图像基本操作包括裁剪、缩放、模式转换 推荐度★ 92. colorsys 类型Python标准库 描述Python自带的函数实现不同图像色彩模式的转换 推荐度★ 93. imghdr 类型Python标准库 描述Python自带的函数返回图像文件的类型 推荐度★ 08 音频处理 音频处理主要适用于基于声音的处理、分析和建模主要应用于语音识别、语音合成、语义理解等。 94. TimeSide 类型第三方库 描述TimeSide是一个能够进行音频分析、成像、转码、流媒体和标签处理的Python框架可以对任何音频或视频内容非常大的数据集进行复杂的处理 推荐度★★★ 95. audiolazy 类型第三方库 描述audiolazy是一个用于实时声音数据流处理的库支持实时数据应用处理、无限数据序列表示、数据流表示等 推荐度★★ 96. pydub 类型第三方库 描述pydub支持多种格式声音文件可进行多种信号处理例如压缩、均衡、归一化、信号生成例如正弦、方波、锯齿等、音效注册、静音处理等 推荐度★★★ 97. audioop 类型Python标准库 描述Python自带的函数可实现对声音片段的一些常用操作 推荐度★★ 98. tinytag 类型第三方库 描述tinytag用于读取多种声音文件的元数据涵盖MP3、OGG、OPUS、MP4、M4A、FLAC、WMA、Wave等格式 推荐度★★ 99. aifc 类型Python标准库 描述Python自带的函数读写AIFF和AIFC文件 推荐度★ 100. sunau 类型Python标准库 描述Python自带的函数读写Sun AU文件 推荐度★ 101. wave 类型Python标准库 描述Python自带的函数读写WAV文件 推荐度★★ 102. chunk 类型Python标准库 描述Python自带的函数读取EA IFF 85块格式的文件 推荐度★ 103. sndhdr 类型Python标准库 描述Python自带的函数返回声音文件的类型 推荐度★ 104. ossaudiodev 类型Python标准库 描述该模块支持访问OSS开放声音系统音频接口 推荐度★★★ 09 数据挖掘/机器学习/深度学习 数据挖掘、机器学习和深度学习等是Python进行数据建模和挖掘学习的核心模块。 105. Scikit-Learn 类型第三方库 描述scikit-learn也称SKlearn是一个基于Python的机器学习综合库内置监督式学习和非监督式学习机器学习方法包括各种回归、聚类、分类、流式学习、异常检测、神经网络、集成方法等主流算法类别同时支持预置数据集、数据预处理、模型选择和评估等方法是一个非常完整、流行的机器学习工具库 推荐度★★★ 106. TensorFlow 类型第三方库 描述TensorFlow 是谷歌的第二代机器学习系统内建深度学习的扩展支持任何能够用计算流图形来表达的计算都可以使用 TensorFlow 推荐度★★★ 107. NuPIC 类型第三方库 描述NuPIC是一个以HTM分层时间记忆学习算法为工具的机器智能平台。NuPIC适合于各种各样的问题尤其适用于检测异常和预测应用 推荐度★★★ 108. PyTorch 类型第三方库 描述PyTorch是FaceBook推出的深度学习框架它基于Python而非lua产生它提供的动态计算图是显著区别于Tensorflow等其他学习框架的地方。 推荐度★★ 109. Orange 类型第三方库 描述Orange通过图形化操作界面提供交互式数据分析功能尤其适用于分类、聚类、回归、特征选择和交叉验证工作 推荐度★★★ 110. theano 类型第三方库 描述Theano是非常成熟的深度学习库。它与Numpy紧密集成支持GPU计算、单元测试和自我验证 推荐度★★★ 111. keras 类型第三方库 描述Keras是一个用Python编写的高级神经网络API能够运行在TensorFlow或者Theano之上它的开发重点是实现快速实验 推荐度★★ 112. neurolab 类型第三方库 描述Neurolab是具有灵活网络配置和Python学习算法的基本神经网络算法库。它包含通过递归神经网络RNN实现的不同变体该库是同类RNN API中最好的选择之一 推荐度★★ 113. PyLearn2 类型第三方库 描述PyLearn2是基于Theano的深度学习库它旨在提供极大的灵活性并使研究人员可以进行自由可控制参数和属性的灵活、开放配置是亮点 推荐度★★★ 114. OverFeat 类型第三方库 描述OverFeat是一个深度学习库主要用于图片分类、定位物体检测 推荐度★★ 115. Pyevolve 类型第三方库 描述Pyevolve是一个完整的遗传算法框架也支持遗传编程 推荐度★★ 116. Caffe2 类型第三方库 描述Cafffe2也是FaceBook推出的深度学习框架相比于PyTorch 更适合于研究Caffe2 适合大规模部署主要用于计算机视觉它对图像识别的分类具有很好的应用效果 推荐度★★ 10 数据可视化 数据可视化主要用于做数据结果展示、数据模型验证、图形交互和探查等方面。 117. Matplotlib 类型第三方库 描述Matplotlib是Python的2D绘图库它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形开发者可以仅需要几行代码便可以生成多种高质量图形 推荐度★★★ 118. pyecharts 类型第三方库 描述基于百度Echarts的强大的可视化工具库其提供的图形功能众多尤其对于复杂关系的展示能力较强 推荐度★★★ 119. seaborn 类型第三方库 描述Seaborn是在Matplotlib的基础上进行了更高级的API封装它可以作为Matplotlib的补充 推荐度★★★ 120. bokeh 类型第三方库 描述Bokeh是一种交互式可视化库可以在WEB浏览器中实现美观的视觉效果 推荐度★★★ 121. Plotly 类型第三方库 描述Plotly提供的图形库可以进行在线WEB交互并提供具有出版品质的图形支持线图、散点图、区域图、条形图、误差条、框图、直方图、热图、子图、多轴、极坐标图、气泡图、玫瑰图、热力图、漏斗图等众多图形 推荐度★★★ 122. VisPy 类型第三方库 描述VisPy是用于交互式科学可视化的Python库旨在实现快速可扩展和易于使用 推荐度★★ 123. PyQtGraph 类型第三方库 描述PyQtGraph是一个建立在PyQt4 / PySide和numpy之上的纯Python图形和GUI库主要用于数学/科学/工程应用 推荐度★★ 124. ggplot 类型第三方库 描述ggplot是用Python实现的图形输出库类似于 R中的图形展示版本 推荐度★★★ 11 交互学习和集成开发 交互学习和集成开发主要用来做Python开发、调试和集成之用包括Python集成开发环境和IDE。 125. IPython/ Jupyter 类型第三方库 描述IPython 是一个基于Python 的交互式shell比默认的Python shell 好用得多支持变量自动补全、自动缩进、交互式帮助、魔法命令、系统命令等内置了许多很有用的功能和函数。从IPython4.0开始IPython衍生出了IPython和Jupyter两个分支。在该分支正式出现之前IPython其实已经拥有了ipython notebook功能因此Jupyter更像是一个ipython notebook的升级版。 推荐度★★★ 126. Elpy 类型第三方库 描述Elpy是Emacs用于Python的开发环境它结合并配置了许多其他软件包它们都是用Emacs Lisp和Python编写的 推荐度★★ 127. PTVS 类型第三方库 描述Visual Studio 的 Python 工具 推荐度★★ 128. PyCharm 类型外部工具 描述PyCharm带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制并可集成IPython、系统终端命令行等在PyCharm里几乎就可以实现所有有关Python工作的全部过程 推荐度★★★ 129. LiClipse 类型外部工具 描述LiClipse是基于Eclipse的免费多语言 IDE通过其中的PyDev可支持 Python开发应用 推荐度★★ 130. Spyder 类型外部工具 描述Spyder是一个开源的Python IDE由IPython和众多流行的Python库的支持是一个具备高级编辑、交互式测试、调试以及数字计算环境的交互式开发环境 推荐度★★ 12 其他Python协同数据工作工具 其他Python协同数据工作工具指除了上述主题以外其他在数据工作中常用的工具或库。 131. tesseract-ocr 类型外部工具 描述这是一个Google支持的开源OCR图文识别项目支持超过200种语言包括中文并支持自定义训练字符集支持跨Windows、Linux、Mac OSX 多平台使用 推荐度★★★ 132. RPython 类型第三方库 描述R集成库 推荐度★★★ 133. Rpy2 类型第三方库 描述Python连接R的库 134. matpython 类型第三方库 描述MATLAB集成库 推荐度★★★ 135. Lunatic Python 类型第三方库 描述Lua集成库 推荐度★★ 136. PyCall.jl 类型第三方库 描述Julia集成库 推荐度★★ 137. PySpark 类型第三方库 描述Spark提供的Python API 推荐度★★★ 138. dumbo 类型第三方库 描述这个模块可以让Pythoner轻松的编写和运行 Hadoop 程序程序版本比较早可以作为参考 推荐度★★ 139. dpark 类型第三方库 描述Python对Spark的克隆版本类MapReduce框架 推荐度★★ 140. streamparse 类型第三方库 描述Streamparse允许通过Storm对实时数据流运行Python代码 推荐度★★★ 关于作者宋天龙大数据技术专家触脉咨询合伙人兼副总裁前Webtrekk中国区技术和咨询负责人Webtrekk德国的在线数据分析服务提供商。擅长数据挖掘、建模、分析与运营精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。
原文地址https://mp.weixin.qq.com/s?__bizMjM5ODE1NDYyMAmid2653393556idx1sna68f7112d32c79a449730eb9002b00f6chksmbd1c2a878a6ba391b7ade98b3c1dbe56fa4e3b5a70af7f53dc146f8f3ec9f20ff03ecea5624cmpshare1scene1srcid#rd