当前位置：首页 > news >正文

网站建设的主要问题兰州装修公司前十名

news 2026/1/13 20:12:31

网站建设的主要问题,兰州装修公司前十名,北京网站设计制作,ps制作素材图片如果你懒得看下边的文字#xff0c;我录了一个完整的教学视频在b站上。我的B站教学#xff1a;https://www.bilibili.com/video/av75377135?p2 工作原理 b站是提供弹幕接口的#xff0c;所以我们的整体操作进行如下#xff1a; 1.到B站获取cid2.将cid与网站固定格式进行链… 如果你懒得看下边的文字我录了一个完整的教学视频在b站上。我的B站教学https://www.bilibili.com/video/av75377135?p2 工作原理 b站是提供弹幕接口的所以我们的整体操作进行如下 1.到B站获取cid2.将cid与网站固定格式进行链接3.用python请求网页4.进行简单的单词处理5.生成词云接下来我们就按照刚才说的顺序进行详细解释操作顺序 1.到B站获取cid 首先点进一个视频网页点击F12-network获取监测页面然后一定要点击播放视频我们就会在监测页面中看到一个叫heartbeat的XHR脚本点开任意一个即可。点击之后我们需要看Headers里边包括了我们想知道的信息。往下滚动就会发现cid这个id是唯一的也就是说下次抓取的时候还可以用这个id。2.将cid与网站固定格式进行链接我们拿到cid之后就可以去检查一下是否可以获取弹幕了。获取的固定xml格式是 https://comment.bilibili.com/视频的cid.xml 例如在这里我们的页面就是 https://comment.bilibili.com/94198756.xml 我们把这个链接用网页的方式打开就能看到如下内容这样我们就确定可以爬取了。 3.用python请求网页因为是开源的我们也不需要设置代理agent什么的直接获取就行 import requestsfrom bs4 import BeautifulSoupurl https://comment.bilibili.com/94198756.xmlrequest requests.get(url)#获取页面request.encodingutf8#因为是中文我们需要进行转码否则出来的都是unicode 通过之前的网页查看我们发现弹幕的XML规律如下停车场反杀龙卷风都是d开头所以我们只需要用beautifulsuop来选取所有的‘d’就可以 soup BeautifulSoup(request.text, lxml)results soup.find_all(d)#找出所有dcomments [comment.text for comment in results]#因为出来的时候是bs4格式的我们需要把他转化成list 这样一个完整的弹幕list就已经有了这里要注意b站弹幕提取上线是1000条所以大于一千的就会随机选取1000条弹幕给你。 4.进行简单的单词处理拿到之后的弹幕并不能直接满足我们进行单词分析我们要进行一些简单的清理 1有一些英文我们需要统一大小写 comments [x.upper() for x in comments]#统一大小写 2去掉弹幕中的空格例‘仙人指路’ 和 ‘仙人指路’ 是没有区别的 comments_clean [comment.replace( ,) for comment in comments]#去掉空格 3我们简单的看一下弹幕之后发现弹幕里边的’/test’是有很多但是我们并不需要它诸如此类 set(comments_clean)#看一下都有啥类似的没用的词语useless_words [//TEST,/TESR,/TEST,/TEST/,/TEXT,/TEXTSUPREME,/TSET,/Y,\\TEST]comments_clean [element for element in comments_clean if element not in useless_words]#去掉不想要的字符进行完上述处理之后我们就可以进行词云的制作了。不过在制作之前还是让我们简单的看一下词频。不是最终的因为一会要把句子里的词分开 import pandas as pdcipin pd.DataFrame({danmu:comments_clean})cipin[danmu].value_counts() 4分词在这里我们把刚才得到的弹幕用jieba库进行分词 danmustr .join(element for element in comments_clean)#把所有的弹幕都合并成一个字符串import jiebawords list(jieba.cut(danmustr))#分词 5进一步clean 分词之后我们会发现里边有很多的符号或者是单字这些是没有意义的我们要去掉这一些。 fnl_words [word for word in words if len(word)1]#去掉单字 5.生成词云至此我们可以通过词词频来生成词云了首先我们要下载词云的包 !pip install wordcloud 然后生成词云 import wordcloudwc wordcloud.WordCloud(width1000, font_pathsimfang.ttf,height800)#设定词云画的大小字体一定要设定字体否则中文显示不出来wc.generate( .join(fnl_words)) 这样就生成了我们现在来看一下 from matplotlib import pyplot as pltplt.imshow(wc)如果不满意样子的话是可以在wordcloud.WordCloud里边调整的例如可以调整画布大小随机字体颜色区间画布背景等等。或者更傻的方式就是重新跑一下wc.generate(’ .join(fnl_words))就可以出来新的图片了最后保存一下我们做好的图片 wc.to_file(rC:\Users\CCHANG\Desktop\danmu_pic.png) 顺带提一句我们还可以拿一个图片作为蒙版按形状生成图片。我们需要先上传一个图片把它做成numpy.array的形式。我们就自己画一个图吧记住上传的图片背景主题一定要对比鲜明import cv2img cv2.imread(rC:\Users\CCHANG\Desktop\circle.png, cv2.IMREAD_UNCHANGED) #直接读取成了数字格式resized cv2.resize(img, (800, 800),interpolation cv2.INTER_AREA)#我们把它重新设定一下大小不过有的时候用cv2不是非常稳定所以我们还有另一种方法from PIL import Imageimport numpy as npimg Image.open(rE:\录屏\course3\mask.jpg)resized np.array(img) 然后我们调整wordcloud里边的一些设置再生成一次 wc_1 wordcloud.WordCloud(background_colorblack,width1000,height800,maskresized,font_pathsimfang.ttf# ,color_func wordcloud.random_color_func())wc_1.generate_from_text( .join(fnl_words))#绘制图片plt.imshow(wc_1)plt.axis(off)plt.figure()plt.show() #显示图片最后就变成了这样记得保存哦~ wc_1.to_file(rC:\Users\CCHANG\Desktop\danmu_pic_2.png) 记得如果看不懂就去看我的B站教学https://www.bilibili.com/video/av75377135?p2 完整代码import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport jiebaimport wordcloudfrom matplotlib import pyplot as plturl https://comment.bilibili.com/94198756.xmlrequest requests.get(url)#获取页面request.encodingutf8#因为是中文我们需要进行转码否则出来的都是unicodesoup BeautifulSoup(request.text, lxml)results soup.find_all(d)#找出所有dcomments [comment.text for comment in results]#得到完整的listcomments [x.upper() for x in comments]#统一大小写comments_clean [comment.replace( ,) for comment in comments]#去掉空格set(comments_clean)#看一下都有啥类似的没用的词语useless_words [//TEST,/TESR,/TEST,/TEST/,/TEXT,/TEXTSUPREME,/TSET,/Y,\\TEST]comments_clean [element for element in comments_clean if element not in useless_words]#去掉不想要的字符cipin pd.DataFrame({danmu:comments_clean})cipin[danmu].value_counts()#查看词频danmustr .join(element for element in comments_clean)#把所有的弹幕都合并成一个字符串words list(jieba.cut(danmustr))#分词fnl_words [word for word in words if len(word)1]#去掉单字wc wordcloud.WordCloud(width1000, font_pathsimfang.ttf,height800)#设定词云画的大小字体一定要设定字体否则中文显示不出来wc.generate( .join(fnl_words))plt.imshow(wc)#看图wc.to_file(rC:\Users\CCHANG\Desktop\danmu_pic.png)#保存#######################################################加蒙板的图片import cv2img cv2.imread(rC:\Users\CCHANG\Desktop\circle.png, cv2.IMREAD_UNCHANGED) #直接读取成了数字格式resized cv2.resize(img, (800, 800),interpolation cv2.INTER_AREA)#我们把它重新设定一下大小#不过有的时候用cv2不是非常稳定所以我们还有另一种方法#from PIL import Image#import numpy as np#img Image.open(rE:\录屏\course3\mask.jpg)#resized np.array(img)wc_1 wordcloud.WordCloud(background_colorblack,width1000,height800,maskresized,font_pathsimfang.ttf# ,color_func wordcloud.random_color_func())wc_1.generate_from_text( .join(fnl_words))#绘制图片plt.imshow(wc_1)plt.axis(off)plt.figure()plt.show() #显示图片wc_1.to_file(rC:\Users\CCHANG\Desktop\danmu_pic_2.png) 作者https://blog.csdn.net/johnchang0201/article/details/103004229IT入门感谢关注

查看全文

http://www.yutouwan.com/news/57870/