个人网站首页怎么做,如何自己编写网站,小程序源码提取工具,保定网站建设平台分析Pheme-R
获取地址#xff1a;https://figshare.com/articles/dataset/PHEME_rumour_scheme_dataset_journalism_use_case/2068650 PHEME社交媒体谣言数据集:这些谣言与9条不同的突发新闻有关。它是为分析社交媒体谣言而创建的#xff0c;并包含由谣言推文发起的推特对话;这些…Pheme-R
获取地址https://figshare.com/articles/dataset/PHEME_rumour_scheme_dataset_journalism_use_case/2068650 PHEME社交媒体谣言数据集:这些谣言与9条不同的突发新闻有关。它是为分析社交媒体谣言而创建的并包含由谣言推文发起的推特对话;这些对话包括对那些谣言推文的回应。这些推文都经过注释以获得支持、确定性和证据性。 数据集结构 该数据集包含330个会话线程(297个英语线程33个德语线程)每个线程都有一个文件夹结构如下: *source-tweets:这个文件夹包含一个json文件源tweets。 *reactions:这个文件夹包含所有tweets的json文件通过回复参与对话。 *url-content:此文件夹包含从tweet指向的网页的内容。 *structure.json:该文件提供了对话的结构从而更容易确定每个tweet的子tweet是什么并通过将源tweet和回复放在一起来重建对话。 *retweets.json:该文件包含转发源tweet的tweet。 *who-following-whom.dat:该文件包含线程中正在关注其他人的用户。每行包含两个ID表示具有第一个ID的用户跟随具有第二个ID的用户。注意following不是对等的因此如果两个用户相互关注那么它将被表示为两行A B和B A。
*注释。该文件包含线程级别的手动注释这对谣言特别有用并包含以下字段: ** is_rumor:是谣言还是非谣言。 ** category:描述谣言故事的标题可用于与同一故事中的其他谣言分组。 ** misinformation:0或1。它确定这个故事后来是否被证明是假的在这种情况下设置为1否则设置为0。 ** true: 0或1。它确定该故事后来是否被证实为真的在这种情况下设置为1否则设置为0。 ** is_turnaround: 0或1。如果一个帖子代表了谣言故事的转变那么它就被标记为一个转折要么在真实故事的情况下被证实要么在虚假故事的情况下被揭穿。 ** links:如果有这包含了一个覆盖谣言故事的链接列表其中包括链接的URL媒体类型(社交媒体新闻媒体或博客)以及它是反对支持还是观察谣言。
在这330个对话中的4,842条推文的推文级别执行的注释可以在两个文件中找到: *annotations/en-scheme-annotations.json (for the English threads) *annotations/de-scheme-annotations.json (for the German threads) 每行包含一条tweet带有事件、线程和tweet标识符以及支持、确定性和证据性的注释。
Pheme
获取地址https://figshare.com/articles/PHEME_dataset_for_Rumour_Detection_and_Veracity_Classification/6392078 该数据集是2016年发布的Pheme谣言和非谣言数据集https://figshare.com/articles/PHEME_dataset_of_rumours_and_non-rumours/4010619的延伸它包含了与9个事件相关的谣言每个谣言都被标注了其真实性值即真、假或未验证。
Weibo、Twitter
获取地址http://alt.qcri.org/~wgao/data/rumdect.zip 推特数据 Twitter.txt该语料库总共包含992个标记事件。每行包含一个事件其中包含相关推文的 IDevent_id、标签tweet_ids。对于标签如果事件是谣言则值为 1否则为 0。请注意由于 Twitter 数据的使用条款我们无法发布推文的具体内容。用户可以通过 Twitter API 自行下载内容。 Twitter_event_claims.txt此文件提供每个事件的主要声明的内容。每行包含一个事件其声明由event_id和声明内容组成。 微博数据Weibo.txt该语料库共包含4664个标记事件。每行包含一个事件其中包含相关帖子的 ID格式为event_id、标签post_ids。对于标签如果事件是谣言则值为 1否则为 0。我们还以json格式发布所有帖子的内容这些内容保存在./Weibo目录下其中每个文件都命名为event_id.json对应单个事件。
FakeNewsNet
获取地址https://github.com/KaiDMML/FakeNewsNet FakeNewsNet 包含 2 个数据集这些数据集使用来自 Politifact 和 Gossipcop 的事件。
Twitter15、Twitter16
获取地址https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl0 数据集结构 主目录包含两个 Twitter 数据集的目录twitter15 和 twitter16。在每个目录中都有 -‘tree’ 子目录此文件夹包含所有树文件每个文件都对应给定源推文的树结构其文件名由源推文 ID 指示。在树文件中每行表示一条边格式如下 ** 父节点 -子节点 ** 每个节点都以元组形式给出[‘uid’ ‘tweet ID’ ‘post time delay in minutes’]
-label.txt 文件此文件以如下格式提供树的真值标签 ** ‘label源推文 ID’
-source_tweets.txt文件此文件以如下格式提供树的源帖子内容 ** ‘源推文 ID t 源推文内容’
MR^2
SIGIR2023提出的新数据集用于谣言检测的多模态多语言检索增强数据集。现有的数据集大多集中在单一的模态为了将检索到的文本和图像作为更好的错误信息检测的证据。首先使用文章中的图像通过反向图像搜索找到其他出现的图像。然后检索文本证据(即描述)并将其与帖子中的文本进行比较。同样地使用文本来寻找其他图像作为视觉证据。包含从twitter和weibo上的中英文帖子。 获取地址https://github.com/THU-BPM/MR2
数据集信息汇总