存档

文章标签 ‘Paper’

Amazon用户评价体系研究

2009年12月25日 madongfly 没有评论

How opinions are received by online communities: A case study on Amazon.com helpfulness votes.
Cristian Danescu-Niculescu-Mizil and Gueorgi Kossinets and Jon Kleinberg and Lillian Lee.
Proceedings of WWW, pp. 141–150, 2009.

该文主要对评论的有用程度(helpfulness of reviews)进行了研究。

文章针对亚马逊网站上对评论是否有用的投票数据进行研究,在amazon网站上,对于某一评论(review),通常包含两条属性,一条是该评论自身对商品的评分,另一条是别的用户对该评论是否有用的评价,类似“32人中有26人认为它有用”这样的描述。

该文主要做了以下几件事:

  • 1.阐述了4种从社会学和心理学出发的对评论有用程度进行判定的假说。
  • 2.通过实验验证(证实或证伪)了这些理论。
  • 3.提出了一个简单的模型来解释实验数据呈现出的形式。
  • 4.在证伪其中一个理论的时候,巧妙的借用了对“内容剽窃”的研究内容,排除了属性干扰。

下面分别详细介绍:
阅读全文…

分类: Research 标签: ,

Content Reuse Detection 文章内容复用检测

2009年12月9日 madongfly 没有评论

原文在此:Efficient Overlap and Content Reuse Detection in Blogs and Online News Articles

该文主要讲述了在博客和新闻的文章中如何进行内容复用的检测。作者提出了一种基于签名索引(Signature-Indexing)的算法qSign(Signature-Indexing for Incremental Reuse Detection)。

所谓signature files,是指在一个文件中,所包含的每一个word都通过hash映射到一个固定宽度的bit串,并且有相同数量的bit位为1,这个bit串就是这个word的signature。然后将所有这些word的signature通过位或操作全部按位或起来作为file的signature。

这样一来,检测一个查询的word是否和file匹配的话,就看这个word的signature和file的signature按位与之后会不会发生变化,如果不变,则匹配。显然,这样的识别会造成错误的匹配,即false positive,该文的目标之一就是在控制住误识率的情况下提高预测的召回率(recall)。
阅读全文…

分类: Research 标签: ,

[Paper Reading]网上交易欺诈用户检测

2009年11月18日 madongfly 没有评论

《Detecting Fraudulent Personalities in Networks of Online Auctioneers》
Duen Horng Chau, Shashank Pandit, and Christos Faloutsos
School of Computer Science, Carnegie Mellon University

该文的目的是检测出网络交易中的欺诈者。

文中将网上交易的用户id分为了3类:fraud,honest和accomplice。其中,accomplice的id通常也是由fraud创建的,他们既和honest交易,也和fraud交易,以此提高自己以及fraud的信用度,由于accomplice的交易只为提高信用度,因而都是正常交易,从表面上看和honest没有区别。fraud平时和accomplice交易以提高信用度,适当的时候就和honest用户交易,实施诈骗。

该文的摘要中描述主要做了三件事:
1. 挖掘用户级的features(如用户交易次数、交易商品平均价格等)。
2. 引入netwrok级的features,主要跟用户之间的相互交易有关。
3. 通过在Markov Random Field 上实现的Belief Propagation 算法将两个级别的features合并,进而进行欺诈者识别。

以下是我对这三件事的理解:
阅读全文…

分类: Research 标签: , ,