流量统计系统的访客性别是如何统计的?

  • A+
所属分类:[日志]

tongjixingbiebilifengmian.jpg

对于每一个网站来说,流量统计系统可以帮助我们统计网站的流量情况以及用户的行为这非常有助于我们对网站做出相应的调整、做到心里有数从而是网站的熟知度节节攀升,但是随着各种流量统计系统的升级我们发现越来越多有意思、人性化的功能出现在我们眼前,其中有一个我比较感兴趣的就是,作为一个流量统计是如何得知网站访客性别的?我想大家应该也很有兴趣吧!

当然对于网站的pv、uv、ip以及访客来源等统计我们都可以很容易的在自己的站点实现(非技术除外),但是单单去统计用户的性别我想这是非常复杂的,这需要很长时间的统计分析也许大部分我们则取决于用户的点击和浏览行为来决定。如果只靠我们自己去完成这么庞大的任务是很困难的,不仅仅需要强大的技术支持、再加上一套完成的统计体系等等。

下面还是具体来说一下关于流量统计系统如何获取网站访客的性别的:

你肯定与我一样很有好奇心!下面是国内其中一款有知的网站流量统计系统识别访客性别的工作原理。

首先,网站流量统计系统开发团队会耗费了大量的时间,建立了一个庞大的词库,这个词库是不断更新的,更新包括2个方面,第一个方面是不断的加入新的词汇, 另一个方面则是进行词性的分析。不断加入新词大家比较容易理解,但是对于词性的判断可能大家不是很熟悉,词性的判断是这样的,比如:“软件”这个词,在一 定程度上是存在男女性别兴趣度的,通过维度的算法和大量的基础调研,我们统计到如下数据:“软件”在概率上有1%的女性对这个词敏感,其中有99%的男性 敏感。

第二步,一般URL上都会附着着一个句子,比如:某个URL上附着上的文字是:“最新软件下载。”网站流量统计系统开发团队会采集这个URL,然后进行分 词处理,比如这个句子,在开发分析人员看来,会是这样的一个词组:“最新|软件|下载”我们会将这个句子做分词,然后分别分析性别概率。

比如:最新软件下载

会是这样:  最新(21%女性关注,79%男性关注)

软件(1% 女性关注,99%男性关注)

下载(10%女性关注,90%男性关注)

综合得到这个URL的性别比例概率:10%左右女性点击的可能性,90%男性点击的可能性,就此,我们得出这个URL的性别分布。

第三步,网站流量统计系统会统计某一个用户点击过所有的URL,包括上面的分词,然后累加做计算,然后部分参考用户鼠标行为,从而综合得到一个用户的性别 概率分布。从而当某一个网站访问用户比较多,或者某一个网站使用一个流量统计比较长的时间后,这个流量统计系统基本上可以判断该网站性别分布概率。

总体来说,访问量比较大的站点,相对来说比较容易分析。如果访问量较小的站点,则需要较长时间进行连续统计分析。但是总体来说,统计到用户的URL越多,时间越长,数据的准确性越趋近真实性别分布概率。

以上是网站流量统计系统实现性别分析的大概过程,当然,真正的实现过程非常复杂,建立一个庞大的性别基准库,就相当大的消耗,而且基于词性本身的特点,词库需要不断的更新和进行基准判断。

来源:http://www.eefocus.com

  • [微信]
  • weinxin
  • [支付宝]
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: