【问题求解&思路探讨】豆瓣猜的困惑系列(3)业务系统与分析系统如何进行交互
业务系统与分析系统如何进行交互?
业务系统的数据给分析系统用是传统的dw范畴,这次讨论的主题是,分析系统的输出如何返回给业务系统使用?
这个问题一直在困惑着我。
当前我们系统所采用的交互方式主要有两种:
1、分析系统将分析结果以一定周期(通常是天或月)ftp给业务系统。
对于豆瓣来说,后台的挖掘集市会将每天豆瓣猜所生成的结果给到web server。
2、在分析系统和业务系统之间架一个中间层,也就是一台应用服务器
对于豆瓣来说,就是一台application server接收挖掘集市豆瓣猜的输出结果,提供给web server调用
之前和taobao的人聊过,还有一种交互方式
3、分析型系统输出一个规则。
比如豆瓣猜,通过分析型系统分析,大概也就是结合现有标签、友邻标签等变量利用logistic回归等方法,给出一个评分规则,web server根据这个评分规则实时生成首页“喜欢看"X"的人也喜欢”的结果。这个方法为大多数互联网公司所使用。
douban是采用哪种交互方式呢?
从上篇困惑来看,如果通过ftp交互,豆瓣猜所推荐的item如果我看过,然后会更新,如果这样,那么豆瓣猜一次所送给web server的输出应该会很多(我尝试过点击6个均以看过,仍然可以更新),那么我比较好奇的是临界值是多少?到达临界值时(也就是豆瓣猜一次推送给web server的所有item我都看过)的处理机制?
当然我也面临这个问题,一次性给客户推荐最合适的三个业务(多了的话会影响客户感知,同时准确性也没有保障)或者类似豆瓣猜给用户推荐6个item,如果这6个包括以后推荐的6个以及再以后推荐的N个6个这个用户都用过,处理机制是怎么样的呢?
对于item评分,最起始的6个是评分最高的(所有item按评分降序排列),但如果一直这么更新下去,有没有一个阙值,比如打分>X才可以进入到豆瓣猜推荐?如果没有的话,一直保证豆瓣猜的推荐,之后命中率会越来越差,会不会影响用户感知?
极端处理:如果所有豆瓣猜的推荐我都看过,会出现什么情况?
业务系统的数据给分析系统用是传统的dw范畴,这次讨论的主题是,分析系统的输出如何返回给业务系统使用?
这个问题一直在困惑着我。
当前我们系统所采用的交互方式主要有两种:
1、分析系统将分析结果以一定周期(通常是天或月)ftp给业务系统。
对于豆瓣来说,后台的挖掘集市会将每天豆瓣猜所生成的结果给到web server。
2、在分析系统和业务系统之间架一个中间层,也就是一台应用服务器
对于豆瓣来说,就是一台application server接收挖掘集市豆瓣猜的输出结果,提供给web server调用
之前和taobao的人聊过,还有一种交互方式
3、分析型系统输出一个规则。
比如豆瓣猜,通过分析型系统分析,大概也就是结合现有标签、友邻标签等变量利用logistic回归等方法,给出一个评分规则,web server根据这个评分规则实时生成首页“喜欢看"X"的人也喜欢”的结果。这个方法为大多数互联网公司所使用。
douban是采用哪种交互方式呢?
从上篇困惑来看,如果通过ftp交互,豆瓣猜所推荐的item如果我看过,然后会更新,如果这样,那么豆瓣猜一次所送给web server的输出应该会很多(我尝试过点击6个均以看过,仍然可以更新),那么我比较好奇的是临界值是多少?到达临界值时(也就是豆瓣猜一次推送给web server的所有item我都看过)的处理机制?
当然我也面临这个问题,一次性给客户推荐最合适的三个业务(多了的话会影响客户感知,同时准确性也没有保障)或者类似豆瓣猜给用户推荐6个item,如果这6个包括以后推荐的6个以及再以后推荐的N个6个这个用户都用过,处理机制是怎么样的呢?
对于item评分,最起始的6个是评分最高的(所有item按评分降序排列),但如果一直这么更新下去,有没有一个阙值,比如打分>X才可以进入到豆瓣猜推荐?如果没有的话,一直保证豆瓣猜的推荐,之后命中率会越来越差,会不会影响用户感知?
极端处理:如果所有豆瓣猜的推荐我都看过,会出现什么情况?