去开SAS组织的2011分析大会,在旅店里呆了三天。奥兰朵二十五度的蓝天白云,只在会议的间隙匆匆一览。主题不错,伙食很好,旅店的服务也比去年在SAS总部的时候好了很多。其间纠集了二十多位中国同行,到当地有名的明府和翠苑楼晚餐,天南海北一通神吹,好不快活。唯一的遗憾估计就是近在咫尺的迪斯尼和海洋公园却因为时间的紧张无缘再访了。 SAS这次把往年的商业预测大会和数据挖掘大会合并一起,规模比往年都大。有29个国家的1000多人参加。这次比较新一点儿的主题是文本挖掘和社交网络在预测模型中的应用。一个典型的例子是,比如每家大的通讯公司为了竞争都建立了相当规模的商业分析预测队伍,收集购买用户的人口信息,电话记录,社区经济情况,文化背景,职业收入等等,然后建立统计模型,预测用户需求,干预可能跳槽的,促销可能加入的,定位潜在钉子户。这种模型已经折腾了十多年了,潜力已经消耗殆尽。你天天收到的那些垃圾邮件大部分都是精心设计的预测模型的功劳,但直邮广告的回复率已经只有0.5%, 而且日益下降。 怎么办?于是社交网络成了新的数据源。你大姨的小侄子买了个爱疯,爱不释手,于是你们家人的朋友的亲戚可能就会受影响也跟着爱疯。你邻居昨天受了罗砸死的气,跳槽到卫星了,你听着也心动,过两天就有可能砍线买锅了。以前的模型都是建立在消费者是独立行动的假说上,现在我如果能把你们这些曲里拐弯儿的关系弄清了,融入模型里,就能折腾到市场先机了。欧洲来的一个大师,就讲了这么个探索的故事,用最大电话网络里你给他人通话的时间次数可能的内容分类,把你的社交网络数据化,然后提高预测水准,多挣了点欧元。虽然最近欧元风雨飘摇,但多点儿也是多点儿啊。 另一个正在发展的东西就是文本挖掘。词儿整得很光鲜,但实质就是从你们的日志啊记录啊跟帖啊楼主啊什么的寻找关键词儿,然后把它条理化,结构化,数据化。比如挖掘一下文学城我爱我家,就能找到最近这帮大姐喜欢什么样的沙发,什么样的窗帘,什么样的马桶,如此等等。再挖掘CFC主坛,发现一堆马甲的用词特点,标点样式,关心主题,打架规律,就不难科学地猜马甲。至于现在这个NET嘛,都不用怎么挖,用EXCEL就能算出来前十位的关键词:排球,相机,滑雪,啤酒,如此等等。这些都是商业机密啊。如果群体大了,我就专门设计一个包包,左边装一排球,右边装一相机,下面吊一串啤酒,然后包包挂在滑雪板上,哇鳃,英姿不是一般的飒爽,想卖不出去都难啊。 新东西就学了这么一点儿,但活学活用已经不错了。这回主要的收获是认识了一帮挖数专家,都是中国人,明珠遗落在他乡,每个人都有一串故事,晚餐那点儿时间简直不够用。仔细一问,还真没几个数理出生的,有的搞过英国文学,有的做过市长秘书,有的当过教育部官员,有的竟然是我县城的老乡。还有一个坐边上的,一口京腔,我一报名是哪里的,大姐就说,那谁谁你知道吧,丫结婚了没有啊,四十郎当了吧?那谁谁居然就是我原来单位一个特要好的哥们儿。这世界之小,简直神了。 米国人看加拿大,就好像城里人看乡下的亲戚,一边赞扬你那里风景独好,一边就好像那什么边远山区啊,同情还是必须的。这回我还真问了一下行业的薪水和加班加点儿的情况,我不得不说,咱们乡下现在可好啦。冷是冷点儿,但杀菌啊。 在一个酒店喝酒,十五号人大谈特谈非诚勿扰,讨论每一个男角儿女角儿的是非功过,让我深深觉得自己真的Out了。有歪诗为证: 金秋时节奥兰朵,挖数英豪聚江湖。 明府内外追往事,翠园堂前绘蓝图。 故国月明时有泪,他乡一遇话成箩。 来年共饮那厮处,非诚勿扰再蹉跎。 |