2001年南方周末的新年献词说:
新年的阳光将照亮你的梦想,将照亮每一个和你一样善良、正直、互相关怀、默默奋斗的人的梦想,将照亮这个正在走向开放的国家、正在谋求发展的民族的梦想。
2000年12月31日,我坐在南京汉中门车站准备回家,那篇文章深深地打动了我。9年后,我也即将赶往北京南站,近乎相似的情境让我重想起它。如果有什么新年愿望的话,我祈望当时的那份感动和力量能够历久弥新地留存在我2010年的心中。
2001年南方周末的新年献词说:
新年的阳光将照亮你的梦想,将照亮每一个和你一样善良、正直、互相关怀、默默奋斗的人的梦想,将照亮这个正在走向开放的国家、正在谋求发展的民族的梦想。
2000年12月31日,我坐在南京汉中门车站准备回家,那篇文章深深地打动了我。9年后,我也即将赶往北京南站,近乎相似的情境让我重想起它。如果有什么新年愿望的话,我祈望当时的那份感动和力量能够历久弥新地留存在我2010年的心中。
2009年我继续在这座城市寻觅着能感动我的“决定性瞬间”。我喜欢拎着相机,在安静的公园里,边走边看边想边拍。我不是专业的摄影师,没有那份耐心将相机架在三脚架上,等待着最美的光影透过镜头稳稳地投射在CMOS上,同时也就没有那份负担,拍摄只不过是一种个人的方式,籍此让寂寞的行走有一种目标,有一点记录,附加上一份期待。当电脑上一张张照片重新闪过的时候,我可以清晰地想起那个中午在山顶震撼到无言,或者那天下午温暖的冬日阳光。
02月14日 故宫
06月13日 前门大街
07月19日 圆明园荷花
07月25日 798艺术工厂
08月02日 故宫 之一 之二
08月22日 故宫角楼
08月24日 南锣鼓巷
08月29日 798艺术工厂
09月05日 潘家园
09月12日 慕田峪长城 之一 之二 之三
09月19日 北海公园
09月26日 首都博物馆
11月14日 潭柘寺
11月15日 香山公园
12月05日 卢沟桥
12月12日 三里屯
12月19日 天坛公园
这图叫:失控的CNTV
本来还想说两句,想到去年我也算领教了北京通管局的办事效率,rugu.net在“审核中”战战兢兢开了大半年(好在那时环境宽松),做人还是厚道点,嘛也不说了。不过如果我是那啥部那啥NIC,绝对Hold丫域名没商量,让你叫失控,让你管CN,管到自己头上了吧,这叫躲得过初一,躲不过正月十五。哈哈,太刻薄了。

今天中午收到招行短信,打款54.50,寻思这钱到底从何而来,莫非是公司圣诞的福利,也不带这么有零有整的。后来想了一圈突然想到,八成是当当或卓越的佣金,登录联盟一看,果然是当当发的。我的好书网已经4年不更新了,想不到多少还有点流量,好歹人家这一年下来也能挣个五十一百的,够续费了,也算自己养活自己。顺便看了下报表,今年2到10月一共给当当带去净销售额1251.58。
今天是平安夜,想起4年前还给好书做过一个节日logo。

PS: 发完文章偶然看到豆瓣的节日logo,和好书惊人地相似,我四年前就这么设计了,说明意识很超前

又到年终,整理一年的照片,发现有一次拍过后尽然没到博客上交作业。时间是9月19日,天气阴,还略有点水雾。那天的行程是坐车到北海北门,进北海拍照,绕“海”整一圈,从南门出,沿故宫西侧的北长街到西华门,拍故宫西南角的角楼,从西华门大街到午门,正好故宫打烊,随人群从天*安*门出,到广场拍为大庆准备的柱子和LED墙,出来后往前到前门,做特4打道回府。腿都跑细了,也没拍出什么出彩的照片。不过对探秘来说还是很有收获,想不到地处市中心的故宫周围还有如此僻静之处,特别是西南角的角楼附近,游人罕至。在那么一个阴天,一个人呆坐在沿河的椅子上,一侧流淌着护城河的水,一侧高耸着故宫的围墙,清风拂面,穿越百年。
将程序从VC6转移到VC2008,一些小问题很快改好,编译通过,但链接时报LNK2019的错,说找不到IBM ICU库的一些函数,但lib中确实有,VC6里也没问题。杯具了,从昨天傍晚开始折腾,尝试了各种方法,依然不依不饶地报LNK2019。Google中查了,也没有相关的问题,刚刚偶然搜到一篇博客,是一个看似没关系的原因,用广告词说,就是抱着试试看的态度改了下设置,尽然真过了。方法是在配置中将C/C++ ->Language -> treat Wchar-t 改为 No(/Zc:wchar_t-)。
话说上周没去成天坛颇为遗憾,这周锲而不舍天遂人愿。在门口办了2010年的公园年票,按说是从1月1日开始生效,但今天就可以用,很意外的收获。仔细看了说明,年票的公园竟然不包括故宫和长城,而其他几个能玩的其实门票都不算太贵,特别是景山和太庙,才两块钱,这样算来能不能把本钱赚回来都是问题,看来明年要多运动运动了。动物园也赫然在列,乐观地估计不出半年这个曾经不好意思去的地方也会被我扫遍,拍拍熊猫猴子什么的也算是学习人像摄影吧,原理大致是通的。
言归正传,天坛的风光片实在太多了,被人拍烂了。那些经典的视角,只要你选一个蓝蓝的天,选一个合适的位置,架好相机,快门上挂一个肉包子,狗也能拍出好照片。算上这次我去过四次天坛,两次是一个人去拍照的,如果第一次可以算学习,拍些明信片还能说得过去,这次我很想拍出点不一样的东西。转了三个小时,一直到天快黑了才出来,绕着祈年殿一圈一圈反复的走,反复的尝试,最终发现还是跳不出那些框框。尽管不甘心,但我不得不承认我的失败,我拍的每一张应该都已经有前人拍过。在某种程度上,天坛要拍出新意比故宫还难。它就是一座建筑,一座完美的建筑,没有皇帝,没有剑戟,只有一种由建筑本来带来的威严的震撼和神圣的力量。它像圣人一样,我们可以仰止但却无法亲近。





原来准备去天坛拍照的,出门时看到朵朵白云的缝隙里点缀些许蓝天,好似牛肉面里的牛肉,但虽然面比牛肉多得多但我们还是将牛肉放在前面,因此这样的天气我们依然可以称为蓝天。坐在公交车上,不时观察观察天空,天就像近几年工资没涨、物价飞涨的情况下面店的对策——牛肉越来越少面越来越多。到了该换乘的地方基本上已没什么蓝天了,称多云都感觉已放水。顿时玩性大减,不想去天坛了。也不能白出来,正好靠近三里屯,就在附近转了一圈,找到了传说中的Apple Store,随手拍了几张。之后,刹羽而归。



就在刚才,CNNIC发布《关于进一步加强域名注册信息审核工作的公告》,公告称,从下周一开始,cn域名注册将需要书面提交申请材料并加盖公章。看来这次CNNIC被CCTV搞得不清,煞费苦心宣传了快3年的国家域名腾飞计划被焦点访谈几分钟打回到原始社会。尽管我对CNNIC漫天的枪文十分厌恶,这次也算恶有恶报,但我还是不得不说CNNIC确实很冤。打击色情网站,应该!关闭盗版网站,支持!但别出了杀人案找卖菜刀的算账,这个有点搞笑。
本来不应该幸灾乐祸的,但还是忍不住:
1、我从02年注册域名开始就只关注com和net,前年cn1元推广的时候我也跟风注册过几个,但注过就忘、也没续费。因此随便CNNIC怎么折腾我都属于看戏的那类,我很佩服自己的判断。
2、我的十来个com和net(rugu.net就在其中)本来准备近期转回国内注册商的,现在想想还是在异国他乡的Godaddy呆着吧。我没有违法的胆,连打擦边球的心都没有,但这不也怕误炸嘛。
3、这次互联网大清理其实理性地说,对于想互联网创业的人而言是一个难得的好机会。现在的互联网还处在盗版驱逐正版、劣币驱逐良币的时代。政府出面帮你清场子,把一些你作为一个守法公民不敢做不愿做不好意思做但也很眼馋它呼呼流量的网站统统干掉,有什么不好?
引言:消费者购物时都希望搜集一些使用者的口碑以助自己的选择,同时商品的生产者也希望了解和总结这类口碑信息改善自己的产品。但互联网上大量的评论却分散在论坛、博客、购物网站中,使用者难以一一搜集,更谈不上系统整理、分析。通过中文自然语言处理技术从海量的信息中自动分析、理解评论者的观点,并结构化地呈现给消费者或厂家。这是一个消费者听上去很有意思,厂家听上去很诱人而技术研究者听上去很棘手的应用。
前段时间公司在预研一个关于互联网商品评论分析的项目,我把COAE2008(第一届中文倾向性分析评测)的论文集从头到尾认认真真看了一遍,又总结了一遍,可惜后来由于总总原因项目没有上马,也就没有做更进一步的实验。其实自己以前就对相关研究有关注,也很有兴趣,这次集中看了不少应该能代表国内最前沿水平的论文,收获颇丰。今天突发奇想,借着写博客的方式整理一下思路,一来也算个总结,二来可以备忘,以后再做相关的项目就无需白手起家了。
首先是要明确商品的评价体系,这是计算的基础,资源建设也与之相关,不把这个搞清楚接下来会越做越乱。评价体系是一个树形结构,这棵树大致是这样的(懒得去word画图了,就按顺序从根往叶子写吧):
1、商品分类。这个没得说,比如分为手机、笔记本、数码相机等,当然你要再抽出“数码”这样的上位概念也可以,但对计算意义不大。这是个有限的集合,我们常常要做的一般只限于其间的一两个分类。企望构建一个通用的系统以适合不同的商品分类是不现实的,原因下面就能看到。
2、商品品牌。
3、品牌下的系列。
4、系列下的型号。
计算由此开始。我们以前常常会一步做到4,即直接抽取出商品的型号,比如诺基亚N73。但实际观察语料时会发现,很多用户评价的主体并不在具体型号而是统指某个品牌或品牌的某个系列,比如“联想笔记本散热很好”,“佳能IXUS外观很酷”。因此这类依附于品牌和系列的评价依然是我们需要抽取的,对消费者来说也极为重要,根据经验很多时候我们都是根据口碑选品牌、系列,根据配置、价格选型号。
2-4这些集合是相对有限的结构化数据,抽取很容易,直接用爬虫去中关村在线或京东商城爬就行。但需要注意一些昵称,2-3类都会存在,比如有人称imac的笔记本为“小白”,这个集合的获取比较困难。
2-4是可以向上回溯的,我们只要尽可能地找到靠近叶子的结点,它的父结点就很清楚了。找的途径有两种,一、根据采集来源,二、根据文章分析(基本就是在得到2-4集合的基础上做模式匹配)。
5、评价的属性。
6、评价的属性描述词。
评价的属性是指大的用户可理解的方面,比如笔记本的散热、速度、稳定、外观、性价比等,当然这其中也能划分出多级的层次结构,比如将散热、速度、稳定合成一个上位概念叫性能。属性不会很多,应该可以人工整理,因此如何划分,是一层还是多层,其实和计算关系不大。和计算有关的是评价的属性描述,即在某个属性中评价者可能使用哪些词描述它。比如散热的描述词可能有“温度”“风扇”“摸起来”等等,当句子中出现这些词(也可能是词组)时我们就可以初步猜测用户在评论有关散热的情况。还有一种情况不出现描述词,比如就说“笔记本用久了烫”。
7、褒贬词 程度词 疑问词
这是褒贬分析的核心。先说相对简单的程度词和疑问词,程度词修饰褒贬词,比如“不好”“很流行”,复杂一点如“不是特别好”,需要有程度词和它对褒贬词极性影响的信息词典。疑问词是用来排除一些疑问句,比如“惠普笔记本散热好吗?”不是说散热好,复杂一点如“听说惠普笔记本性价比很高”到底算不算对性价比的正面评价呢?再说褒贬词,褒贬词分两类,一类可以称为静态褒贬词,即无论何种情况下它褒贬倾向明确,比如“优秀”“出色”“垃圾”,这个集合可以单列。另一类是动态褒贬词,它依附于评价的主体,因为需要作为一个个小集合挂在6号结点上,比如“高”“低”“多”“少”,温度高是说散热不好,性价比高是说性价比好。还有一种不出现褒贬词,而是通过数字等方式描述,比如“笔记本用了3小时,温度有60度”,“60度”是说散热好还是不好,这可能需要依赖经验,不太好做。
有了上述这些资源我们至少可以在分词的基础上比较明确地定位每个评论句,但离解决问题还有关键的一步,就是描述词和褒贬词匹配,往深了做要通过句法分析,往浅了可以借助词与词的位置信息和一些经验模板。当然说起来容易,这里面也涉及到很多核心的技术。
好了,今天就写这么多吧。由于不是严格的论文,其间借鉴了很多前人的成果就不一一标注了,应该都出自COAE2008。同时我个人的总结和理解由于很不成熟也谢绝抄袭和引用。文章中涉及到的一些具体方法的研究综述以后有机会再整理整理自己当时随手乱写的笔记发到博客上。
后记:COAE2009已经开完了,希望能尽快看到新的论文集。下面是微软和google的两个产品,采用了类似的分析技术,巨头们似乎也刚刚起步。
Bing shopping: 例子:佳能G10 ,分为用户评论和专家评论,每类评论里有“popular features”,对每个属性的褒贬度都会给分,点击每个属性会出现关于该属性的评论片段。
Google Products: 例子:Nokia N73 ,看右侧“Show reviews that mention ”,是根据评价的属性对评价进行分类,但没有褒贬分析。