技术资料


23
十二 2009

终于解决了一个LNK2019的问题

将程序从VC6转移到VC2008,一些小问题很快改好,编译通过,但链接时报LNK2019的错,说找不到IBM ICU库的一些函数,但lib中确实有,VC6里也没问题。杯具了,从昨天傍晚开始折腾,尝试了各种方法,依然不依不饶地报LNK2019。Google中查了,也没有相关的问题,刚刚偶然搜到一篇博客,是一个看似没关系的原因,用广告词说,就是抱着试试看的态度改了下设置,尽然真过了。方法是在配置中将C/C++ ->Language -> treat Wchar-t 改为 No(/Zc:wchar_t-)。


10
十二 2009

商品评论的计算

引言:消费者购物时都希望搜集一些使用者的口碑以助自己的选择,同时商品的生产者也希望了解和总结这类口碑信息改善自己的产品。但互联网上大量的评论却分散在论坛、博客、购物网站中,使用者难以一一搜集,更谈不上系统整理、分析。通过中文自然语言处理技术从海量的信息中自动分析、理解评论者的观点,并结构化地呈现给消费者或厂家。这是一个消费者听上去很有意思,厂家听上去很诱人而技术研究者听上去很棘手的应用。

前段时间公司在预研一个关于互联网商品评论分析的项目,我把COAE2008(第一届中文倾向性分析评测)的论文集从头到尾认认真真看了一遍,又总结了一遍,可惜后来由于总总原因项目没有上马,也就没有做更进一步的实验。其实自己以前就对相关研究有关注,也很有兴趣,这次集中看了不少应该能代表国内最前沿水平的论文,收获颇丰。今天突发奇想,借着写博客的方式整理一下思路,一来也算个总结,二来可以备忘,以后再做相关的项目就无需白手起家了。

首先是要明确商品的评价体系,这是计算的基础,资源建设也与之相关,不把这个搞清楚接下来会越做越乱。评价体系是一个树形结构,这棵树大致是这样的(懒得去word画图了,就按顺序从根往叶子写吧):

1、商品分类。这个没得说,比如分为手机、笔记本、数码相机等,当然你要再抽出“数码”这样的上位概念也可以,但对计算意义不大。这是个有限的集合,我们常常要做的一般只限于其间的一两个分类。企望构建一个通用的系统以适合不同的商品分类是不现实的,原因下面就能看到。

2、商品品牌。
3、品牌下的系列。
4、系列下的型号。
计算由此开始。我们以前常常会一步做到4,即直接抽取出商品的型号,比如诺基亚N73。但实际观察语料时会发现,很多用户评价的主体并不在具体型号而是统指某个品牌或品牌的某个系列,比如“联想笔记本散热很好”,“佳能IXUS外观很酷”。因此这类依附于品牌和系列的评价依然是我们需要抽取的,对消费者来说也极为重要,根据经验很多时候我们都是根据口碑选品牌、系列,根据配置、价格选型号。
2-4这些集合是相对有限的结构化数据,抽取很容易,直接用爬虫去中关村在线或京东商城爬就行。但需要注意一些昵称,2-3类都会存在,比如有人称imac的笔记本为“小白”,这个集合的获取比较困难。
2-4是可以向上回溯的,我们只要尽可能地找到靠近叶子的结点,它的父结点就很清楚了。找的途径有两种,一、根据采集来源,二、根据文章分析(基本就是在得到2-4集合的基础上做模式匹配)。

5、评价的属性。
6、评价的属性描述词。
评价的属性是指大的用户可理解的方面,比如笔记本的散热、速度、稳定、外观、性价比等,当然这其中也能划分出多级的层次结构,比如将散热、速度、稳定合成一个上位概念叫性能。属性不会很多,应该可以人工整理,因此如何划分,是一层还是多层,其实和计算关系不大。和计算有关的是评价的属性描述,即在某个属性中评价者可能使用哪些词描述它。比如散热的描述词可能有“温度”“风扇”“摸起来”等等,当句子中出现这些词(也可能是词组)时我们就可以初步猜测用户在评论有关散热的情况。还有一种情况不出现描述词,比如就说“笔记本用久了烫”。

7、褒贬词 程度词 疑问词
这是褒贬分析的核心。先说相对简单的程度词和疑问词,程度词修饰褒贬词,比如“不好”“很流行”,复杂一点如“不是特别好”,需要有程度词和它对褒贬词极性影响的信息词典。疑问词是用来排除一些疑问句,比如“惠普笔记本散热好吗?”不是说散热好,复杂一点如“听说惠普笔记本性价比很高”到底算不算对性价比的正面评价呢?再说褒贬词,褒贬词分两类,一类可以称为静态褒贬词,即无论何种情况下它褒贬倾向明确,比如“优秀”“出色”“垃圾”,这个集合可以单列。另一类是动态褒贬词,它依附于评价的主体,因为需要作为一个个小集合挂在6号结点上,比如“高”“低”“多”“少”,温度高是说散热不好,性价比高是说性价比好。还有一种不出现褒贬词,而是通过数字等方式描述,比如“笔记本用了3小时,温度有60度”,“60度”是说散热好还是不好,这可能需要依赖经验,不太好做。

有了上述这些资源我们至少可以在分词的基础上比较明确地定位每个评论句,但离解决问题还有关键的一步,就是描述词和褒贬词匹配,往深了做要通过句法分析,往浅了可以借助词与词的位置信息和一些经验模板。当然说起来容易,这里面也涉及到很多核心的技术。

好了,今天就写这么多吧。由于不是严格的论文,其间借鉴了很多前人的成果就不一一标注了,应该都出自COAE2008。同时我个人的总结和理解由于很不成熟也谢绝抄袭和引用。文章中涉及到的一些具体方法的研究综述以后有机会再整理整理自己当时随手乱写的笔记发到博客上。

后记:COAE2009已经开完了,希望能尽快看到新的论文集。下面是微软和google的两个产品,采用了类似的分析技术,巨头们似乎也刚刚起步。
Bing shopping: 例子:佳能G10 ,分为用户评论和专家评论,每类评论里有“popular features”,对每个属性的褒贬度都会给分,点击每个属性会出现关于该属性的评论片段。
Google Products: 例子:Nokia N73 ,看右侧“Show reviews that mention ”,是根据评价的属性对评价进行分类,但没有褒贬分析。


09
十二 2009

Web智能

刚刚看了清华大学孙茂松教授在中国新闻技术工作者联合会2009年学术年会上名为《Web智能》的ppt。ppt上文字不多,但给出了不少相关的例子(网站),整理如下以供参考。

1、海量数据产生智能
对联 http://couplet.msra.cn  

2、纵横关联产生智能
人立方 http://renlifang.msra.cn
Google Trends http://www.google.com/trends
memeTracker http://www.memetracker.org

3、群体行为产生智能
Flu Trends http://www.google.org/flutrends

4、语义分析产生智能
Powerset http://www.powerset.com

5、内容整合产生智能
Wiki http://zh.wikipedia.org

有2句话很有启发:
1、语言信息处理在可预期的将来是智能信息处理技术群的核心
2、Web是语言计算的资源宝库


05
十二 2009

安装CentOS和ChromiumOS

熬夜到现在,一口气在vmware中装了2个操作系统,一个CentOS 5.4,一个Chromium OS。前者准备用来干活,后者纯粹为了体验。在虚拟机中安装的原因是不用为找一堆驱动程序发愁,用起来感觉速度还可以。简单的感受是:1、Linux发行版本做得越来越花哨,安装过程和windows一样简单,如果不考虑和别人的兼容性,Linux完全可以替代windows;2、Google的思路是对的,以前说“计算机就是网络,网络就是计算机”觉得不能理解,现在看几乎每个软件都能找到在线版本,需要安装的就只剩下一个浏览器了。

chromium


26
十一 2009

COLING 2010, August 23-27, 2010, Beijing

计算语言学国际顶级会议COLING 2010(The 23rd International Conference on Computational Linguistics)第一次来到中国。

Topics include, but are not limited to:

Syntax, semantics, grammar, and the lexicon
Lexical semantics and ontologies
Phonology/morphology, word segmentation, and tagging
Summarization
Language generation
Paraphrasing and textual entailment
Parsing and chunking
Spoken language processing, understanding and speech-to-speech translation
Linguistic, psychological and mathematical models of language
Computational pragmatics
Dialogue and conversational agents
Computational models of discourse
Information retrieval
Question answering
Word sense disambiguation
Information extraction and text mining
Semantic role labeling
Sentiment analysis and opinion mining
Corpus-based modeling of language
Machine translation and translation aids
Multilingual processing
Multimodal systems and representations
Statistical and machine learning methods
Applications
Corpus development and language resources
Evaluation methods and user studies

Important Dates:

Apr 19, 2010 Full paper submissions due (Main conference)
May 28, 2010 Acceptance notification of main conference
May 30, 2010 Submission deadline for workshop papers
Jun 30, 2010 Acceptance notification of workshop papers
Jul 2, 2010 Camera-ready full papers due (Main conference)
Jul 10, 2010 Camera-ready full papers due (Workshops)
Aug 21-22, 2010 Pre-COLING(Collocating conferences/workshops)
Aug 23-27, 2010 COLING 2010 Main Conference
Aug 28, 2010 Post-COLING (one-day workshops)


13
十 2009

解决JBuilder 2006在64bit下无法运行的问题

新装的64bit Windows 2003,JBuilder 2006启动后闪一下就退出,百度、Google搜索了半天没有明确的答案,只有一个人的博客中说JBuilder 2006在2G内存,64bit系统有这个问题。循着这个思路,尝试修改\Borland\JBuilder2006\bin\jbuilder.config中的vmmemmax 75%为512m,成功启动。


17
五 2009

中文信息学会句法分析评测(CIPS-ParsEval-2009)

大家好,

敬请关注中文信息学会句法分析评测(CIPS-ParsEval-2009),本次活动已于4月份开始网上注册,

截止日期是2009年5月31日,请大家尽快注册!

详情请登陆:http://www.ncmmsc.org/CIPS%2DParsEval%2D2009/ 

收到邮件,句法分析也评测了。想起当年搞Parser那时,和宿舍的兄弟们一道通宵达旦地编程、写论文,生活得充满激情,充实无比。可惜那会儿到没有类似的评测,不然到可以拉出去试试,估计死得不会特别好看。不过如果有机会继续改进完善,我相信我们的方法还是有前途的,因为自动分析汉语首先要研究汉语的规律,这本是解决任何一个问题的常识却常常被忽略。但是说实话,汉语的句法分析器离应用水平真的很远,也真的很难。


30
十二 2008

75个最佳Web设计资源[转自译言,备忘]

字体
- 60 套公司用设计字体 [Smashing Magazine]
- 20 套免费手写字体与资源 [Fuel Your Creativity]
- 50 套专业Web设计与印刷用字体 [Noupe]
- 15 套漂亮的高质量免费字体 [Smashing Magazine]
- 21 套来自 DeviantArt 的艺术字体 [Designflavr]
- 设计专业人士使用的7套最佳字体 [Just Creative Design]
- 45 套符合现代设计趋势的免费漂亮字体 [Six Revisions]

CSS
- 50 个强大的 CSS 实用工具 [Smashing Magazine]
- 30 套 CSS 小炒资料 [All Web Design Resources]
- CSS 编辑器评测 [Smashing Magazine]
- CSS 高手的 10 个原则 [NETTUTS]
- 2008 最佳 CSS 设计中文) [Web Designer Wall]
- 40 个 CSS 生成器 [All Web Design Resources]
- 重置你的CSS [Six Revisions]
- 实现干净代码的12条定律中文) [Smashing Magazine]

Logo 设计
- 81 个最佳 Logo 设计资源 [Logo Design Love]
- 最佳Logo设计资源 [Just Creative Design]
- 105 个Logo设计资源 [Elite By Design]
- 35 个令人目眩的黑白 Logo [Siah Design]
- 50 套能够带来启发的 Logo [Fuel Your Creativity]
- 2008 年 33 个不俗的 Logo 重设计 [Smashing Apps]
- 30 个精彩的矢量 Logo 设计 [VECTORTUTS]
- 10 个成功的 Logo 设计 [Logo Design Love]

图标
- 2008年50套最漂亮的图标 [Noupe]
- 40 套漂亮的免费图标 [Six Revisions]
- 22 套全新高品质免费图标 [Elite By Design]
- 40 套超漂亮的图标 [Noupe]

设计启发
- 50 个漂亮的博客设计 [Smashing Magazine]
- 40 个有创意的按钮 [PSDTUTS]
- 60 个非常 Cool 非常有创意的 404 页面 [Hongkiat]
- 30 个漂亮的 Web 设计例子 [Six Revisions]
- 2008年40个具有启发性的 Web 设计 [CrazyLeaf Design Blog]
- 50 个漂亮的导航菜单 [Vandelay Website Design]
- Web 设计中的57个矢量字符 [CSSLeak]
- 50 个漂亮的,有创意的展示类站点设计 [Smashing Magazine]
- 40 个漂亮的暗色系 CSS 设计 [Toxel]
- 40 个漂亮的手画 Web 设计 [CSSBuilt]
- 79 个精彩的专辑封面 [Inspiredology]
- 40 套有创意的名片设计 [Toxel]
- 纹理与图样设计展示 [Smashing Magazine]
- 54 幅令人灵魂出窍的数字画 [PSDTUTS]
- 50 个出色的博客页脚设计 [Hongkiat]
- 24 个漂亮的,有创意的网站 Header 设计 [Toxel]
- 富有灵感的 PDF 杂志设计 [Smashing Magazine]

教程
- 41 个最好的 Photoshop 效果教程 [Hongkiat]
- 30 个漂亮的 Photoshop 文字效果教程 [Six Revisions]
- 70 个 Photoshop 美容教程 [Smashing Magazine]
- 50 个很棒的 Photoshop 教程 [PSDTUTS]
- 30 个 Fireworks 教程 [Arbent]
- Adobe Fireworks 教程与下载 [Smashing Magazine]
- 40 个 Wacom 数字画板教程 [DesignM.ag]
- 50 个出色的 AJAX 教程 [Smashing Magazine]
- 50 个富有创意的 Photoshop 文字效果教程 [PSDTUTS]
- 23 个不可思议的 Photoshop 教程 [Elite By Design]
- Adobe Illustrator 教程 [Smashing Magazine]

Photoshop 资源下载
- Photoshop Custom Shapes 集 [Smashing Magazine]
- 20 个 Photoshop 印刷作品与画笔资源 [PSDTUTS]
- 75 个超高分辨率 Photoshop 画笔 [Elite By Design]
- 50 个不可或缺的 Photoshop 画笔 [Smashing Magazine]
- 200 套 Photoshop 画笔 [You the Designer]
- 50 套免费的 Photoshop Pattern [Emma Alvarez]
- 55 套免费的画笔与矢量图 [Web Resources Depot]
- 40 套 Photoshop 万圣节主题画笔 [PSDFan]

WordPress
- 100 出色的 WordPress 免费主题 [Smashing Magazine]
- 30 个最实用的 WordPress 技巧 [Hongkiat]
- 45 套免费的 WordPress 网格布局主题 [WPZOOM]
- 45 套必须要看到 WordPress 主题 [Noupe]
- 20 套 WordPress 公司网站主题 [Blogsessive]
- 24 套高质量免费 WordPress 主题 [Toxel]
- 21 套令人耳目一新的免费Wordpress主题 [Smashing Apps]
- 50 套漂亮的免费 WordPress 主题 [Six Revisions]
- 10 个寻找免费 WordPress 主题的地方 [UPrinting]
- 50 个最好的 WordPress 主题 [CrazyLeaf Design Blog]
- 10 个 WordPress 实用 RSS 技巧 [Smashing Magazine]
- 45 个出色的免费 WordPress 主题 [DzineBlog]