一种基于网络文本语义分析的建筑评价方法技术领域
本发明涉及一种建筑评价方法,尤其是一种基于网络文本语义分析的建筑评价方
法,属于建筑评价领域。
背景技术
随着信息时代和网络社会的来临,建筑媒体的种类也变得日益丰富。除了传统的
报刊、杂志等文字出版媒体外,一些社交软件、专业建筑论坛、贴吧等新媒体的崛起给建筑
评论提供了新的平台和工具。近年来,一批类似于“秋裤楼”、“大裤衩”、“大肠塔”等“绰号建
筑”在网络中受到关注,引来网民和社会群众的广泛热议,并掀起一轮建筑批评狂潮,对于
建筑设计和建筑评论产生了广泛的影响。多样化的建筑传播媒体在建筑评论领域承担着越
来越重要的角色,对于建筑评论的主体、内容、形式和价值标准等都产生了深刻的影响[1]。
在当今的网络新媒体在建筑领域中所处的角色,设计师、群众等不同群体对于建筑的认知
存的差异,以及利用新时代的网络媒体工具有效地提升建筑设计的公共参与都是值得深入
研究的课题。
随着信息技术的不断改进,对于词频分析、语义分析和评论倾向性分析的方法也
逐渐成熟。掌明等(2009)发明了一种基于关键词频度分析的中文网页分类方法,用正则表
达式过滤器过滤噪音,用分词器和关键词频度分析器进行网页模糊分类计算,得出网页所
属类别结果[1];王益等(2013)发明了一种语义分析方法及系统,按文档维度和词维度进行
语料切分和迭代采样,对得出的收敛采样模型进行语义分析[2];石磊(2014)发明了一种提
取领域关键词的方法及装置,通过生成词频矩阵,设定算法提取领域中的关键词[3];赵渺希
等(2016)发明了一种基于互联网词频的城市认知地图生成方法,基于网络数据收集的城市
认知测度,反映到城市地图上[4];吴琼等(2009)发明了一种跨领域文本情感倾向性分析方
法,通过文本集建立矩阵关系,利用矩阵计算情感分并进行归一化[5];中科鼎富(北京)科技
发展有限公司(2011)发明了一种针对短文本的倾向性分析的系统与方法,识别句子语义结
构,句中搜索设定的倾向性词和倾向性模式,分析倾向性[6]。吴明芬等(2013)发明了一种倾
向性文本自动分类系统及其实现方法,基于情感分类句法树库和依存关系图库对文本进行
分类[7];董丽丽等(2013)发明了一种文本倾向性分析方法及基于该方法的商品评论倾向判
别器,通过依存语法分析,情感词典计算引擎判别文本倾向性[8];鲁平(2014)发明了一种文
本倾向性的确定方法和装置,根据预先设定的行业特征词词典和文本分类模型,确定包含
行业特征词的句子的倾向性[9]。
因此,利用网络文本对建立专业建筑语料库,并研究公众对于不同建筑方案的倾
向性,有助于让更多的建筑评论语言反应到建筑设计之中,推动建筑评价和建筑设计的发
展。
上述内容提到的参考文献如下:
[1]掌明,垄成龙,卢艳宏,冯源,杨瑞,王攀.基于关键词频度分析的中文网页分类
方法[P].江苏:专利申请公告号CN101593200,2009-12-02.
[2]王益,赵学敏,孙振龙,严浩,王莉峰,靳志辉,王流斌.语义分析方法及系统
[P].广东:专利申请公告号CN104346339A,2015-02-11.
[3]石磊.一种提取领域关键词的方法及装置[P].北京:专利申请公告号
CN103870575A,2014-06-18.
[4]赵渺希,黄俊浩,林艳柳,钟烨.一种基于互联网词频的城市认知地图生成方法
[P].广东:专利申请公告号CN105574259A,2016-05-11.
[5]吴琼,谭松波,段洣毅,程学旗.一种跨领域文本情感倾向性分析方法[P].北
京:专利申请公告号CN101714135A,2010-05-26.
[6]不公告发明人.一种针对短文本的倾向性分析的系统与方法[P].北京:专利申
请公告号CN102541840A,2012-07-04.
[7]吴明芬,陈涛,刘兴林.一种倾向性文本自动分类系统及其实现方法[P].广东:
CN102930042A,2013-02-13.
[8]董丽丽,赵繁荣,张翔,王茹.一种文本倾向性分析方法及基于该方法的商品评
论倾向判别器[P].陕西:专利申请公告号CN103455562A,2013-12-18.
[9]鲁平.文本倾向性的确定方法和装置[P].北京:专利申请公告号
CN104572616A,2015-04-29.
发明内容
本发明的目的是为了克服上述现有技术的不足之处,提供了一种基于网络文本语
义分析的建筑评价方法,该方法基于大型公共建筑设计专业建筑论坛评论的网络文本,建
立网络环境下的建筑评论专业语料库,并分析专业建筑设计师与网络群众对建筑个案的关
注差异。
本发明的目的可以通过采取如下技术方案达到:
一种基于网络文本语义分析的建筑评价方法,所述方法包括以下步骤:
S1、选取专业建筑论坛,利用Locoy Spider软件对网络文本进行获取,并进行筛选
整理;
S2、通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代
汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;
S3、通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语
料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异。
优选的,步骤S1中,所述选取专业建筑论坛,利用Locoy Spider软件对网络文本进
行获取,并进行筛选整理,具体包括:
S11、选取评论样本数量充足的专业建筑论坛作为数据来源;
S12、利用Locoy Spider软件编辑新建火车头任务,通过分析专业建筑论坛网页结
构的源代码,选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签
信息包括专业建筑论坛主题、评论用户名称、评论时间和评论内容;
S13、在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据;
S14、将获取的评论数据按照专业建筑论坛主题、评论用户、评论时间和评论内容
的标签进行完善和整理,并剔除专业建筑论坛公告和广告帖子。
优选的,步骤S2中,所述通过结巴分词工具及汉语词频分析工具进行网络文本的
语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑
专业语料库,具体包括:
S21、将筛选整理后的专业建筑论坛评论数据转换成txt文本格式,并利用结巴分
词工具进行分词,形成专业建筑论坛评论的词汇列表;
S22、根据步骤S21形成的词汇列表,利用汉语词频统计工具对专业建筑论坛评论
数据统计各项词汇的频数、重复数、百分比和去重百分比;
S23、根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的
词汇样本以及该词汇样本在建筑专业建筑论坛和现代整体汉语语料库的词频数;
S24、对两组词频数据进行标准归一化处理;
S25、将标准归一化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命
令进行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差
异;
S26、当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析专
业建筑论坛词汇的重要性;
S27、根据步骤S26形成的词汇重要性数据,将建筑专业建筑论坛词汇由高到低进
行排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语
语料库高频词汇进行筛选剔除,剩余词汇作为网络建筑专业词汇;
S28、按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑色彩、建筑材
料及结构、空间布局、建筑成果、建筑构件和建筑角色将步骤S27形成的网络建筑专业词汇
进行分类整理,建立网络建筑专业语料库。
优选的,步骤S3中,所述通过对建筑个案进行特征词汇分析,将建筑个案特征词汇
与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差
异,具体包括:
S31、将筛选整理后的建筑个案评论数据转换成txt文本格式,并利用结巴中文分
词工具进行分词,形成建筑个案评论的词汇列表;
S32、根据步骤S31形成的词汇列表,利用汉语词频统计工具对建筑个案评论数据
统计各项词汇的频数、重复数、百分比和去重百分比;
S33、根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的
词汇样本以及该词汇样本在建筑个案评论和现代整体汉语语料库的词频数;
S34、对两组词频数据进行标准归一化处理;
S35、将标准化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进
行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差异;
S36、当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析建
筑个案词汇的重要性;
S37、根据步骤S36形成的词汇重要性数据,将建筑个案词汇重要性由高到低进行
排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语
料库高频词汇进行筛选剔除,剩余词汇作为建筑个案特征词汇;
S38、将步骤S37形成的建筑个案特征词汇与网络建筑专业语料库进行比较,分析
网络群众与专业建筑设计师对于建筑个案的关注差异。
优选的,所述对两组词频数据进行标准归一化处理,具体为:
假设第j组词汇列表的第i个词频数为αij,则标准归一化处理后到标准值θij,具体
公式为:
式中:i=1,2…,x;j=1,2。
优选的,所述利用两配对样本非参数检验命令进行两组词频数的非参数检验分
析,判断两配对样本来自的总体分布是否存在显著性差异,具体为:
按照符号检验的方法,将第二组样本的观察值减去第一组样本的观察值βij;如果
差值是一个正数,则记为正号;差值为负数,则记为符号;出现差值等于0时,则删除相应的
建筑个案,样本数量x也相应地减少;
保留差值数据,根据差值数据的绝对值按升序排序,求出相应的秩值βi,并分别计
算符号为正号的秩和W+、负号秩和W-及正号平均秩U+、正号平均秩U-;
具体计算公式为:
或
U+=W+/m或U-=W-/n
其中,m和n分别代表正号秩值和负号秩值的数量;
计算检验统计量Z值和SPSS计算得到的相伴概率值Sig,通过与设定的显著性水平
进行比较,从而判断两组样本数据是否存在显著性差异,如下式:
W=min(W+,W-)
其中,n为删除差值为零的有效样本数量;
如果得到的概率值小于或等于设定显著性水平,则认为两配对样本来自的总体分
布存在显著性差异;如果得到的概率值高于设定的显著性水平,则认为两配对样本来自的
总体分布无显著性差异。
优选的,所述词汇的重要性,公式如下:
其中,P(Vi)是词汇i的中重要性,d是阻尼系数,In(Vi)是含有词汇i的语段集合,
Out(Vj)是含有词汇j中的语段的集合,|Out(Vj)|是集合中元素的个数。
优选的,所述方法还包括:
S4、将建筑个案的整体评论数据根据不同的建筑方案进行分类,分析网络群众对
于不同方案的关注要素。
优选的,步骤S4中,所述将建筑个案的整体评论数据根据不同的建筑方案进行分
类,分析网络群众对于不同方案的关注要素,具体包括:
S41、对专业建筑论坛上建筑个案的评论按照不同方案进行分类,并分别转换为
txt文件格式;
S42、根据步骤S31形成的词汇列表,利用汉语词频统计工具对步骤S41形成的多个
建筑方案评论数据分别统计各项词汇的频数、重复数、百分比和去重百分比;
S43、根据步骤S42形成的词频数据,取其中的高频词汇数据进行标准归一化处理,
如下式:
假设高频词汇数据中第i个词频数为αi,则标准归一化处理后到标准值θi,具体公
式为:
其中,i=1,2…,x;
S44、对各建筑方案进行特征词汇判断,假设第j个方案的第i个词频数的标准值为
Pij,则该标准值的词频显著性值为具体计算公式为:
其中,i=1,2…,x;j=1,2;
S45、取的词汇作为建筑方案的特征词汇,即得到网络群众对于不同方
案的关注要素。
本发明相对于现有技术具有如下的有益效果:
1、本发明方法利用大型公共建筑设计专业建筑论坛评论的网络文本,通过Locoy
Spider软件对专业建筑论坛的网络文本进行获取,并通过结巴分词工具及汉语词频分析工
具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检
验,建立网络建筑专业语料库,是对传统建筑评论领域缺少相关语料库的有效补充。
2、本发明方法可以通过对建筑个案进行特征词汇分析,分析网络群众与专业建筑
设计师对于建筑个案的关注差异,有利于建筑评论语言适应新的媒体环境,让更多的建筑
评论语言反应到建筑设计之中,推动建筑评价和建筑设计的发展。
3、本发明方法可以将建筑个案的整体评论数据根据不同的建筑方案进行分类,分
析得到建筑个案中各个建筑方案的特征词汇,让专业建筑设计师能够了解到网络群众对于
不同方案的关注要素,从而确定最合适的建筑方案。
附图说明
图1为本发明实施例1的建筑评价方法流程图。
图2为本发明实施例2的网络建筑专业语料库高频词和现代汉语语料库词汇相对
比例图。
图3为本发明实施例2的张家口奥林匹克体育中心建筑竞赛方案示意图。
图4为本发明实施例2的建筑方案特征词汇相对比例图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限
于此。
实施例1:
如图1所示,本实施例的建筑评价方法基于大型公共建筑设计专业建筑论坛评论
的网络文本,建立网络环境下的建筑评论专业语料库,并分析设计师与网络群众对建筑个
案的关注差异,该方法包括以下步骤:
1)选取专业建筑论坛,利用Locoy Spider软件对网络文本进行获取,并进行筛选
整理;
1.1)选取评论样本数量充足的专业建筑论坛作为数据来源;
1.2)利用Locoy Spider软件编辑新建火车头任务,通过分析专业建筑论坛网页结
构的源代码,选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签
信息包括专业建筑论坛主题、评论用户名称、评论时间、评论内容等;
1.3)在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据;
1.4)将获取的评论数据按照专业建筑论坛主题、评论用户、评论时间和评论内容
的标签进行完善和整理,并剔除专业建筑论坛公告、广告等帖子。
2)通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉
语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;
2.1)将筛选整理后的专业建筑论坛评论数据转换成txt文本格式,并利用结巴分
词工具进行分词,形成专业建筑论坛评论的词汇列表;
2.2)根据步骤2.1)形成的词汇列表,利用汉语词频统计工具对专业建筑论坛评论
数据统计各项词汇的频数、重复数、百分比和去重百分比;
2.3)根据语料库在线网站(www.cncorpus.org)中现代汉语语料库的词语频率表,
匹配获取一定数量的词汇样本以及该词汇样本在建筑专业建筑论坛和现代整体汉语语料
库的词频数;
2.4)对两组词频数据进行标准归一化处理,假设第j组词汇列表的第i个词频数为
αij,则标准归一化处理后到标准值θij,具体公式为:
式中:i=1,2…,x;j=1,2;
2.5)将标准归一化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命
令进行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差
异,具体为:
按照符号检验的方法,将第二组样本的观察值减去第一组样本的观察值βij;如果
差值是一个正数,则记为正号;差值为负数,则记为符号;出现差值等于0时,则删除相应的
建筑个案,样本数量x也相应地减少;
保留差值数据。根据差值数据的绝对值按升序排序,求出相应的秩值βi,并分别计
算符号为正号的秩和W+、负号秩和W-及正号平均秩U+、正号平均秩U-;
具体计算公式为:
或
U+=W+/m或U-=W-/n (3)
其中,m和n分别代表正号秩值和负号秩值的数量;
计算检验统计量Z值和SPSS计算得到的相伴概率值Sig,通过与设定的显著性水平
进行比较,从而判断两组样本数据是否存在显著性差异;
W=min(W+,W-) (4)
其中,n为删除差值为零的有效样本数量;
如果得到的概率值小于或等于设定显著性水平,则认为两配对样本来自的总体分
布存在显著性差异;如果得到的概率值高于设定的显著性水平,则认为两配对样本来自的
总体分布无显著性差异;
2.6)当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析专
业建筑论坛词汇的重要性,公式如下:
其中,P(Vi)是词汇i的中重要性(PR值),d是阻尼系数,In(Vi)是含有词汇i的语段
集合,Out(Vj)是含有词汇j中的语段的集合,|Out(Vj)|是集合中元素的个数,按照词汇的重
要性由高到低进行排序,越排名靠前的词汇在评论中的重要性越高;
2.7)根据步骤2.6)形成的词汇重要性数据,将建筑专业建筑论坛词汇由高到低进
行排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语
语料库高频词汇进行筛选剔除,剩余词汇作为网络建筑专业词汇;
2.8)按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑色彩、建筑材
料及结构、空间布局、建筑成果、建筑构件、建筑角色等将步骤2.7)形成的网络建筑专业词
汇进行分类整理,建立网络建筑专业语料;
3)通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料
库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异;
3.1)将筛选整理后的建筑个案评论数据转换成txt文本格式,并利用结巴中文分
词工具进行分词,形成建筑个案评论的词汇列表;
3.2)根据步骤3.1)形成的词汇列表,利用汉语词频统计工具对建筑个案评论数据
统计各项词汇的频数、重复数、百分比和去重百分比;
3.3)根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的
词汇样本以及该词汇样本在建筑个案评论和现代整体汉语语料库的词频数;
3.4)对两组词频数据进行标准归一化处理,采用上式(1)实现;
3.5)将标准化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进
行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差异,
采用上式(2)~式(5)实现;
3.6)当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析建
筑个案词汇的重要性,采用上式(6)实现;
3.7)根据步骤3.6)形成的词汇重要性数据,将建筑个案词汇重要性由高到低进行
排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语
料库高频词汇进行筛选剔除,剩余词汇作为建筑个案特征词汇;
3.8)将步骤3.7)形成的建筑个案特征词汇与网络建筑专业语料库进行比较,分析
网络群众(普通市民)与专业建筑设计师对于建筑个案的关注差异;
4)将建筑个案的整体评论数据根据不同的建筑方案进行分类,分析网络群众对于
不同方案的关注要素;
4.1)对专业建筑论坛上建筑个案的评论按照不同方案进行分类,并分别转换为
txt文件格式;
4.2)根据步骤3.1)形成的词汇列表,利用汉语词频统计工具对步骤4.1)形成的多
个建筑方案评论数据分别统计各项词汇的频数、重复数、百分比和去重百分比;
4.3)根据步骤S42形成的词频数据,取其中的高频词汇数据进行标准归一化处理,
如下:
假设高频词汇数据中第i个词频数为αi,则标准归一化处理后到标准值θi,具体公
式为:
其中,i=1,2…,x;
4.4)对各建筑方案进行特征词汇判断,假设第j个方案的第i个词频数的标准值为
Pij,则该标准值的词频显著性值为具体计算公式为:
其中,i=1,2…,x;j=1,2;
4.5)取的词汇作为该建筑方案的特征词汇,即得到网络群众对于不同
方案的关注要素,让专业建筑设计师能够了解到网络群众对于不同方案的关注要素,从而
确定最合适的建筑方案。
实施例2:
本实施例是一个应用实例,选取了Abbs建筑论坛和张家口日报微信订阅号-张家
口体育馆设计方案投票平台的评论内容作为研究分析案例,基于Abbs建筑论坛的建筑方案
版块和建筑交流版块的4401个帖子及32801条建筑评论内容,以及对张家口日报微信订阅
号-张家口体育馆设计方案投票平台的4662条评论内容进行分析,整个过程的具体实施步
骤包括:
1)选取ABBS建筑论坛和张家口日报微信订阅号-张家口体育馆设计方案投票平
台,利用Locoy Spider软件对网络文本进行获取,并进行筛选整理。
1.1)分析ABBS网页结构的源代码;
1.2)选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签
信息包括论坛主题、评论用户名称、评论时间、评论内容等。
1.3)在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据,
由于Abbs的建筑论坛存在多级网址结构,需要通过建立多次火车头任务才能获取所需的评
论数据;
1.4)分析张家口日报微信订阅号-张家口体育馆设计方案投票平台网页结构的源
代码;
1.5)选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签
信息为评论内容;
1.6)在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据;
1.7)将获取的评论数据按照论坛主题、评论用户、评论时间、评论内容等标签进行
完善和整理,并剔除论坛公告、广告等无关的帖子。
2)通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉
语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库。
2.1)将筛选整理后的论坛评论数据转换成txt文本格式,并利用“结巴”中文分词
工具进行分词,形成ABBS论坛评论的词汇列表;
2.2)根据步骤2.1)形成的词汇列表,利用汉语词频统计工具对步骤2.1)形成的论
坛评论数据统计各项词汇的频数、重复数、百分比、去重百分比;
2.3)根据语料库在线网站(www.cncorpus.org)中现代汉语语料库的词语频率表,
匹配获取步骤2.2)形成的词频排名前50的词汇样本及其在建筑论坛和现代整体汉语语料
库的词频数;现代汉语语料库的一部分如下表1所示。
表1现代汉语语料库
2.4)对两组词频数据进行标准归一化处理,公式参见实施例1的式(1);
2.5)将标准化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进
行两组词频数的非参数检验分析;
2.5.1)按照符号检验的方法,将第二组样本的观察值减去第一组样本的观察值
βij。如果差值是一个正数,则记为正号;差值为负数,则记为符号;出现差值等于0时,则删除
该个案,样本数量x也相应地减少。
2.5.2)保留差值数据。根据差值数据的绝对值按升序排序,求出相应的秩值βi,并
分别计算符号为正号的秩和W+、负号秩和W-及正号平均秩U+、正号平均秩U-,公式参见实施
例1的式(2)和式(3);
2.5.3)计算检验统计量Z值和SPSS计算得到的相伴概率值Sig,通过与设定的显著
性水平进行比较从而判断两组样本数据是否存在显著性差异。公式参见实施例1的式(4)和
式(5);
通过计算得到检验统计量Z值的绝对值为114.477,相伴概率值Sig值为0.000,说
明建筑专业语料库与现代汉语整体语料库之间存在显著差异,建筑网络专业论坛存在特征
词汇有待进一步分析。
2.6)基于TextRank算法分析建筑论坛词汇的重要性,公式参见实施例1的式(6),
按照词汇的重要性由高到低进行排序,越排名靠前的词汇在评论中的重要性越高;
2.7)根据步骤2.6)形成的词汇重要性数据,将建筑论坛词汇由高到低进行排序,
并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语料库高
频词汇进行筛选剔除,剩余词汇作为网络建筑专业词汇;
2.8)按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑色彩、建筑材
料及结构、空间布局、建筑成果、建筑构件、建筑角色等类型将步骤2.7)形成的网络建筑专
业词汇进行分类整理,建立网络建筑专业语料库,如下表2所示;网络建筑专业语料库高频
词和现代汉语语料库词汇相对比例如图2所示。
表2网络建筑专业语料库
3)通过对建筑个案进行特征词汇分析,分析网络群众对于建筑个案的关注点及与
设计师存在的关注差异。
3.1)将筛选整理后的建筑个案评论数据转换成txt文本格式,并利用结巴分词工
具进行分词,形成建筑个案评论的词汇列表;
3.2)根据步骤3.1)形成的词汇列表,利用汉语词频统计工具对建筑个案评论数据
统计各项词汇的频数、重复数、百分比、去重百分比;
3.3)根据语料库在线网站现代汉语语料库的词语频率表,匹配获取步骤3.2)形成
的词频排名前50的词汇样本及其在建筑个案评论和现代整体汉语语料库的词频数;
3.4)对两组词频数据进行标准归一化处理,公式参见实施例1的式(1);
3.5)将标准化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进
行两组词频数的非参数检验分析,公式参见实施例1的式(2)~式(5),通过计算得到检验统
计量Z值的绝对值为7.513,相伴概率值Sig值为0.000,说明张家口体育馆这个建筑个案评
论词汇与现代汉语整体语料库之间存在显著差异;
3.6)基于TextRank算法分析建筑个案词汇的重要性,公式参见实施例1的式(6);
3.7)根据步骤3.7)形成的词汇重要性数据,将建筑个案词汇重要性由高到低进行
排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语
料库高频词汇进行筛选剔除,剩余词汇作为建筑个案特征词汇;
3.8)将步骤3.7)形成的建筑个案特征词汇与建筑专业语料库进行比较,分析网络
群众与专业建筑设计师的关注差异性;
4)将建筑个案的整体评论数据根据不同的建筑方案进行分类,分析网络群众对于
不同方案的关注要素,本实施例的各个建筑方案如图3所示;
4.1)对专业建筑论坛上建筑个案的评论按照不同方案进行分类,并分别转换为
txt文件格式;
4.2)根据步骤3.1)形成的词汇列表,利用汉语词频统计工具对步骤4.1)形成的多
个建筑方案评论数据分别统计各项词汇的频数、重复数、百分比、去重百分比;
4.3)根据步骤4.2)形成词频数据,取其高频词汇数据进行标准归一化处理,公式
参见实施例1的式(7);
4.4)对各建筑方案进行特征词汇判断,假设第j个方案的第i个词频数的标准值为
Pij,则其词频显著值为公式参见实施例1的式(8);
4.5)取的词汇作为该建筑方案的特征词汇,如下表3所示;
建筑方案
评论数
建筑方案特征词汇
方案二
965
大气、建筑、特色、空间、功能、造型
方案三
132
全面、理念、简洁、造价
方案五
3222
建筑、全面、实用、漂亮、大方
表3张家口各建筑方案特征词汇
建筑方案(方案二、三和五)的特征词汇相对比例如图4所示,从表3和图4中可以看
到网络群众对各个方案所关注的要素,专业建筑设计师可以根据这些要素确定最合适的建
筑方案。
综上所述,本发明方法利用大型公共建筑设计专业建筑论坛评论的网络文本,通
过Locoy Spider软件对专业建筑论坛的网络文本进行获取,并通过结巴分词工具及汉语词
频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和
非参数检验,建立网络建筑专业语料库,是对传统建筑评论领域缺少相关语料库的有效补
充。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于
此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技
术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。