当前位置: 首页 > news >正文

coursera 公开课 文本挖掘和分析(text mining and analytics) week 1 笔记

一、课程简介:

text mining and analytics 是一门在coursera上的公开课,由美国伊利诺伊大学香槟分校(UIUC)计算机系教授 chengxiang zhai 讲授,公开课链接:https://class.coursera.org/textanalytics-001/wiki/view?page=Programming_Assignments_Overview。

二、课程大纲:

三、课程主要内容

3.1 Text representation

可以从以下几个方面来对文本进行表示:

lexicon analysis 词汇分析

syntactic analysis 句法分析

semantic analysis 语义分析

pragmatic analysis 实用性分析

文本表示有很多种方法:Multiple ways of representing text are possible

 string, words, syntactic structures, entity-relation graphs, predicates…

这门公开课中,主要讨论word 层面的文本表示方法,word relation analysis,topic analysis,sentiment analysis.

3.2 word association mining and analysis

(1)word 之间有两种基本关系:Paradigmatic vs. Syntagmatic

Paradigmatic (词形没有变化)E.g., “cat” and “dog”; “Monday” and “Tuesday”
Syntagmatic:(组合关系) E.g., “cat” and “sit”; “car” and “drive”
这两种关系的研究在很多NLP任务中都有重要的意义,如:位置标注,语法分析(parsing),实体识别,词汇拓展。

(2)对这两种关系的挖掘方法:

Paradigmatic ,文本内容的相似性

Syntagmatic,文本同时出现的概率

(3)分别介绍下两种关系挖掘的方法

Paradigmatic Relation Discovery,相似词的发现
word context 表示:bag of word、vector space model (VSM)

 

 

计算向量之间的相似度:(EOWC)

总结:相似词的计算,步骤如下:

从文档中表示两个词的相关词袋;计算相关词袋向量的相似度;选取相似度最高的词。

在表示词向量的方法中,BM25+IDF是the state of art.

 

 Syntagmatic Relation Discovery: Entropy,组合关系的发现
熵:衡量变量X的随机性

条件熵:

 

升序排列取top-k生成候选集

互信息 mutual information :I(X; Y)= H(X) – H(X|Y) = H(Y)-H(Y|X),倒序取top-k生成候选集

KL-divergence :KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。

 

 

转载于:https://www.cnblogs.com/baiting/p/5240565.html

相关文章:

  • win7下使用Taste实现协同过滤算法
  • 设计模式 ( 十九 ) 模板方法模式Template method(类行为型)
  • 分享一款快速APP功能测试工具
  • R语言编程艺术#04#数据框(data.frame)
  • 动态规划(DP),0-1背包问题
  • 各大公司广泛使用的在线学习算法FTRL详解
  • .Net CF下精确的计时器
  • SSH 正向/反向代理小记
  • 寻求最快解决方案
  • [MAT]使用MAT比較多个heap dump文件
  • nagios 主机状态
  • FZU 1692 Key problem (构造矩阵)
  • 【分享】通过Excel生成批量SQL语句,处理大量数据的好办法
  • SGU 122 The book(构造)
  • 全局dialog,在小米4及部分机型上不能正常弹出
  • 10个确保微服务与容器安全的最佳实践
  • 2019.2.20 c++ 知识梳理
  • flutter的key在widget list的作用以及必要性
  • GitUp, 你不可错过的秀外慧中的git工具
  • Netty 4.1 源代码学习:线程模型
  • php的插入排序,通过双层for循环
  • Python利用正则抓取网页内容保存到本地
  • React 快速上手 - 07 前端路由 react-router
  • socket.io+express实现聊天室的思考(三)
  • SpringBoot 实战 (三) | 配置文件详解
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • 大整数乘法-表格法
  • 仿天猫超市收藏抛物线动画工具库
  • 回顾 Swift 多平台移植进度 #2
  • 前端技术周刊 2018-12-10:前端自动化测试
  • 入门到放弃node系列之Hello Word篇
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 思考 CSS 架构
  •  一套莫尔斯电报听写、翻译系统
  • AI又要和人类“对打”,Deepmind宣布《星战Ⅱ》即将开始 ...
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • $Django python中使用redis, django中使用(封装了),redis开启事务(管道)
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (9)STL算法之逆转旋转
  • (floyd+补集) poj 3275
  • (八)Flask之app.route装饰器函数的参数
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (四)Android布局类型(线性布局LinearLayout)
  • (算法)求1到1亿间的质数或素数
  • (已解决)报错:Could not load the Qt platform plugin “xcb“
  • (原創) 如何解决make kernel时『clock skew detected』的warning? (OS) (Linux)
  • (转)从零实现3D图像引擎:(8)参数化直线与3D平面函数库
  • (转)德国人的记事本
  • ... 是什么 ?... 有什么用处?
  • .chm格式文件如何阅读
  • .NET gRPC 和RESTful简单对比
  • .NET 应用启用与禁用自动生成绑定重定向 (bindingRedirect),解决不同版本 dll 的依赖问题
  • .net经典笔试题