锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

实战分享之专业领域词汇无监督挖掘

时间：2023-03-03 17:30:01 1sg30耦合继电器

640

作者苏剑林

广州火焰信息技术有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

去年DataFountain曾经举办过一个电力专业词汇挖掘有趣的是，这场比赛是一场无监督的比赛，也就是说，它测试了从大量语料中挖掘专业词汇的能力。

大赛主页：

https://www.datafountain.cn/competitions/320/details

这确实是界确实是一种有价值的能力，我认为我以前在没有监督的新词发现中做过一些研究，加上没有监督的竞争的新颖性，所以我毫不犹豫地参与了，但最终的排名并不高。

无论如何，分享自己的做法是一种真正意义上的无监督做法，可能对一些读者有一定的参考价值。

基准对比

首先，新词发现部分，用到了我自己写的库 NLP Zero，基本思路是先分别对“比赛所给语料”、“自己爬的一部分百科百科语料”做新词发现，然后两者进行对比，就能找到一批“比赛所给语料”的特征词。

NLP Zero：

https://kexue.fm/archives/5597

参考的源码是：

from nlp_zero import *
import re
import pandas as pd
import pymongo
import logging
logging.basicConfig(level = logging.INFO, format = '%(asctime)s - %(name)s - %(message)s')


class D: # 读取比赛方所给语料
    def __iter__(self):
        with open('data.txt') as f:
            for l in f:
                l = l.strip().decode('utf-8')
                l = re.sub(u'[^\u4e00-\u9fa5]+', ' ', l)
                yield l


class DO: # 读取自己的语料（相当于平行语料）
    def __iter__(self):
        db = pymongo.MongoClient().baike.items
        for i in db.find().limit(300000):
            l = i['content']
            l = re.sub(u'[^\u4e00-\u9fa5]+', ' ', l)
            yield l


# 在比赛方语料中做新词发现
f = Word_Finder(min_proba=1e-6, min_pmi=0.5)
f.train(D()) # 统计互信息
f.find(D()) # 构建词库

# 导出词表
words = pd.Series(f.words).sort_values(ascending=False)


# 在自己的语料中做新词发现
fo = Word_Finder(min_proba=1e-6, min_pmi=0.5)
fo.train(DO()) # 统计互信息
fo.find(DO()) # 构建词库

# 导出词表
other_words = pd.Series(fo.words).sort_values(ascending=False)
other_words = other_words / other_words.sum() * words.sum() # 总词频归一化（这样才便于对比）


"""对比两份语料词频，得到特征词。
对比指标是（比赛方语料的词频 + alpha）/（自己语料的词频 + beta）；
alpha和beta的计算参考自 http://www.matrix67.com/blog/archives/5044
"""

WORDS = words.copy()
OTHER_WORDS = other_words.copy()

total_zeros = (WORDS + OTHER_WORDS).fillna(0) * 0
words = WORDS + total_zeros
other_words = OTHER_WORDS + total_zeros
total = words + other_words

alpha = words.sum() / total.sum()

result = (words + total.mean() * alpha) / (total + total.mean())
result = result.sort_values(ascending=False)
idxs = [i for i in result.index if len(i) >= 2] # 排除掉单字词

# 导出csv格式
pd.Series(idxs[:20000]).to_csv('result_1.csv', encoding='utf-8', header=None, index=None)

语义筛选

注意到，按照上述方法导出来的词表，顶多算是“语料特征词”，但是还不完全是“电力专业领域词汇”。如果着眼于电力词汇，那么需要对词表进行语义上的筛选。

我的做法是：用导出来的词表对比赛语料进行分词，然后训练一个 Word2Vec 模型，根据 Word2Vec 得到的词向量来对词进行聚类。

首先是训练 Word2Vec：

# nlp zero提供了良好的封装，可以直到导出一个分词器，词表是新词发现得到的词表。
tokenizer = f.export_tokenizer()

class DW:
    def __iter__(self):
        for l in D():
            yield tokenizer.tokenize(l, combine_Aa123=False)


from gensim.models import Word2Vec

word_size = 100
word2vec = Word2Vec(DW(), size=word_size, min_count=2, sg=1, negative=10)

然后是聚类，不过这不是严格意义上的聚类，而是根据我们自己跳出来的若干个种子词，然后找到一批相似词来。算法是用相似的传递性（有点类似基于连通性的聚类算法），即 A 和 B 相似，B 和 C也相似，那么 A、B、C 就聚为一类（哪怕A、C从指标上看是不相似的）。

当然，这样传递下去很可能把整个词表都遍历了，所以要逐步加强对相似的限制。比如 A 是种子词，B、C 都不是种子词，A、B 的相似度为 0.6 就定义它为相似，B、C 的相似度要大于 0.7 才能认为它们相似，不然这样一级级地传递下去，后面的词就会离种子词的语义越来越远。

聚类算法如下：

import numpy as np
from multiprocessing.dummy import Queue


def most_similar(word, center_vec=None, neg_vec=None):
    """根据给定词、中心向量和负向量找最相近的词
    """
    vec = word2vec[word] + center_vec - neg_vec
    return word2vec.similar_by_vector(vec, topn=200)


def find_words(start_words, center_words=None, neg_words=None, min_sim=0.6, max_sim=1., alpha=0.25):
    if center_words == None and neg_words == None:
        min_sim = max(min_sim, 0.6)
    center_vec, neg_vec = np.zeros([word_size]), np.zeros([word_size])
    if center_words: # 中心向量是所有种子词向量的平均
        _ = 0
        for w in center_words:
            if w in word2vec.wv.vocab:
                center_vec += word2vec[w]
                _ += 1
        if _ > 0:
            center_vec /= _
    if neg_words: # 负向量是所有负种子词向量的平均（本文没有用到它）
        _ = 0
        for w in neg_words:
            if w in word2vec.wv.vocab:
                neg_vec += word2vec[w]
                _ += 1
        if _ > 0:
            neg_vec /= _
    queue_count = 1
    task_count = 0
    cluster = []
    queue = Queue() # 建立队列
    for w in start_words:
        queue.put((0, w))
        if w not in cluster:
            cluster.append(w)
    while not queue.empty():
        idx, word = queue.get()
        queue_count -= 1
        task_count += 1
        sims = most_similar(word, center_vec, neg_vec)
        min_sim_ = min_sim + (max_sim-min_sim) * (1-np.exp(-alpha*idx))
        if task_count % 10 == 0:
            log = '%s in cluster, %s in queue, %s tasks done, %s min_sim'%(len(cluster), queue_count, task_count, min_sim_)
            print log
        for i,j in sims:
            if j >= min_sim_:
                if i not in cluster and is_good(i): # is_good是人工写的过滤规则
                    queue.put((idx+1, i))
                    if i not in cluster and is_good(i):
                        cluster.append(i)
                    queue_count += 1
    return cluster

规则过滤

总的来说，无监督算法始终是难以做到完美的，在工程上，常见的方法就是人工观察结果然后手写一些规则来处理。在这个任务中，由于前面是纯无监督的，哪怕进行了语义聚类，还是会出来一些非电力专业词汇（比如“麦克斯韦方程”），甚至还保留一些“非词”，所以我写了一通规则来过滤（写得有点丑）：

def is_good(w):
    if re.findall(u'[\u4e00-\u9fa5]', w) \
        and len(i) >= 2\
        and not re.findall(u'[较很越增]|[多少大小长短高低好差]', w)\
        and not u'的' in w\
        and not u'了' in w\
        and not u'这' in w\
        and not u'那' in w\
        and not u'到' in w\
        and not w[-1] in u'为一人给内中后省市局院上所在有与及厂稿下厅部商者从奖出'\
        and not w[0] in u'每各该个被其从与及当为'\
        and not w[-2:] in [u'问题', u'市场', u'邮件', u'合约', u'假设', u'编号', u'预算', u'施加', u'战略', u'状况', u'工作', u'考核', u'评估', u'需求', u'沟通', u'阶段', u'账号', u'意识', u'价值', u'事故', u'竞争', u'交易', u'趋势', u'主任', u'价格', u'门户', u'治区', u'培养', u'职责', u'社会', u'主义', u'办法', u'干部', u'员会', u'商务', u'发展', u'原因', u'情况', u'国家', u'园区', u'伙伴', u'对手', u'目标', u'委员', u'人员', u'如下', u'况下', u'见图', u'全国', u'创新', u'共享', u'资讯', u'队伍', u'农村', u'贡献', u'争力', u'地区', u'客户', u'领域', u'查询', u'应用', u'可以', u'运营', u'成员', u'书记', u'附近', u'结果', u'经理', u'学位', u'经营', u'思想', u'监管', u'能力', u'责任', u'意见', u'精神', u'讲话', u'营销', u'业务', u'总裁', u'见表', u'电力', u'主编', u'作者', u'专辑', u'学报', u'创建', u'支持', u'资助', u'规划', u'计划', u'资金', u'代表', u'部门', u'版社', u'表明', u'证明', u'专家', u'教授', u'教师', u'基金', u'如图', u'位于', u'从事', u'公司', u'企业', u'专业', u'思路', u'集团', u'建设', u'管理', u'水平', u'领导', u'体系', u'政务', u'单位', u'部分', u'董事', u'院士', u'经济', u'意义', u'内部', u'项目', u'建设', u'服务', u'总部', u'管理', u'讨论', u'改进', u'文献']\
        and not w[:2] in [u'考虑', u'图中', u'每个', u'出席', u'一个', u'随着', u'不会', u'本次', u'产生', u'查询', u'是否', u'作者']\

 
            锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

 相关文章
 动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用
Sensata PTE7300密封数字压力传感器的介绍、特性、及应用
PANJIT PBHV8110DA/PBHV9110DA低Vce(sat)晶体管的介绍、特性、及应用
ams OSRAM OSLON 黑色平板X LED器件的介绍、特性、及应用
Cree LED CLQ6A三合一贴片LED的介绍、特性、及应用
Cree LED CLQ6B 4-in-1 RGBW贴片LED的介绍、特性、及应用
NDK NX1210AB表面贴装晶体的介绍、特性、及应用
伊顿ACE2V3225共模芯片电感器的介绍、特性、及应用
意法半导体X040灵敏型栅可控硅和Z040可控硅的介绍、特性、及应用
ABLIC S-82Y1B电池保护芯片的介绍、特性、及应用
 动态
产品
新闻
电路图
方案
技术
公告
  详细介绍电流互感器功能区别3CT SR ZCT
雅特力携多款AT32 MCU新品与应用方案亮相2024慕尼黑上海电子展
AMEYA360 | 江苏润石RSR58x高压系列高精密基准源
断路器的常见故障和处理方法
普源精电（RIGOL）多通道材料应力测量系统
  亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用
OPPO 与爱立信签署全球战略合作协议
英飞凌推出业界首款符合太空标准的并行接口1 Mb和2 Mb F-RAM，扩大其抗辐射存储器产品组合
2024慕尼黑上海电子展亮点：三款重点展品及解决方案的深度探索
前途未卜的AI个人助理
 让“节能”贯穿服务器全生命周期，英特尔至强6能效核处理器的出众之处
英特尔CEO帕特·基辛格：AI正推动业界进入创新黄金时代，影响力堪称空前
英飞凌推出适用于物联网设备进行非接触式验证及安全配置的NFC I2C 桥接标签
安森美推出提高数据中心能效的完整电源解决方案
Molex莫仕在中国荣获通用汽车供应商质量卓越奖
 整流二极管的应用电源
绝缘栅双极型晶体管应用电路
多位 LED 数码管
单向晶闸管构成的交流开关电路
压敏电阻器电路
 27 MHz 谐振转换器的直流输出
具有初级电压钳位的氮化镓 (GaN) FET 可显著实现交流适配器的小型化
栅极驱动器电路设计
现代电磁炉烹饪需要紧凑而高效的解决方案
工业辅助电源中的 SiC
 动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用
Sensata PTE7300密封数字压力传感器的介绍、特性、及应用
PANJIT PBHV8110DA/PBHV9110DA低Vce(sat)晶体管的介绍、特性、及应用
ams OSRAM OSLON 黑色平板X LED器件的介绍、特性、及应用
Cree LED CLQ6A三合一贴片LED的介绍、特性、及应用
 2025年春节放假通知
锐单2024年51劳动节放假通知
锐单商城2024年清明节放假通知
2024年春节锐单商城放假安排
【通知】2024年元旦锐单商城放假安排

  品牌专区
 
  热销 替代 pdf库 ic百科
 RLP0147R00FR15
RNC60H4703DSB14
RLR07C68R0GRBSL
RNC55J2803DSBSL
RNC60J3403BSRE7
PTF6514K300AYBF
ERC507K1500FEEK500
RNC60J1022FSB14
RNC55H2183BSB14
RNC55H2150BSBSL
RWR81S15R0FPS70
ERC5528K000BEEB600
Y00585R00000F0L
CPR053R300JE31
RNC50J3013FSBSL
ERC55221R00FHEK600
RLR32C75R0FRRSL
ROX07510M0JKLB
RNC50H4870FSBSL31
RNC65H2054FRRE7
RLR07C68R0GSBSL
ERC5013K000FHEK500
RLP0177R00FR15
RNC60J2212BSRE7
ERC5039R200FEEK500
CPR053R300KE31
RNC60J1052FSB14
RNR50J3013FSB14
RNC55J3403FRBSL
RLR32C7500FMRSL
 02013A100DAT2A
2013
C0603C0G1E560J030BA
0201YA820GAT2A
GRM033C80G104KE19J
NMC0201X5R473M6.3TRPF
0201ZC332KAT2A
GRM033R71A332KA01D
ECJ-ZEB1A103K
0201YD152KAT2A
0201ZD392MAT2A
04023A151FAT9A
04023A101KA72A
LD023A180GAB2A
04023A100GAT2A
04023A101GAT2A
04023C562KAT4A
04025A200JAT2A
04025A390J4T2A
NPO0402HTTP180J
04025A120CAT2A
04025C152KAQ2A
CC0402KRX5R5BB104
04025C471KAJ2A
LD025C471JAB2A
05085C103KAT2V
05083C103KAT2V
0508YC104MAT2W
LD031A180FAB9A
06031A100K4U4A
 QTE-028-04-F-D-DP-A-K-TR
QTE-028-03-H-D-DP-A
QTE-028-06-F-D-DP-A
QTE-028-03-H-D-DP-A-K-TR
QTE-028-05-F-D-DP-A-K
QTE-028-06-F-D-DP-A-K
QTE-028-04-H-D-DP
QTE-02803LDDP
QTE-028-05-F-D-DP-A
QTE-028-04-H-D-DP-A
QTE-028-05-F-D-DP-LC
QTE-028-04-F-D-DP-A-K
QTE-028-06-F-D-DP-K
QTE-028-03-L-D-DP-A
QTE-028-03-L-D-DP-A-TR
QTE-028-04-H-D-DP-A-K-TR
QTE-028-03-L-D-DP-A-K
QTE-028-06-H-D-DP
QTE-028-05-F-D-DP-LC-K
QTE-028-10-H-D-DP
QTE-028-04-L-D-DP-A-K
QTE-028-08-L-D-DP
QTE-028-03-L-D-DP-A-K-TR
QTE-028-10-L-D-DP
QTE-028-08-F-D-DP
QTE-02803LDDPAK
QTE-028-06-L-D-DP
QTE-02804LDDPA
QTE-02805FDDPAK
QTE-02805FDDPA
 QTE-042-03-H-D-DP-A-TR
QTE-04201LDDPAGP
QTE-04202FDDP
QTE-042-04-F-D-DP-A-TR
QTE-042-03-L-D-DP
QTE-042-04-H-D-DP
QTE-042-03-L-D-DP-A
QTE-04204LDDP
QTE-042-03-L-D-DP-A-K
QTE-042-03-L-D-DP-A-K-TR
QTE-042-04-L-D-DP-A
QTE-042-04-L-D-DP
QTE-042-04-L-D-DP-A-K
QTE-04203LDDPAK
QTE-04203LDDPAKTR
QTE-042-04-L-D-DP-A-K-TR
QTE-042-04-L-D-DP-A-TR
QTE-042-05-F-D-DP
QTE-04204LDDPAKTR
QTE-042-04-L-D-DP-K
QTE-042-05-F-D-DP-A-K
QTE-042-05-F-D-DP-A
QTE-042-05-F-D-DP-LC
QTE-04206LDDPAK
QTE-04205FDDPA
QTE-042-05-H-D-DP
QTE-042-05-H-D-DP-A-K
QTE-042-07-F-D-DP
QTE-042-07-F-D-DP-A
QTE-042-05-L-D-DP
  热门文章
 详细介绍电流互感器功能区别3CT SR ZCT
雅特力携多款AT32 MCU新品与应用方案亮相2024慕尼黑上海电子展
AMEYA360 | 江苏润石RSR58x高压系列高精密基准源
断路器的常见故障和处理方法
普源精电（RIGOL）多通道材料应力测量系统
艾迈斯欧司朗最新推出的DURIS® LED将引领柔性多变照明新时代
在线式一氧化碳检测仪XKCON-G600-DCO具有防爆功能，使用于冶金行业场所应用
电容补偿柜频繁投入退出的影响
有源滤波器补偿需不需要带电抗器
紫光同芯发布新一代汽车MCU THA6206，助力汽车产业腾飞
电子设备振动环境试验(8) —— 噪声试验
扎堆印度的半导体大厂们，能有光明的未来吗？
为什么80%的芯片采用硅晶圆制造？
全球锂电大退潮｜深度
芯流独家：改革尾声，OPPO已陆续清退华为系员工

  原厂原装正品
 所有产品均来自原厂授权分销商，货源真实，放心采购
  海量现货库存
 全球十几家著名海外分销商授权合作，拥有1000万真实现货库存数据
  人性化采购服务
 批量询价、BOM配单、SMT定制服务，锐单电子给您芯体验
  一站式明码标价
 支持样片和小批量订单，为中小企业客户明码放心价
 购物指南
  新手入门
 购物流程
 商品搜索
 注册登录
 找回密码
 支付&服务
 快递运输
 联系我们
 关于商城
 支付方式
 发票须知
 特色服务
 闪电发货
 代购服务
 免费入驻
 免费报关
 搜索大全
 特别说明
 隐私政策
 使用条款
 数据手册
 IC百科
 替代型号
 全球服务热线
 400-990-0325
 服务时间：周一至周六 8:30-18:00
  企业QQ： 4008211205
  企业邮箱：product@ruidan.com
 入驻合作：ruidanshangcheng（微信）
 
 锐单商城微信公众号
 
  微信咨询   扫码添加微信咨询
 QQ咨询
 0
            购物车
          
 会员中心
 回到顶部
 在线咨询
 
          字母索引:
          A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
0
1
2
3
4
5
6
7
8
9
 
 
        © 2011-2023 锐单电子商城 版权所有
         粤公网安备 44030402004686号 粤ICP备19070497号