文本内容安全审核
时间:2022-11-22 07:00:00
安全审核文本内容
目录
- 一、描述
- 二、公共云制造商计划
- 三、开源项目
- 四、总结-建议
- 五、引用
一、描述
短文本过滤实例可用于智能识别涉黄、涉政、暴恐、辱骂、广告、灌水等各种违法内容…
目前,监管越来越严重。如何避免用户发布的内容对平台造成风险是规避内容风险的主要途径。
内容安全审计一般分为机器审计和人员审计的平行策略。云制造商一般集成了文本、图像、语音、视频等接口服务,并支持私有化部署。
本文只调查文本的内容安全审查,文本和图像仍可自行完成。
二、公共云制造商计划
2.1 阿里
-
功能:非法检测图片、视频、文本、语音、网页等内容API,风险检测能力,如暴恐、涉政、涉黄、广告、辱骂、不良场景等。
-
技术:鉴黄模型、暴恐分类、文本分类模型、关键词过滤、OCR等。
-
费用:区间计费:套餐大于0/天(1).80元/千条); 5000套餐/日(1.62元/千条); 50000套餐/日(1.53元/千条); 130000套餐.44元/千条); 260000套餐/日(1.35元/千条); 850000套餐/日.26元/千条)
-
文本内容安全——阿里云计划,没有试用。看起来成熟稳定(还是老?),似乎更注重大客户。但是文档似乎不友好,更喜欢小白OSS文件检测。
!内容安全-阿里计划
2.2 百度
-
功能:支持图像、文本、语音、短视频等类型,包括智能鉴黄、违禁、恶意推广、低俗辱骂、低质量灌溉等。
-
技术:基于自然语言理解、深度学习等技术,有效识别非法文本内容,具有拼音、谐音、拆字、近字、影射等变体识别能力;支持定制黑白名单;15w 公众人物库,包括政治人物、明星等。
-
费用:基础15元/万次。 50万次(750元); 300万次(4200元/93折); 500万次(6500元/87折); 1000万次(12000元/8折); 5000万次(55000元/73折); 1亿次(100000元/67折); 5亿次(4.5万元/6折)
-
文本内容安全-百度云方案,无技术框架,API试用比较友好,速度比其他家慢(也许规则识别后会走模型?
!内容安全-百度方案
2.3 腾讯
-
功能:支持文本、语音、图像、视频、号码等类型的安全审计,包括黄色检测、毒品检测、广告检测、定制检测等。
-
技术:社区中的两个技术共享博客,文本匹配 浅层神经网络(TextCNN->FastText)技术方案。
-
费用:180万套餐(22元/万套); 套餐720万条(19元/万条); 套餐3600万条(18元/万条); 套餐18000万条(13元/万条); 套餐36000万条(10元/万条)。
-
文本内容安全-腾讯云方案,文档真的是梗,害,python例子真的跑不通,晕了。另外,没有详细的中文说明违规代码。
!内容安全-腾讯计划
2.4 网易
-
功能:支持文本、语音、图像、视频等类型的安全审计,包括色情、广告、政治相关、暴力恐惧等非法内容,以及20多种语言。
-
技术:未知。基于海量数据,定制智能策略,高效过滤,包括聚类、词向量等。
-
费用:需要注册才能查看,害。
-
敏感词检测一般作为第一级,结合反垃圾智能模型对文本的二次识别,达到拦截垃圾内容的目的
!内容安全-网易易盾
三、开源项目
3.1 observerss/textfilter
- 语言: Python,Star为1.7k。
- 详情: 短文本匹配 某1w敏感词库。
- 技术: Native(for遍历), BS(二分搜索), DFA(字典树)。
3.2 minitrill/TextAudit
-
语言: Python,star为0.056k。
-
详情: 短视频app文本审核模块:1.2分类,恶意与否; 2.详细分类; 3.后处理(对不同频率/程度/影响的言论)。
-
技术: DFA 分类模型(TIDF BayesianNetwork)
!内容安全-TextAudit
3.3 houbb/sensitive-word
- 语言: Java,star为0.339k。
- 详情: 高性能敏感词工具。
- 技术: DFA 某6W敏感词库。支持用户定制敏感词和白名单,动态更新数据,实时生效。
3.4 elulis/sensitive-words
- 语言: Java,star为0.411k。
- 详情: Java快速过滤中文敏感词,15k敏感词库上的过滤速度超过50M字符每秒。
- 方法: DFA 2字符hash优化。
3.5 youzan/YZSpamFilter
- 语言: Python,star为0.266k。
- 详情: 可为帖子、邮件、博客等提供中文垃圾信息过滤服务。
- 方法: 垃圾邮件过滤是二分类模型。
3.6 toolgood/ToolGood.Words
- 语言: C#,star为2.9k。
- 详情: C#语言,使用StringSearchEx2.Replace过滤,在48k敏感词库上的过滤速度超过每秒3亿字符。(cpu i7 8750h)
- 方法: 正则转DFA,C#改进版AC自动机, 可设置跳字长度,默认全角转半角,忽略大小写、跳字、重复词、黑名单。
四、总结-建议
- 建议直接使用云制造商服务或直接使用非常必要的任务(短文本匹配) 浅层神经网络)。
- 短文匹配建议TrieTree(如有增删改查需求); 或者是默认词典用AC自动机, 用户词典才用前缀树。
- 浅层神经网络FastText、TextCNN就好, BERT感觉没必要, 不过上Tiny其实模型也无妨。
- 扩展词典可以解决拼音、谐音、拆字、形近字、影射等变体。
- 敏感词典很重要,但一般来说,数万的标记并不太麻烦。
五、引用
- 腾讯业务安全(1)-天宇内容安全
- java 敏感词工具实现思维
- 敏感词过滤方法常用于网络
- 敏感词过滤方案
希望对你有所帮助!