0%

WebContentSecurity-1

网络内容安全

第一章——网络信息内容获取技术

网络信息内容获取模型

互联网信息类型

网络媒体形态

  • 广播式媒体
  • 交互式媒体

网络信息类型

  • 网络媒体信息
  • 网络通信信息

发布信息类型

  • 文本信息
  • 图像信息
  • 音频信息
  • 视频信息

媒体发布方式

  • 直接匿名浏览
  • 需要身份认证的网络信息发布

网页形态

  • 静态网页
  • 动态网页

信息交互协议

  • 网页浏览:HTTP
  • 文件传输
  • 电子邮件
  • 聊天工具
  • 多媒体交互工具

网络信息内容获取模型

网络信息内容获取模型

  • 信息检索
  • 信息推荐(信息推送)
  • 信息交互
  • 信息浏览

网络媒体信息获取原理

范围

理论上为整个国际互联网

网上采集算法

网上采集算法,又称为网络爬虫 (Web Crawler) 、网络蜘蛛 (Web Spider) 或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。

网络媒体信息获取的分类

全网信息获取

获取-显示

定点信息获取

基于主题的信息获取和元搜索

元搜索引擎又称多搜索引擎,它可以同时查找多个单搜索引擎的www站点。

按其搜索机制可分为并列式和串行式。

  • 并行式元搜索引擎指将查询要求同时发向各个独立的搜索引擎,然后将结果按特定的顺序提供给用户。
  • 串行式元搜索引擎是将查询要求先发给某个独立的搜索引擎,待其返回结果再将请求发给另一个搜索引擎

并行式元搜索引擎运行模式好,搜索时间短。

高级检索功能:

  • 使用布尔逻辑符检索
  • 最后更新页面(时间检索)
  • 域名过滤Domain Filter
  • 成人过滤(Adult Filter
  • 语言选择(Language Selection)
  • 结果展示 (Results Display) : 排序

信息获取过程

  1. 网络通信信息镜像
  2. 网络交互数据重组
  3. 通信协议数据恢复
  4. 网络通信信息存储

搜索引擎技术

  • 中文搜索引擎的关键技术:

    • 网页内容分析

    • 网页索引

    • 查询解析

    • 相关性计算

  • 概念

    通用搜索引擎相关概念

网上采集算法

  • 网上采集算法,又称为网络爬虫 (Web Crawler) 、网络蜘蛛 (Web Spider) 或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。

  • 工作原理

    网上采集算法工作原理

  • 分类(实际的网络爬虫多用多个爬虫技术相结合)

    • 通用网络爬虫 (General Purpose Web Crawler)
    • 聚焦网络爬虫 (Focused Web Crawler)
    • 增量式网络爬虫 (Incremental Web Crawler)
    • 深层网络爬虫 (Deep Web Crawler)

数据挖掘技术

信息推荐技术

信息还原技术

-------------终了-------------

欢迎关注我的其它发布渠道