`
wb17534806
  • 浏览: 11104 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

网络蜘蛛程序学习1

阅读更多

网络蜘蛛程序学习1

Bot程序:一种“有意识”的Internet程序,能从指定的Internet站点上检索信息。有人叫这个为:网络机器人

例如:桌面应用程序会检查邮箱邮件,有新邮件会自动提醒。但是Bot程序是否合法?有些网站明令禁止,比如:股票站点。所以,作为Bot程序搜索必须合法。

Spider程序:一种专业化的Bot程序,用于查找大量的Web页面,Spider程序事先并不知道将要查询的页面,程序通过上一个页面查找下一个页面。有人叫这个为:网络蜘蛛程序

蜘蛛程序应用在搜索引擎方面比较多,还可以应用于:扫描出中断的链接等。

 

1java套接字编程技术

Web是建立在HTTP之上的协议,而HTTP又是建立在TCP/IP之上的协议,而TCP/IP它同时也是一种套接字协议。

TCP/IP网络上所有的计算机都看成是平等的,这种类型的网络叫对等网络。服务器和普通的网络也是对等的。

网络编程=套接字编程。网络上的每一台电脑都有很多套接字辅助计算机程序生效。这些套接字叫端口。端口号很重要,其中一个就是80端口号,是HTTP使用。多个客户端是可以同时连接到同一台服务器。但是每个时刻只有一个程序能监听同样的服务器端口。例如:很多电视机(客户端)可以调到一个特定的频道(服务器),但是几个台(服务器群)不可能在同一个频道上播放。

TCP/IP协议是由两个协议组合:传输控制协议(TCP)和Internet协议(IP)。IP负责将数据包从一个节点传到另外一个节点,而TCP负责校验数据正确性。

主机名和IP是多对多的关系。通过ping主机名可以得到主机的IP

DNS如何将主机名解析成IP地址

主机名转换成IP地址有多精确呢?可以通过DNS来转换。

DNS服务器是指能返回与特定主机名相关联的IP地址的服务器。解析主机名的操作由大批设置在世界各地的DNS服务器完成。而DNS也是通过主机名,为了解决矛盾,DHCP产生了。

在很多网络中,计算机系统都是用DHCP取代强行要求用户指定大部分网络配置信息(包括IP地址和DNS服务器)。利用DHCP使IP网络上的每台jsj都能从DHCP服务器上获取他们的初始配置信息,无需用户自己设置。用户的计算机第一次联网都会申请这些信息。

使用java实现主机名查找IP地址:

package wans.com.chapter1;

import java.net.InetAddress;

import java.net.UnknownHostException;

/**

 * 使用主机名查找IP地址

 * @author wans

 */

public class FindIP {

    public static void main(String[] args) throws UnknownHostException {

       String hostname = "www.baidu.com";    

       if(hostname.length() <= 0) {

           System.out.println("主机名不能为空!");

       }else {

           InetAddress address = InetAddress.getByName(hostname);

           System.out.println("IP地址为: " + address);

       }

    }

}

 

Java I/O编程技术

JavaI/O类由输入流,输出流,阅读器,写入器,过滤器组成。

1,输出流

OutputStreampublic abstract class OutputStream extends Object implements Closeable, Flushable

直接已知子类: ByteArrayOutputStream, FileOutputStream, FilterOutputStream, ObjectOutputStream, OutputStream, PipedOutputStream

方法摘要

 void

close()                  关闭此输出流并释放与此流有关的所有系统资源。

 void

flush()                  刷新此输出流并强制写出所有缓冲的输出字节。

 void

write(byte[] b)            b.length 个字节从指定的字节数组写入此输出流。

 void

write(byte[] b, int off, int len)   

将指定字节数组中从偏移量 off 开始的 len 个字节写入此输出流。

abstract  void

write(int b)              将指定的字节写入此输出流。

 

2,输入流

InputStreampublic abstract class InputStream extends Object implements Closeable

直接已知子类: AudioInputStream, ByteArrayInputStream, FileInputStream, FilterInputStream, InputStream, ObjectInputStream, PipedInputStream, SequenceInputStream, StringBufferInputStream

方法摘要

 int

available()           返回此输入流方法的下一个调用方可以不受阻塞地从此输入流读取(或跳过)的字节数。

 void

close()           关闭此输入流并释放与该流关联的所有系统资源。

 void

mark(int readlimit)           在此输入流中标记当前的位置。

 boolean

markSupported()           测试此输入流是否支持 mark reset 方法。

abstract  int

read()           从输入流读取下一个数据字节。

 int

read(byte[] b)           从输入流中读取一定数量的字节并将其存储在缓冲区数组 b 中。

 int

read(byte[] b, int off, int len)           将输入流中最多 len 个数据字节读入字节数组。

 void

reset()           将此流重新定位到对此输入流最后调用 mark 方法时的位置。

 long

skip(long n)           跳过和放弃此输入流中的 n 个数据字节。

 

Java中的套接字编程

Java定义了两个类:SocketServerSocket。使用输入和输出流进行交换。

 

2HTTP超文本传输协议

HTTPHTTPSHTTP加密形式)。

URLURI的一个子集(略)

 

 

 

 

 

分享到:
评论

相关推荐

    java网络蜘蛛示例程序

    一个多线程的网络蜘蛛示例程序。采用java实现的Applet小程序。很实用,很有学习价值。 经本站测试通过。可以放心下载使用。

    JSp网络蜘蛛采集程序

    一个JSp仿网络蜘蛛爬行程序,可以抓取或是采集指定网页的内容,这是一个可供学习的参考示例,完成了JSP采集的基本原理功能,你可以做为一个参考。

    .net网络蜘蛛源程序及搜索引擎技术揭密

    .net网络蜘蛛源程序及搜索引擎技术揭密,很好的学习搜索引擎技术的例子和介绍。

    网络蜘蛛(Java源码)

    一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    java无限爬取新浪博客蜘蛛程序

    本程序只是用于学习和研究!不能使用本程序用于商业用途!因为自己辛苦了两个星期写的软件希望得到认可所以想卖卖这个小软件包括源代码第一个人买去这个软件的人只需要1元!如有需要请和我联系!qq:444753318

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu.zip

    内容概要:这是一份关于Java网络爬虫(蜘蛛)的源码资源。网络爬虫是一种自动化程序,用于在网络中抓取信息,而这份资源提供了使用Java语言实现的网络爬虫的完整源码。源码中包含了爬虫的架构设计、功能实现以及相关...

    红蜘蛛多媒体网络教室安装包和破解补丁

    红蜘蛛软件主要在局域网络上实现多媒体信息的教学广播,是一款实现在电子教室、多媒体网络教室或者电脑教室中进行多媒体网络教学的非常好的软件产品,集电脑教室的同步教学、控制、管理、音视频广播、网络考试等功能...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu.rar

    它包含了一个完整的Java网络爬虫程序,可以帮助你学习和理解网络爬虫的原理和实现方法。通过这个源码文件包,你可以学习到如何使用Java编写网络爬虫,如何解析网页内容,以及如何存储和处理爬取到的数据。此外,这个...

    ## Java网络爬虫(蜘蛛)源码

    ## Java网络爬虫(蜘蛛)源码 ###详情: 一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    用JAVA写的爬虫蜘蛛,学习使用

    一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    Java网络爬虫蜘蛛源码

    软件简介: 一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    Java网络爬虫(蜘蛛)源码

    一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    海蜘蛛软路由宽带叠加双倍网速

    软路由软件,推荐使用海蜘蛛(支持国产,庆祝新中国成立 60 周年),当然如果哪位兄弟学习能力比较强推荐大名鼎鼎的 ROUTEROS (简称 ROS ), ROS 涉及到写脚本问题,这个不是一两天能够弄明白,毕竟我只是停留在...

    Python程序基础:网络爬虫的概念及数据抓取.pptx

    网络爬虫(Web Spider)又称网络蜘蛛或网络机器人,是一段用来实现自动采集网站数据的程序。 网络爬虫不仅能够为搜索引擎采集网络信息,而且还可以作为定向信息采集器,定向采集某些网站中的特定信息。 对于定向信息...

    制作搜索蜘蛛教程,附带文档,非常实用!

    ASP.NET实现数据采集 asp.net文章采集+ajax进度条 C#多线程学习 Net线程解答 百度MP3搜索地址 抓取 采集设计 防禁采集 怎么用c#写蜘蛛程序 蜘蛛文章列表 用C#2.0实现网络蜘蛛(WebSpider)[图]

    python网络爬虫-入门基础学习.zip

    网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐 者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的 名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

    python网络爬虫-入门基础学习.docx

    网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐 者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的 名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

    Python之网络爬虫框架讲解

    网络爬虫可以按照指定的规则(网络爬虫算法)自动浏览或抓去网络中的信息,通过Python可以很轻松的编写爬虫程序或者是脚本。我们常见的搜索引擎就离不开网络爬虫,百度的搜索引擎的爬虫名字叫作百度蜘蛛,它每天都会...

Global site tag (gtag.js) - Google Analytics