当前页面:首页 > 行业资讯 > DCS自动控制系统离线原因分析及对策

DCS自动控制系统离线原因分析及对策

时间:2014.09.05        阅读量:894
  DCS自动控制系统,又名集中分散式控制系统,主要由硬件及软件两大部分组成。抚宁分公司采用和利时DCS系统是双总线星形网络拓扑结构,FM系列硬件系统体系结构主要由主控制器、分布式I/O模块、电源模块、通讯网络及操作员站、服务器站、工程师站等组成。软件采用和利时开发的MACSV5.2.3组态系统,可由工程师站进行离线配置,实现在线无扰下装及初始化下装。系统网络要求必须非常可靠,无论在任何情况下,网络通信都不能中断。自20126DCS系统在抚宁分公司投入运行以来,发生了数次网络中断、操作员站显示离线、数据及控制均不能正常显示的故障,给生产安全带来了一定的隐患。以下从软件及硬件两方面来分析系统离线的原因及解决办法。
    一、硬件原因:
    
1、负荷过重:包括服务器负荷及各操作员站网卡负荷。
    
服务器负荷是在数据库总控中通过一定的算法得出的,显示在系统状态图界面中。一般要求服务器的设计负荷是实际接入负荷的若干倍,界面上显示服务器负荷在20%以下为佳,这一方面可随着生产发展的需要随时增加新的节点,另一方面也可以使系统网络运行于较轻的通信负荷状态,以确保系统的实时性和可靠性,系统的在线网络重构功能更容易实现。
    
当服务器负荷过重时,就有可能发生服务器死机。故障现象为系统状态图正常,只是各操作员站数据不会变化,有时会显示服务器离线,大部分可以通过重启服务器解决。
    
服务器负荷过重的解决方法:一是去掉不用的点,在长期生产过程中,一定会产生很多废点,要及时加以去除,因为当这些点存在时,主控单元会时时对这些点的进行数据交换及与通讯。二是合并重复点,如压缩机的一出和二入压力、三出和四入压力相同,而且现场也是用一台压力变送器,在合并重复点后也要将不用的点在数据库总控中去除。三是不能无限制地增加控制点数,如果要增加较多的点,则必须增上现场控制站。
    
网卡负荷过重也会造成局部或全部离线现象,一般控制网卡负荷在15%以下,上面的服务器负荷可以通过读取系统状态图中的数据直观获得,而网卡的负荷则需要专用测试软件获得。
    
2、存取余量过低:包括外存余量和内存余量。
    
任何电脑在长期使用后,就可能会发生因系统盘余量过小(指外存)及提示虚拟内存过低(指内存)发生死机。虽然和利时将工程储存在D盘的工程师站目录下,但在长期生产过程中,数据会不断增加,作为系统盘的C盘数据也会不断增加,日积月累,就会发生系统盘余量过小而死机或离线的情况。
    
解决方法:定期对各站数据进行清理。
    
3、电源、DP通讯链路、模块、网卡等不正常。
    
当电源不正常工作时,会使网络供电停止,显示离线。而DP通讯连接是主控单元至各I/O模块的唯一通路,当因腐蚀、机械振动等使DP通路发生接触不良、损坏时,系统就会显示离线(DP线在和利时控制站中为紫色,在现场控制站机柜后面布置)。当模块发生故障时,因为模块与主控单元的通讯也是通过DP线及匹配端子连接的,有时也会导致网路不通而离线,这时要在系统状态图及现场控制站中检查故障模块并及时维修或更换。网卡因为寿命、负荷率及腐蚀等原因造成的损坏可能会造成单个操作员站或全网离线,发生时,要找到故障网卡,予以切除或更换。
    
其他如施工造成光纤或网线损坏、光纤转换器或交换机故障、各接头因环境原因接触不良、打印机等外设故障造成的离线则要通过加强管理及日常维护解决。当DCS系统运行一段时间后,建议由生产厂家进行点检,从根本上达到预防故障的发生的目的。
    
二、软件原因:
    
1、软件本身原因:因为任何软件都不可能十全十美,而生产中发生的问题千奇百怪,总会有软件不能完全适应生产的情况。同时,几乎所有的杀毒软件会将各厂商的控制系统软件视为病毒予以查杀。解决方法,一是在安装操作系统时,要将杀毒软件卸载,并将网络属性中的防火墙设置为“关闭”。二是当系统紊乱时要重做系统,并尽可能将硬盘全部格式化。而和利时系统有时会不明离线,这时可登录超级工程师,退出后重启操作员即可。当进行服务器下装时,有时会影响到控制器算法,全网会显示离线状态,这时,只要在控制器算法里重新在线登录即可解决。
    
2、人为原因:任何一台操作员站均有数量不等的USB接口,而操作员的USB设备不可能全部将这些口占用,操作人员会有意或无意地利用闲置的USB口进行私人设备进行充电或读取操作,这相当危险,一是如果私人的USB设备故障,轻则可能将操作员站电压拉低,使操作员站停止工作,重则会损坏操作员站,如果USB设备带有病毒时,会通过整个局域网传播到整个网络,引起系统瘫痪,一定要严格管理,加以杜绝。
    
目前,和利时已推出MACSV最新版本,可全程实现工程师站的在线下装,完全避免了以前初始化下装时要停开空压机站,将气动阀全部切除,改为人工手动操作的弊端,这对处理离线时的软件故障非常有利。
    
三、腐蚀原因:
    
上面也提到了因为腐蚀原因对各部件的影响,之所以在此又单独提出,是因为腐蚀是DCS系统正常运行的最大敌人。系统供应商在设计时,不是没有考虑腐蚀的因素,但要使各操作站完全防腐,单台操作站造价可能会达到几万元或十几万元之巨。
    
生产实践表明,腐蚀对操作员站造成影响的主要有以下几个部件:
    
1、硬盘及SAS卡:当硬盘或SAS卡因腐蚀发生故障时,操作员站死机,重新启动后不能进入系统,界面提示操作系统丢失,自检不能发现硬盘或提示硬盘故障。
    
2、网卡:和利时所配置的联想及戴尔操作员共使用三类网卡,第一类是主板所带的集成网卡,因主板生产商在出厂工艺中做了三防(防潮、防盐雾、防霉变)处理,所以集成网卡虽然有损坏,但一般不是腐蚀所致。第二类是以太100/1000M网卡,安装在主板的PCI-E插槽中(注:此类网卡只在MNETSNET网络中的服务器及工程师站中使用)。第三类是以太10/100M网卡,安装在主板的PCI网卡中。而和利时提供的第二、三类网卡全部未采用三防工艺,所以极易因腐蚀而发生损坏,故障现象为某一操作员站通讯中断,严重时会导致整个网络离线,这也是抚宁分公司系统离线的主要原因。
    
3USB口腐蚀故障。
    
防止腐蚀的方法:
    
1、使各操作员站远离腐蚀区域。这即是安全生产的要求,也是行之有效的防腐方法。
    
2、对裸露部件加喷三防漆保护。因为主板,内存等在出厂时已做了三防工艺,所以只要对没有三防工艺的部件进行处理,注意一定要双面喷,并要避免金手指染漆。对USB口可加装保护塞,即可以防腐,又能避免操作人员乱插USB设备。对已经损坏的不带三防部件,如硬盘可以更换成无裸露部件的固态SSD硬盘、网卡可以更换成出厂带有三防工艺的网卡等,基本可以解决操作员站的腐蚀问题。
    
3、对各操作站进行正压通风,此方法理论上可行,但在实际操作中相当困难。
    
4、加装安全交换机。现在使用的交换机内部电路相通,当一台操作员站网络元件故障时,极易引起全网离线,安全交换机在内部使进入交换机的各通道实现物理隔离,可使网路故障不再扩大,也方便故障点查找及维修。
    
总之,系统离线故障原因较多,但并不是无章可循,只有做到快速准确判断和处理,才能使DCS系统更好地服务于生产需要。(陈德东)
博评网