- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:【原创】寻找小强 -- 数据传输故障调查实例 一 -- 萨苏
这段时间,公司业务部门屡屡来邮件“骚扰”,抱怨我们网络部提供的线路有问题,弄得老萨写东西都不得安生。
线路的,不通了,谁的干活?
从公司结构来说,业务部门是一线,IT是二线。人家要面对客户的,地位自然高。虽然是放高利贷的吧,这年头一个杨白劳后头都跟着七八个周扒皮,你满脸堆笑还未必能借出钱去。在大阪梅田车站一走就有穿超短裙的小姑娘往您怀里塞广告附送小礼物 – 什么内容?请您向周扒皮借钱啊。
所以,业务部门的不容易,人家回了公司就是劳苦功高的大爷,有需求做IT的绝不能等闲视之。而且,业务部门的人对IT感情复杂。这帮家伙无所事事的时候自然让人看了有气,而如果他们无故地在那儿忙活就更加危险 – 肯定是琢磨着用什么机器代替一线的人去干活,如果成功后面接着就是人事部琢磨怎么砍人头。这简直是背后打冷枪的干活阿!
逮到这种好机会可以对IT牛气一下,自然要把架子端足,“此问题已经威胁到业务部门能否按时营业”,“迅速查清,否则本月业务额会产生相当下降”,“亚洲区总裁昨日开会询问此事是否已经解决”。。。 一系列类似哀的美敦书的玩意儿充斥老萨的邮箱,夹杂着北京某报催稿的通知,让人感觉红烧肉都不那么对胃口了。
那么,为什么不解决呢?
老萨当然不是不想解决,侦骑四出,捉不良人全撒出去,已经折腾四五回了,一直没拿下来,这问题的症结始终没有找到。
向组织上汇报一下,再宽限两天成么?
问题的情况是这样的。
我们公司每天夜间都要进行大量的越洋数据传送,六月十一日,传输速度忽然降低到之前的1/10左右,业务部门的主管前来告状,说IT,你们的线路地嗝屁嗝屁死啦死啦地有。
不能说IT部门不重视。当天我们负责维护的小组就开始了调查,但是徒劳无功。
这并不是说负责的工程师无能。这条线路的情况的确比较复杂。
这是一条InternetVPN虚拟线路,也就是说,从两端不同国家ISP供应商那里购买数据端口,中间国际部分则通过互联网,使用IPSEC技术实现虚拟通道和安全要求。试想,建立一条跨国线路什么价格?两个Internet端口什么价格?如此设计可以大大降低费用。
然而,这也使故障发生时的调查比较复杂。
首先,这条线路涉及多个供应商
第一Internet的端口的供应商。我们在两国选用了相同的ISP供应商,并要求两端口之间的通讯在若干指标上有保障即SLA,费用比正常Internet端口高,但服务质量要好。
其中最重要的三项保障是传送时限(Latency),即一端数据到另一端的时间,如果这个时间太长,会降低数据传输的效率;出错率(Packet loss),这个可以理解,如果出错太多,数据就要不断重复传递,那是不能接受的;还有可用带宽(Bandwidth Availibility),设想两端我们各购买10M的端口,因为端口之间是Internet,如果经过的某个节点恰好是www.daier.com的下载端口,每天好几百万鹅迷从上面荡眼罩,那两个端口之间我们能利用的带宽可能就被挤压成几百K了,形成瓶颈,那也是不行的。
顺便说一下,InternetVPN技术在中国与国外的数据链接中还缺乏唱主角的可能,最大的问题是国内标准Internet网络入口有集中管理和过滤处理的程序,因此,会造成传送时限过大的问题,从技术上限制了这一解决方案的使用。
网络供应商提供的保证,能够切实地实现,是这里发生故障最大的隐患。
第二是两端的本地线路供应商,以我所在一端为例,公司数据中心在大阪,而Internet供应商的端口在东京,大阪和东京之间我们使用了MPLS连结。以日本而言,虽然网络故障也有发生,其网络服务还算相对稳定可靠。问题的隐患主要存在于不同网络服务商之间,可能存在一些设备和参数不匹配的现象,特别是如果某个服务商更换了某个节点上自己的设备,由于各国标准不同,数据传送越洋后,数据包到了对端可能不能被识别而退回。
这就像我们进行国际投递一样,袁世凯从河南给爱迪生寄一坛子臭豆腐,彰德邮局可能说,嗯,味道顶好。等到了旧金山,美国佬可能拒送 – OMG,化学武器啊!
这就是两边规矩不同造成的问题,国际线路上的数据传递,每每有类似的现象。
第三是线路终端设备,一般在任一端的连接方式是
数据传递用的服务器 –〉 线路交换器(Switch)-〉防火墙 –〉线路交换器 –〉路由器 –〉远程线路接入设备 – 〉线路 –〉对端
线路交换器,路由器都使用的是Cisco一家的产品,相对来说不匹配的问题比较少些。不过,我们这套设备,还增加一个用于提高传输效率的加速器 Sky-X,增加了调查的复杂程度。
一般来说,这种数据传输故障的调查,我们会集中于三个方面。
第一个,有没有线路故障,这要找各家供应商来询问了。如果NTT说 – 太君,两个小时之前,东京到福冈之间的线路上,铁道游击队把光缆给扒了,那问题就算找到。
第二个,最近有没有做过系统的调整,比如昨天还挺好,今天换了个路有器就死啦死啦地了,就得查这个路由器是不是李向阳卖来的。
第三个,设备会不会有故障。通常,即便象Cisco这样的王牌公司,设备也不免在使用中发现某种潜在问题。如果没有按时安装他们提供的补丁,也可能造成某种问题。比如,发现特高课的里面藏着土八路,不及时让松田太君去检查一下早晚会出乱子。
怎么看怎么正常,要多正常有多正常,这个事儿,是谁干的呢?
当天晚上,上述的三个方面,工程师都没有检查出问题来,到处是老乡在喊平安无事。
不过,当时也没太着急。
[待续]
恭喜:你意外获得【西西河通宝】一枚
鲜花已经成功送出。
此次送花为【有效送花赞扬,涨乐善、声望】
谢谢:作者意外获得【西西河通宝】一枚
鲜花已经成功送出。
此次送花为【有效送花赞扬,涨乐善、声望】
如果可用带宽查过是没问题的话,速率为啥会下降呢?
不知道丢包和报错的情况如何。
“恭喜:你意外获得【西西河通宝】一枚
鲜花已经成功送出。
此次送花为【有效送花赞扬,涨乐善、声望】”
一样没宝
这文章配图片,不一般的生动啊
简直就是一本铁路游击队风格的IT小人书了。
湛江电信的某一个机房有过这样的事!100M光纤转换到用户有时候上传下载只有几百K。就这个事情我和他们扯皮了一年多。现在都没解决!
集中管理和过滤处理的程序 第一次见这么河蟹的说法