当前位置: 首页 > 新闻及公告 > 软件天地

软件天地

常见上机问题说明

2019-01-07

随着科学技术的日益创新,超级计算机可支撑的产业越来越广泛,核试验模拟、石油勘探、气象预报、新药研发、动漫渲染、材料设计以及人工智能等,涉及人类日常生活和科学研究的方方面面。

现在,越来越多的工作人员使用超级计算机解决在科研和工作中遇到的一些问题。但是由于超级计算机规模较大,系统结构较复杂,使刚接触超算平台的用户在碰到一些问题时会觉得有点儿无从下手。

今天,我们就来看看使用深圳超算平台中碰到的一些常见问题以及相应的解决方法。

我们大多数人在平常生活和办公中,多使用Windows操作系统,其图形化界面使用起来非常简单。但是,超算平台基本为Linux系统,需要使用命令行进行操作。所以在使用超算平台前,需要先学习下关于Linux的简单操作命令,这类资料网上很多,学习起来很方便。

下面是使用中常见的问题:

1. 计算账号无法登陆。

在遇到高性能计算账号无法登陆时,可进行以下排查:

· 检查VPN是否登录,高性能账号登录前需先登录VPN账号;

· 检查登录IP是否正确,根据自己账号所在分区选择相应的IP

· 检查登录密码是否正确,高性能账号开通后会提供相应的登录密码,也可自己修改;

2. 查看文件夹操作缓慢。

在使用lsll等命令时,发现操作缓慢。可能是因为:

· 网络慢,网络时延大,网络恢复后即可正常操作;

· 有大量的I/O操作正在运行,造成I/O阻塞,待操作执行完后便可恢复;

· 该文件夹下的文件过多,加载较慢,需要个人清理下文件夹;

3. 提交作业时遇到报错: /bin/sh^M: bad interpreter: No such file or directory     

一般我们用本地直接上传的作业脚本提交作业时经常会遇到此报错信息,这是因为从Windows环境下上传至Linux系统时会出现一些字节无法识别的情况,需要先将作业脚本转化为unix格式(可使用dos2unix命令)。

4. 提交作业时遇到报错:You can not submit this intels_small!或者Too many processors requested. Job not submitted.

以上两种报错均为提交作业时所选队列有误。目前,高性能计算平台分为几个分区,每个分区都有相应的队列,提交作业时需要先认真查看用户使用说明,根据账号所在分区和计算核数选择合适的队列。

5. 找不到可执行文件:: No such file or directory或者…unable to launch the specified application…

以上两种报错为软件使用时找不到可执行文件的报错信息。通常,遇到此类报错信息时需要检查作业脚本中指定的可执行文件的路径是否正确;该路径下是否存在此可执行文件。

6. 作业状态显示为:“EXIT”或显示为“DONE”但是输出文件有误     

 

有时,我们查看作业运行状态发现作业显示为EXIT或者显示为DONE但是输出文件有误,表明此类作业异常退出。这个时候不要着急,我们首先需要找到该作业所在路径,查看该作业下的输出文件,如:*.log*.outoutput.*(一些软件也会生成一些特定的输出文件),这类文件中都会包含计算过程中的ERROR或者WARNING信息,我们要做的就是找到这些报错,查看报错信息的内容,根据报错提示信息修改相应的计算参数。