IDSM实验室2021届硕士毕业生学位论文答辩


2021年5月24日至25日,iDSM实验室2021届硕士生学位论文答辩在华中科技大学光电大楼C528隆重举行。

第一天参加本次毕业论文答辩的有答辩主席王芳教授,答辩委员周可教授、王桦副教授、李春花副教授,答辩秘书刘渝博士后以及四位硕士生。

首先答辩的是张嘉伟同学,他的主要工作集中于对CDN缓存的负载分析与策略优化。首先,他针对CDN缓存从多层级和多业务角度进行深入分析,分别从文件大小、访问模式、访问新近度和访问频率特性对负载进行深入刻画,并在各种缓存配置下评估不同负载下的缓存性能,为CDN业务提供缓存配置指导。更进一步的,基于分析中发现CDN 负载中存在大量一次性访问对象的问题,他提出了“一次访问排除”缓存准入策略OTAE,通过过滤仅访问一次的对象以减少缓存写流量。最后,为了进一步提升缓存命中率,他提出了“最后访问排除”缓存替换策略LTAE,通过替换不会再被访问的文件以优化CDN缓存的性能。

同样是利用机器学习算法优化云环境下的缓存策略,第二位答辩的伍蔓同学,带来不一样的研究思路。她首先提出了一种大小感知代价敏感的分类算法SAdaCost,来预测图片是否会被再次访问。为了尽可能地提高预测性能,SAdaCost引入了两个代价参数,同时考虑了误分类会被再次访问的对象,以及误分类不会被再次访问的较大对象而造成的缓存开销。随后,她制定了自适应分段缓存策略AS3LRU,根据访问频率重新设计提升规则,并在一定的时间窗口内根据缓存命中率调整各缓存段的分配比例。最后,她提出了SAdaCost-AS3LRU智能缓存策略,并基于真实的腾讯QQ相册日志数据进行实验,结果表明该策略显著提高了缓存命中率、字节命中率,同时大大降低了用户的请求延迟。

第三位答辩的是邢小云同学,深耕云存储负载分析的邢小云同学的论文题目是《基于机器学习的自适应工作负载预测研究》。在对大量真实的工作负载进行深入观察和分析后,邢小云发现工作负载主要在趋势性、周期性和波动性上存在差异,进而挖掘这些特性所包含的负载特征与预测算法之间的关联性。通过大量实验,她验证了统计学习方法相比神经网络更适合用于平稳性强和周期性强的工作负载,神经网络相比统计学习方法更适合用于波动性强和周期性弱的工作负载。基于工作负载观察和分析的结论,她提出了一种自适应工作负载预测策略,使用工作负载特征对工作负载进行聚类,划分为两种类型,并针对不同类型的工作负载采用合适的负载预测方法,以此结合了统计学习方法的低计算开销和神经网络方法的高预测准确度,最终达到了预测准确度和计算开销之间的平衡,且更好支持长期预测。

存储系统与人工智能相结合是当前研究的热点,“学习索引”是其中热门的研究方向。第四位答辩的张洲同学对“学习索引”进行了深入研究,他提出了“支持高效写的自适应学习索引EWALI”。EWALI基于高效的ShrinkingCone算法,根据数据分布对数据进行动态分片,保证分片后每个数据片内的数据分布趋于线性。EWALI基于分片数据设计一种数据感知递归模型索引DARMI,该索引结构能够根据数据分布的变化自适应进行节点拆分、重训练等操作。EWALI采用单缓存结构设计来处理增量数据,将写操作异步化处理,能够支持高效的写操作。最后的优化效果十分明显,获得各位评委老师的赞扬。

      随着王芳教授宣读答辩结果四位同学顺利通过毕业论文答辩,张嘉伟和张洲同学获得优秀硕士生论文。大家在欢笑中结束了今天的答辩。

   

第二天参加本次毕业论文答辩的有来自中船重工709研究所的答辩主席欧中红,答辩委员周可教授、王桦副教授、李春花副教授,答辩秘书刘渝博士后以及另外四位硕士生。

今天首先答辩的是冯树耀同学。冯树耀同学专心于《面向内容查询的视频文本存储机制研究》,他研究了海量、大规模多模态数据的查询和存储课题,发现传统云存储系统虽能轻易存储海量多模态数据,但是却无法提供便捷的查询服务,用户想要在海量数据中查询自己想要的数据需要付出极大的代价。因此,针对视频和文本这两种常用的数据,他提出了面向内容查询的视频文本存储机制,该机制以构建哈希图谱的方式巧妙地存储海量视频和文本文件的特殊信息,同时构建与底层存储的特殊联系,从而实现对视频和文本的存储任务。并且,在这种机制建立的条件下,可以轻松实现关于视频文本数据的跨模态查询任务,为用户查询海量数据提供了基础。

第二位答辩的是魏荣磊同学

第三位答辩的是孙潇同学他主要从事《云数据库二级索引自动推荐方法研究》。在研究中他提出了一种基于强化学习和聚类分析的索引自动推荐方法,用于解决云数据库中的索引缺失问题。

最后一位答辩的是崔凯朝同学他关注于《片上缓存二维定位数据预取技术》。现有的片上缓存数据预取技术采用单一维度定位方法对全局数据流进行分组预测,但是崔凯朝同学发现,单一维度定位不能够很好的覆盖程序的所有内存访问模式,所以崔凯朝同学提出一种二维定位数据预取技术,将指令定位和空间定位进行结合。在指令维度定位上,通过对同一指令下的数据流进行分析,将数据流的历史增量压缩成标签值,并将其与相应下一个增量相关联,记录观察到的指令内存访问模式。在空间维度定位上,通过延时处理得到同一物理页面的及时偏移量,并将其与对应的指令相关联,记录观察到的空间内存访问模式。通过指令生成两种定位模式的预取请求,最后对两种定位模式的预取请求进行合并预取。采用ChampSim模拟器的实验结果表明,二维定位数据预取技术比其他数据预取技术捕获了更多的内存访问模式,相比之前表现最好的数据预取技术性能平均提高3.89%~17.21%。

                           


最后,欧中红研究员宣读答辩决议,今天的四位同学也顺利通过答辩,孙潇同学获得优秀硕士生论文。至此,iDSM实验室2021届硕士生学位论文答辩圆满结束,让我们恭喜各位硕士生们,祝福大家在今后的路上一帆风顺!