性别:男 年龄:23 github : https://github.com/yang-chuai-yu-tu/
联系电话:15010655058 E-mail:[email protected]
2015年7月 - 2019年9月
2020年2月 - 2021年12月
网站采用了 B/S 开发模式,划分了四层架构,包括:视图层(view 层)、控制层(controller 层)、业务层(service 层)、数据访问层(dao 层),使用 Springboot 框架和 layui 框架构建,前端页面使用 HTML 和 CSS 对页面的布局和显示的样式进行调整,并使用 JQuery 对页面的控件事件做出相应的响应。后台开发使用 Spring MVC 框架逻辑处理和功能实现,hibernate 提供持久化数据的操作,对数据库进行增删改查
2019.3 - 2019.7
使用pandas以及sklearn包等,先将输入数据集包括医院、大卖场、购物中心、房地产文件)集成到一个具有以下模式的数据集中,然后研究不同的规范化/转换方法(standardization, minmax normalization, log, power, box-cox transformation )对各个属性的影响,观察并解释它们的影响,研究正态和线性回归假设
2020.7 - 2020.9
使用langid以及sklearn包等,用xml.etree.ElementTree 从半结构化文本文件中提取数据将数据转换为XML格式,用从数据集中过滤掉非英语推文 , 使用collocations.BigramAssocMeasures()生成语料库词汇表和出现频率前100的unigram和前100的bigram,去除stop word ,生成即doc-term矩阵
2020.9 - 2020.11
使用R语言,读取土著澳大利亚人的数据文件并提取数据,使用visdat和tidyverse清洗数据将数据整理和处理成所需格式,过滤数据,处理缺失或不一致的值或格式,使用googleVis,ggplot2等各种图形工具来执行数据探索土著人的分布情况和人口与年龄之间的关系
2020.9 - 2020.10
调查来自新南威尔士大学网络靶场实验室开放的数据 ,并建立基于数据的模型识 别 异 常 的 系 统 行 为 ,为内存活动和过程活动建立单独的模型 ,从每个模型测试结果中计算攻击标签的AUC、准确性、召回率和精度。使用了PySparkSQL/MLlib/ML包进行数据预处理、机器学习,使用了Matplotlib包进行绘图。
之后使用实现两个Apache Kafka生产者模拟数据的实时流和Apache Kafka消费者来消费数据,然后用使用SparkStructuredStreaming 与SparkML/SQL一起处理数据流
2020.10 - 2020.11
使用pandas,matplotlib,nltk,修改错误的日期时间、商品单价和订单价格,处理缺失的数据,计算买家与仓库的距离,用SentimentIntensityAnalyzer分析顾客是否满意,最后用boxplot分析并去除outlier
2020.9 - 2020.11
性别:男 年龄:23 github : https://github.com/yang-chuai-yu-tu/
联系电话:15010655058 E-mail:[email protected]
2015年7月 - 2019年9月
2020年2月 - 2021年12月
网站采用了 B/S 开发模式,划分了四层架构,包括:视图层(view 层)、控制层(controller 层)、业务层(service 层)、数据访问层(dao 层),使用 Springboot 框架和 layui 框架构建,前端页面使用 HTML 和 CSS 对页面的布局和显示的样式进行调整,并使用 JQuery 对页面的控件事件做出相应的响应。后台开发使用 Spring MVC 框架逻辑处理和功能实现,hibernate 提供持久化数据的操作,对数据库进行增删改查
2019.3 - 2019.7
使用pandas以及sklearn包等,先将输入数据集包括医院、大卖场、购物中心、房地产文件)集成到一个具有以下模式的数据集中,然后研究不同的规范化/转换方法(standardization, minmax normalization, log, power, box-cox transformation )对各个属性的影响,观察并解释它们的影响,研究正态和线性回归假设
2020.7 - 2020.9
使用langid以及sklearn包等,用xml.etree.ElementTree 从半结构化文本文件中提取数据将数据转换为XML格式,用从数据集中过滤掉非英语推文 , 使用collocations.BigramAssocMeasures()生成语料库词汇表和出现频率前100的unigram和前100的bigram,去除stop word ,生成即doc-term矩阵
2020.9 - 2020.11
使用R语言,读取土著澳大利亚人的数据文件并提取数据,使用visdat和tidyverse清洗数据将数据整理和处理成所需格式,过滤数据,处理缺失或不一致的值或格式,使用googleVis,ggplot2等各种图形工具来执行数据探索土著人的分布情况和人口与年龄之间的关系
2020.9 - 2020.10
调查来自新南威尔士大学网络靶场实验室开放的数据 ,并建立基于数据的模型识 别 异 常 的 系 统 行 为 ,为内存活动和过程活动建立单独的模型 ,从每个模型测试结果中计算攻击标签的AUC、准确性、召回率和精度。使用了PySparkSQL/MLlib/ML包进行数据预处理、机器学习,使用了Matplotlib包进行绘图。
之后使用实现两个Apache Kafka生产者模拟数据的实时流和Apache Kafka消费者来消费数据,然后用使用SparkStructuredStreaming 与SparkML/SQL一起处理数据流
2020.10 - 2020.11
使用pandas,matplotlib,nltk,修改错误的日期时间、商品单价和订单价格,处理缺失的数据,计算买家与仓库的距离,用SentimentIntensityAnalyzer分析顾客是否满意,最后用boxplot分析并去除outlier
2020.9 - 2020.11