本文主要是介绍数据预处理和基本数据安全意识,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1.了解数据
01.数据量是多少?
-总的数据个数,存储空间的大小
-分的数据个数,存储空间的大小
分:
数据类型有哪些?
-- 文件夹 文件
时间周期
--
02.了解数据分布
最大的数据多少,最小的呢,平均情况
有无异常文件--空文件夹 find ./ -maxdepth 1 -type d -empty
03.查看具体的数据示例
查看具体的文件-确认数据的格式
JSON--JSON文件的编码格式, JSON文件中的格式
2.数据预处理
复制
移动 : 本地移动 远程移动
转换格式
压缩文件夹
创建目录
上传数据
异常数据处理
3.流程总结:
01.事前有个预判,以期望寻求合适的解决方式
沟通前有个相应的思路
02.大批量执行前,应以小批量数据作为基准,进行全流程的测验后,再对大数据进行处理、
初次处理情况,做好显示执行过程,后续可以隐藏
03.慎重用 删除处理,非必要的情况下,可以用移动,或者复制
修改文件前,注意备份,删除文件可以换成移动
04.注意做事的阻塞点,及时反馈,必要时寻求帮助
05.注意存储和传输
存储的数量,空间大小,传输的介质,网络是否有专线,网络的占用的带宽,传输重试的次数
计算和处理: 处理数据花费的时间,处理数据耗费的资源,处理数据的量的时间
结构化数据预处理
图像数据预处理 抽帧 去重 去畸变
音频数据预处理:
文本数据预处理
4.命令行示例
01.Linux命令行
find ./ -maxdepth 1 -type f
find ./ -maxdepth 1 -type d
ls -l | wc -l
scp -r user@IP:/home/oft /home/Data
cd /home/test/collect_data
find /home/test -name 'test_*' -type -d | xargs -i mv {} /home/T
cp
mv
python3 /home/testdata.py /home/te
-- 存储 df -h
du --max-depth 1 -h
--压缩-- 还要注意解压后的情况
--挂载-- 硬盘初次用的时候,可能未挂载,可以查看并挂载 mount umount
-- 管道
02.HDFS命令行
hadoop fs -ls hdfs:/data
hadoop fs -get hdfs:/data/test.zip /home/test
hadoop fs -put /home/test/mytest.txt hdfs:/data
5 程序处理方式:
MobaXterm Filezilla Dbeaver listary
程序处理方式
增加异常判断和处理--比如文件不存在情况
删除要进行输入确认--同时对删除的内容进行限定 --防御式编程 压缩的时候,删除了源文件,异常推出了
功能解耦-装配式
多线程多进程增加效率
明确输入和输出
队列的形式--便压缩,压缩完成后,进行删除
断点--接着上次处理的地方,再进行处理
网络排查
lastb
cat .bash_history >> history.txt, 查看文件history.txt.
history
echo $HISTSIZE
echo $HISTFILESIZE
入侵排查以及渗透测试
sudo 提权
# root帐号外,其他帐号是否存在sudo权限--
# 查看sudoers文件
sudo more /etc/sudoers | grep -v "^#\|^$" | grep "ALL=(ALL)"
# 查看该用户是否是sudo组的成员
more /etc/group | grep sudo
具有root用户权限的SUID文件
find / -perm -u=s -type f 2>/dev/null
排查:
01. /etc/passwd 和 /etc/shadow
02. Cron Jobs 提权
了解网络渗透:
渗透测试流程,应该包含以下 8 个步骤:
主机发现 > 服务枚举 > 实施攻击 > 获取shell > 权限提升 > 权限维持 > 内网渗透 > 痕迹清除
同时会
改变自己路由器或者电脑的MAC地址
进行数据加密以及IP地址隐藏 代理和肉鸡
追踪位置:
物理地址,使用端口,路由的MAC地址
DNS服务器--网址记录
概念:
横向扩展: 被攻陷的系统为跳板,访问其他主机,获取包括邮箱、共享文件夹或者凭证信息在内的敏感资源。
加强安全措施:
自我防护
修改密码:普通用户运行passwd只能修改它自己的密码
修改权限: chmod -R 500 /home/ddd
修改用户所在组: id groups
端口: 封锁端口
网络: trace
概念了解
HISTSIZE 和 HISTFILESIZE 有什么区别
说明:
HISTSIZE 定义了 history 命令输出的记录数
HISTFILESIZE 定义了在 .bash_history 中保存命令的记录总数.
history显示内存和~/.bash_history中的所有内容;
内存中的内容并没有立刻写入~/.bash_history,
只有当当前shell关闭时才会将内存内容写入shell
这篇关于数据预处理和基本数据安全意识的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!