Skip to content

Instantly share code, notes, and snippets.

View kangvcar's full-sized avatar
👨‍🎓
深造中...

Kangvcar kangvcar

👨‍🎓
深造中...
View GitHub Profile

1. 显卡需求和推荐模型

使用 int4 + QLora 训练(效果并不会比Full-finetuning差多少,lora rank设置较大且应用到所有层) 8K 上下文时,显存16GB的显卡则可以训练 20B 以下模型,显存24GB的显卡则可以训练 32B(含)以下模型。

推荐微调 1-7B 模型。推荐性价比显卡:4090,计算能力和显存带宽都足够好,比L40等商业卡还好用。

2. 服务商

云上Hadoop集群Sqoop部署实战教程

环境信息

  • 集群节点: Master、Slave1、Slave2
  • 操作系统: CentOS 7
  • Hadoop版本: 3.3.6
  • 安装目录: /opt
  • 软件下载目录: /opt/software

Hive基础操作

准备工作

连接到Hive:

beeline -u "jdbc:hive2://master:10000" -n root

案例1:数据库和表的基本操作

#!/bin/bash
#################################################
# Hive 4.0.1 自动部署脚本 v1.0
#
# 功能说明:
# 1. 自动下载和安装Hive 4.0.1
# 2. 配置MariaDB作为Metastore
# 3. 初始化Schema并启动服务
# 4. 支持多节点集群部署

Hive 4.0.1 部署指南

本指南详细介绍了如何在分布式环境中部署Apache Hive 4.0.1,使用MariaDB作为Metastore后端数据库。

系统架构

  • Master节点: 运行Hive Metastore和HiveServer2服务
  • Slave节点: slave1, slave2 (工作节点)
  • 数据库: MariaDB (存储Hive元数据)
  • 存储: HDFS (存储实际数据)

下载和安装Spark

  1. 下载Spark安装包
mkdir -p /opt/software
cd /opt/software
wget https://dlcdn.apache.org/spark/spark-3.5.6/spark-3.5.6-bin-hadoop3.tgz

tar -zxf spark-3.5.6-bin-hadoop3.tgz -C /opt/
#!/bin/bash
# 设置颜色代码
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[0;33m'
BLUE='\033[0;34m'
CYAN='\033[0;36m'
BOLD='\033[1m'
NC='\033[0m' # 无颜色

在阿里云服务器上部署Hadoop分布式集群

一、集群规划

HDFS集群规划:

内网IP地址 主机名 部署服务
172.31.152.253 master NameNode,DataNode,JobHistoryServer
172.31.152.251 slave1 DataNode
@kangvcar
kangvcar / hadoop_cluster_deploy.sh
Last active May 20, 2025 13:30
Hadoop 3.3.6 集群部署脚本
#!/bin/bash
# ===================================================================
# Hadoop分布式集群自动部署脚本 v2.2
# 适用系统: CentOS 7.9
# 功能: 自动部署任意节点数量的Hadoop分布式集群(HDFS+YARN)
# ===================================================================
# 设置颜色代码
RED='\033[0;31m'

在阿里云服务器上部署Hadoop分布式集群

一、集群规划

HDFS集群规划:

内网IP地址 主机名 部署服务
172.31.152.253 master NameNode,DataNode,JobHistoryServer
172.31.152.251 slave1 DataNode