Kangvcar kangvcar

1. 显卡需求和推荐模型

使用 int4 + QLora 训练（效果并不会比Full-finetuning差多少，lora rank设置较大且应用到所有层） 8K 上下文时，显存16GB的显卡则可以训练 20B 以下模型，显存24GB的显卡则可以训练 32B（含）以下模型。

推荐微调 1-7B 模型。推荐性价比显卡：4090，计算能力和显存带宽都足够好，比L40等商业卡还好用。

2. 服务商

https://colab.research.google.com/ 【需翻墙】免费提供 T4 等显卡，显存16GB
https://modelscope.cn/

云上Hadoop集群Sqoop部署实战教程

环境信息

集群节点: Master、Slave1、Slave2
操作系统: CentOS 7
Hadoop版本: 3.3.6
安装目录: /opt
软件下载目录: /opt/software

Hive基础操作

准备工作

连接到Hive：

beeline -u "jdbc:hive2://master:10000" -n root

案例1：数据库和表的基本操作

Hive 4.0.1 部署指南

本指南详细介绍了如何在分布式环境中部署Apache Hive 4.0.1，使用MariaDB作为Metastore后端数据库。

系统架构

Master节点: 运行Hive Metastore和HiveServer2服务
Slave节点: slave1, slave2 (工作节点)
数据库: MariaDB (存储Hive元数据)
存储: HDFS (存储实际数据)

下载和安装Spark

下载Spark安装包

mkdir -p /opt/software
cd /opt/software
wget https://dlcdn.apache.org/spark/spark-3.5.6/spark-3.5.6-bin-hadoop3.tgz

tar -zxf spark-3.5.6-bin-hadoop3.tgz -C /opt/

在阿里云服务器上部署Hadoop分布式集群

一、集群规划

HDFS集群规划：

内网IP地址	主机名	部署服务
172.31.152.253	master	NameNode,DataNode,JobHistoryServer
172.31.152.251	slave1	DataNode

在阿里云服务器上部署Hadoop分布式集群

一、集群规划

HDFS集群规划：

内网IP地址	主机名	部署服务
172.31.152.253	master	NameNode,DataNode,JobHistoryServer
172.31.152.251	slave1	DataNode

	#!/bin/bash

	#################################################
	# Hive 4.0.1 自动部署脚本 v1.0
	#
	# 功能说明：
	# 1. 自动下载和安装Hive 4.0.1
	# 2. 配置MariaDB作为Metastore
	# 3. 初始化Schema并启动服务
	# 4. 支持多节点集群部署

	#!/bin/bash

	# 设置颜色代码
	RED='\033[0;31m'
	GREEN='\033[0;32m'
	YELLOW='\033[0;33m'
	BLUE='\033[0;34m'
	CYAN='\033[0;36m'
	BOLD='\033[1m'
	NC='\033[0m' # 无颜色

	#!/bin/bash

	# ===================================================================
	# Hadoop分布式集群自动部署脚本 v2.2
	# 适用系统: CentOS 7.9
	# 功能: 自动部署任意节点数量的Hadoop分布式集群(HDFS+YARN)
	# ===================================================================

	# 设置颜色代码
	RED='\033[0;31m'