dbuos · December 27, 2023 21:27
diff --git a/detect_lang.py b/detect_lang.py
 from datasets import load_dataset
 from transformers import pipeline
 import torch

 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 pipe = pipeline("text-classification", model="papluca/xlm-roberta-base-language-detection", device=device)

 def classify_lang(elem):
    results = pipe(elem['text'], truncation=True)
    return {'lang': [r['label'] for r in results]}


 oass = load_dataset("OpenAssistant/oasst_top1_2023-08-25", split="train")

 oass = oass.map(classify_lang, batched=True, batch_size=32)
 oass.set_format(type='pandas')
 oass_df = oass[:]
 oass_df['lang'].value_counts()
	from datasets import load_dataset
	from transformers import pipeline
	import torch

	device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
	pipe = pipeline("text-classification", model="papluca/xlm-roberta-base-language-detection", device=device)

	def classify_lang(elem):
	results = pipe(elem['text'], truncation=True)
	return {'lang': [r['label'] for r in results]}


	oass = load_dataset("OpenAssistant/oasst_top1_2023-08-25", split="train")

	oass = oass.map(classify_lang, batched=True, batch_size=32)
	oass.set_format(type='pandas')
	oass_df = oass[:]
	oass_df['lang'].value_counts()
No results found