nannyml.distribution.categorical.calculator module

class nannyml.distribution.categorical.calculator.CategoricalDistributionCalculator(column_names: Union[str, List[str]], timestamp_column_name: Optional[str] = None, chunk_size: Optional[int] = None, chunk_number: Optional[int] = None, chunk_period: Optional[str] = None, chunker: Optional[Chunker] = None)[source]

Bases: AbstractCalculator

Creates a new instance of an abstract DriftCalculator.

Parameters:

chunk_size (int) – Splits the data into chunks containing chunks_size observations. Only one of chunk_size, chunk_number or chunk_period should be given.
chunk_number (int) – Splits the data into chunk_number pieces. Only one of chunk_size, chunk_number or chunk_period should be given.
chunk_period (str) – Splits the data according to the given period. Only one of chunk_size, chunk_number or chunk_period should be given.
chunker (Chunker) – The Chunker used to split the data sets into a lists of chunks.
timestamp_column_name (str) – The column name of the column containing timestamp information.

nannyml.distribution.categorical.calculator.calculate_value_counts(data: Union[ndarray, Series], chunker: Chunker, missing_category_label, max_number_of_categories, timestamps: Optional[Union[ndarray, Series]] = None, column_name: Optional[str] = None)[source]