Извините за вопрос новичка.
В настоящее время у меня есть файлы журналов, которые содержат такие поля, как: userId, event и timestamp, но не имеют идентификатора sessionId. Моя цель — создать sessionId для каждой записи на основе метки времени и предопределенного значения TIMEOUT.
Если значение TIMEOUT равно 10, а образец DataFrame:
scala> eventSequence.show(false)
+----------+------------+----------+
|uerId |event |timestamp |
+----------+------------+----------+
|U1 |A |1 |
|U2 |B |2 |
|U1 |C |5 |
|U3 |A |8 |
|U1 |D |20 |
|U2 |B |23 |
+----------+------------+----------+
Цель:
+----------+------------+----------+----------+
|uerId |event |timestamp |sessionId |
+----------+------------+----------+----------+
|U1 |A |1 |S1 |
|U2 |B |2 |S2 |
|U1 |C |5 |S1 |
|U3 |A |8 |S3 |
|U1 |D |20 |S4 |
|U2 |B |23 |S5 |
+----------+------------+----------+----------+
Я нашел одно решение в R (Создайте идентификатор сеанса на основе userID и различия в timeStamp), а в Spark я не могу разобраться.
Спасибо за любые предложения по этой проблеме.