Để monitor cluster trên Virtuozzo Storage có thể dùng lệnh “pstorage top” hoặc để xuất event log có thể dùng “pstorage get-event”.
Một số thông tin của event log:
Column | Description |
---|---|
TIME | Thời gian xảy ra sự kiện |
SYS | Thành phần nào của cluster có sự kiện ( ví dụ “MDS” cho mds server) |
SEV | Mức độ của sự kiện |
MESSAGE | Tin nhắn mô tả sự kiện |
Dưới đây là một số event log cơ bản, thường xuyên xuất hiện khi sử dụng lệnh “pstorage top”:
Event | Severity | Description |
MDS#N (addr:port) lags behind for more than 1000 rounds
|
JRN err
| Được tạo ra bởi MDS Master khi phát hiện 1 MDS#N đang ở trạng thái stale |
MDS#N (addr:port) didn’t accept commits for M sec |
JRN err
|
MDS#N không kết nối đến cluster sau M giây.
Thông báo này chỉ có thể xảy khi dịch vụ MDS có vấn đề, cần phải xử lý càng sớm càng tốt
|
MDS#N (addr:port) state is outdated and will do a full resync |
JRN err
|
Vấn đề có thể do MDS#N kết nối đến MDS master qúa chậm hoặc mất kết nối trong thời gian dài điều đó có thể dẫn đến MDS#N không thực sự quản lý trạng thái của metadata và cần phải đồng bộ hóa lại.
|
The cluster is degraded with N active, M inactive, K offline CS
| MDS warn | Thông báo này thể hiện có một số chunk đang ở trạng thái: Inactive: Không gửi bất kỳ tin nhắn đăng ký nào tới MDS. Offline: CS ở trạng thái inactive lớn hơnmds.wd.offline_tout = 300000 ms |
The cluster failed with N active, M inactive, K offline CS (mds.wd.max_offline_cs=n) | MDS err | Thông điệp xuất hiện khi số chunk ở trạng thái offline vượt qúa mds.wd.max_offline_cs (mặc định là 2). Khi cluster failed thì cơ chế replicas tự động sẽ không còn hoạt động, người quản trị cluster cần phải khắc phục lỗi cho các chunk bị lỗi hoặc điều chỉnh lại tham sốmds.wd.max_offline_cs. Thiết lập giá trị 0 để vô hiệu hóa cơ chế “failed mode completely” |
The cluster is filled up to N% |
MDS
info/warn
| Thể hiện dung lượng hiện đang sử dụng của cluster. Tin nhắn này xuất hiện khi sử dụng dung lượng của cluster lớn hơn hoặc bằng 80%. Điều này khá quan trọng, cần phải đảm bảo lượng storage cho sự replicas khi 1 chunk server bị lỗi hoặc cho các data mới được đưa vào |
CS#N has reported hard error on ‘path’ | MDS warn | Xảy ra khi CS#N phát hiện được ổ đĩa có dấu hiệu bị hư hỏng. Khuyến cáo người quản trị cluster cần phải thay thế ổ disk bị hư hoặc kiểm tra lại phần cứng càng sớm càng tốt. |
Failed to allocate N replicas for ‘path’ by request from <addr:port> – K out of M chunks servers are available | MDS warn | Cluster không thể cấp phát các bản sao của chunk, có thể xảy ra khi chunk bị out of disk space. |
Failed to allocate N replicas for ‘path’ by request from <addr:port> since only K chunk servers are registered |
MDS warn
| Cluster không thể cấp phát các bản sao chunk. Bởi vì không có đủ số chunk đăng ký trên cluster. |
Troubleshooting “Out of Disk Space”:
Khi bị trình trạng không gian lưu trữ của cluster bị chiếm dụng qúa nhiều, cần phải nâng cấp thêm chunk hoặc xóa bỏ các dữ liệu không cần thiết. Điều này xảy ra khi dung lượng cluster bị chiếm dụng qúa 95%, sự phân bổ dữ liệu mới của các chunk sẽ không còn được đáp ứng cho đến khi cluster có thể đáp ứng được nhu cầu. Để đảm bảo an toàn dữ liệu, I/O của người dùng sẽ bị khóa và có thể dẫn đến các Container và Virtual Machine bị đóng băng. Khuyến cáo các admin cluster nên giữ dung lượng của cluster trên 10% để đề phòng trường hợp node hoặc một số chunk bị lỗi.
Dấu hiệu:
1. I/O của điểm kết nối từ client đến cluster có bị nghẽn, “desmg” báo cáo về nghẽn I/O, các CT hoặc VM có thể bị đóng băng
2. “pstorage top” hoặc “pstorage get-event” thông báo lỗi tương tự như “Failed to allocate X replicas at tier Y since only Z chunk servers are available for allocation”.
Giải pháp:
1. Giải phóng dung lượng ổ đĩa bằng xóa các dữ liệu không cần thiết.
2. Thêm mới các chunk server với các ổ đĩa trống.
3. Nếu các giải pháp trên vẫn chưa cải thiện được:
– Điều chỉnh lại tham số replicas (chẳng hạn 2:1)
– Giảm sự phân bổ dữ trữ, ví dụ thực hiện trên cluster “odscloud”:
# pstorage -c odscloud set-config mds.alloc.fill_margin=2
Mặc định giá trị mds.alloc.fill_margin bằng 5. Khuyến cáo sau khi khôi phục lại dung lượng cluster, trả giá trịmds.alloc.fill_margin=5.
0 comments:
Post a Comment