June 4, 2015

Monitor Event Log Virtuozzo Storage

Để monitor cluster trên Virtuozzo Storage có thể dùng lệnh “pstorage top” hoặc để xuất event log có thể dùng “pstorage get-event”.
Screenshot from 2015-03-26 10:28:35
Một số thông tin của event log:
ColumnDescription
TIMEThời gian xảy ra sự kiện
SYSThành phần nào của cluster có sự kiện ( ví dụ “MDS” cho mds server)
SEVMức độ của sự kiện
MESSAGETin nhắn mô tả sự kiện

Dưới đây là một số event log cơ bản, thường xuyên xuất hiện khi sử dụng lệnh “pstorage top”:
Event Severity  Description
MDS#N (addr:port) lags behind for more than 1000 rounds
JRN err
Được tạo ra bởi MDS Master khi phát hiện 1 MDS#N đang ở trạng thái stale
MDS#N (addr:port) didn’t accept commits for M sec
JRN err
MDS#N không kết nối đến cluster sau M giây.
Thông báo này chỉ có thể xảy khi dịch vụ MDS có vấn đề, cần phải xử lý càng sớm càng tốt
MDS#N (addr:port) state is outdated and will do a full resync
JRN err
Vấn đề có thể do MDS#N kết nối đến MDS master qúa chậm hoặc mất kết nối trong thời gian dài điều đó có thể dẫn đến MDS#N không thực sự quản lý trạng thái của metadata và cần phải đồng bộ hóa lại.
The cluster is degraded with N active, M inactive, K offline CS
MDS warnThông báo này thể hiện có một số chunk đang ở trạng thái: Inactive: Không gửi bất kỳ tin nhắn đăng ký nào tới MDS. Offline: CS ở trạng thái inactive lớn hơnmds.wd.offline_tout = 300000 ms
The cluster failed with N active, M inactive, K offline CS (mds.wd.max_offline_cs=n)MDS errThông điệp xuất hiện khi số chunk ở trạng thái offline vượt qúa mds.wd.max_offline_cs (mặc định là 2). Khi cluster failed thì cơ chế replicas tự động sẽ không còn hoạt động, người quản trị cluster cần phải khắc phục lỗi cho các chunk bị lỗi hoặc điều chỉnh lại tham sốmds.wd.max_offline_cs. Thiết lập giá trị 0 để vô hiệu hóa cơ chế “failed mode completely”
The cluster is filled up to N%
MDS
info/warn
Thể hiện dung lượng hiện đang sử dụng của cluster. Tin nhắn này xuất hiện khi sử dụng dung lượng của cluster lớn hơn hoặc bằng 80%. Điều này khá quan trọng, cần phải đảm bảo lượng storage cho sự replicas khi 1 chunk server bị lỗi hoặc cho các data mới được đưa vào
CS#N has reported hard error on ‘path’MDS warnXảy ra khi CS#N phát hiện được ổ đĩa có dấu hiệu bị hư hỏng. Khuyến cáo người quản trị cluster cần phải thay thế ổ disk bị hư hoặc kiểm tra lại phần cứng càng sớm càng tốt.
Failed to allocate N replicas for ‘path’ by request from <addr:port> – K out of M chunks servers are availableMDS warnCluster không thể cấp phát các bản sao của chunk, có thể xảy ra khi chunk bị out of disk space.
Failed to allocate N replicas for ‘path’ by request from <addr:port> since only K chunk servers are registered
MDS warn
Cluster không thể cấp phát các bản sao chunk. Bởi vì không có đủ số chunk đăng ký trên cluster.

Troubleshooting “Out of Disk Space”:
Khi bị trình trạng không gian lưu trữ của cluster bị chiếm dụng qúa nhiều, cần phải nâng cấp thêm chunk hoặc xóa bỏ các dữ liệu không cần thiết. Điều này xảy ra khi dung lượng cluster bị chiếm dụng qúa 95%, sự phân bổ dữ liệu mới của các chunk sẽ không còn được đáp ứng cho đến khi cluster có thể đáp ứng được nhu cầu. Để đảm bảo an toàn dữ liệu, I/O của người dùng sẽ bị khóa và có thể dẫn đến các Container và Virtual Machine bị đóng băng. Khuyến cáo các admin cluster nên giữ dung lượng của cluster trên 10% để đề phòng trường hợp node hoặc một số chunk bị lỗi.
Dấu hiệu:
1. I/O của điểm kết nối từ client đến cluster có bị nghẽn, “desmg” báo cáo về nghẽn I/O, các CT hoặc VM có thể bị đóng băng
2. “pstorage top” hoặc “pstorage get-event” thông báo lỗi tương tự như “Failed to allocate X replicas at tier Y since only Z chunk servers are available for allocation”.
Giải pháp:
1. Giải phóng dung lượng ổ đĩa bằng xóa các dữ liệu không cần thiết.
2. Thêm mới các chunk server với các ổ đĩa trống.
3. Nếu các giải pháp trên vẫn chưa cải thiện được:
– Điều chỉnh lại tham số replicas (chẳng hạn 2:1)
– Giảm sự phân bổ dữ trữ, ví dụ thực hiện trên cluster “odscloud”:
# pstorage -c odscloud set-config mds.alloc.fill_margin=2
Mặc định giá trị mds.alloc.fill_margin bằng 5. Khuyến cáo sau khi khôi phục lại dung lượng cluster, trả giá trịmds.alloc.fill_margin=5.

0 comments:

Post a Comment